ChatGPT hiện có thể nhìn, nghe và nói

Chúng tôi đang bắt đầu triển khai các khả năng thoại và hình ảnh mới trong ChatGPT. Họ cung cấp loại giao diện mới, trực quan hơn bằng cách cho phép bạn trò chuyện bằng giọng nói hoặc hiển thị ChatGPT những gì bạn đang nói.

Chúng tôi đang bắt đầu triển khai các khả năng thoại và hình ảnh mới trong ChatGPT. Họ cung cấp loại giao diện mới, trực quan hơn bằng cách cho phép bạn trò chuyện bằng giọng nói hoặc hiển thị ChatGPT những gì bạn đang nói.

Giọng nói và hình ảnh mang đến cho bạn nhiều cách hơn để sử dụng ChatGPT trong cuộc sống. Chụp ảnh một địa danh khi đi du lịch và trò chuyện trực tiếp về những điều thú vị về địa danh đó. Khi bạn ở nhà, hãy chụp ảnh tủ lạnh và tủ đựng thức ăn của bạn để tìm xem bữa tối sẽ có món gì (và đặt các câu hỏi tiếp theo để biết công thức từng bước). Sau bữa tối, hãy giúp con bạn giải một bài toán bằng cách chụp ảnh, khoanh tròn bộ bài toán và để bộ bài đó chia sẻ gợi ý với cả hai bạn.

Chúng tôi sẽ triển khai giọng nói và hình ảnh trong ChatGPT cho người dùng Plus và Enterprise trong hai tuần tới. Giọng nói sắp có trên iOS và Android (chọn tham gia trong cài đặt của bạn) và hình ảnh sẽ có sẵn trên tất cả các nền tảng.

Nói chuyện với ChatGPT và yêu cầu nó nói chuyện lại

Giờ đây, bạn có thể sử dụng giọng nói để tham gia cuộc trò chuyện qua lại với trợ lý của mình. Nói chuyện với nó khi đang di chuyển, yêu cầu một câu chuyện trước khi đi ngủ cho gia đình bạn hoặc giải quyết một cuộc tranh luận trên bàn ăn tối.

Hình chữ nhật Nói chuyện với ChatGPT và yêu cầu nó nói chuyện lại
Sử dụng giọng nói để tham gia vào cuộc trò chuyện qua lại với trợ lý của bạn.

Để bắt đầu sử dụng giọng nói, hãy đi tới Cài đặt → Tính năng mới trên ứng dụng di động và chọn tham gia cuộc trò chuyện bằng giọng nói. Sau đó, nhấn vào nút tai nghe nằm ở góc trên bên phải màn hình chính và chọn giọng nói ưa thích của bạn trong số năm giọng nói khác nhau.

Khả năng giọng nói mới được hỗ trợ bởi mô hình chuyển văn bản thành giọng nói mới, có khả năng tạo ra âm thanh giống con người chỉ từ văn bản và một vài giây lời nói mẫu. Chúng tôi cộng tác với các diễn viên lồng tiếng chuyên nghiệp để tạo ra từng giọng nói. Chúng tôi cũng sử dụng Whisper, hệ thống nhận dạng giọng nói nguồn mở của chúng tôi, để chuyển lời nói của bạn thành văn bản.

Trò chuyện về hình ảnh

Bây giờ bạn có thể hiển thị ChatGPT một hoặc nhiều hình ảnh. Khắc phục sự cố khiến lò nướng của bạn không khởi động, khám phá những thứ có trong tủ lạnh để lên kế hoạch cho bữa ăn hoặc phân tích biểu đồ phức tạp cho dữ liệu liên quan đến công việc. Để tập trung vào một phần cụ thể của hình ảnh, bạn có thể sử dụng công cụ vẽ trong ứng dụng di động của chúng tôi.

Trò chuyện về hình ảnh
Hiển thị ChatGPT một hoặc nhiều hình ảnh.

Để bắt đầu, hãy nhấn vào nút ảnh để chụp hoặc chọn một hình ảnh. Nếu bạn đang dùng iOS hoặc Android, trước tiên hãy nhấn vào nút dấu cộng. Bạn cũng có thể thảo luận về nhiều hình ảnh hoặc sử dụng công cụ vẽ của chúng tôi để hướng dẫn trợ lý của bạn.

Khả năng hiểu hình ảnh được hỗ trợ bởi GPT-3.5 và GPT-4 đa phương thức. Những mô hình này áp dụng kỹ năng suy luận ngôn ngữ của mình vào nhiều loại hình ảnh, chẳng hạn như ảnh chụp, ảnh chụp màn hình và tài liệu chứa cả văn bản và hình ảnh.

Chúng tôi đang dần triển khai khả năng hình ảnh và giọng nói

Mục tiêu của OpenAI là xây dựng AGI an toàn và có lợi. Chúng tôi tin tưởng vào việc cung cấp các công cụ của mình dần dần, điều này cho phép chúng tôi cải tiến và tinh chỉnh các biện pháp giảm thiểu rủi ro theo thời gian, đồng thời chuẩn bị cho mọi người những hệ thống mạnh mẽ hơn trong tương lai. Chiến lược này càng trở nên quan trọng hơn với các mô hình tiên tiến liên quan đến giọng nói và tầm nhìn.

Tiếng nói

Công nghệ giọng nói mới—có khả năng tạo ra giọng nói tổng hợp thực tế chỉ từ vài giây lời nói thực—mở ra cánh cửa cho nhiều ứng dụng sáng tạo và tập trung vào khả năng tiếp cận. Tuy nhiên, những khả năng này cũng tiềm ẩn những rủi ro mới, chẳng hạn như khả năng các tác nhân độc hại mạo danh nhân vật của công chúng hoặc thực hiện hành vi lừa đảo.

Đây là lý do tại sao chúng tôi sử dụng công nghệ này để hỗ trợ một trường hợp sử dụng cụ thể—trò chuyện thoại. Trò chuyện thoại được tạo bằng các diễn viên lồng tiếng mà chúng tôi đã trực tiếp làm việc cùng. Chúng tôi cũng đang cộng tác theo cách tương tự với những người khác. Ví dụ: Spotify đang sử dụng sức mạnh của công nghệ này để thí điểm tính năng Dịch giọng nói, giúp người tạo podcast mở rộng phạm vi kể chuyện bằng cách dịch podcast sang các ngôn ngữ khác bằng giọng nói của chính người tạo podcast.

Đầu vào hình ảnh

Các mô hình dựa trên tầm nhìn cũng đặt ra những thách thức mới, từ ảo giác về con người cho đến việc dựa vào cách diễn giải hình ảnh của mô hình trong các lĩnh vực có tính rủi ro cao. Trước khi triển khai rộng rãi hơn, chúng tôi đã thử nghiệm mô hình này với các thành viên nhóm đỏ để tìm hiểu rủi ro trong các lĩnh vực như chủ nghĩa cực đoan và trình độ khoa học cũng như một nhóm người thử nghiệm alpha đa dạng. Nghiên cứu của chúng tôi cho phép chúng tôi điều chỉnh một số chi tiết chính để sử dụng có trách nhiệm.

Làm cho tầm nhìn vừa hữu ích vừa an toàn

Giống như các tính năng ChatGPT khác, tầm nhìn nhằm hỗ trợ bạn trong cuộc sống hàng ngày. Nó làm điều đó tốt nhất khi nó có thể nhìn thấy những gì bạn nhìn thấy. 

Cách tiếp cận này đã được thông báo trực tiếp bởi công việc của chúng tôi với Be My Eyes, một ứng dụng di động miễn phí dành cho người mù và thị lực kém, để hiểu cách sử dụng và hạn chế. Người dùng đã cho chúng tôi biết rằng họ thấy có giá trị khi trò chuyện chung về những hình ảnh tình cờ có người ở phía sau, chẳng hạn như nếu ai đó xuất hiện trên TV trong khi bạn đang cố gắng tìm hiểu cài đặt điều khiển từ xa của mình.

Chúng tôi cũng đã thực hiện các biện pháp kỹ thuật để hạn chế đáng kể khả năng phân tích và đưa ra tuyên bố trực tiếp về mọi người của ChatGPT vì ChatGPT không phải lúc nào cũng chính xác và các hệ thống này phải tôn trọng quyền riêng tư của cá nhân.

Việc sử dụng và phản hồi trong thế giới thực sẽ giúp chúng tôi cải thiện các biện pháp bảo vệ này hơn nữa trong khi vẫn giữ cho công cụ này luôn hữu ích.

Minh bạch về các hạn chế của mô hình

Người dùng có thể phụ thuộc vào ChatGPT cho các chủ đề chuyên biệt, chẳng hạn như trong các lĩnh vực như nghiên cứu. Chúng tôi minh bạch về các hạn chế của mô hình và không khuyến khích các trường hợp sử dụng có rủi ro cao hơn nếu không có xác minh thích hợp. Hơn nữa, mô hình này phiên âm thành thạo văn bản tiếng Anh nhưng hoạt động kém với một số ngôn ngữ khác, đặc biệt là những ngôn ngữ không có chữ La Mã. Chúng tôi khuyên người dùng không nói tiếng Anh không nên sử dụng ChatGPT cho mục đích này.

Bạn có thể đọc thêm về cách tiếp cận an toàn của chúng tôi và công việc của chúng tôi với Be My Eyes trong thẻ hệ thống để nhập hình ảnh.

Chúng tôi sẽ mở rộng quyền truy cập

Người dùng Plus và Enterprise sẽ được trải nghiệm giọng nói và hình ảnh trong hai tuần tới. Chúng tôi rất vui mừng được triển khai những khả năng này cho các nhóm người dùng khác, bao gồm cả nhà phát triển, ngay sau đó.

Nguồn: https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

spot_img

More from this stream

Recomended

Cập Nhật Google Analytics Quý 2/2024

Bài viết này cung cấp thông tin về các bản phát hành mới nhất trong Google Analytics trong quý 2 năm 2024.

[GA4] – Hiểu rõ về nguồn dữ liệu

Một nguồn dữ liệu là một nơi chứa dữ liệu bạn tải lên Analytics, bao gồm cơ sở dữ liệu, dịch vụ, hoặc tệp CSV bạn tải lên và một ánh xạ của các trường dữ liệu Analytics với các trường trong cơ sở dữ liệu, dịch vụ hoặc CSV bên ngoài của bạn.

Segment là gì?

Segment là một traditional Customer Data Platform (CDP) chuyên về việc thu thập sự kiện và kích hoạt dữ liệu.

Composable CDP là gì?

Composable CDP là một lớp kích hoạt cho phép bạn tạo ra đối tượng khán giả, điều phối hành trình, và gửi dữ liệu hiện tại của bạn đến các công cụ tiếp thị hàng đầu của bạn.

Traditional CDP và Composable CDP

Việc áp dụng rộng rãi của hệ thống lưu trữ dữ liệu đám mây đã cách mạng hóa không gian Customer Data Platform (CDP), dẫn đến sự xuất hiện của một kiến trúc CDP mạnh mẽ hơn, nguyên gốc từ hệ thống lưu trữ dữ liệu đám mây được biết đến là Composable CDP.

Customer Data Platform (CDP) là gì?

Một Customer Data Platform, hay CDP, là một giải pháp hoặc kiến trúc cho phép bạn thu thập, lưu trữ, mô hình hóa và kích hoạt dữ liệu khách hàng của bạn.