Tổng quan về ứng dụng Gemini
Từ lâu, chúng tôi đã nhận thấy tiềm năng của AI trong việc làm cho thông tin và hoạt động điện toán trở nên dễ tiếp cận và hữu ích hơn đối với mọi người. Chúng tôi đã đạt được những bước tiến tiên phong về mô hình ngôn ngữ lớn (LLM) và chứng kiến sự tiến bộ vượt bậc tại Google cũng như trong lĩnh vực trí tuệ nhân tạo nói chung. Trong vài năm qua, chúng tôi vốn đã áp dụng các LLM để cải thiện nhiều sản phẩm của mình, chẳng hạn như tính năng tự động hoàn thành câu trong Gmail, cải tiến Google Dịch và thậm chí các LLM còn giúp chúng tôi hiểu rõ hơn các truy vấn/a> trong Google Tìm kiếm. Chúng tôi tiếp tục sử dụng các LLM cho nhiều dịch vụ của Google, cũng như để hỗ trợ ứng dụng Gemini, tạo điều kiện để người dùng cộng tác trực tiếp với AI tạo sinh. Chúng tôi mong muốn ứng dụng Gemini trở thành trợ lý AI cá nhân hữu ích nhất, giúp người dùng tiếp cận trực tiếp các mô hình AI mới nhất của Google.
Mặc dù chúng ta đang đứng trước một bước ngoặt quan trọng trong lĩnh vực trí tuệ nhân tạo và chứng kiến sự hào hứng ngày càng tăng đối với AI tạo sinh, nhưng công nghệ này hiện vẫn chỉ ở giai đoạn sơ khai. Bài viết này phác thảo cách tiếp cận của chúng tôi đối với ứng dụng Gemini ("Gemini"), bao gồm cả phiên bản web và di động – giải thích Gemini là gì, cách thức hoạt động cũng như các khả năng và hạn chế hiện tại của Gemini. Cách tiếp cận của chúng tôi trong việc xây dựng Gemini sẽ phát triển theo tốc độ phát triển của công nghệ nền tảng và theo quá trình chúng tôi học hỏi từ các nghiên cứu, trải nghiệm cũng như phản hồi của người dùng.
Gemini là gì
Gemini là giao diện cho một LLM đa phương thức, có khả năng xử lý văn bản, âm thanh, hình ảnh và các dữ liệu khác. Gemini được xây dựng dựa trên các nghiên cứu tiên tiến của Google về LLM, bắt đầu bằng báo cáo Word2Vec (2013) đề xuất các cấu trúc mô hình mới giúp biểu diễn từ ngữ dưới dạng các khái niệm toán học, tiếp theo là sự ra đời của mô hình đàm thoại nơron vào năm 2015. Khung này cho thấy cách các mô hình có thể dự đoán câu tiếp theo trong một cuộc trò chuyện dựa trên một hoặc nhiều câu trước đó, từ đó tạo ra trải nghiệm đàm thoại tự nhiên hơn. Tiếp nối cột mốc này là những bước đột phá quan trọng của chúng tôi với cấu trúc Transformer vào năm 2017 và khả năng trò chuyện nhiều lượt vào năm 2020, cho thấy sự tiến bộ vượt bậc trong lĩnh vực ngôn ngữ tạo sinh.
Chúng tôi ra mắt Gemini (khi đó có tên là Bard) lần đầu dưới dạng một sản phẩm thử nghiệm vào tháng 3 năm 2023, tuân theo Nguyên tắc về trí tuệ nhân tạo của Google. Kể từ đó, người dùng đã tìm đến Gemini khi cần viết các email ấn tượng, khắc phục những vấn đề phức tạp về lập trình, lên ý tưởng cho các sự kiện sắp tới, nhờ hỗ trợ học các khái niệm khó và nhiều mục đích khác. Gemini hiện đã trở thành một công cụ AI linh hoạt, có thể hỗ trợ bạn theo nhiều cách. Chúng tôi đã thấy Gemini giúp mọi người làm việc năng suất hơn, sáng tạo hơn và ham tìm tòi hơn. Chúng tôi cũng thường xuyên bổ sung các chức năng và cải tiến mới cho sản phẩm này.
Năng suất
Nếu bạn là người mới bắt đầu, Gemini có thể giúp bạn tiết kiệm thời gian. Giả sử bạn muốn tóm tắt một tài liệu nghiên cứu dài, thì bạn có thể tải tài liệu đó lên Gemini và nhận về bản tổng hợp hữu ích. Gemini cũng có thể hỗ trợ các nhiệm vụ lập trình và tính năng này nhanh chóng trở thành một trong những ứng dụng phổ biến nhất của Gemini.
Sáng tạo
Gemini cũng có thể giúp bạn hiện thực hoá ý tưởng và khơi dậy khả năng sáng tạo. Chẳng hạn, nếu bạn đang viết một bài đăng trên blog, Gemini có thể lập dàn ý và tạo hình ảnh minh hoạ cho bài đăng của bạn. Sắp tới, với tính năng Gem, bạn có thể tuỳ chỉnh Gemini bằng các chỉ dẫn cụ thể và biến công cụ này thành một chuyên gia về chủ đề bạn quan tâm để hỗ trợ bạn đạt được các mục tiêu cá nhân.
Hiếu kỳ
Gemini có thể là điểm khởi đầu để bạn khám phá các ý tưởng của mình cũng như những chủ đề mà bạn muốn tìm hiểu sâu hơn. Chẳng hạn, Gemini có thể giải thích một khái niệm phức tạp theo cách đơn giản hoặc đưa ra những thông tin chi tiết liên quan đến một chủ đề hay hình ảnh. Sắp tới, Gemini sẽ kết hợp những thông tin chi tiết này với các nội dung được đề xuất trên web để giúp bạn tìm hiểu thêm về các chủ đề cụ thể.
Các khả năng của Gemini đang phát triển nhanh chóng. Chẳng bao lâu nữa, bạn sẽ có thể hướng camera trên điện thoại vào một đối tượng, ví dụ như cầu Cổng Vàng, và hỏi Gemini về màu sơn của cây cầu (nếu bạn tò mò muốn biết thì đó là màu "Cam quốc tế"). Bạn cũng có thể nhờ Gemini giúp bạn nắm được thực đơn viết bằng ngôn ngữ khác tại một nhà hàng và đề xuất món ăn phù hợp với khẩu vị của bạn. Đây chỉ là hai ví dụ về những khả năng mới sắp được bổ sung cho Gemini.
Tất nhiên, chúng tôi sẽ huấn luyện và giám sát Gemini một cách nghiêm ngặt để các câu trả lời có mức độ tin cậy cao và phù hợp với kỳ vọng của người dùng. Chúng tôi cũng trao đổi với các chuyên gia trong ngành, nhà giáo dục, nhà hoạch định chính sách, lãnh đạo doanh nghiệp, lãnh đạo về dân quyền và nhân quyền, cũng như các nhà sáng tạo nội dung để khám phá những khả năng ứng dụng mới, các rủi ro và hạn chế của công nghệ mới nổi này.
Cách hoạt động của Gemini
Huấn luyện trước
Hậu huấn luyện
Câu trả lời cho câu lệnh của người dùng
Phản hồi và đánh giá của con người
Các hạn chế đã biết của những giao diện dựa trên LLM như Gemini
Gemini chỉ là một phần trong nỗ lực không ngừng nghỉ của chúng tôi nhằm phát triển các LLM một cách có trách nhiệm. Xuyên suốt hành trình này, chúng tôi đã phát hiện và thảo luận về một số hạn chế liên quan đến các LLM. Trong bài viết này, chúng tôi tập trung vào sáu lĩnh vực đang được nghiên cứu liên tục:
Tính chính xác: Câu trả lời của Gemini có thể không chính xác, đặc biệt là khi nhận được câu hỏi về các chủ đề phức tạp hoặc yêu cầu dữ kiện thực tế.
Thiên kiến: Câu trả lời của Gemini có thể phản ánh những thiên kiến có trong dữ liệu huấn luyện.
Nhiều quan điểm: Câu trả lời của Gemini có thể không thể hiện được các quan điểm khác nhau.
Tính cách: Câu trả lời của Gemini có thể khiến người dùng lầm tưởng rằng mô hình này có ý kiến hoặc cảm xúc riêng.
Dương tính giả và âm tính giả: Gemini có thể không trả lời một số câu lệnh phù hợp và đưa ra câu trả lời không phù hợp cho các câu lệnh khác.
Dễ tạo ra lỗ hổng trước cách đặt câu lệnh đối nghịch: Người dùng sẽ tìm các cách kiểm tra "sức chịu đựng" của Gemini bằng cách đặt câu lệnh hoặc câu hỏi vô lý hiếm khi được hỏi trong thế giới thực.
Chúng tôi sẽ tiếp tục khám phá các lĩnh vực và những cách tiếp cận mới để cải thiện hiệu suất ở từng lĩnh vực nêu trên.
Tính chính xác
Gemini hoạt động dựa trên sự hiểu biết của Google về thông tin đáng tin cậy cũng như được huấn luyện để tạo ra các câu trả lời phù hợp với ngữ cảnh của câu lệnh và khớp với những gì bạn đang tìm kiếm. Nhưng cũng giống như tất cả các LLM, Gemini đôi khi có thể tạo ra các câu trả lời một cách tự tin và đầy thuyết phục mặc dù câu trả lời đó chứa thông tin không chính xác hoặc gây hiểu lầm.
Vì hoạt động bằng cách dự đoán từ hoặc chuỗi từ tiếp theo, các LLM vẫn chưa có đủ khả năng tự phân biệt giữa thông tin chính xác và không chính xác. Chúng tôi đã thấy Gemini đưa ra các câu trả lời có chứa hay thậm chí là bịa ra thông tin không chính xác (ví dụ: miêu tả sai cách Gemini được huấn luyện hoặc gợi ý tên một cuốn sách không tồn tại). Để đối phó với vấn đề này, chúng tôi đã tạo ra các tính năng như "xác minh". Tính năng này sử dụng Google Tìm kiếm để tìm nội dung giúp bạn đánh giá các câu trả lời của Gemini, đồng thời cung cấp đường liên kết đến các nguồn để bạn có thể chứng thực thông tin nhận được từ Gemini.
Thiên kiến
Dữ liệu huấn luyện, bao gồm cả dữ liệu từ các nguồn có thể truy cập công khai, phản ánh tính đa dạng về quan điểm và ý kiến. Chúng tôi sẽ tiếp tục nghiên cứu cách sử dụng dữ liệu này sao cho có thể đảm bảo rằng câu trả lời của LLM kết hợp nhiều quan điểm, đồng thời giảm thiểu các kết luận quy chụp và thiên kiến không chính xác.
Những lỗ hổng, thiên kiến và kết luận quy chụp trong dữ liệu huấn luyện có thể thể hiện trong kết quả đầu ra khi mô hình cố gắng dự đoán các câu trả lời có thể đáp ứng một câu lệnh. Chúng tôi nhận thấy những vấn đề này biểu hiện theo nhiều cách (ví dụ: câu trả lời chỉ phản ánh một nền văn hoá hoặc một đặc điểm nhân khẩu học, đề cập đến các kết luận quy chụp sai lệch, thể hiện thiên kiến về giới tính, tôn giáo hoặc dân tộc, hoặc chỉ ủng hộ một quan điểm duy nhất). Một số chủ đề có những khoảng trống dữ liệu – tức là không có đủ thông tin đáng tin cậy về một chủ đề cụ thể để LLM học hỏi và sau đó đưa ra dự đoán chính xác. Điều này có thể dẫn đến các câu trả lời chất lượng kém hoặc không chính xác. Chúng tôi sẽ tiếp tục hợp tác với các chuyên gia trong ngành và các cộng đồng đa dạng để khai thác chuyên môn sâu rộng bên ngoài Google.
Nhiều quan điểm
Đối với các chủ đề mang tính chủ quan, Gemini được thiết kế để cung cấp cho người dùng nhiều quan điểm nếu người dùng không yêu cầu một quan điểm cụ thể. Ví dụ: Nếu được yêu cầu cung cấp thông tin về một vấn đề không thể xác minh bằng các dữ kiện từ nguồn chính hoặc các nguồn uy tín — như ý kiến chủ quan về mức "tốt nhất" hay "kém nhất" — Gemini sẽ trả lời theo cách phản ánh các quan điểm khác nhau. Tuy nhiên, vì được huấn luyện dựa trên nội dung cung cấp công khai trên Internet, các LLM như Gemini có thể phản ánh những quan điểm tích cực hoặc tiêu cực về các chính trị gia, người nổi tiếng cụ thể hay các nhân vật của công chúng khác, hoặc thậm chí đưa vào quan điểm thiên về một phía đối với các vấn đề xã hội hay chính trị gây tranh cãi. Gemini không nên trả lời theo cách ủng hộ một quan điểm cụ thể nào về những chủ đề này. Chúng tôi sẽ sử dụng phản hồi về các loại câu trả lời này để huấn luyện Gemini xử lý tốt hơn.
Tính cách
Đôi khi, Gemini có thể tạo ra các câu trả lời khiến người dùng cảm thấy như thể mô hình này có ý kiến hay cảm xúc – chẳng hạn như yêu thương hoặc buồn bã – vì Gemini được huấn luyện dựa trên ngôn ngữ mà mọi người dùng để phản ánh trải nghiệm của con người. Chúng tôi đã phát triển một bộ nguyên tắc về cách Gemini có thể thể hiện bản thân (tức là tính cách của mô hình) và sẽ tiếp tục tinh chỉnh mô hình để đưa ra các câu trả lời khách quan.
Dương tính / Âm tính giả
Chúng tôi đã áp dụng một bộ nguyên tắc chính sách để giúp huấn luyện Gemini và tránh tạo ra các câu trả lời có vấn đề. Đôi khi, Gemini có thể hiểu sai các nguyên tắc này, dẫn đến các trường hợp "dương tính giả" và "âm tính giả". Trong trường hợp "dương tính giả", Gemini có thể không trả lời một câu lệnh hợp lý vì hiểu nhầm đó là câu lệnh không phù hợp; còn trong trường hợp "âm tính giả", Gemini có thể tạo ra câu trả lời không phù hợp, dù các nguyên tắc đã được áp dụng. Việc xuất hiện các trường hợp dương tính giả hoặc âm tính giả đôi khi có thể khiến người dùng cảm thấy Gemini có thiên kiến. Chẳng hạn, một trường hợp dương tính giả có thể khiến Gemini không trả lời một câu hỏi liên quan đến một mặt của vấn đề, nhưng lại trả lời câu hỏi tương tự về mặt còn lại. Chúng tôi sẽ tiếp tục điều chỉnh các mô hình này để hiểu cũng như phân loại thông tin đầu vào và kết quả đầu ra tốt hơn, trong bối cảnh ngôn ngữ, các sự kiện và xã hội thay đổi với tốc độ nhanh chóng.
Dễ tạo ra lỗ hổng trước cách đặt câu lệnh đối nghịch
Chúng tôi biết rằng người dùng sẽ thử thách giới hạn của Gemini và cố gắng vượt qua các biện pháp bảo vệ, bao gồm cả việc tìm cách khai thác thông tin về quy trình huấn luyện của mô hình hoặc các thông tin khác, hay vượt qua các cơ chế an toàn mà Gemini đang áp dụng. Chúng tôi đã, đang và sẽ tiếp tục kiểm thử Gemini một cách nghiêm ngặt, nhưng chúng tôi cũng biết rằng người dùng sẽ tìm ra những cách độc đáo và phức tạp hơn để kiểm tra "sức chịu đựng" của mô hình này. Đây là một phần quan trọng trong quá trình tinh chỉnh Gemini và chúng tôi mong chờ được học hỏi từ những câu lệnh mới mà người dùng sáng tạo ra. Quả thực, kể từ khi Gemini ra mắt vào năm 2023, chúng tôi đã chứng kiến người dùng thử thách khả năng của mô hình này bằng những câu lệnh từ thông thái đến phi lý – và trong một số trường hợp, chúng tôi thấy Gemini đưa ra những câu trả lời cũng vô lý không kém hoặc không phù hợp với cách tiếp cận chúng tôi đã nêu. Việc tìm ra các phương pháp giúp Gemini trả lời những loại câu lệnh như vậy là một thách thức lâu dài. Chúng tôi đã tiếp tục mở rộng các phương pháp đánh giá nội bộ và quy mô đội đỏ nhằm không ngừng cải thiện độ chính xác, tính khách quan và sắc thái.
Cách chúng tôi tiếp tục phát triển Gemini
Cách chúng tôi ứng dụng phương pháp tiếp cận đối với Gemini
Cùng với Nguyên tắc về trí tuệ nhân tạo, gần đây chúng tôi đã làm rõ cách tiếp cận của chúng tôi khi phát triển Gemini: Gemini cần làm theo chỉ dẫn của người dùng, thích ứng với nhu cầu của người dùng và đảm bảo trải nghiệm của người dùng. Điểm cốt lõi trong cách tiếp cận của chúng tôi là tập trung vào trách nhiệm và sự an toàn. Nguyên tắc chính sách của Gemini nhằm mục đích tránh một số loại kết quả đầu ra có vấn đề. Chúng tôi đang tiến hành kiểm thử đối nghịch liên tục với các thành viên "đội đỏ" nội bộ. Họ là các chuyên gia sản phẩm và nhà khoa học xã hội sẽ cố tình thử thách mô hình để dò tìm các vấn đề liên quan đến tính phù hợp với nguyên tắc chính sách này và cách tiếp cận cốt lõi của chúng tôi đối với Gemini. Mục đích là để chúng tôi có thể áp dụng những gì họ tìm hiểu được và liên tục cải thiện Gemini.
Quyền riêng tư cũng là một yếu tố quan trọng cần cân nhắc trong quá trình phát triển Gemini. Bạn có thể truy cập Trung tâm quyền riêng tư của Các ứng dụng Gemini để xem thêm thông tin về cách chúng tôi xây dựng Gemini tập trung vào quyền riêng tư ngay từ khâu thiết kế và đảm bảo bạn có quyền kiểm soát.
Giúp người dùng và nhà xuất bản nắm quyền kiểm soát
Chúng tôi đã xây dựng nhiều chế độ kiểm soát Gemini mà người dùng có thể dễ dàng tiếp cận, giúp họ xem xét, cập nhật, quản lý, xuất và xoá dữ liệu Gemini của mình. Bạn có thể truy cập và xem xét các câu lệnh, câu trả lời và phản hồi mà bạn đưa ra cho Gemini thông qua chế độ Hoạt động trên Các ứng dụng Gemini. Ngoài ra, bạn có thể tắt chế độ Hoạt động trên Các ứng dụng Gemini để ngăn Google sử dụng các cuộc trò chuyện trên Gemini trong tương lai cho mục đích cải thiện công nghệ học máy của Google. Tương tự như các dịch vụ khác của Google, bạn cũng có thể tải xuống và xuất thông tin của mình thông qua công cụ Takeout của Google. Chúng tôi cũng cung cấp các chế độ kiểm soát để bạn quản lý những đường liên kết công khai mà bạn đã tạo cho các chuỗi trên Gemini, cũng như bật/tắt quyền truy cập vào các tiện ích (ví dụ: Workspace, Maps, YouTube). Chúng tôi cũng đang tìm kiếm những cách thức mới giúp bạn có nhiều quyền kiểm soát hơn đối với các câu trả lời của Gemini, bao gồm cả việc điều chỉnh bộ lọc để mở rộng phạm vi câu trả lời.
Với các nhà xuất bản, chúng tôi đã ra mắt Google-Extended – một công cụ kiểm soát cho phép các nhà xuất bản web quản lý việc trang web của họ có hỗ trợ cải thiện Gemini và các API tạo sinh Vertex AI hay không. Việc cho phép Google-Extended truy cập nội dung trang web có thể giúp các mô hình AI ngày càng chính xác và ưu việt hơn theo thời gian. Ngoài việc không dùng nội dung từ các URL đã chọn không tham gia cho mục đích huấn luyện mô hình, Gemini cũng sẽ không sử dụng nội dung đó cho mục đích liên kết thực tế. Khi các ứng dụng AI ngày càng phát triển, các nhà xuất bản web sẽ phải đối mặt với sự phức tạp ngày càng tăng trong việc quản lý các cách thức sử dụng khác nhau ở quy mô lớn. Do đó, chúng tôi cam kết hợp tác với các cộng đồng web và AI để khám phá thêm những cách tiếp cận mà máy có thể đọc được về lựa chọn và quyền kiểm soát.
Cùng nhau cải thiện Gemini
Chúng tôi tin vào sự cải tiến liên tục và mang những giá trị tốt đẹp nhất của Gemini đến với thế giới. Phản hồi của người dùng đã giúp chúng tôi cải tiến các mô hình nhanh chóng hơn. Chẳng hạn, chúng tôi sử dụng những kỹ thuật học hỏi tăng cường tiên tiến để huấn luyện các mô hình của mình trở nên trực quan và sáng tạo hơn, cũng như đưa ra câu trả lời có chất lượng và độ chính xác cao hơn nữa. Chúng tôi sẽ tiếp tục đầu tư vào hoạt động nghiên cứu để hiểu rõ hơn những thách thức và cơ hội về kỹ thuật, xã hội và đạo đức của các LLM, không chỉ để cải thiện kỹ thuật huấn luyện và điều chỉnh mô hình của Gemini, mà còn để chia sẻ những kiến thức học được với các nhà nghiên cứu, chẳng hạn như bài viết gần đây về Đạo đức của các trợ lý AI tiên tiến. Chúng tôi cam kết đổi mới trong lĩnh vực này một cách có trách nhiệm, cộng tác với người dùng, người thử nghiệm đáng tin cậy và các nhà nghiên cứu để tìm ra những cách thức giúp công nghệ mới này mang lại lợi ích cho toàn bộ hệ sinh thái.
Chúng tôi đề cao yếu tố minh bạch và cam kết chia sẻ cởi mở về quá trình phát triển cũng như những điểm hạn chế của Gemini. Gemini không phải là chiếc hộp đen thần kỳ mà là một mô hình không ngừng phát triển. Chúng tôi sẽ tiếp tục chia sẻ thông tin mới nhất về những bước tiến mà chúng tôi đạt được. Chúng tôi đã ra mắt trang Nội dung của bản cập nhật để bạn có thể theo dõi các tính năng, điểm cải tiến và bản sửa lỗi mới nhất của Gemini. Chúng tôi cũng sẽ cập nhật trang tổng quan này khi cần thiết. Chúng tôi sẽ xác định cả những lĩnh vực mà Gemini phát huy hiệu quả và mang lại lợi ích, cũng như những điểm cần tiếp tục cải tiến và hoàn thiện hơn nữa. Chúng tôi đang tích cực bổ sung các khả năng mới và thông qua quá trình nghiên cứu, thử nghiệm liên tục cũng như tiếp nhận phản hồi thường xuyên từ người dùng, chúng tôi mong muốn được cùng người dùng cải thiện Gemini.
Lời cảm ơn
Chúng tôi trân trọng và ghi nhận những nỗ lực tuyệt vời của các đồng nghiệp trong nhóm phát triển ứng dụng Gemini, Google DeepMind, nhóm phụ trách vấn đề Tin cậy & An toàn cùng Google Research.
James Manyika
Phó Chủ tịch Cấp cao, phụ trách Nghiên cứu, Công nghệ và Xã hội
Sissie Hsiao
Phó Chủ tịch kiêm Tổng Giám đốc, phụ trách Trợ lý Google và Ứng dụng Gemini
Tài liệu này sẽ được chỉnh sửa thường xuyên và cập nhật định kỳ trong quá trình chúng tôi tiếp tục cải thiện nhanh chóng các khả năng của ứng dụng Gemini, cũng như khắc phục những điểm hạn chế vốn có của các LLM. Trang tổng quan này được cập nhật lần gần nhất vào ngày 25 tháng 7 năm 2024. Để biết những thông tin mới nhất về ứng dụng Gemini, vui lòng truy cập nhật ký Nội dung của bản cập nhật hoặc đọc thêm tại blog Google Keyword.