Skip to main content

Tổng quan về ứng dụng Gemini

Từ lâu, chúng tôi đã nhận thấy tiềm năng của AI trong việc làm cho thông tin và hoạt động điện toán trở nên dễ tiếp cận và hữu ích hơn đối với mọi người. Chúng tôi đã đạt được những bước tiến tiên phong về mô hình ngôn ngữ lớn (LLM) và chứng kiến sự tiến bộ vượt bậc tại Google cũng như trong lĩnh vực trí tuệ nhân tạo nói chung. Trong vài năm qua, chúng tôi vốn đã áp dụng các LLM để cải thiện nhiều sản phẩm của mình, chẳng hạn như tính năng tự động hoàn thành câu trong Gmail, cải tiến Google Dịch và thậm chí các LLM còn giúp chúng tôi hiểu rõ hơn các truy vấn/a> trong Google Tìm kiếm. Chúng tôi tiếp tục sử dụng các LLM cho nhiều dịch vụ của Google, cũng như để hỗ trợ ứng dụng Gemini, tạo điều kiện để người dùng cộng tác trực tiếp với AI tạo sinh. Chúng tôi mong muốn ứng dụng Gemini trở thành trợ lý AI cá nhân hữu ích nhất, giúp người dùng tiếp cận trực tiếp các mô hình AI mới nhất của Google.

Mặc dù chúng ta đang đứng trước một bước ngoặt quan trọng trong lĩnh vực trí tuệ nhân tạo và chứng kiến sự hào hứng ngày càng tăng đối với AI tạo sinh, nhưng công nghệ này hiện vẫn chỉ ở giai đoạn sơ khai. Bài viết này phác thảo cách tiếp cận của chúng tôi đối với ứng dụng Gemini ("Gemini"), bao gồm cả phiên bản web và di động – giải thích Gemini là gì, cách thức hoạt động cũng như các khả năng và hạn chế hiện tại của Gemini. Cách tiếp cận của chúng tôi trong việc xây dựng Gemini sẽ phát triển theo tốc độ phát triển của công nghệ nền tảng và theo quá trình chúng tôi học hỏi từ các nghiên cứu, trải nghiệm cũng như phản hồi của người dùng.

Gemini là gì

Gemini là giao diện cho một LLM đa phương thức, có khả năng xử lý văn bản, âm thanh, hình ảnh và các dữ liệu khác. Gemini được xây dựng dựa trên các nghiên cứu tiên tiến của Google về LLM, bắt đầu bằng báo cáo Word2Vec (2013) đề xuất các cấu trúc mô hình mới giúp biểu diễn từ ngữ dưới dạng các khái niệm toán học, tiếp theo là sự ra đời của mô hình đàm thoại nơron vào năm 2015. Khung này cho thấy cách các mô hình có thể dự đoán câu tiếp theo trong một cuộc trò chuyện dựa trên một hoặc nhiều câu trước đó, từ đó tạo ra trải nghiệm đàm thoại tự nhiên hơn. Tiếp nối cột mốc này là những bước đột phá quan trọng của chúng tôi với cấu trúc Transformer vào năm 2017 và khả năng trò chuyện nhiều lượt vào năm 2020, cho thấy sự tiến bộ vượt bậc trong lĩnh vực ngôn ngữ tạo sinh.

Chúng tôi ra mắt Gemini (khi đó có tên là Bard) lần đầu dưới dạng một sản phẩm thử nghiệm vào tháng 3 năm 2023, tuân theo Nguyên tắc về trí tuệ nhân tạo của Google. Kể từ đó, người dùng đã tìm đến Gemini khi cần viết các email ấn tượng, khắc phục những vấn đề phức tạp về lập trình, lên ý tưởng cho các sự kiện sắp tới, nhờ hỗ trợ học các khái niệm khó và nhiều mục đích khác. Gemini hiện đã trở thành một công cụ AI linh hoạt, có thể hỗ trợ bạn theo nhiều cách. Chúng tôi đã thấy Gemini giúp mọi người làm việc năng suất hơn, sáng tạo hơn và ham tìm tòi hơn. Chúng tôi cũng thường xuyên bổ sung các chức năng và cải tiến mới cho sản phẩm này.

Năng suất

Nếu bạn là người mới bắt đầu, Gemini có thể giúp bạn tiết kiệm thời gian. Giả sử bạn muốn tóm tắt một tài liệu nghiên cứu dài, thì bạn có thể tải tài liệu đó lên Gemini và nhận về bản tổng hợp hữu ích. Gemini cũng có thể hỗ trợ các nhiệm vụ lập trình và tính năng này nhanh chóng trở thành một trong những ứng dụng phổ biến nhất của Gemini.

Sáng tạo

Gemini cũng có thể giúp bạn hiện thực hoá ý tưởng và khơi dậy khả năng sáng tạo. Chẳng hạn, nếu bạn đang viết một bài đăng trên blog, Gemini có thể lập dàn ý và tạo hình ảnh minh hoạ cho bài đăng của bạn. Sắp tới, với tính năng Gem, bạn có thể tuỳ chỉnh Gemini bằng các chỉ dẫn cụ thể và biến công cụ này thành một chuyên gia về chủ đề bạn quan tâm để hỗ trợ bạn đạt được các mục tiêu cá nhân.

Hiếu kỳ

Gemini có thể là điểm khởi đầu để bạn khám phá các ý tưởng của mình cũng như những chủ đề mà bạn muốn tìm hiểu sâu hơn. Chẳng hạn, Gemini có thể giải thích một khái niệm phức tạp theo cách đơn giản hoặc đưa ra những thông tin chi tiết liên quan đến một chủ đề hay hình ảnh. Sắp tới, Gemini sẽ kết hợp những thông tin chi tiết này với các nội dung được đề xuất trên web để giúp bạn tìm hiểu thêm về các chủ đề cụ thể.

Các khả năng của Gemini đang phát triển nhanh chóng. Chẳng bao lâu nữa, bạn sẽ có thể hướng camera trên điện thoại vào một đối tượng, ví dụ như cầu Cổng Vàng, và hỏi Gemini về màu sơn của cây cầu (nếu bạn tò mò muốn biết thì đó là màu "Cam quốc tế"). Bạn cũng có thể nhờ Gemini giúp bạn nắm được thực đơn viết bằng ngôn ngữ khác tại một nhà hàng và đề xuất món ăn phù hợp với khẩu vị của bạn. Đây chỉ là hai ví dụ về những khả năng mới sắp được bổ sung cho Gemini.

Tất nhiên, chúng tôi sẽ huấn luyện và giám sát Gemini một cách nghiêm ngặt để các câu trả lời có mức độ tin cậy cao và phù hợp với kỳ vọng của người dùng. Chúng tôi cũng trao đổi với các chuyên gia trong ngành, nhà giáo dục, nhà hoạch định chính sách, lãnh đạo doanh nghiệp, lãnh đạo về dân quyền và nhân quyền, cũng như các nhà sáng tạo nội dung để khám phá những khả năng ứng dụng mới, các rủi ro và hạn chế của công nghệ mới nổi này.

Cách hoạt động của Gemini

1

Huấn luyện trước

2

Hậu huấn luyện

3

Câu trả lời cho câu lệnh của người dùng

4

Phản hồi và đánh giá của con người

Các hạn chế đã biết của những giao diện dựa trên LLM như Gemini

Gemini chỉ là một phần trong nỗ lực không ngừng nghỉ của chúng tôi nhằm phát triển các LLM một cách có trách nhiệm. Xuyên suốt hành trình này, chúng tôi đã phát hiện và thảo luận về một số hạn chế liên quan đến các LLM. Trong bài viết này, chúng tôi tập trung vào sáu lĩnh vực đang được nghiên cứu liên tục:

  • Tính chính xác: Câu trả lời của Gemini có thể không chính xác, đặc biệt là khi nhận được câu hỏi về các chủ đề phức tạp hoặc yêu cầu dữ kiện thực tế.

  • Thiên kiến: Câu trả lời của Gemini có thể phản ánh những thiên kiến có trong dữ liệu huấn luyện.

  • Nhiều quan điểm: Câu trả lời của Gemini có thể không thể hiện được các quan điểm khác nhau.

  • Tính cách: Câu trả lời của Gemini có thể khiến người dùng lầm tưởng rằng mô hình này có ý kiến hoặc cảm xúc riêng.

  • Dương tính giả và âm tính giả: Gemini có thể không trả lời một số câu lệnh phù hợp và đưa ra câu trả lời không phù hợp cho các câu lệnh khác.

  • Dễ tạo ra lỗ hổng trước cách đặt câu lệnh đối nghịch: Người dùng sẽ tìm các cách kiểm tra "sức chịu đựng" của Gemini bằng cách đặt câu lệnh hoặc câu hỏi vô lý hiếm khi được hỏi trong thế giới thực.

Chúng tôi sẽ tiếp tục khám phá các lĩnh vực và những cách tiếp cận mới để cải thiện hiệu suất ở từng lĩnh vực nêu trên.

Tính chính xác

Gemini hoạt động dựa trên sự hiểu biết của Google về thông tin đáng tin cậy cũng như được huấn luyện để tạo ra các câu trả lời phù hợp với ngữ cảnh của câu lệnh và khớp với những gì bạn đang tìm kiếm. Nhưng cũng giống như tất cả các LLM, Gemini đôi khi có thể tạo ra các câu trả lời một cách tự tin và đầy thuyết phục mặc dù câu trả lời đó chứa thông tin không chính xác hoặc gây hiểu lầm.

Vì hoạt động bằng cách dự đoán từ hoặc chuỗi từ tiếp theo, các LLM vẫn chưa có đủ khả năng tự phân biệt giữa thông tin chính xác và không chính xác. Chúng tôi đã thấy Gemini đưa ra các câu trả lời có chứa hay thậm chí là bịa ra thông tin không chính xác (ví dụ: miêu tả sai cách Gemini được huấn luyện hoặc gợi ý tên một cuốn sách không tồn tại). Để đối phó với vấn đề này, chúng tôi đã tạo ra các tính năng như "xác minh". Tính năng này sử dụng Google Tìm kiếm để tìm nội dung giúp bạn đánh giá các câu trả lời của Gemini, đồng thời cung cấp đường liên kết đến các nguồn để bạn có thể chứng thực thông tin nhận được từ Gemini.

Thiên kiến

Dữ liệu huấn luyện, bao gồm cả dữ liệu từ các nguồn có thể truy cập công khai, phản ánh tính đa dạng về quan điểm và ý kiến. Chúng tôi sẽ tiếp tục nghiên cứu cách sử dụng dữ liệu này sao cho có thể đảm bảo rằng câu trả lời của LLM kết hợp nhiều quan điểm, đồng thời giảm thiểu các kết luận quy chụp và thiên kiến không chính xác.

Những lỗ hổng, thiên kiến và kết luận quy chụp trong dữ liệu huấn luyện có thể thể hiện trong kết quả đầu ra khi mô hình cố gắng dự đoán các câu trả lời có thể đáp ứng một câu lệnh. Chúng tôi nhận thấy những vấn đề này biểu hiện theo nhiều cách (ví dụ: câu trả lời chỉ phản ánh một nền văn hoá hoặc một đặc điểm nhân khẩu học, đề cập đến các kết luận quy chụp sai lệch, thể hiện thiên kiến về giới tính, tôn giáo hoặc dân tộc, hoặc chỉ ủng hộ một quan điểm duy nhất). Một số chủ đề có những khoảng trống dữ liệu – tức là không có đủ thông tin đáng tin cậy về một chủ đề cụ thể để LLM học hỏi và sau đó đưa ra dự đoán chính xác. Điều này có thể dẫn đến các câu trả lời chất lượng kém hoặc không chính xác. Chúng tôi sẽ tiếp tục hợp tác với các chuyên gia trong ngành và các cộng đồng đa dạng để khai thác chuyên môn sâu rộng bên ngoài Google.

Nhiều quan điểm

Đối với các chủ đề mang tính chủ quan, Gemini được thiết kế để cung cấp cho người dùng nhiều quan điểm nếu người dùng không yêu cầu một quan điểm cụ thể. Ví dụ: Nếu được yêu cầu cung cấp thông tin về một vấn đề không thể xác minh bằng các dữ kiện từ nguồn chính hoặc các nguồn uy tín — như ý kiến chủ quan về mức "tốt nhất" hay "kém nhất" — Gemini sẽ trả lời theo cách phản ánh các quan điểm khác nhau. Tuy nhiên, vì được huấn luyện dựa trên nội dung cung cấp công khai trên Internet, các LLM như Gemini có thể phản ánh những quan điểm tích cực hoặc tiêu cực về các chính trị gia, người nổi tiếng cụ thể hay các nhân vật của công chúng khác, hoặc thậm chí đưa vào quan điểm thiên về một phía đối với các vấn đề xã hội hay chính trị gây tranh cãi. Gemini không nên trả lời theo cách ủng hộ một quan điểm cụ thể nào về những chủ đề này. Chúng tôi sẽ sử dụng phản hồi về các loại câu trả lời này để huấn luyện Gemini xử lý tốt hơn.

Tính cách

Đôi khi, Gemini có thể tạo ra các câu trả lời khiến người dùng cảm thấy như thể mô hình này có ý kiến hay cảm xúc – chẳng hạn như yêu thương hoặc buồn bã – vì Gemini được huấn luyện dựa trên ngôn ngữ mà mọi người dùng để phản ánh trải nghiệm của con người. Chúng tôi đã phát triển một bộ nguyên tắc về cách Gemini có thể thể hiện bản thân (tức là tính cách của mô hình) và sẽ tiếp tục tinh chỉnh mô hình để đưa ra các câu trả lời khách quan.

Dương tính / Âm tính giả

Chúng tôi đã áp dụng một bộ nguyên tắc chính sách để giúp huấn luyện Gemini và tránh tạo ra các câu trả lời có vấn đề. Đôi khi, Gemini có thể hiểu sai các nguyên tắc này, dẫn đến các trường hợp "dương tính giả" và "âm tính giả". Trong trường hợp "dương tính giả", Gemini có thể không trả lời một câu lệnh hợp lý vì hiểu nhầm đó là câu lệnh không phù hợp; còn trong trường hợp "âm tính giả", Gemini có thể tạo ra câu trả lời không phù hợp, dù các nguyên tắc đã được áp dụng. Việc xuất hiện các trường hợp dương tính giả hoặc âm tính giả đôi khi có thể khiến người dùng cảm thấy Gemini có thiên kiến. Chẳng hạn, một trường hợp dương tính giả có thể khiến Gemini không trả lời một câu hỏi liên quan đến một mặt của vấn đề, nhưng lại trả lời câu hỏi tương tự về mặt còn lại. Chúng tôi sẽ tiếp tục điều chỉnh các mô hình này để hiểu cũng như phân loại thông tin đầu vào và kết quả đầu ra tốt hơn, trong bối cảnh ngôn ngữ, các sự kiện và xã hội thay đổi với tốc độ nhanh chóng.

Dễ tạo ra lỗ hổng trước cách đặt câu lệnh đối nghịch

Chúng tôi biết rằng người dùng sẽ thử thách giới hạn của Gemini và cố gắng vượt qua các biện pháp bảo vệ, bao gồm cả việc tìm cách khai thác thông tin về quy trình huấn luyện của mô hình hoặc các thông tin khác, hay vượt qua các cơ chế an toàn mà Gemini đang áp dụng. Chúng tôi đã, đang và sẽ tiếp tục kiểm thử Gemini một cách nghiêm ngặt, nhưng chúng tôi cũng biết rằng người dùng sẽ tìm ra những cách độc đáo và phức tạp hơn để kiểm tra "sức chịu đựng" của mô hình này. Đây là một phần quan trọng trong quá trình tinh chỉnh Gemini và chúng tôi mong chờ được học hỏi từ những câu lệnh mới mà người dùng sáng tạo ra. Quả thực, kể từ khi Gemini ra mắt vào năm 2023, chúng tôi đã chứng kiến người dùng thử thách khả năng của mô hình này bằng những câu lệnh từ thông thái đến phi lý – và trong một số trường hợp, chúng tôi thấy Gemini đưa ra những câu trả lời cũng vô lý không kém hoặc không phù hợp với cách tiếp cận chúng tôi đã nêu. Việc tìm ra các phương pháp giúp Gemini trả lời những loại câu lệnh như vậy là một thách thức lâu dài. Chúng tôi đã tiếp tục mở rộng các phương pháp đánh giá nội bộ và quy mô đội đỏ nhằm không ngừng cải thiện độ chính xác, tính khách quan và sắc thái.

Cách chúng tôi tiếp tục phát triển Gemini

Cách chúng tôi ứng dụng phương pháp tiếp cận đối với Gemini

Cùng với Nguyên tắc về trí tuệ nhân tạo, gần đây chúng tôi đã làm rõ cách tiếp cận của chúng tôi khi phát triển Gemini: Gemini cần làm theo chỉ dẫn của người dùng, thích ứng với nhu cầu của người dùng và đảm bảo trải nghiệm của người dùng. Điểm cốt lõi trong cách tiếp cận của chúng tôi là tập trung vào trách nhiệm và sự an toàn. Nguyên tắc chính sách của Gemini nhằm mục đích tránh một số loại kết quả đầu ra có vấn đề. Chúng tôi đang tiến hành kiểm thử đối nghịch liên tục với các thành viên "đội đỏ" nội bộ. Họ là các chuyên gia sản phẩm và nhà khoa học xã hội sẽ cố tình thử thách mô hình để dò tìm các vấn đề liên quan đến tính phù hợp với nguyên tắc chính sách này và cách tiếp cận cốt lõi của chúng tôi đối với Gemini. Mục đích là để chúng tôi có thể áp dụng những gì họ tìm hiểu được và liên tục cải thiện Gemini.

Quyền riêng tư cũng là một yếu tố quan trọng cần cân nhắc trong quá trình phát triển Gemini. Bạn có thể truy cập Trung tâm quyền riêng tư của Các ứng dụng Gemini để xem thêm thông tin về cách chúng tôi xây dựng Gemini tập trung vào quyền riêng tư ngay từ khâu thiết kế và đảm bảo bạn có quyền kiểm soát.

Giúp người dùng và nhà xuất bản nắm quyền kiểm soát

Chúng tôi đã xây dựng nhiều chế độ kiểm soát Gemini mà người dùng có thể dễ dàng tiếp cận, giúp họ xem xét, cập nhật, quản lý, xuất và xoá dữ liệu Gemini của mình. Bạn có thể truy cập và xem xét các câu lệnh, câu trả lời và phản hồi mà bạn đưa ra cho Gemini thông qua chế độ Hoạt động trên Các ứng dụng Gemini. Ngoài ra, bạn có thể tắt chế độ Hoạt động trên Các ứng dụng Gemini để ngăn Google sử dụng các cuộc trò chuyện trên Gemini trong tương lai cho mục đích cải thiện công nghệ học máy của Google. Tương tự như các dịch vụ khác của Google, bạn cũng có thể tải xuống và xuất thông tin của mình thông qua công cụ Takeout của Google. Chúng tôi cũng cung cấp các chế độ kiểm soát để bạn quản lý những đường liên kết công khai mà bạn đã tạo cho các chuỗi trên Gemini, cũng như bật/tắt quyền truy cập vào các tiện ích (ví dụ: Workspace, Maps, YouTube). Chúng tôi cũng đang tìm kiếm những cách thức mới giúp bạn có nhiều quyền kiểm soát hơn đối với các câu trả lời của Gemini, bao gồm cả việc điều chỉnh bộ lọc để mở rộng phạm vi câu trả lời.

Với các nhà xuất bản, chúng tôi đã ra mắt Google-Extended – một công cụ kiểm soát cho phép các nhà xuất bản web quản lý việc trang web của họ có hỗ trợ cải thiện Gemini và các API tạo sinh Vertex AI hay không. Việc cho phép Google-Extended truy cập nội dung trang web có thể giúp các mô hình AI ngày càng chính xác và ưu việt hơn theo thời gian. Ngoài việc không dùng nội dung từ các URL đã chọn không tham gia cho mục đích huấn luyện mô hình, Gemini cũng sẽ không sử dụng nội dung đó cho mục đích liên kết thực tế. Khi các ứng dụng AI ngày càng phát triển, các nhà xuất bản web sẽ phải đối mặt với sự phức tạp ngày càng tăng trong việc quản lý các cách thức sử dụng khác nhau ở quy mô lớn. Do đó, chúng tôi cam kết hợp tác với các cộng đồng web và AI để khám phá thêm những cách tiếp cận mà máy có thể đọc được về lựa chọn và quyền kiểm soát.

Cùng nhau cải thiện Gemini

Chúng tôi tin vào sự cải tiến liên tục và mang những giá trị tốt đẹp nhất của Gemini đến với thế giới. Phản hồi của người dùng đã giúp chúng tôi cải tiến các mô hình nhanh chóng hơn. Chẳng hạn, chúng tôi sử dụng những kỹ thuật học hỏi tăng cường tiên tiến để huấn luyện các mô hình của mình trở nên trực quan và sáng tạo hơn, cũng như đưa ra câu trả lời có chất lượng và độ chính xác cao hơn nữa. Chúng tôi sẽ tiếp tục đầu tư vào hoạt động nghiên cứu để hiểu rõ hơn những thách thức và cơ hội về kỹ thuật, xã hội và đạo đức của các LLM, không chỉ để cải thiện kỹ thuật huấn luyện và điều chỉnh mô hình của Gemini, mà còn để chia sẻ những kiến thức học được với các nhà nghiên cứu, chẳng hạn như bài viết gần đây về Đạo đức của các trợ lý AI tiên tiến. Chúng tôi cam kết đổi mới trong lĩnh vực này một cách có trách nhiệm, cộng tác với người dùng, người thử nghiệm đáng tin cậy và các nhà nghiên cứu để tìm ra những cách thức giúp công nghệ mới này mang lại lợi ích cho toàn bộ hệ sinh thái.

Chúng tôi đề cao yếu tố minh bạch và cam kết chia sẻ cởi mở về quá trình phát triển cũng như những điểm hạn chế của Gemini. Gemini không phải là chiếc hộp đen thần kỳ mà là một mô hình không ngừng phát triển. Chúng tôi sẽ tiếp tục chia sẻ thông tin mới nhất về những bước tiến mà chúng tôi đạt được. Chúng tôi đã ra mắt trang Nội dung của bản cập nhật để bạn có thể theo dõi các tính năng, điểm cải tiến và bản sửa lỗi mới nhất của Gemini. Chúng tôi cũng sẽ cập nhật trang tổng quan này khi cần thiết. Chúng tôi sẽ xác định cả những lĩnh vực mà Gemini phát huy hiệu quả và mang lại lợi ích, cũng như những điểm cần tiếp tục cải tiến và hoàn thiện hơn nữa. Chúng tôi đang tích cực bổ sung các khả năng mới và thông qua quá trình nghiên cứu, thử nghiệm liên tục cũng như tiếp nhận phản hồi thường xuyên từ người dùng, chúng tôi mong muốn được cùng người dùng cải thiện Gemini.

Lời cảm ơn

Chúng tôi trân trọng và ghi nhận những nỗ lực tuyệt vời của các đồng nghiệp trong nhóm phát triển ứng dụng Gemini, Google DeepMind, nhóm phụ trách vấn đề Tin cậy & An toàn cùng Google Research.

Tác giả

James Manyika
Phó Chủ tịch Cấp cao, phụ trách Nghiên cứu, Công nghệ và Xã hội

Sissie Hsiao
Phó Chủ tịch kiêm Tổng Giám đốc, phụ trách Trợ lý Google và Ứng dụng Gemini

Ghi chú của biên tập viên

Tài liệu này sẽ được chỉnh sửa thường xuyên và cập nhật định kỳ trong quá trình chúng tôi tiếp tục cải thiện nhanh chóng các khả năng của ứng dụng Gemini, cũng như khắc phục những điểm hạn chế vốn có của các LLM. Trang tổng quan này được cập nhật lần gần nhất vào ngày 25 tháng 7 năm 2024. Để biết những thông tin mới nhất về ứng dụng Gemini, vui lòng truy cập nhật ký Nội dung của bản cập nhật hoặc đọc thêm tại blog Google Keyword.

Cách hoạt động của Gemini

1 Huấn luyện trước

Gemini được vận hành bởi các mô hình AI mạnh nhất của Google và được thiết kế cho nhiều khả năng và trường hợp sử dụng khác nhau. Giống như hầu hết các LLM (mô hình ngôn ngữ lớn) hiện nay, các mô hình này được huấn luyện trước dựa trên nhiều loại dữ liệu từ các nguồn công khai có sẵn. Chúng tôi áp dụng các bộ lọc về chất lượng cho mọi tập dữ liệu, sử dụng cả quy tắc suy nghiệm (heuristic) và các bộ phân loại dựa trên mô hình. Đồng thời, chúng tôi cũng tiến hành lọc theo tiêu chuẩn an toàn để loại bỏ nội dung có khả năng tạo ra kết quả vi phạm chính sách. Để đảm bảo tính toàn vẹn trong việc đánh giá mô hình, chúng tôi chủ động tìm kiếm và loại bỏ mọi dữ liệu đánh giá có thể đã nằm trong kho dữ liệu huấn luyện của chúng tôi trước khi sử dụng dữ liệu đó cho quá trình huấn luyện. Các hỗn hợp dữ liệu và trọng số cuối cùng được xác định thông qua các thử nghiệm loại bỏ trên những mô hình nhỏ hơn. Chúng tôi tiến hành huấn luyện theo từng giai đoạn để điều chỉnh thành phần của hỗn hợp dữ liệu trong quá trình huấn luyện – tăng trọng số của dữ liệu liên quan đến lĩnh vực ở giai đoạn cuối của quá trình huấn luyện. Chất lượng dữ liệu có thể là một yếu tố quan trọng đối với các mô hình hiệu suất cao và chúng tôi tin rằng vẫn còn nhiều câu hỏi thú vị xoay quanh việc tìm ra cách tối ưu để phân phối tập dữ liệu cho giai đoạn huấn luyện trước.

Thông qua quá trình huấn luyện trước, mô hình này học được cách chọn các mẫu trong ngôn ngữ và sử dụng chúng để dự đoán từ hoặc các từ có thể sẽ xuất hiện tiếp theo trong một trình tự. Chẳng hạn, trong quá trình học, một LLM có thể dự đoán từ tiếp theo trong cụm từ "cam và ___" nhiều khả năng sẽ là "quýt" hơn là "dây giày". Tuy nhiên, nếu LLM chỉ chọn từ có xác suất cao nhất, thì câu trả lời sẽ trở nên kém sáng tạo. Vì vậy, các LLM thường được phép linh hoạt chọn trong số những phương án hợp lý, mặc dù có ít khả năng xảy ra hơn (chẳng hạn như "chuối"), để tạo ra các câu trả lời thú vị hơn. Điều đáng lưu ý là mặc dù có thể xử lý tốt các câu lệnh về dữ kiện thực tế và tạo cảm giác như đang truy xuất thông tin, nhưng các LLM không phải là cơ sở dữ liệu thông tin hay hệ thống truy xuất thông tin theo thuật toán tất định. Do đó, mặc dù bạn có thể nhận được một câu trả lời nhất quán cho một truy vấn gửi đến một cơ sở dữ liệu (tức là việc truy xuất nguyên văn thông tin cố định được lưu trữ trong cơ sở dữ liệu đó), nhưng câu trả lời của một LLM cho cùng một câu lệnh không phải lúc nào cũng giống nhau (và LLM cũng không truy xuất nguyên văn thông tin mà nó được huấn luyện). Đây cũng là lý do quan trọng giải thích tại sao các LLM có thể tạo ra câu trả lời nghe có vẻ hợp lý nhưng đôi khi lại chứa nội dung sai thực tế. Điều này sẽ không lý tưởng trong những tình huống mà tính xác thực là quan trọng, nhưng lại có thể hữu ích trong việc tạo ra kết quả sáng tạo hoặc bất ngờ.

2 Huấn luyện sau

Sau quá trình huấn luyện ban đầu, các LLM sẽ trải qua những bước bổ sung để tinh chỉnh câu trả lời. Một trong số đó là Tinh chỉnh có giám sát (SFT), tức là mô hình sẽ được huấn luyện dựa trên các ví dụ được chọn lọc kỹ lưỡng về những câu trả lời xuất sắc. Bước này cũng giống như việc dạy trẻ em viết bằng cách cho các em xem những câu chuyện và bài văn hay.

Bước tiếp theo là Học tăng cường từ phản hồi của con người (RLHF). Ở bước này, mô hình học cách tạo ra những câu trả lời tốt hơn nữa dựa trên điểm số hoặc phản hồi từ một Mô hình trao thưởng đặc biệt. Mô hình trao thưởng này được huấn luyện dựa trên dữ liệu về sở thích của con người, trong đó các câu trả lời được so sánh và đánh giá với nhau, giúp mô hình hiểu được mọi người ưa chuộng câu trả lời nào hơn. Dữ liệu về sở thích đôi khi có thể bao gồm và khiến mô hình tiếp xúc với dữ liệu phản cảm hoặc sai lệch, nhằm giúp mô hình học cách nhận biết và tránh những dữ liệu đó. Bạn có thể hình dung dữ liệu về sở thích giống như việc khen thưởng một đứa trẻ khi làm tốt một việc, và ở đây, mô hình cũng được thưởng khi tạo ra những câu trả lời mà người dùng thích.

Trong suốt các giai đoạn này, việc sử dụng dữ liệu huấn luyện chất lượng cao là yếu tố vô cùng quan trọng. Các ví dụ được sử dụng cho quá trình SFT thường do chuyên gia viết hoặc do một mô hình tạo ra và sau đó được chuyên gia đánh giá.

Tuy rất mạnh mẽ, nhưng những kỹ thuật này vẫn tồn tại một số hạn chế. Chẳng hạn, ngay cả khi có sự hỗ trợ của Mô hình trao thưởng, thì vẫn sẽ có câu trả lời nào đó không được hoàn hảo tuyệt đối. Dù vậy, LLM vẫn được tối ưu hoá để tạo ra những câu trả lời được nhiều người ưa chuộng nhất dựa trên phản hồi nhận được, tương tự như các học sinh học hỏi từ nhận xét của giáo viên.

3 Câu trả lời cho câu lệnh của người dùng

Quá trình Gemini tạo ra câu trả lời cũng tương tự như cách con người nghĩ ra các hướng tiếp cận khác nhau để giải đáp một câu hỏi. Sau khi người dùng đưa ra câu lệnh, Gemini sẽ sử dụng LLM đã trải qua giai đoạn huấn luyện sau, cùng với bối cảnh trong câu lệnh và quá trình tương tác với người dùng, để soạn thảo nhiều phiên bản câu trả lời. Gemini cũng dựa vào các nguồn bên ngoài như Google Tìm kiếm và/hoặc một trong số các tiện ích của chính Gemini, cũng như các tệp vừa được tải lên (chỉ áp dụng cho Gemini Advanced) để tạo câu trả lời. Quy trình này được gọi là tăng cường truy xuất. Dựa trên câu lệnh, Gemini cố gắng truy xuất thông tin phù hợp nhất từ các nguồn bên ngoài này (ví dụ: Google Tìm kiếm) và thể hiện những thông tin này một cách chính xác trong câu trả lời. Việc bổ sung những công cụ bên ngoài cho các LLM là một lĩnh vực nghiên cứu đang phát triển mạnh mẽ. Lỗi có thể phát sinh theo nhiều cách, bao gồm cả truy vấn mà Gemini sử dụng để kích hoạt các công cụ bên ngoài, cách Gemini diễn giải kết quả trả về từ các công cụ đó và cách Gemini sử dụng các kết quả này để tạo ra câu trả lời cuối cùng. Vì lý do này, các câu trả lời do Gemini tạo ra không thể phản ánh hiệu suất của từng công cụ dùng để tạo ra câu trả lời đó.

Cuối cùng, trước khi câu trả lời sau cùng được hiển thị, mỗi câu trả lời tiềm năng sẽ trải qua một bước kiểm tra an toàn để đảm bảo tuân thủ các nguyên tắc chính sách đã định trước. Quy trình này đóng vai trò như một bước xác minh nhằm lọc bỏ những thông tin gây hại hoặc phản cảm. Sau đó, các câu trả lời còn lại sẽ được xếp hạng dựa trên chất lượng và (các) phiên bản có điểm số cao nhất sẽ được hiển thị cho người dùng.

Chúng tôi cũng chèn hình mờ vào các kết quả dạng văn bản và hình ảnh từ Gemini bằng công cụ SynthID của chúng tôi – bộ công cụ số đầu ngành dùng để chèn hình mờ cho nội dung do AI tạo. Đối với hình ảnh do AI tạo, SynthID sẽ chèn trực tiếp hình mờ kỹ thuật số (không thể nhìn thấy bằng mắt thường) vào các điểm ảnh. SynthID là một thành phần quan trọng trong việc phát triển các công cụ nhận diện AI đáng tin cậy hơn, giúp mọi người đưa ra quyết định sáng suốt khi tương tác với nội dung do AI tạo.

4 Phản hồi và đánh giá của con người

Ngay cả khi đã có các bước kiểm tra an toàn, Gemini vẫn có thể mắc một số lỗi. Bên cạnh đó, các câu trả lời của Gemini không phải lúc nào cũng hoàn toàn đáp ứng được kỳ vọng của bạn. Đó là lý do mô hình này cần có phản hồi của con người. Các chuyên gia đánh giá sẽ xem xét chất lượng của câu trả lời, xác định những điểm cần cải thiện và đề xuất giải pháp. Phản hồi này sẽ trở thành một phần trong quá trình học hỏi của Gemini, như đã mô tả trong phần "Huấn luyện sau" ở trên.