Skip to main content

Огляд додатка Gemini

Ми вже давно помітили потенціал ШІ як інструмента, що робить інформацію і обчислення більш доступними й корисними для людей. Ми досягли інноваційних результатів у роботі з великими мовними моделями й спостерігаємо значний прогрес як у межах Google, так і в галузі загалом. Упродовж кількох років ми застосовували великі мовні моделі для поліпшення багатьох наших продуктів. Завдяки цьому краще працює автозавершення речень у Gmail, розширилися можливості Google Перекладача, а Пошук Google показує точніші результати за запитами користувачів. Ми продовжуємо використовувати великі мовні моделі в багатьох сервісах Google, серед яких і додаток Gemini, який дає змогу людям напряму взаємодіяти з генеративним штучним інтелектом. Ми прагнемо, щоб додаток Gemini був найкориснішим персональним помічником на основі штучного інтелекту, завдяки якому люди отримають можливість користуватися найновішими моделями ШІ від Google.

Хоча ми перебуваємо на важливому етапі розвитку й надихаємося великим інтересом до генеративного ШІ у світі, ця технологія ще зовсім нова. У цій статті ми розповімо, як ми розробляємо додаток Gemini (далі – Gemini), зокрема його мобільну та вебверсію, а також як він працює і які має можливості й обмеження. Наш підхід до розробки додатка Gemini змінюватиметься разом із розвитком технології, що лежить у його основі, а також з урахуванням результатів наших досліджень, досвіду й відгуків користувачів.

Що таке Gemini

Gemini – це інтерфейс мультимодальної великої мовної моделі, яка вміє обробляти текст, працювати з аудіо, зображеннями й багато іншого. В основі Gemini лежать передові дослідження Google у галузі великих мовних моделей. Перше з них – стаття про Word2Vec 2013 року, у якій було запропоновано нові архітектури моделей, що відображають слова як математичні поняття. Після неї у 2015 році ми представили нейронну розмовну модель. Цей фреймворк продемонстрував, як моделі можуть передбачати наступне речення в розмові на основі одного чи кількох попередніх речень і завдяки цьому спілкуватися природніше. Після цього ми досягли значних успіхів у роботі над Трансформером у 2017 році й розмовою з логічною послідовністю у 2020 році, що свідчить про ще переконливіший прогрес у сфері мовної генерації.

Керуючись нашими принципами щодо ШІ, у березні 2023 року ми запустили Gemini (тоді цей сервіс називався Bard) як експеримент. Відтоді Gemini допомагає користувачам писати переконливі електронні листи, налагоджувати заплутаний код, знаходити ідеї для майбутніх подій, засвоювати складні концепції тощо. Сьогодні Gemini – універсальний інструмент на основі ШІ, який може допомагати різноманітними способами. Ми вже бачимо, як завдяки Gemini люди підвищують продуктивність, розкривають творчі здібності й дізнаються щось нове, тож регулярно додаємо нові функції і можливості.

Продуктивність

По-перше, Gemini економить час. Скажімо, якщо вам потрібно підсумувати довгий документ із дослідженнями, його можна додати в Gemini і отримати корисну узагальнену інформацію. Gemini також допомагає працювати з кодом: це один із найпопулярніших способів використання нашого сервісу.

Творчість

Крім того, з Gemini можна втілювати ідеї в життя й виконувати творчі завдання. Наприклад, якщо ви пишете публікацію для блогу, Gemini може створити план і згенерувати зображення, які проілюструють ваш допис. А незабаром із появою Gem-ботів ви зможете налаштовувати сервіс Gemini, додаючи конкретні вказівки, і використовувати його як експерта з певної теми, що допомагатиме з вашими завданнями.

Цікавість

Gemini можна використовувати, щоб розвивати ідеї чи вивчати нові теми. Наприклад, сервіс може пояснити складне поняття простими словами, поділитися корисними відомостями з певної теми або пояснити, що показано на зображенні. А незабаром він поєднуватиме ці відомості з рекомендованим контентом з усієї мережі, щоб ви могли продовжувати вивчати тему.

Можливості Gemini швидко розширюються: незабаром ви зможете навести камеру телефона на об’єкт, наприклад на Золоті ворота в Києві, і попросити Gemini розповісти про історію цієї визначної пам’ятки. Також Gemini зможе допомогти ознайомитися з меню в ресторані, написаним іншою мовою, і порекомендувати страву, яка вам найімовірніше сподобається. Це лише два приклади нових можливостей, які незабаром з’являться в Gemini.

Звичайно, ми ретельно тренуємо сервіс Gemini і спостерігаємо за його роботою, щоб ви отримували надійні результати, які відповідають вашим очікуванням. Ми також спілкуємося з профільними спеціалістами, освітянами, політиками, бізнес-лідерами, громадськими діячами, правозахисниками й авторами контенту, щоб дізнаватися про нові можливості застосування, ризики й обмеження цієї нової технології.

Як працює Gemini

1

Попереднє навчання

2

Постнавчання

3

Відповіді на запити користувачів

4

Зворотний зв’язок і оцінки людей

Відомі обмеження інтерфейсів на основі великих мовних моделей, таких як Gemini

Ми дуже відповідально ставимося до розвитку великих мовних моделей, серед яких і Gemini. У процесі роботи ми виявили й обговорили кілька обмежень, пов’язаних із великими мовними моделями. У цій статті ми зосередимося на шести напрямках, які потребують подальшого дослідження.

  • Точність. Відповіді Gemini можуть бути неточними, особливо якщо тема складна або потрібно наводити факти.

  • Упередженість. Відповіді можуть містити упереджені погляди, що були в даних, на яких Gemini навчали.

  • Різні точки зору. Відповіді Gemini можуть не відображати різні думки.

  • Особистість. Відповіді можуть створювати враження, що Gemini має особисті думки або почуття.

  • Хибнопозитивні й хибнонегативні результати. Gemini може не відповідати на деякі прийнятні запити й давати неправильні відповіді на інші.

  • Стійкість до зловмисних запитів. Користувачі продовжують перевіряти, як Gemini відповідає на безглузді запити чи запитання, які рідко ставлять у реальномі житті.

Ми продовжуємо досліджувати, як і що можна покращити в кожному із цих напрямків.

Точність

У своїй роботі Gemini використовує інформацію, яка з точки зору Google вважається авторитетною. Також сервіс навчений генерувати відповіді, які узгоджуються з контекстом вашого запиту й тим, що ви шукаєте. Але, як і всі великі мовні моделі, Gemini іноді може впевнено й переконливо генерувати відповіді, які містять неточну або оманливу інформацію.

Оскільки великі мовні моделі працюють, прогнозуючи одне чи кілька наступних слів, вони ще не повністю здатні самостійно розрізняти точну й неточну інформацію. Ми спостерігали, як Gemini дає відповіді, що містять неточні дані, або навіть придумує їх (наприклад, говорить неправду про своє навчання, або пропонує назву книги, якої не існує). У відповідь на це ми створили, наприклад, функцію перевірки, яка за допомогою Пошуку Google знаходить контент, що допоможе вам оцінити відповіді Gemini, і дає посилання на джерела, щоб ви могли підтвердити інформацію, яку ви отримуєте від Gemini.

Упередженість

Навчальні дані, зокрема відомості із загальнодоступних джерел, містять розмаїття точок зору й думок. Ми продовжуємо досліджувати, як використовувати ці дані так, щоб у відповідях велика мовна модель враховувала широкий спектр поглядів і водночас не допускала неточностей, що виникають через надмірні узагальнення й упередження.

Прогалини, упередження й надмірні узагальнення в навчальних даних можуть проявлятися в результатах роботи моделі, коли та намагається спрогнозувати ймовірні відповіді на запит. Ми бачимо, що ці проблеми проявляються по-різному (наприклад, відповіді можуть представляти лише одну культуру або демографічну групу, містити проблематичні надмірні узагальнення, гендерні, релігійні чи етнічні упередження або пропагувати лише одну точку зору). Давати якісні й точні відповіді на деякі теми заважають прогалини в даних. Іншими словами, якщо ми не маємо достатньо достовірної інформації про певну тему, велика мовна модель не зможе вивчити її і робити правильні прогнози. Ми постійно співпрацюємо з фахівцями з різних галузей і різноманітними спільнотами, щоб покращити якість інформації у сферах за межами спеціалізації Google.

Різні точки зору

Якщо на запит не можна відповісти об’єктивно, а користувач не просить пояснити конкретну точку зору, Gemini пропонує кілька різних поглядів. Наприклад, якщо користувач запитує інформацію, яку не можна перевірити за допомогою первинних даних або авторитетних джерел (зокрема суб’єктивну думку щодо того, що є "найкращим" або "найгіршим"), Gemini має відповісти так, щоб відобразити широкий спектр точок зору. Але оскільки такі великі мовні моделі, як Gemini, навчаються на загальнодоступному контенті з Інтернету, вони можуть відображати позитивні чи негативні погляди конкретних політиків, знаменитостей чи інших публічних осіб або навіть висвітлювати лише один бік суперечливих соціальних чи політичних проблем. У своїх відповідях Gemini не має схвалювати чи підтримувати певну точку зору стосовно таких тем, і ми покладаємося на відгуки користувачів про такі типи відповідей, щоб навчити Gemini краще реагувати на подібні запити.

Особистість

Іноді сервіс Gemini може генерувати відповіді, які створюють враження, що в нього є думки або емоції, такі як любов чи смуток, оскільки він навчався на матеріалах, у яких відображено емоції і почуття людей. Ми розробили низку інструкцій для сервісу Gemini щодо того, як він може представляти себе (тобто свою особистість), і продовжуємо вдосконалювати модель, щоб забезпечити об’єктивність відповідей.

Хибнопозитивні й хибнонегативні результати

Ми розробили низку правил, які допомагають Gemini навчатися й уникати генерування проблемних відповідей. Іноді Gemini неправильно інтерпретує ці правила, через що з’являються хибнопозитивні й хибнонегативні результати. Тобто Gemini може не дати відповідь на коректний запит, помилково інтерпретувавши його як неприйнятний, або згенерувати неприйнятну відповідь попри наявні правила. Іноді через хибнопозитивні або хибнонегативні результати може скластися враження, що Gemini має упередження: наприклад, хибнопозитивний результат може призвести до того, що Gemini не відповідатиме на запитання про один аспект проблеми, але дасть відповідь про інший. Ми постійно вдосконалюємо моделі, щоб краще розуміти й класифікувати вхідні дані й результати, оскільки мова, події і суспільство стрімко розвиваються.

Стійкість до зловмисних запитів

Ми очікуємо, що користувачі перевірятимуть межі можливостей сервісу Gemini і намагатимуться зламати системи захисту, зокрема змусити його розкрити протоколи навчання або іншу інформацію, а також спробувати обійти механізми безпеки. Ми ретельно протестували Gemini і продовжуємо це робити, проте усвідомлюємо, що користувачі й далі знаходитимуть унікальні складні способи випробувати сервіс. Це важливо для покращення Gemini, тож нам не терпиться дізнатися, що ще придумають користувачі. Від моменту запуску Gemini у 2023 році ми спостерігаємо, як користувачі випробовують сервіс, ставлячи йому найрізноманітніші запитання – від філософських до безглуздих. І в деяких випадках Gemini дає не менш безглузді відповіді, що не узгоджуються з нашими принципами. Ми працюємо над методами, які допоможуть Gemini належно реагувати на подібні запити, і продовжуємо вдосконалювати наші внутрішні процедури оцінювання, а також тестування за допомогою "червоних команд", щоб домогтися точності, об’єктивності й повноти результатів.

Як ми продовжуємо розвивати Gemini

Застосування нашого підходу до Gemini

Крім принципів щодо ШІ, ми нещодавно сформулювали підхід до роботи над сервісом Gemini: наша мета – навчити його виконувати ваші вказівки, адаптуватися до ваших потреб і давати безпечні відповіді. В основі нашого підходу – увага до відповідальності й безпеки. Правила Gemini спрямовані на те, щоб уникати певних типів проблемних результатів. Наша внутрішня "червона команда", яка складається зі спеціалістів із продуктів і соціологів, постійно проводить тестування сервісу на стійкість до зловмисних запитів: вона навмисно навантажує модель, щоб перевірити її на відповідність цим правилам і нашому підходу до Gemini. На основі результатів таких тестувань ми регулярно покращуємо Gemini.

Під час розробки Gemini ми також враховуємо питання конфіденційності. У Центрі конфіденційності додатків Gemini можна дізнатися більше про те, як ми застосовуємо в роботі над Gemini підхід "проєктована конфіденційність", даючи вам змогу керувати своїми даними.

Забезпечення контролю з боку користувачів і видавців

Ми створили різноманітні прості елементи керування Gemini, щоб ви могли переглядати, оновлювати, експортувати й видаляти свої дані в Gemini, а також керувати ними. Ви можете отримати доступ до своїх запитів до Gemini, відповідей на них і відгуків, а також переглянути їх за допомогою елементів керування історією дій у додатках Gemini. Крім того, ви можете заборонити нам використовувати ваші майбутні чати з Gemini для вдосконалення технологій машинного навчання Google, вимкнувши історію дій у додатках Gemini. Інформацію з Gemini, як і з інших сервісів Google, можна завантажувати й експортувати за допомогою інструмента Takeout від Google. Крім того, є елементи керування загальнодоступними посиланнями, які ви створюєте для ланцюжків у Gemini, і налаштування, що дають змогу ввімкнути чи вимкнути доступ до розширень (таких як Workspace, Карти або YouTube). Ми також працюємо над новими способами контролю відповідей Gemini, зокрема над можливістю налаштовувати фільтри, які допоможуть отримувати ширший діапазон результатів.

Для видавців вебсайтів ми запустили Google-Extended. Це елемент керування, за допомогою якого вони можуть дозволяти чи забороняти своїм сайтам покращувати Gemini і генеративні API із платформи Vertex AI. Завдяки доступу Google-Extended до контенту сайтів моделі штучного інтелекту із часом можуть стати точнішими й ефективнішими. Якщо видавець заборонив доступ до контенту на своєму сайті, Gemini не використовуватиме його ані для навчання моделей, ані для обґрунтування відповідей. Що більше штучний інтелект застосовується в різних сферах, то складніше видавцям вебсайтів керувати використанням свого контенту в потрібному масштабі. Ми співпрацюємо з ними, а також зі спільнотами, що спеціалізуються на ШІ, щоб знаходити нові способи вибору й контролю контенту, які підтримують машинне зчитування.

Improving Gemini together

Ми вважаємо, що швидка реакція на відгуки й своєчасні оновлення допоможуть нам зробити сервіс Gemini якомога кориснішим і зручнішим для користувачів в усьому світі. Завдяки відгукам користувачів ми швидше вдосконалюємо наші моделі. Наприклад, ми використовуємо найсучасніші методи навчання з підкріпленням, щоб зробити наші моделі більш інтуїтивними й креативними, а також домогтися від них ще якісніших і точніших відповідей. Ми продовжуємо інвестувати в дослідження, щоб дізнаватися більше про технічні, соціальні й етичні виклики та можливості великих мовних моделей як для вдосконалення методів навчання й налаштування моделей Gemini, так і для того, щоб ділитися нашими знаннями з дослідниками (на кшталт нещодавньої статті про етичність роботи передових помічників на основі ШІ). Ми прагнемо впроваджувати інновації в цій сфері відповідально, а також співпрацювати з користувачами, довіреними тестувальниками й дослідниками, щоб знаходити способи, у які ця нова технологія може принести користь усій екосистемі.

Прозорість – важлива частина нашої роботи, і ми прагнемо бути відкритими щодо процесу розробки й обмежень Gemini. Наш сервіс – це не магічна чорна скринька. Він постійно розвивається, і ми й далі ділитимемося новинами про наш прогрес. На нашій сторінці Сповіщення про оновлення, які ми регулярно оновлюємо, ви можете дізнаватися про найновіші функції, покращення й виправлення помилок у Gemini. Ми продовжуємо вивчати, у чому сервіс Gemini корисний, а які його можливості потрібно покращувати. Ми активно додаємо нові можливості на основі постійних досліджень, тестувань і відгуків користувачів та будемо дуже раді вашому внеску у вдосконалення Gemini.

Подяка

Ми щиро вдячні нашим колегам із команди розробки додатка Gemini, лабораторії Google DeepMind, підрозділу з безпеки й Відділу досліджень Google за їхню неймовірну роботу.

Автори:

Джеймс Маньїка
Старший віцепрезидент із питань досліджень, технологій і суспільства

Сіссі Сяо
Віцепрезидентка й генеральна директорка з розробки Google Асистента й додатка Gemini

Примітка редактора

Цей документ періодично оновлюватиметься, оскільки ми продовжуємо швидко вдосконалювати можливості додатка Gemini, а також усувати обмеження, притаманні великим мовним моделям. Цей огляд востаннє оновлено 25 липня 2024 року. Щоб ознайомитися з останніми оновленнями додатка Gemini, відвідайте сторінку Сповіщення про оновлення або читайте публікації блогу Google Keyword.

Як працює Gemini

1 Попереднє навчання

Gemini працює на базі найпотужніших моделей ШІ від Google, у яких різні можливості й сценарії використання. Як і більшість сучасних великих мовних моделей, їх попередньо навчають на різноманітних даних із загальнодоступних джерел. Ми застосовуємо фільтри якості до всіх наборів даних, одночасно використовуючи евристичні правила й класифікатори на основі моделей. Крім того, ми застосовуємо фільтри безпеки, щоб видалити контент, через який отримані результати можуть порушувати правила. Щоб оцінки моделей не були суперечливі, ми знаходимо й вилучаємо всі дані оцінювання, які могли міститися в нашому навчальному корпусі, перш ніж використовувати їх для навчання. Кінцеві значення ваги й поєднання даних визначаються за допомогою абляцій на менших моделях. Ми проводимо навчання в кілька етапів, щоб на кожному з них змінювати структуру такого поєднання, і збільшуємо значення ваги даних, що стосуються конкретної галузі, ближче до кінця навчання. Якість даних – важливий фактор для створення високопродуктивних моделей, і ми вважаємо, що питання оптимального розподілу наборів даних для попереднього навчання не закрите і є багато цікавих аспектів, які варто досліджувати.

За допомогою попереднього навчання ми тренуємо модель розпізнавати шаблони певною мовою і використовувати їх, щоб спрогнозувати наступні ймовірні слова в послідовності. Наприклад, у процесі навчання велика мовна модель може передбачити, що наступним словом у фразі "арахісове масло й ___" буде радше "желе", ніж "шнурок". Однак якщо велика мовна модель вибиратиме лише найімовірніше наступне слово, її відповіді будуть не такими креативними. Тому великим мовним моделям часто дозволяють вибирати серед обґрунтованих, але менш імовірних варіантів (таких як "банан"), щоб вона генерувала цікавіші відповіді. Великі мовні моделі можуть добре працювати із запитами про факти, через що здається, що вони знаходять потрібні дані, проте це не так: вони не є ані інформаційними базами даних, ані детермінованими системами пошуку інформації. І хоча ви можете очікувати, що відповіді на запит будуть узгоджені, ніби взяті з бази даних (тобто точно відтворюватимуть певну інформацію, що зберігається в базі), відповідь великої мовної моделі на той самий запит не обов’язково буде однаковою щоразу (і повторюватиме дослівно відомості, на яких вона навчалася). Це також одна з головних причин того, чому великі мовні моделі можуть генерувати правдоподібні відповіді, які іноді містять фактичні помилки. Тому велика мовна модель не є чудовим джерелом точної інформації, але може бути корисною, коли потрібні креативні або неочікувані результати.

2 Постнавчання

Після початкового навчання ми вдосконалюємо відповіді великих мовних моделей за допомогою додаткових процедур. Одна з них – контрольоване донавчання: модель тренується на ретельно підібраних прикладах відповідей відмінної якості. Це все одно, що навчати дітей писати, показуючи їм гарні оповідання й есе.

Далі йде навчання з підкріпленням на основі зворотного зв’язку з людиною. На цьому етапі модель учиться генерувати ще кращі відповіді на основі оцінок або відгуків від спеціальної моделі винагородження. Модель винагородження навчається на даних про людські вподобання: відповіді оцінюються одна відносно одної, що дає їй змогу дізнатися, яким результатам люди віддають перевагу. Дані про вподобання іноді можуть містити образливі або некоректні відомості, щоб модель навчилася їх розпізнавати й уникати. Дані про вподобання можна уявити як винагороду, яку дають дитині за добре виконану роботу: модель винагороджується за відповіді, які подобаються людям.

На кожному із цих етапів важливо використовувати навчальні дані високої якості. Приклади, що використовуються для контрольованого донавчання, зазвичай або пишуть спеціалісти, або генерує модель і перевіряють фахівці.

Хоча ці методи ефективні, у них є обмеження. Наприклад, навіть якщо використовувати модель винагородження, відповідь може бути неідеальною. Проте велику мовну модель оптимізують так, щоб вона на основі отриманого зворотного зв’язку генерувала відповіді, які обирає найбільша кількість людей. Це схоже на те, як студенти навчаються на порадах викладачів.

3 Відповіді на запити користувачів

Генерування відповідей схоже на мозковий штурм, під час якого людина обмірковує різні підходи до відповіді на запитання. Отримавши запит, Gemini на основі великої мовної моделі з подальшим навчанням, контексту запиту й взаємодії з користувачем створює кілька варіантів відповіді. Щоб генерувати їх, сервіс також покладається на зовнішні джерела, такі як Пошук Google і/або одне з його кількох розширень, а також нещодавно додані файли (тільки Gemini Advanced). Цей процес називається "доповнення пошуком". Отримавши запит, Gemini намагається знайти найрелевантнішу інформацію в цих зовнішніх джерелах (наприклад, у Пошуку Google) і точно представити її у відповіді. Доповнення великих мовних моделей зовнішніми інструментами активно досліджується. Часом виникають помилки з різних причин: наприклад, Gemini може сформувати неправильний запит для цих зовнішніх інструментів, не так інтерпретувати отримані з них результати, а також неналежним чином використати їх для генерування остаточної відповіді. Тому не варто на основі відповідей, які дає Gemini, оцінювати продуктивність окремих інструментів, що використовувалися для їх генерації.

Перш ніж користувач побачить остаточний результат, кожна потенційна відповідь перевіряється на дотримання заздалегідь визначених правил. Це допомагає додатково відфільтрувати шкідливу або образливу інформацію. Потім відповіді, що пройшли цю перевірку безпеки, ранжуються за якістю, і користувачу відображаються найкращі варіанти.

Ми також додаємо водяні знаки в текстові й графічні результати Gemini за допомогою SynthID, нашого найкращого в галузі цифрового набору інструментів для нанесення водяних знаків на контент, створений ШІ. Щоб позначити згенеровані зображення, SynthID додає цифровий водяний знак (непомітний для людського ока) безпосередньо в пікселі. SynthID – важливий структурний елемент, що допомагає розробляти надійніші інструменти виявлення контенту, створеного ШІ, а також приймати обґрунтовані рішення про те, як взаємодіяти з таким контентом.

4 Зворотний зв’язок і оцінки людей

Навіть після перевірок безпеки можуть виникати помилки. А відповіді Gemini не завжди повністю відповідатимуть вашим очікуванням. Тут на допомогу приходить зворотний зв’язок від людей. Спеціалісти оцінюють якість відповідей, а також визначають, що і як можна покращити. Такий зворотний зв’язок став частиною процесу тренування Gemini, яку описано вище в розділі "Постнавчання".