Огляд додатка Gemini

Ми вже давно помітили потенціал ШІ як інструмента, що робить інформацію і обчислення більш доступними й корисними для людей. Ми досягли інноваційних результатів у роботі з великими мовними моделями й спостерігаємо значний прогрес як у межах Google, так і в галузі загалом. Упродовж кількох років ми застосовували великі мовні моделі для поліпшення багатьох наших продуктів. Завдяки цьому краще працює автозавершення речень у Gmail, розширилися можливості Google Перекладача, а Пошук Google показує точніші результати за запитами користувачів. Ми продовжуємо використовувати великі мовні моделі в багатьох сервісах Google, серед яких і додаток Gemini, який дає змогу людям напряму взаємодіяти з генеративним штучним інтелектом. Ми прагнемо, щоб додаток Gemini був найкориснішим персональним помічником на основі штучного інтелекту, завдяки якому люди отримають можливість користуватися найновішими моделями ШІ від Google.

Хоча ми перебуваємо на важливому етапі розвитку й надихаємося великим інтересом до генеративного ШІ у світі, ця технологія ще зовсім нова. У цій статті ми розповімо, як ми розробляємо додаток Gemini (далі – Gemini), зокрема його мобільну та вебверсію, а також як він працює і які має можливості й обмеження. Наш підхід до розробки додатка Gemini змінюватиметься разом із розвитком технології, що лежить у його основі, а також з урахуванням результатів наших досліджень, досвіду й відгуків користувачів.

Що таке Gemini

Gemini – це інтерфейс мультимодальної великої мовної моделі, яка вміє обробляти текст, працювати з аудіо, зображеннями й багато іншого. В основі Gemini лежать передові дослідження Google у галузі великих мовних моделей. Перше з них – стаття про Word2Vec 2013 року, у якій було запропоновано нові архітектури моделей, що відображають слова як математичні поняття. Після неї у 2015 році ми представили нейронну розмовну модель. Цей фреймворк продемонстрував, як моделі можуть передбачати наступне речення в розмові на основі одного чи кількох попередніх речень і завдяки цьому спілкуватися природніше. Після цього ми досягли значних успіхів у роботі над Трансформером у 2017 році й розмовою з логічною послідовністю у 2020 році, що свідчить про ще переконливіший прогрес у сфері мовної генерації.

Керуючись нашими принципами щодо ШІ, у березні 2023 року ми запустили Gemini (тоді цей сервіс називався Bard) як експеримент. Відтоді Gemini допомагає користувачам писати переконливі електронні листи, налагоджувати заплутаний код, знаходити ідеї для майбутніх подій, засвоювати складні концепції тощо. Сьогодні Gemini – універсальний інструмент на основі ШІ, який може допомагати різноманітними способами. Ми вже бачимо, як завдяки Gemini люди підвищують продуктивність, розкривають творчі здібності й дізнаються щось нове, тож регулярно додаємо нові функції і можливості.

Продуктивність

По-перше, Gemini економить час. Скажімо, якщо вам потрібно підсумувати довгий документ із дослідженнями, його можна додати в Gemini і отримати корисну узагальнену інформацію. Gemini також допомагає працювати з кодом: це один із найпопулярніших способів використання нашого сервісу.

Творчість

Крім того, з Gemini можна втілювати ідеї в життя й виконувати творчі завдання. Наприклад, якщо ви пишете публікацію для блогу, Gemini може створити план і згенерувати зображення, які проілюструють ваш допис. А незабаром із появою Gem-ботів ви зможете налаштовувати сервіс Gemini, додаючи конкретні вказівки, і використовувати його як експерта з певної теми, що допомагатиме з вашими завданнями.

Цікавість

Gemini можна використовувати, щоб розвивати ідеї чи вивчати нові теми. Наприклад, сервіс може пояснити складне поняття простими словами, поділитися корисними відомостями з певної теми або пояснити, що показано на зображенні. А незабаром він поєднуватиме ці відомості з рекомендованим контентом з усієї мережі, щоб ви могли продовжувати вивчати тему.

Можливості Gemini швидко розширюються: незабаром ви зможете навести камеру телефона на об’єкт, наприклад на Золоті ворота в Києві, і попросити Gemini розповісти про історію цієї визначної пам’ятки. Також Gemini зможе допомогти ознайомитися з меню в ресторані, написаним іншою мовою, і порекомендувати страву, яка вам найімовірніше сподобається. Це лише два приклади нових можливостей, які незабаром з’являться в Gemini.

Звичайно, ми ретельно тренуємо сервіс Gemini і спостерігаємо за його роботою, щоб ви отримували надійні результати, які відповідають вашим очікуванням. Ми також спілкуємося з профільними спеціалістами, освітянами, політиками, бізнес-лідерами, громадськими діячами, правозахисниками й авторами контенту, щоб дізнаватися про нові можливості застосування, ризики й обмеження цієї нової технології.

Як працює Gemini

Відомі обмеження інтерфейсів на основі великих мовних моделей, таких як Gemini

Ми дуже відповідально ставимося до розвитку великих мовних моделей, серед яких і Gemini. У процесі роботи ми виявили й обговорили кілька обмежень, пов’язаних із великими мовними моделями. У цій статті ми зосередимося на шести напрямках, які потребують подальшого дослідження.

Точність. Відповіді Gemini можуть бути неточними, особливо якщо тема складна або потрібно наводити факти.
Упередженість. Відповіді можуть містити упереджені погляди, що були в даних, на яких Gemini навчали.
Різні точки зору. Відповіді Gemini можуть не відображати різні думки.
Особистість. Відповіді можуть створювати враження, що Gemini має особисті думки або почуття.
Хибнопозитивні й хибнонегативні результати. Gemini може не відповідати на деякі прийнятні запити й давати неправильні відповіді на інші.
Стійкість до зловмисних запитів. Користувачі продовжують перевіряти, як Gemini відповідає на безглузді запити чи запитання, які рідко ставлять у реальномі житті.

Ми продовжуємо досліджувати, як і що можна покращити в кожному із цих напрямків.

Точність

У своїй роботі Gemini використовує інформацію, яка з точки зору Google вважається авторитетною. Також сервіс навчений генерувати відповіді, які узгоджуються з контекстом вашого запиту й тим, що ви шукаєте. Але, як і всі великі мовні моделі, Gemini іноді може впевнено й переконливо генерувати відповіді, які містять неточну або оманливу інформацію.

Оскільки великі мовні моделі працюють, прогнозуючи одне чи кілька наступних слів, вони ще не повністю здатні самостійно розрізняти точну й неточну інформацію. Ми спостерігали, як Gemini дає відповіді, що містять неточні дані, або навіть придумує їх (наприклад, говорить неправду про своє навчання, або пропонує назву книги, якої не існує). У відповідь на це ми створили, наприклад, функцію перевірки, яка за допомогою Пошуку Google знаходить контент, що допоможе вам оцінити відповіді Gemini, і дає посилання на джерела, щоб ви могли підтвердити інформацію, яку ви отримуєте від Gemini.

Упередженість

Навчальні дані, зокрема відомості із загальнодоступних джерел, містять розмаїття точок зору й думок. Ми продовжуємо досліджувати, як використовувати ці дані так, щоб у відповідях велика мовна модель враховувала широкий спектр поглядів і водночас не допускала неточностей, що виникають через надмірні узагальнення й упередження.

Прогалини, упередження й надмірні узагальнення в навчальних даних можуть проявлятися в результатах роботи моделі, коли та намагається спрогнозувати ймовірні відповіді на запит. Ми бачимо, що ці проблеми проявляються по-різному (наприклад, відповіді можуть представляти лише одну культуру або демографічну групу, містити проблематичні надмірні узагальнення, гендерні, релігійні чи етнічні упередження або пропагувати лише одну точку зору). Давати якісні й точні відповіді на деякі теми заважають прогалини в даних. Іншими словами, якщо ми не маємо достатньо достовірної інформації про певну тему, велика мовна модель не зможе вивчити її і робити правильні прогнози. Ми постійно співпрацюємо з фахівцями з різних галузей і різноманітними спільнотами, щоб покращити якість інформації у сферах за межами спеціалізації Google.

Різні точки зору

Якщо на запит не можна відповісти об’єктивно, а користувач не просить пояснити конкретну точку зору, Gemini пропонує кілька різних поглядів. Наприклад, якщо користувач запитує інформацію, яку не можна перевірити за допомогою первинних даних або авторитетних джерел (зокрема суб’єктивну думку щодо того, що є "найкращим" або "найгіршим"), Gemini має відповісти так, щоб відобразити широкий спектр точок зору. Але оскільки такі великі мовні моделі, як Gemini, навчаються на загальнодоступному контенті з Інтернету, вони можуть відображати позитивні чи негативні погляди конкретних політиків, знаменитостей чи інших публічних осіб або навіть висвітлювати лише один бік суперечливих соціальних чи політичних проблем. У своїх відповідях Gemini не має схвалювати чи підтримувати певну точку зору стосовно таких тем, і ми покладаємося на відгуки користувачів про такі типи відповідей, щоб навчити Gemini краще реагувати на подібні запити.

Особистість

Іноді сервіс Gemini може генерувати відповіді, які створюють враження, що в нього є думки або емоції, такі як любов чи смуток, оскільки він навчався на матеріалах, у яких відображено емоції і почуття людей. Ми розробили низку інструкцій для сервісу Gemini щодо того, як він може представляти себе (тобто свою особистість), і продовжуємо вдосконалювати модель, щоб забезпечити об’єктивність відповідей.

Хибнопозитивні й хибнонегативні результати

Ми розробили низку правил, які допомагають Gemini навчатися й уникати генерування проблемних відповідей. Іноді Gemini неправильно інтерпретує ці правила, через що з’являються хибнопозитивні й хибнонегативні результати. Тобто Gemini може не дати відповідь на коректний запит, помилково інтерпретувавши його як неприйнятний, або згенерувати неприйнятну відповідь попри наявні правила. Іноді через хибнопозитивні або хибнонегативні результати може скластися враження, що Gemini має упередження: наприклад, хибнопозитивний результат може призвести до того, що Gemini не відповідатиме на запитання про один аспект проблеми, але дасть відповідь про інший. Ми постійно вдосконалюємо моделі, щоб краще розуміти й класифікувати вхідні дані й результати, оскільки мова, події і суспільство стрімко розвиваються.

Стійкість до зловмисних запитів

Ми очікуємо, що користувачі перевірятимуть межі можливостей сервісу Gemini і намагатимуться зламати системи захисту, зокрема змусити його розкрити протоколи навчання або іншу інформацію, а також спробувати обійти механізми безпеки. Ми ретельно протестували Gemini і продовжуємо це робити, проте усвідомлюємо, що користувачі й далі знаходитимуть унікальні складні способи випробувати сервіс. Це важливо для покращення Gemini, тож нам не терпиться дізнатися, що ще придумають користувачі. Від моменту запуску Gemini у 2023 році ми спостерігаємо, як користувачі випробовують сервіс, ставлячи йому найрізноманітніші запитання – від філософських до безглуздих. І в деяких випадках Gemini дає не менш безглузді відповіді, що не узгоджуються з нашими принципами. Ми працюємо над методами, які допоможуть Gemini належно реагувати на подібні запити, і продовжуємо вдосконалювати наші внутрішні процедури оцінювання, а також тестування за допомогою "червоних команд", щоб домогтися точності, об’єктивності й повноти результатів.

Як ми продовжуємо розвивати Gemini

Застосування нашого підходу до Gemini

Крім принципів щодо ШІ, ми нещодавно сформулювали підхід до роботи над сервісом Gemini: наша мета – навчити його виконувати ваші вказівки, адаптуватися до ваших потреб і давати безпечні відповіді. В основі нашого підходу – увага до відповідальності й безпеки. Правила Gemini спрямовані на те, щоб уникати певних типів проблемних результатів. Наша внутрішня "червона команда", яка складається зі спеціалістів із продуктів і соціологів, постійно проводить тестування сервісу на стійкість до зловмисних запитів: вона навмисно навантажує модель, щоб перевірити її на відповідність цим правилам і нашому підходу до Gemini. На основі результатів таких тестувань ми регулярно покращуємо Gemini.

Під час розробки Gemini ми також враховуємо питання конфіденційності. У Центрі конфіденційності додатків Gemini можна дізнатися більше про те, як ми застосовуємо в роботі над Gemini підхід "проєктована конфіденційність", даючи вам змогу керувати своїми даними.

Забезпечення контролю з боку користувачів і видавців

Ми створили різноманітні прості елементи керування Gemini, щоб ви могли переглядати, оновлювати, експортувати й видаляти свої дані в Gemini, а також керувати ними. Ви можете отримати доступ до своїх запитів до Gemini, відповідей на них і відгуків, а також переглянути їх за допомогою елементів керування історією дій у додатках Gemini. Крім того, ви можете заборонити нам використовувати ваші майбутні чати з Gemini для вдосконалення технологій машинного навчання Google, вимкнувши історію дій у додатках Gemini. Інформацію з Gemini, як і з інших сервісів Google, можна завантажувати й експортувати за допомогою інструмента Takeout від Google. Крім того, є елементи керування загальнодоступними посиланнями, які ви створюєте для ланцюжків у Gemini, і налаштування, що дають змогу ввімкнути чи вимкнути доступ до розширень (таких як Workspace, Карти або YouTube). Ми також працюємо над новими способами контролю відповідей Gemini, зокрема над можливістю налаштовувати фільтри, які допоможуть отримувати ширший діапазон результатів.

Для видавців вебсайтів ми запустили Google-Extended. Це елемент керування, за допомогою якого вони можуть дозволяти чи забороняти своїм сайтам покращувати Gemini і генеративні API із платформи Vertex AI. Завдяки доступу Google-Extended до контенту сайтів моделі штучного інтелекту із часом можуть стати точнішими й ефективнішими. Якщо видавець заборонив доступ до контенту на своєму сайті, Gemini не використовуватиме його ані для навчання моделей, ані для обґрунтування відповідей. Що більше штучний інтелект застосовується в різних сферах, то складніше видавцям вебсайтів керувати використанням свого контенту в потрібному масштабі. Ми співпрацюємо з ними, а також зі спільнотами, що спеціалізуються на ШІ, щоб знаходити нові способи вибору й контролю контенту, які підтримують машинне зчитування.

Improving Gemini together

Ми вважаємо, що швидка реакція на відгуки й своєчасні оновлення допоможуть нам зробити сервіс Gemini якомога кориснішим і зручнішим для користувачів в усьому світі. Завдяки відгукам користувачів ми швидше вдосконалюємо наші моделі. Наприклад, ми використовуємо найсучасніші методи навчання з підкріпленням, щоб зробити наші моделі більш інтуїтивними й креативними, а також домогтися від них ще якісніших і точніших відповідей. Ми продовжуємо інвестувати в дослідження, щоб дізнаватися більше про технічні, соціальні й етичні виклики та можливості великих мовних моделей як для вдосконалення методів навчання й налаштування моделей Gemini, так і для того, щоб ділитися нашими знаннями з дослідниками (на кшталт нещодавньої статті про етичність роботи передових помічників на основі ШІ). Ми прагнемо впроваджувати інновації в цій сфері відповідально, а також співпрацювати з користувачами, довіреними тестувальниками й дослідниками, щоб знаходити способи, у які ця нова технологія може принести користь усій екосистемі.

Прозорість – важлива частина нашої роботи, і ми прагнемо бути відкритими щодо процесу розробки й обмежень Gemini. Наш сервіс – це не магічна чорна скринька. Він постійно розвивається, і ми й далі ділитимемося новинами про наш прогрес. На нашій сторінці Сповіщення про оновлення, які ми регулярно оновлюємо, ви можете дізнаватися про найновіші функції, покращення й виправлення помилок у Gemini. Ми продовжуємо вивчати, у чому сервіс Gemini корисний, а які його можливості потрібно покращувати. Ми активно додаємо нові можливості на основі постійних досліджень, тестувань і відгуків користувачів та будемо дуже раді вашому внеску у вдосконалення Gemini.

Подяка

Ми щиро вдячні нашим колегам із команди розробки додатка Gemini, лабораторії Google DeepMind, підрозділу з безпеки й Відділу досліджень Google за їхню неймовірну роботу.

Автори:

Джеймс Маньїка
Старший віцепрезидент із питань досліджень, технологій і суспільства

Сіссі Сяо
Віцепрезидентка й генеральна директорка з розробки Google Асистента й додатка Gemini

Примітка редактора

Цей документ періодично оновлюватиметься, оскільки ми продовжуємо швидко вдосконалювати можливості додатка Gemini, а також усувати обмеження, притаманні великим мовним моделям. Цей огляд востаннє оновлено 25 липня 2024 року. Щоб ознайомитися з останніми оновленнями додатка Gemini, відвідайте сторінку Сповіщення про оновлення або читайте публікації блогу Google Keyword.

3 Відповіді на запити користувачів

Генерування відповідей схоже на мозковий штурм, під час якого людина обмірковує різні підходи до відповіді на запитання. Отримавши запит, Gemini на основі великої мовної моделі з подальшим навчанням, контексту запиту й взаємодії з користувачем створює кілька варіантів відповіді. Щоб генерувати їх, сервіс також покладається на зовнішні джерела, такі як Пошук Google і/або одне з його кількох розширень, а також нещодавно додані файли (тільки Gemini Advanced). Цей процес називається "доповнення пошуком". Отримавши запит, Gemini намагається знайти найрелевантнішу інформацію в цих зовнішніх джерелах (наприклад, у Пошуку Google) і точно представити її у відповіді. Доповнення великих мовних моделей зовнішніми інструментами активно досліджується. Часом виникають помилки з різних причин: наприклад, Gemini може сформувати неправильний запит для цих зовнішніх інструментів, не так інтерпретувати отримані з них результати, а також неналежним чином використати їх для генерування остаточної відповіді. Тому не варто на основі відповідей, які дає Gemini, оцінювати продуктивність окремих інструментів, що використовувалися для їх генерації.

Перш ніж користувач побачить остаточний результат, кожна потенційна відповідь перевіряється на дотримання заздалегідь визначених правил. Це допомагає додатково відфільтрувати шкідливу або образливу інформацію. Потім відповіді, що пройшли цю перевірку безпеки, ранжуються за якістю, і користувачу відображаються найкращі варіанти.

Ми також додаємо водяні знаки в текстові й графічні результати Gemini за допомогою SynthID, нашого найкращого в галузі цифрового набору інструментів для нанесення водяних знаків на контент, створений ШІ. Щоб позначити згенеровані зображення, SynthID додає цифровий водяний знак (непомітний для людського ока) безпосередньо в пікселі. SynthID – важливий структурний елемент, що допомагає розробляти надійніші інструменти виявлення контенту, створеного ШІ, а також приймати обґрунтовані рішення про те, як взаємодіяти з таким контентом.

Огляд додатка Gemini

Що таке Gemini

Продуктивність

Творчість

Цікавість

Як працює Gemini

Попереднє навчання

Постнавчання

Відповіді на запити користувачів

Зворотний зв’язок і оцінки людей

Відомі обмеження інтерфейсів на основі великих мовних моделей, таких як Gemini

Точність

Упередженість

Різні точки зору

Особистість

Хибнопозитивні й хибнонегативні результати

Стійкість до зловмисних запитів

Як ми продовжуємо розвивати Gemini

Застосування нашого підходу до Gemini

Забезпечення контролю з боку користувачів і видавців

Improving Gemini together

Подяка

Змінення регіону й мови

Європа й Африка

Північна й Південна Америка

Азійсько-Тихоокеанський регіон

1 Попереднє навчання

2 Постнавчання

3 Відповіді на запити користувачів

4 Зворотний зв’язок і оцінки людей