Общ преглед на приложението Gemini

Отдавна сме забелязали потенциала на AI да прави информацията и компютърните технологии по-достъпни и полезни за хората. Можем да се похвалим с иновативни постижения в големите езикови модели (LLM) и сме свидетели на огромен напредък в Google и в съответната сфера. Вече няколко години използваме LLM на заден план, за да подобряваме много от продуктите си, като например автоматичното довършване на изречения в Gmail, разширяването на Google Преводач и по-доброто разбиране на заявките в Google Търсене. Продължаваме да използваме LLM в много услуги на Google, както и за да предоставяме приложението Gemini, което дава възможност на хората да взаимодействат директно с генеративния AI. Искаме то да бъде най-полезният и личен асистент с AI, като по този начин осигуряваме на потребителите директен достъп до най-новите модели на AI на Google.

Въпреки че сме достигнали значима повратна точка и сме мотивирани от масовото вълнение около генеративния AI, тази технология все още е на ранен етап. Този пояснителен текст обяснява какъв е подходът ни към приложението Gemini (Gemini), включително мобилната и уеб версията на услугата – какво представлява тя, как работи и текущите ѝ възможности и ограничения. Подходът ни към развитието на Gemini ще се променя заедно с основната технология на услугата, а с времето – и с помощта на провеждащите се проучвания, практическата работа и потребителските отзиви.

Какво представлява Gemini

Gemini е интерфейсът на мултимодален LLM (който обработва текст, аудио, изображения и др.). Услугата Gemini е базирана на съвременното проучване на Google относно LLM, което започна през 2013 г. със статията Word2Vec, представяща нови архитектури на модели, които разглеждат думите като математически концепции, последвана от представянето на невронен модел за разговори през 2015 г. Тази рамка демонстрира възможностите на моделите да предвиждат следващото изречение в даден разговор въз основа на предходното или съответно предходните изречения, което води до по-естествени разговори. Това бе последвано от революционното ни постижение Transformer през 2017 г. и възможностите за продължителен разговор през 2020 г., които демонстрираха още по-интригуващ напредък в генеративните езикови модели.

Първоначално стартирахме Gemini като експеримент през март 2023 г. (тогава под името Bard) в съответствие с принципите ни за AI. Оттогава потребителите се обръщат към Gemini за писане на интригуващи имейли, отстраняване на сложни проблеми в програмирането, генериране на идеи за предстоящи събития, получаване на помощ при учене на сложни концепции и още много други неща. Днес Gemini е универсален инструмент с AI, който може да ви помогне по много начини. Вече наблюдаваме как Gemini помага на хората да бъдат по-продуктивни, по-креативни и по-любознателни. Също така редовно добавяме нови функции и иновации.

Продуктивност

Първо, Gemini може да ви спести време. Ако например искате да обобщите голям документ с проучване, Gemini ви дава възможност да качите документа и ви предоставя полезен синтез. Също така Gemini може да помага със задачи за програмиране. Тази възможност бързо стана едно от най-популярните му приложения.

Творчество

Освен това Gemini може да ви помогне да реализирате идеите си и да стимулира креативността ви. Ако например пишете публикация в блог, Gemini е в състояние да създаде чернова и да генерира изображения, които да използвате като илюстрации към нея. А скоро с помощта на Gem ще имате възможност да персонализирате Gemini с конкретни инструкции, така че да се държи като експерт по дадена тема и да ви помогне да постигнете личните си цели.

Любознателност

Gemini може да бъде начална точка за разглеждане на идеите ви и нещата, за които искате да научите повече. Услугата може например да обясни сложна концепция с прости думи или да изведе подходящи статистически данни за дадена тема или изображение. А скоро тя ще обединява съответните данни с препоръчано съдържание от мрежата, за да научи повече за конкретни теми.

Възможностите на Gemini се разширяват бързо – скоро ще можете да насочите камерата си към даден обект, като например моста „Голдън гейт“, и да попитате Gemini в какъв цвят е боядисан (International Orange, ако се чудите). Също така ще имате възможност да поискате от Gemini да ви помогне да разгледате чуждоезичното меню на даден ресторант и да ви препоръча ястие, което вероятно ще харесате. Това са само две примерни възможности, които да очаквате скоро в Gemini.

Щателно обучаваме Gemini и наблюдаваме услугата, за да може отговорите ѝ да са надеждни и да отговарят на очакванията ви. Консултираме се и с експерти в отрасъла, образователни работници, създатели на правила, бизнес лидери, лидери за граждански и човешки права и създатели на съдържание, за да се запознаваме с нови приложения, рискове и ограничения на тази нововъзникваща технология.

Как работи Gemini

Известни ограничения на базираните на LLM интерфейси (например Gemini)

Gemini е само част от непрекъснатите ни усилия за отговорно разработване на LLM. По време на работата си открихме и обсъдихме няколко ограничения, свързани с LLM. Тук ще се фокусираме върху шест области, които се проучват активно:

Точност: отговорите на Gemini може да са неточни, особено при запитвания по сложни или фактически въпроси.
Предразсъдъци: възможно е отговорите на Gemini да отразяват предразсъдъци, налични в данните за трениране.
Множество гледни точки: отговорите на Gemini може да не показват различни гледни точки.
Личност: възможно е отговорите на Gemini неправилно да навеждат на мисълта, че Gemini има лично мнение или чувства.
Неверни положителни и неверни отрицателни резултати: Gemini може да не отговаря на някои уместни подкани и да предоставя неуместни отговори на други.
Уязвимост към злонамерени подкани: потребителите ще намират начини да тестват Gemini с безсмислени подкани или въпроси, които рядко се задават в реалния свят.

Продължаваме да разглеждаме нови подходи и области, за да постигнем по-висока ефективност във всяка от изброените области.

Точност

Услугата Gemini е свързана с разбирането на Google за достоверна информация и е обучена така, че да генерира отговори, съобразени с контекста на подканата ви и това, което търсите. Подобно на всички LLM обаче Gemini може понякога да генерира уверени и убедителни отговори, в които има неточна или подвеждаща информация.

Since LLMs work by predicting the next word or sequences of words, they are not yet fully capable of distinguishing between accurate and inaccurate information on their own. We have seen Gemini present responses that contain or even invent inaccurate information (e.g., misrepresenting how it was trained or suggesting the name of a book that doesn’t exist).

Предразсъдъци

Данните за трениране, включително тези от общодостъпни източници, отразяват разнообразни гледни точки и мнения. Непрекъснато проучваме по какъв начин да използваме тази информация, за да е сигурно, че отговорът на даден LLM включва разнообразни гледни точки и същевременно свежда до минимум неточните свръхгенерализации и предразсъдъци.

В опитите на модела да предскаже вероятните отговори на дадена подкана, има възможност в изходните резултати да бъдат отразени пропуските, свръхгенерализациите и предразсъдъците в данните за трениране. Наблюдаваме появата на тези проблеми по редица начини (например отговори, които отразяват само една култура или демографски сегмент, включват проблемни свръхгенерализации, показват полови, религиозни или етнически предразсъдъци или представят само една гледна точка). За някои теми липсват данни. С други думи, няма достатъчно надеждна информация по дадена тема, за да може LLM да научи повече за нея и да направи добро предвиждане – това може да доведе до нискокачествени или неточни отговори. Продължаваме да работим с експерти в тази сфера и разнообразни общности, за да се възползваме от задълбочените познания извън Google.

Множество гледни точки

Gemini ще предоставя на потребителите по няколко гледни точки за субективните теми, при условие че не е заявена конкретна гледна точка. Например при подкана за информация за нещо, което не може да бъде потвърдено от основни или достоверни източници на факти – като субективното мнение за „най-добро“ или „най-лошо“, – Gemini трябва да отговори по начин, който отразява няколко гледни точки. Тъй като LLM (като Gemini) се обучават със съдържание, което е общодостъпно в интернет, те могат да отразяват позитивни и негативни гледни точки на конкретни политици, известни личности или други обществени лица и дори да включват гледни точки на едната страна по спорни социални или политически проблеми. Gemini не трябва да отговаря по начин, който подкрепя конкретна гледна точка по съответните теми. Ще използваме обратна информация за този тип отговори, за да обучим Gemini да се справя по-добре в такива ситуации.

Личност

Понякога Gemini може да генерира отговори, които навеждат на мисълта, че има мнение или чувства, като например любов или тъга, тъй като услугата е обучена с езикови средства, които хората използват, за да опишат преживяванията си. Създадохме набор от указания за начина, по който Gemini да се представя (или личността на услугата), и продължаваме да усъвършенстваме модела така, че да предоставя обективни отговори.

Неверни положителни/отрицателни резултати

Въвели сме набор от указания за правилата, с чиято помощ Gemini да се обучава и да избягва генерирането на проблемни отговори. Понякога е възможно Gemini да тълкува указанията неправилно, което води до неверни положителни и неверни отрицателни резултати. В първия случай Gemini може да не даде отговор на основателна подкана, като я сметне за неподходяща, а във втория – Gemini може да генерира неподходящ отговор в разрез с указанията. Понякога този тип резултати може да наведат на мисълта, че Gemini има предразсъдъци. Поради неверен положителен резултат например е възможно Gemini да не отговори на даден въпрос от една гледна точка на проблема, но да предостави отговор на същия въпрос от друга гледна точка. С бързото развитие на езика, събитията и обществото непрестанно оптимизираме тези модели така, че по-добре да разбират и категоризират входящата информация и изходните резултати.

Уязвимост към злонамерени подкани

Очакваме потребителите да подложат на изпитание възможностите на Gemini и да се опитат да преодолеят защитите на услугата, включително да я принудят да разкрие техниките за обучението си и друга информация, или да заобиколят механизмите ѝ за безопасност. Тествахме и продължаваме щателно да тестваме Gemini, но знаем, че потребителите ще открият уникални и сложни начини да подложат услугата на по-сериозни изпитания. Това е важна част от подобряването на Gemini и с нетърпение очакваме да научим какви подкани ще измислят потребителите. Всъщност, откакто стартирахме Gemini през 2023 г., наблюдаваме как те предизвикват услугата с различни подкани – от философски до безсмислени. В някои случаи Gemini предоставя отговори, които са също толкова безсмислени или не следват описания от нас подход. Намирането на методи, които да помогнат на Gemini да отговаря на този тип подкани, е нестихващо предизвикателство. Също така продължаваме да разширяваме вътрешните си процеси по оценяване и да извършваме насочени тестове с червения екип, за да подобряваме точността, обективността и деликатността на Gemini.

Как продължаваме да развиваме Gemini

Приложение на подхода ни към Gemini

Заедно с принципите за AI наскоро представихме и подхода си към работата по Gemini: услугата трябва да следва указанията ви, да се адаптира според нуждите ви и да защитава практическата ви работа. В основата на подхода ни е фокусът върху отговорността и сигурността. Целта на указанията за правилата на Gemini е да се избегнат определен тип проблемни изходни резултати. Непрекъснато провеждаме злонамерени тестове с членове на вътрешния „червен екип“ – продуктови експерти и учени по социални науки, които умишлено подлагат на изпитание даден модел, за да проверят дали следва указанията за правилата и подхода ни към Gemini, – така че да приложим наученото от тях и непрекъснато да подобряваме Gemini.

Поверителността също е ключов фактор при разработването на Gemini. В Центъра за поверителност на приложенията Gemini има повече информация за начина, по който създадохме Gemini с поверителност по дизайн и контроли за вас.

Предоставяне на контрол на потребителите и издателите

Създадохме различни леснодостъпни потребителски контроли за Gemini, с които можете да преглеждате, актуализирате, управлявате, експортирате и изтриете данните си в услугата. Контролата „Активност в приложенията Gemini“ ви дава достъп до подканите и отзивите ви за Gemini, както и отговорите на услугата. Освен това можете да спрете използването на бъдещите си разговори с Gemini за подобряване на технологиите на Google за машинно обучение, като изключите настройката „Активност в приложенията Gemini“. Също както при другите услуги на Google, имате възможност да изтеглите и експортирате информацията си чрез инструмента ни Takeout. Също така сме предвидили контроли за управление на публичните връзки, които сте създали към разговорите си с Gemini, както и такива, позволяващи ви да включите или изключите достъпа до дадено разширение (например Workspace, Карти и YouTube). Разглеждаме и нови начини, по които да ви осигурим повече контрол над отговорите на Gemini, включително коригиране на филтрите с цел активиране на по-широк набор от отговори.

За уеб издателите представихме Google-Extended – контрола, която те могат да използват, за да управляват това дали сайтовете им да помагат за подобряването на Gemini и генеративните API на Vertex AI. Разрешаването на Google-Extended да осъществява достъп до съдържанието на сайтовете може да помогне на моделите на AI да стават все по-точни и мощни с течение на времето. Освен че съдържанието в изключените URL адреси няма да се използва за обучение на моделите, Gemini няма да го ползва и като проверим източник на информация. С разширяването на приложенията на AI уеб издателите ще се изправят пред нарастващата сложност на управлението на различни начини на употреба в голям мащаб, затова поемаме ангажимент да работим с уеб и AI общностите, за да разгледаме още машинночетими подходи за избор и контрол.

Improving Gemini together

Вярваме в бързото повторение и предоставянето на най-доброто от Gemini на света. Потребителските отзиви ускориха подобряването на моделите ни. Използваме например съвременни техники за обучение с утвърждение, за да тренираме моделите си така, че да бъдат по-интуитивни и идейни, както и да предоставят по-качествени и точни отговори. Продължаваме да инвестираме в проучвания, за да научим повече за техническите, социалните и етичните предизвикателства и за възможностите на LLM – както с цел подобряване на техниките за обучение и прецизиране на моделите на Gemini, така и за споделяне на изводите ни с изследователи, като например скорошната статия The Ethics of Advanced AI Assistants. Поели сме ангажимент за отговорно въвеждане на иновации в тази сфера и сътрудничество с потребителите, доверените изпитатели и изследователите, за да разберем как тази нова технология може да бъде от полза за цялата екосистема.

Прозрачността е важна и сме поели ангажимент да не крием информация, свързана с разработването и ограниченията на Gemini. Услугата не е магическа черна кутия – тя непрестанно се развива и ще продължаваме да споделяме актуална информация за напредъка си. Създадохме страницата Актуализации на версията, за да можете да разглеждате най-новите функции и подобрения на Gemini, както и отстранените грешки. Ще актуализираме този общ преглед подобаващо. Ще идентифицираме областите, в които услугата Gemini е полезна, и къде трябва да я подобрим и да продължим повторението. Активно добавяме нови възможности и с нетърпение очакваме да подобрим Gemini заедно с помощта на непрекъснато проучване, тестване и потребителски отзиви.

Признания

Оценяваме и ценим невероятната работа на колегите от екипа на приложението Gemini, Google DeepMind, Google Research и този по надеждността и безопасността.

Автори:

Джеймс Манийка
Главен вицепрезидент по проучвания, технологии и общество

Сиси Хсиао
Вицепрезидент и генерален мениджър, Google Асистент и приложението Gemini

Бележка на редактора

Това е активен документ, който ще се актуализира периодично, докато продължаваме да подобряваме възможностите на приложението Gemini с бързи темпове, както и при справяне с ограниченията, свързани с LLM. Последната актуализация на този общ преглед бе на 25 юли 2024 г. За най-новите актуализации на приложението Gemini отворете страницата Актуализации на версията или прочетете повече в блога на Google Keyword.

3 Отговори на потребителски подкани

Генерирането на отговори наподобява процеса, при който човек обмисля различни подходи, за да отговори на даден въпрос. Когато потребител изпрати подкана, Gemini използва вече обучения LLM, контекста на подканата и взаимодействията с потребителя, за да изготви няколко версии на един отговор. Gemini разчита и на външни източници, като например Google Търсене, и/или на някое от разширенията си и скоро качените файлове (само за Gemini Advanced), за да генерира отговорите си. Този процес е известен като „подобряване на извличането“. Когато получи подкана, Gemini се стреми да извлече най-уместната информация от тези външни източници (например Google Търсене) и да ги представи точно в отговора си. Подобряването на LLM с външни инструменти е област, която се проучва активно. Има редица начини, по които могат да бъдат допуснати грешки, включително заявката, използвана от Gemini с цел активиране на тези външни инструменти, начина, по който Gemini тълкува изведените от инструментите резултати, и начина, по който тези резултати се използват за генерирането на окончателен отговор. Поради това отговорите, генерирани от Gemini, не трябва да се отразяват на ефективността на отделните инструменти, използвани при създаването на съответния отговор.

И накрая, преди да бъде показан окончателният отговор, всички потенциални отговори преминават проверка за безопасност, за да е сигурно, че се придържат към предварително определените указания за правилата. Този процес служи като повторна проверка, при която се филтрира опасната или обидна информация. След това оставащите отговори се класират въз основа на качеството им, а тези с най-висока оценка се показват на потребителя.

Също така добавяме воден знак към изходните резултати от Gemini с текст и изображения, като използваме SynthID – нашия водещ в отрасъла дигитален инструментариум, който добавя дигитален воден знак (недоловим за човешкото око) директно в пикселите на генерираните от AI изображения. SynthID е важен градивен блок за създаването на по-надеждни инструменти за идентифициране на AI и може да помогне на хората да вземат информирани решения за това как да взаимодействат с генерирано от AI съдържание.

Общ преглед на приложението Gemini

Какво представлява Gemini

Продуктивност

Творчество

Любознателност

Как работи Gemini

Предварително обучение

Последващо обучение

Отговори на потребителски подкани

Обратна информация и оценки от хора

Известни ограничения на базираните на LLM интерфейси (например Gemini)

Точност

Предразсъдъци

Множество гледни точки

Личност

Неверни положителни/отрицателни резултати

Уязвимост към злонамерени подкани

Как продължаваме да развиваме Gemini

Приложение на подхода ни към Gemini

Предоставяне на контрол на потребителите и издателите

Improving Gemini together

Признания

Промяна на региона и езика

Европа и Африка

Северна и Южна Америка

Азиатско-тихоокеански регион

1 Предварително обучение

2 Последващо обучение

3 Отговори на потребителски подкани

4 Обратна информация и оценяване от хора