Общ преглед на приложението Gemini
Отдавна сме забелязали потенциала на AI да прави информацията и компютърните технологии по-достъпни и полезни за хората. Можем да се похвалим с иновативни постижения в големите езикови модели (LLM) и сме свидетели на огромен напредък в Google и в съответната сфера. Вече няколко години използваме LLM на заден план, за да подобряваме много от продуктите си, като например автоматичното довършване на изречения в Gmail, разширяването на Google Преводач и по-доброто разбиране на заявките в Google Търсене. Продължаваме да използваме LLM в много услуги на Google, както и за да предоставяме приложението Gemini, което дава възможност на хората да взаимодействат директно с генеративния AI. Искаме то да бъде най-полезният и личен асистент с AI, като по този начин осигуряваме на потребителите директен достъп до най-новите модели на AI на Google.
Въпреки че сме достигнали значима повратна точка и сме мотивирани от масовото вълнение около генеративния AI, тази технология все още е на ранен етап. Този пояснителен текст обяснява какъв е подходът ни към приложението Gemini (Gemini), включително мобилната и уеб версията на услугата – какво представлява тя, как работи и текущите ѝ възможности и ограничения. Подходът ни към развитието на Gemini ще се променя заедно с основната технология на услугата, а с времето – и с помощта на провеждащите се проучвания, практическата работа и потребителските отзиви.
Какво представлява Gemini
Gemini е интерфейсът на мултимодален LLM (който обработва текст, аудио, изображения и др.). Услугата Gemini е базирана на съвременното проучване на Google относно LLM, което започна през 2013 г. със статията Word2Vec, представяща нови архитектури на модели, които разглеждат думите като математически концепции, последвана от представянето на невронен модел за разговори през 2015 г. Тази рамка демонстрира възможностите на моделите да предвиждат следващото изречение в даден разговор въз основа на предходното или съответно предходните изречения, което води до по-естествени разговори. Това бе последвано от революционното ни постижение Transformer през 2017 г. и възможностите за продължителен разговор през 2020 г., които демонстрираха още по-интригуващ напредък в генеративните езикови модели.
Първоначално стартирахме Gemini като експеримент през март 2023 г. (тогава под името Bard) в съответствие с принципите ни за AI. Оттогава потребителите се обръщат към Gemini за писане на интригуващи имейли, отстраняване на сложни проблеми в програмирането, генериране на идеи за предстоящи събития, получаване на помощ при учене на сложни концепции и още много други неща. Днес Gemini е универсален инструмент с AI, който може да ви помогне по много начини. Вече наблюдаваме как Gemini помага на хората да бъдат по-продуктивни, по-креативни и по-любознателни. Също така редовно добавяме нови функции и иновации.
Продуктивност
Първо, Gemini може да ви спести време. Ако например искате да обобщите голям документ с проучване, Gemini ви дава възможност да качите документа и ви предоставя полезен синтез. Също така Gemini може да помага със задачи за програмиране. Тази възможност бързо стана едно от най-популярните му приложения.
Творчество
Освен това Gemini може да ви помогне да реализирате идеите си и да стимулира креативността ви. Ако например пишете публикация в блог, Gemini е в състояние да създаде чернова и да генерира изображения, които да използвате като илюстрации към нея. А скоро с помощта на Gem ще имате възможност да персонализирате Gemini с конкретни инструкции, така че да се държи като експерт по дадена тема и да ви помогне да постигнете личните си цели.
Любознателност
Gemini може да бъде начална точка за разглеждане на идеите ви и нещата, за които искате да научите повече. Услугата може например да обясни сложна концепция с прости думи или да изведе подходящи статистически данни за дадена тема или изображение. А скоро тя ще обединява съответните данни с препоръчано съдържание от мрежата, за да научи повече за конкретни теми.
Възможностите на Gemini се разширяват бързо – скоро ще можете да насочите камерата си към даден обект, като например моста „Голдън гейт“, и да попитате Gemini в какъв цвят е боядисан (International Orange, ако се чудите). Също така ще имате възможност да поискате от Gemini да ви помогне да разгледате чуждоезичното меню на даден ресторант и да ви препоръча ястие, което вероятно ще харесате. Това са само две примерни възможности, които да очаквате скоро в Gemini.
Щателно обучаваме Gemini и наблюдаваме услугата, за да може отговорите ѝ да са надеждни и да отговарят на очакванията ви. Консултираме се и с експерти в отрасъла, образователни работници, създатели на правила, бизнес лидери, лидери за граждански и човешки права и създатели на съдържание, за да се запознаваме с нови приложения, рискове и ограничения на тази нововъзникваща технология.
Как работи Gemini
Предварително обучение
Последващо обучение
Отговори на потребителски подкани
Обратна информация и оценки от хора
Известни ограничения на базираните на LLM интерфейси (например Gemini)
Gemini е само част от непрекъснатите ни усилия за отговорно разработване на LLM. По време на работата си открихме и обсъдихме няколко ограничения, свързани с LLM. Тук ще се фокусираме върху шест области, които се проучват активно:
Точност: отговорите на Gemini може да са неточни, особено при запитвания по сложни или фактически въпроси.
Предразсъдъци: възможно е отговорите на Gemini да отразяват предразсъдъци, налични в данните за трениране.
Множество гледни точки: отговорите на Gemini може да не показват различни гледни точки.
Личност: възможно е отговорите на Gemini неправилно да навеждат на мисълта, че Gemini има лично мнение или чувства.
Неверни положителни и неверни отрицателни резултати: Gemini може да не отговаря на някои уместни подкани и да предоставя неуместни отговори на други.
Уязвимост към злонамерени подкани: потребителите ще намират начини да тестват Gemini с безсмислени подкани или въпроси, които рядко се задават в реалния свят.
Продължаваме да разглеждаме нови подходи и области, за да постигнем по-висока ефективност във всяка от изброените области.
Точност
Услугата Gemini е свързана с разбирането на Google за достоверна информация и е обучена така, че да генерира отговори, съобразени с контекста на подканата ви и това, което търсите. Подобно на всички LLM обаче Gemini може понякога да генерира уверени и убедителни отговори, в които има неточна или подвеждаща информация.
Тъй като LLM работят, като предсказват следващата дума или поредица от думи, те все още не могат самостоятелно да разграничават коя информация е точна и коя не. Срещали сме отговори на Gemini, в които е включена или дори измислена неточна информация (например подвеждащо представяне на начина, по който услугата е обучена, или предложение за книга, която не съществува). В отговор на това създадохме функцията за повторна проверка. Тя използва Google Търсене, за да намира съдържание, с чиято помощ да оценявате отговорите на Gemini, и ви предоставя връзки към източници, за да можете да потвърдите получената от Gemini информация.
Предразсъдъци
Данните за трениране, включително тези от общодостъпни източници, отразяват разнообразни гледни точки и мнения. Непрекъснато проучваме по какъв начин да използваме тази информация, за да е сигурно, че отговорът на даден LLM включва разнообразни гледни точки и същевременно свежда до минимум неточните свръхгенерализации и предразсъдъци.
В опитите на модела да предскаже вероятните отговори на дадена подкана, има възможност в изходните резултати да бъдат отразени пропуските, свръхгенерализациите и предразсъдъците в данните за трениране. Наблюдаваме появата на тези проблеми по редица начини (например отговори, които отразяват само една култура или демографски сегмент, включват проблемни свръхгенерализации, показват полови, религиозни или етнически предразсъдъци или представят само една гледна точка). За някои теми липсват данни. С други думи, няма достатъчно надеждна информация по дадена тема, за да може LLM да научи повече за нея и да направи добро предвиждане – това може да доведе до нискокачествени или неточни отговори. Продължаваме да работим с експерти в тази сфера и разнообразни общности, за да се възползваме от задълбочените познания извън Google.
Множество гледни точки
Gemini ще предоставя на потребителите по няколко гледни точки за субективните теми, при условие че не е заявена конкретна гледна точка. Например при подкана за информация за нещо, което не може да бъде потвърдено от основни или достоверни източници на факти – като субективното мнение за „най-добро“ или „най-лошо“, – Gemini трябва да отговори по начин, който отразява няколко гледни точки. Тъй като LLM (като Gemini) се обучават със съдържание, което е общодостъпно в интернет, те могат да отразяват позитивни и негативни гледни точки на конкретни политици, известни личности или други обществени лица и дори да включват гледни точки на едната страна по спорни социални или политически проблеми. Gemini не трябва да отговаря по начин, който подкрепя конкретна гледна точка по съответните теми. Ще използваме обратна информация за този тип отговори, за да обучим Gemini да се справя по-добре в такива ситуации.
Личност
Понякога Gemini може да генерира отговори, които навеждат на мисълта, че има мнение или чувства, като например любов или тъга, тъй като услугата е обучена с езикови средства, които хората използват, за да опишат преживяванията си. Създадохме набор от указания за начина, по който Gemini да се представя (или личността на услугата), и продължаваме да усъвършенстваме модела така, че да предоставя обективни отговори.
Неверни положителни/отрицателни резултати
Въвели сме набор от указания за правилата, с чиято помощ Gemini да се обучава и да избягва генерирането на проблемни отговори. Понякога е възможно Gemini да тълкува указанията неправилно, което води до неверни положителни и неверни отрицателни резултати. В първия случай Gemini може да не даде отговор на основателна подкана, като я сметне за неподходяща, а във втория – Gemini може да генерира неподходящ отговор в разрез с указанията. Понякога този тип резултати може да наведат на мисълта, че Gemini има предразсъдъци. Поради неверен положителен резултат например е възможно Gemini да не отговори на даден въпрос от една гледна точка на проблема, но да предостави отговор на същия въпрос от друга гледна точка. С бързото развитие на езика, събитията и обществото непрестанно оптимизираме тези модели така, че по-добре да разбират и категоризират входящата информация и изходните резултати.
Уязвимост към злонамерени подкани
Очакваме потребителите да подложат на изпитание възможностите на Gemini и да се опитат да преодолеят защитите на услугата, включително да я принудят да разкрие техниките за обучението си и друга информация, или да заобиколят механизмите ѝ за безопасност. Тествахме и продължаваме щателно да тестваме Gemini, но знаем, че потребителите ще открият уникални и сложни начини да подложат услугата на по-сериозни изпитания. Това е важна част от подобряването на Gemini и с нетърпение очакваме да научим какви подкани ще измислят потребителите. Всъщност, откакто стартирахме Gemini през 2023 г., наблюдаваме как те предизвикват услугата с различни подкани – от философски до безсмислени. В някои случаи Gemini предоставя отговори, които са също толкова безсмислени или не следват описания от нас подход. Намирането на методи, които да помогнат на Gemini да отговаря на този тип подкани, е нестихващо предизвикателство. Също така продължаваме да разширяваме вътрешните си процеси по оценяване и да извършваме насочени тестове с червения екип, за да подобряваме точността, обективността и деликатността на Gemini.
Как продължаваме да развиваме Gemini
Приложение на подхода ни към Gemini
Заедно с принципите за AI наскоро представихме и подхода си към работата по Gemini: услугата трябва да следва указанията ви, да се адаптира според нуждите ви и да защитава практическата ви работа. В основата на подхода ни е фокусът върху отговорността и сигурността. Целта на указанията за правилата на Gemini е да се избегнат определен тип проблемни изходни резултати. Непрекъснато провеждаме злонамерени тестове с членове на вътрешния „червен екип“ – продуктови експерти и учени по социални науки, които умишлено подлагат на изпитание даден модел, за да проверят дали следва указанията за правилата и подхода ни към Gemini, – така че да приложим наученото от тях и непрекъснато да подобряваме Gemini.
Поверителността също е ключов фактор при разработването на Gemini. В Центъра за поверителност на приложенията Gemini има повече информация за начина, по който създадохме Gemini с поверителност по дизайн и контроли за вас.
Предоставяне на контрол на потребителите и издателите
Създадохме различни леснодостъпни потребителски контроли за Gemini, с които можете да преглеждате, актуализирате, управлявате, експортирате и изтриете данните си в услугата. Контролата „Активност в приложенията Gemini“ ви дава достъп до подканите и отзивите ви за Gemini, както и отговорите на услугата. Освен това можете да спрете използването на бъдещите си разговори с Gemini за подобряване на технологиите на Google за машинно обучение, като изключите настройката „Активност в приложенията Gemini“. Също както при другите услуги на Google, имате възможност да изтеглите и експортирате информацията си чрез инструмента ни Takeout. Също така сме предвидили контроли за управление на публичните връзки, които сте създали към разговорите си с Gemini, както и такива, позволяващи ви да включите или изключите достъпа до дадено разширение (например Workspace, Карти и YouTube). Разглеждаме и нови начини, по които да ви осигурим повече контрол над отговорите на Gemini, включително коригиране на филтрите с цел активиране на по-широк набор от отговори.
За уеб издателите представихме Google-Extended – контрола, която те могат да използват, за да управляват това дали сайтовете им да помагат за подобряването на Gemini и генеративните API на Vertex AI. Разрешаването на Google-Extended да осъществява достъп до съдържанието на сайтовете може да помогне на моделите на AI да стават все по-точни и мощни с течение на времето. Освен че съдържанието в изключените URL адреси няма да се използва за обучение на моделите, Gemini няма да го ползва и като проверим източник на информация. С разширяването на приложенията на AI уеб издателите ще се изправят пред нарастващата сложност на управлението на различни начини на употреба в голям мащаб, затова поемаме ангажимент да работим с уеб и AI общностите, за да разгледаме още машинночетими подходи за избор и контрол.
Improving Gemini together
Вярваме в бързото повторение и предоставянето на най-доброто от Gemini на света. Потребителските отзиви ускориха подобряването на моделите ни. Използваме например съвременни техники за обучение с утвърждение, за да тренираме моделите си така, че да бъдат по-интуитивни и идейни, както и да предоставят по-качествени и точни отговори. Продължаваме да инвестираме в проучвания, за да научим повече за техническите, социалните и етичните предизвикателства и за възможностите на LLM – както с цел подобряване на техниките за обучение и прецизиране на моделите на Gemini, така и за споделяне на изводите ни с изследователи, като например скорошната статия The Ethics of Advanced AI Assistants. Поели сме ангажимент за отговорно въвеждане на иновации в тази сфера и сътрудничество с потребителите, доверените изпитатели и изследователите, за да разберем как тази нова технология може да бъде от полза за цялата екосистема.
Прозрачността е важна и сме поели ангажимент да не крием информация, свързана с разработването и ограниченията на Gemini. Услугата не е магическа черна кутия – тя непрестанно се развива и ще продължаваме да споделяме актуална информация за напредъка си. Създадохме страницата Актуализации на версията, за да можете да разглеждате най-новите функции и подобрения на Gemini, както и отстранените грешки. Ще актуализираме този общ преглед подобаващо. Ще идентифицираме областите, в които услугата Gemini е полезна, и къде трябва да я подобрим и да продължим повторението. Активно добавяме нови възможности и с нетърпение очакваме да подобрим Gemini заедно с помощта на непрекъснато проучване, тестване и потребителски отзиви.
Признания
Оценяваме и ценим невероятната работа на колегите от екипа на приложението Gemini, Google DeepMind, Google Research и този по надеждността и безопасността.
Джеймс Манийка
Главен вицепрезидент по проучвания, технологии и общество
Сиси Хсиао
Вицепрезидент и генерален мениджър, Google Асистент и приложението Gemini
Това е активен документ, който ще се актуализира периодично, докато продължаваме да подобряваме възможностите на приложението Gemini с бързи темпове, както и при справяне с ограниченията, свързани с LLM. Последната актуализация на този общ преглед бе на 25 юли 2024 г. За най-новите актуализации на приложението Gemini отворете страницата Актуализации на версията или прочетете повече в блога на Google Keyword.