Skip to main content

Přehled aplikace Gemini

Potenciál umělé inteligence (AI) pro zpřístupnění a zužitečnění informací a výpočetních technologií jsme předvídali již dávno. Podařilo se nám stát v čele vývoje velkých jazykových modelů (LLM) a dosáhli jsme na tomto poli významných úspěchů. Už několik let používáme LLM na pozadí k vylepšení mnoha našich služeb, například v podobě automatického dokončování vět v Gmailu, rozšíření funkcí Překladače Google nebo lepšího porozumění dotazům ve Vyhledávání Google. LLM i možnosti aplikace Gemini používáme ve službách Google, což lidem umožňuje spolupracovat přímo s generativní AI. Chceme, aby aplikace Gemini byla nejužitečnější osobní AI asistent, který dá uživatelům přímý přístup k nejnovějším AI modelům od Googlu.

Ačkoli se blížíme k důležitému bodu zlomu a nadšení okolo generativní AI se šíří, tato technologie je stále v plenkách. V tomto článku vysvětlíme přístup k práci na aplikaci Gemini včetně verzí pro mobily a pro web – o co se jedná, jak to funguje a jaké má v současné době funkce a omezení. Náš přístup k vytváření Gemini se bude měnit, jak se bude vyvíjet technologie, na které je vše založeno, a jak se budeme učit z probíhajícího výzkumu, zkušeností a zpětné vazby uživatelů.

Co je to Gemini

Gemini je rozhraní pro multimodální LLM (zvládá zpracovat text, zvuk, obrázky a další obsah). Gemini vychází ze špičkového výzkumu LLM v Googlu, který začal s článkem Word2Vec v roce 2013. Ten popisoval novou architekturu modelů, ve které se slova mapovala jako matematické koncepty. Poté v roce 2015 následoval neurální konverzační model. Tento systém ukázal, jak by modely mohly v konverzaci předpokládat další větu na základě předchozí věty nebo vět, což vede k přirozenější konverzaci. Pak následoval přelomový článek Transformer v roce 2017 a schopnosti rozvinuté písemné konverzace v roce 2020, které dosáhly ještě působivějšího pokroku generativního jazyka.

Gemini jsme pro veřejnost spustili v březnu 2023 jako experiment (tehdy pod názvem Bard) v souladu s našimi principy AI. Od té doby lidé využívají Gemini k psaní e-mailů, odhalování chyb v počítačových programech, brainstormingu nápadů na nadcházející události, při učení složitých koncepcí a ke spoustě dalších věcí. Dnes je Gemini všestranný AI nástroj, který dokáže pomáhat mnoha způsoby. Díky Gemini jsou lidé produktivnější, kreativnější a zvědavější. Navíc pravidelně přinášíme nové funkce a inovace.

Produktivita

Gemini především šetří čas. Například když chcete shrnout dlouhý vědecký dokument, stačí ho nahrát a Gemini z něj dokáže vytvořit přehled toho nejdůležitějšího. Gemini také umí programovat a pomoc s programováním se stala jednou z nejčastěji využívaných funkcí.

Kreativita

Gemini také pomáhá realizovat nápady a podněcuje kreativitu. Například když píšete příspěvek na blog, Gemini může vytvořit osnovu a vygenerovat ilustrace. S roboty Gem bude brzy možné přizpůsobit Gemini pomocí specifických instrukcí a nechat ho fungovat jako znalce na určité téma.

Zvědavost

Gemini může být výchozím bodem k prozkoumávání námětů, o kterých se toho chcete dozvědět víc. Může jednoduše vysvětlit složitou koncepci nebo pomoct k hlubšímu porozumění na nějaké téma nebo k obrázku. Tato proniknutí do podstaty věci bude brzy umět zkombinovat s doporučeným obsahem na internetu.

Funkce Gemini se rychle rozšiřují – brzy například bude možné namířit fotoaparát telefonu na objekt, třeba na most Golden Gate, a zeptat se Gemini na barvu nátěru (v tomto případě se jedná o International Orange). Nebo budete moct požádat Gemini, ať projde nabídku restaurace v cizím jazyce a doporučí vám jídlo, které vám nejspíš bude chutnat. To jsou jen dva příklady, co nového se Gemini brzy naučí.

Službu Gemini samozřejmě důkladně trénujeme a monitorujeme, takže její odpovědi budou s vysokou pravděpodobností spolehlivé a budou odpovídat uživatelským očekáváním. Také se obracíme na odborníky v oboru, vyučující, legislativce, podnikatele, odborníky na občanská a lidská práva a autory obsahu a probíráme s nimi možnosti uplatnění, rizika a omezení této nové technologie.

Jak Gemini funguje

1

Před tréninkem

2

Po tréninku

3

Odpovědi na pokyny uživatelů

4

Zpětná vazba a hodnocení od lidí

Známá omezení rozhraní založených na LLM, jako je Gemini

Gemini je jen jednou z forem zodpovědného vývoje LLM. Během této práce jsme objevili a analyzovali několik omezení souvisejících s LLM. Tady se zaměřujeme na šest oblastí pokračujícího výzkumu:

  • Přesnost: Odpovědi Gemini nemusí být přesné, zejména když se někdo ptá na složitá témata nebo fakta.

  • Předpojatost: Odpovědi Gemini můžou zahrnovat jednostrannost uvažování na základě trénovacích dat.

  • Víc pohledů na věc: Odpovědi Gemini nemusí nabízet dostatečnou pluralitu názorů.

  • Osobnost: Odpovědi Gemini můžou nesprávně naznačovat, že má osobní názory nebo pocity.

  • Falešně pozitivní a falešně negativní reakce: Gemini nemusí odpovědět na některé legitimní pokyny a na některé pokyny může poskytnout nevhodné odpovědi.

  • Neúplná odolnost vůči manipulativním pokynům: Uživatelé budou hledat způsoby, jak aplikace s Gemini prověřit skrze nesmyslné pokyny nebo otázky, které by v reálném světě nikdo nepoložil.

Nadále zkoumáme nové přístupy a oblasti ke zlepšení schopností v každé z těchto kategorií.

Přesnost

Fungování služby Gemini vychází z toho, jak společnost Google zpracovává autoritativní informace a je trénována ke generování odpovědí, které jsou relevantní pro kontext pokynu a pro to, co hledáte. Ale stejně jako všechny LLM, i Gemini občas sebevědomě a přesvědčivě vygeneruje odpovědi, které obsahují nepřesné nebo zavádějící informace.

Jelikož LLM fungují tak, že předvídají další slovo nebo sekvenci slov, nejsou samy o sobě plně schopné rozlišit pravdu od nepravdy. Zaznamenali jsme, že služba Gemini prezentovala odpovědi, které obsahovaly nepřesné nebo smyšlené informace (například odpověděla v rozporu s tím, jak byl natrénována, nebo si vymyslela název knihy, která neexistuje). V reakci na to jsme vytvořili funkce jako dvojitá kontrola, kdy se pomocí Vyhledávání Google hledá obsah, který pomáhá vyhodnotit odpovědi Gemini a poskytuje odkazy na zdroje, podle kterých je možně si informace od Gemini ověřit.

Předpojatost

Trénovací data, včetně těch z veřejných zdrojů, reflektují rozmanitost perspektiv a názorů. Budeme nadále zkoumat, jak tato data využít data způsobem, kdy bude zajištěno, že odpověď LLM zahrne široké spektrum názorů a současně se vyhne nepřesným zobecněním a zaujatosti.

Nedostatky, jednostrannost nebo přílišná generalizace v trénovacích datech se může projevit i ve výstupech modelu, když se snaží předpovědět pravděpodobné odpovědi na pokyn. Tyto problémy se projevují různými způsoby, například zahrnutím jen jedné kultury nebo demografické skupiny, odkazy na problematické zobecnění, projevy zaujatosti vzhledem k pohlaví, náboženství nebo národnosti, případně uvedením pouze jednoho úhlu pohledu. U některých témat není k dispozici dost spolehlivých dat, aby se LLM mohl v dostatečné míře učit a pak provádět spolehlivé předpoklady, což může vést k nekvalitním nebo nepřesným odpovědím. Spolupracujeme s experty z různých oborů a mnoha různými komunitami, abychom načerpali znalosti mimo Google.

Víc pohledů na věc

Gemini má u subjektivních témat poskytnout uživatelům víc pohledů na věc (pokud uživatel nepožádá o specifický úhel pohledu). Například když uživatel požádá o něco, co nejde ověřit podle primárních faktických nebo autoritativního zdrojů (například o subjektivní názor, co je nejlepší nebo nejhorší), Gemini by měl do odpovědi zahrnout široké spektrum postojů. Ale jelikož jsou LLM jako Gemini trénovány na obsahu, který je veřejně k dispozici na internetu, můžou odrážet pozitivní nebo negativní postoje politiků, celebrit nebo jiných veřejných osobností, případně zahrnout pozice jen jedné strany společenského nebo politického sporu. Gemini nemá odpovídat způsobem, který podporuje jeden pohled na určité téma, a na základě zpětné vazby ho upravujeme, aby se to nestávalo.

Osobnost

Gemini může někdy generovat odpovědi, které působí, jako by měl názory nebo osobnost (například projevuje lásku nebo smutek). Je to proto, že trénuje na sděleních, kterými lidé vyjadřují své prožitky. Vytvořili jsme sadu pravidel, jak má služba Gemini vystupovat sama za sebe (persona), a dál vše ladíme tak, aby poskytovala co nejobjektivnější odpovědi.

Falešně pozitivní a falešně negativní reakce

Vytvořili jsme zásady, podle kterých je služba Gemini trénována, aby negenerovala problematické odpovědi. Gemini tyto zásady někdy může nesprávně interpretovat a vytvořit falešně pozitivní a falešně negativní reakce. V případě falešně pozitivní reakce může odmítnout odpovědět na bezproblémový pokyn, protože ho bude považovat za nevhodný. V případě falešně negativní reakce může vygenerovat nevhodnou odpověď, přestože se ni vztahují zmíněné zásady. Někdy tak může vzniknout dojem, že je služba Gemini zaujatá, například když odmítne odpovědět na otázku související s jedním pohledem na věc, ale odpoví na otázku z pohledu druhé strany. Tyto modely dál ladíme, aby lépe chápaly a kategorizovaly vstupy a výstupy vzhledem k tomu, jak se jazyk, události a společnost rychle vyvíjí.

Neúplná odolnost vůči manipulativním pokynům

Očekáváme, že se uživatelé budou snažit testovat limity schopností služby Gemini a budou se snažit prolomit její bezpečnostní mechanismy, například ji donutit, aby porušila protokoly, které má natrénované. Gemini jsme důkladně testovali a dál v tom pokračujeme, ale fantazie uživatelů nezná mezí. Jedná se o důležitou součást zdokonalování Gemini a je pro nás přínosné vidět, s čím vším uživatelé dokážou přijít. Od uvedení Gemini v roce 2023 jsme viděli, jak uživatelé model zkoušejí pokyny, které sahají od filozofických až po nesmyslné – a v některých případech jsme viděli, jak Gemini odpovídá stejně nesmyslně nebo v rozporu s naším deklarovaným přístupem. Přijít na metody, jak by měl na tyhle typy pokynů odpovídat, je nadále výzva. Pracujeme na vylepšování přesnosti, objektivity a schopnosti rozpoznávat nuance skrze rozšířená interní vyhodnocování a testování reakcí na hraniční situace.

Jak budeme Gemini dál vyvíjet

Uplatnění našeho přístupu k Gemini

Společně se zásadami AI jsme nedávno formulovali přístup k práci na Gemini: Gemini se má řidit pokyny uživatelů, přizpůsobit se jejich potřebám a chránit jejich data. Jádro našeho přístupu tvoří zaměření na odpovědnost a bezpečnost. Zásady Gemini mají za cíl předcházet určitým typům problematických výstupů. Průběžně provádíme „nepřátelské“ testování, kdy odborníci na umělou inteligenci a společenští vědci záměrně zkouší službu Gemini vyvést z míry, abychom ověřili, nakolik je schopna zásady dodržovat. Na základě výsledků pak Gemini vylepšujeme.

Při vývoji Gemini také bereme ohled na soukromí. Centrum ochrany soukromí aplikací s Gemini obsahuje další informace o našem zaměření na ochranu soukromí a o tom, jak máte vše pod kontrolou.

Ovládání ze strany uživatelů a majitelů obsahu

Vytvořili jsme celou řadu dostupných ovládacích prvků Gemini ke kontrole, aktualizaci, správě, exportu a mazání dat v rámci Gemini. Pokyny pro Gemini, odpovědi a zpětnou vazbu si můžete zobrazit a projít v sekci Aktivita v aplikacích s Gemini. Nastavení Aktivita v aplikacích s Gemini můžete také vypnout a tím zabránit ve využití vašich budoucích chatů s Gemini ke zlepšování technologií strojového učení od Googlu. Stejně jako u ostatních služeb Google si můžete stáhnout a exportovat své údaje pomocí nástroje Export dat Google. Také nabízíme ovládací prvky ke správě veřejných odkazů vytvořených ve vláknech Gemini a k zapnutí či vypnutí přístupu k rozšířením (například Workspace, Mapy, YouTube). Dále zkoumáme nové způsoby, jak poskytovat větší kontrolu nad odpověďmi Gemini, včetně přizpůsobení filtrů, které umožní širší spektrum reakcí.

Pro majitele obsahu jsme vydali program Google-Extended, který umožňuje spravovat, zda bude web sloužit k vylepšování Gemini, a generativní rozhraní API Vertex AI. Když bude mít Google-Extended přístup k obsahu webů, modely AI budou s postupem času přesnější a schopnější. U odhlášených adres URL se nebude využívat jejich obsah k trénování modelu ani k ukotvení. Jak se možnosti použití AI rozšiřují, weboví vydavatelé budou čelit stále složitější správě různých forem využití. Snažíme se za tímto účelem přinášet další přístupy volby a nastavení, které budou strojově čitelné.

Improving Gemini together

Věříme v rychlý vývoj a chceme světu nabídnout z Gemini to nejlepší. Uživatelská zpětná vazba zrychlila vylepšování našich modelů. Například využíváme špičkové techniky učení k trénování modelů, aby byly intuitivnější a vynalézavější a odpovídaly kvalitněji a přesněji. Pokračujeme v investicích do výzkumu, abychom se dozvěděli více o technických, sociálních a etických výzvách a příležitostech velkých jazykových modelů. Chceme zlepšit techniky trénování a ladění modelu Gemini a zároveň sdílet naše poznatky s výzkumníky, jako je například tento nedávný článek o etice pokročilých AI asistentů. Jsme odhodláni inovovat v této oblasti zodpovědně a spolupracovat s uživateli, důvěryhodnými testery a výzkumníky, abychom nacházeli způsoby, jak může tato nová technologie prospět celému ekosystému.

Důležitá je pro nás transparentnost a zavázali jsme se k otevřenosti ohledně procesu vývoje Gemini a jeho omezením. Gemini není kouzelná černá skříňka, neustále se vyvíjí a my vás o všech změnách budeme informovat. Na stránce Aktualizace vydání najdete nejnovější funkce Gemini, vylepšení a opravy chyb a podle potřeby budeme upravovat i tento přehled. Ukážeme vám, v jakých oblastech je služba Gemini užitečná a kde je ještě potřeba pokračovat ve vylepšování nedostatků. Aktivně přidáváme nové funkce a těšíme se na společné vylepšování Gemini na základě výzkumu, testování a uživatelské zpětné vazby.

Poděkování

Oceňujeme skvělou práci našich kolegů v týmech aplikace Gemini, Google DeepMind, Trust and Safety (důvěra a bezpečnost) a Google Research.

Autoři:

James Manyika
SVP, výzkum, technologie a společnost

Sissie Hsiao
viceprezidentka a generální manažerka, Asistent Google a aplikace Gemini

Poznámka editora

Tento dokument bude průběžně aktualizován, jak budeme vylepšovat schopnosti aplikace Gemini a odstraňovat limity LLM. Tento přehled byl naposledy aktualizován 25. července 2024. Nejnovější aktualizace Gemini jsou popsány v protokolu Aktualizace vydání a na blogu Google Keyword.

Jak Gemini funguje

1 Před tréninkem

Služba Gemini je založena na nejvýkonnějších modelech umělé inteligence od Googlu s různými schopnostmi a možnostmi využití. Stejně jako je tomu dnes u většiny velkých jazykových modelů (LLM), i modely pro Gemini byly předem natrénovány na nejrůznějších datech z veřejně dostupných zdrojů. Na všechny datové sady používáme filtry kvality a využíváme heuristická pravidla i klasifikátory založené na modelu. Také provádíme bezpečnostní filtrování, abychom odstranili obsah, který pravděpodobně povede k výstupům porušujícím zásady. Abychom zachovali integritu posuzování modelů, hledáme a odstraňujeme data v trénovacím korpusu před zahájením trénování. Výsledná směsice dat a váhy se určují pomocí ablace na menších modelech. Trénink rozdělujeme na několik fází s různými směsicemi dat a ke konci tréninku zvyšujeme váhu dat relevantních pro danou doménu. Kvalita dat může být významný faktor pro vysoce výkonné modely. Věříme, že ohledně výběru optimální distribuce sady dat před tréninkem zůstává ještě mnoho zajímavých otázek otevřených.

Díky tomuto natrénování dokáže model napodobovat jazykové vzorce a na základě nich předvídat další pravděpodobné slovo nebo slova v sekvenci. Jak se velký jazykový model učí, dokáže předpokládat, že další slovo ve spojení „do kávy se dává ___“ bude s větší pravděpodobností „mléko“ než „tkanička“. Pokud však LLM vybírá pouze nejpravděpodobnější další slovo, vede to k málo kreativním odpovědím. Modelům LLM je proto často poskytována flexibilita výběru z rozumných (třebaže o něco méně pravděpodobných) možností (například „rum“), aby generovaly zajímavější odpovědi. Stojí za zmínku, že ačkoli LLM dokáže dobře reagovat na faktické pokyny a vytvořit dojem, že hledá informace, ve skutečnosti se nejedná o informační databázi ani o systém deterministického získávání informací. Můžete tak očekávat konzistentní odpověď na databázovou otázku (kdy dochází k načtení informací uložených v databázi), ale odpověď LLM na stejný pokyn nebude nutně pokaždé stejná (ani nedojde k přímému načtení informací, na kterých byl natrénován). Jedná se také o významný faktor, kvůli kterému modely LLM dokážou generovat věrohodně znějící odpovědi, které ale můžou obsahovat faktické chyby – což není ideální, když je důležitá faktická přesnost, ale je to potenciálně užitečné k vygenerování něčeho kreativního nebo neočekávaného.

2 Po tréninku

LLM po počátečním tréninku dál zpřesňuje svoje odpovědi. Jedním z těchto kroků je Supervised Fine-Tuning (SFT, „dolaďování pod dohledem“), kdy se model trénuje na pečlivě vybraných příkladech vynikajících odpovědí. Je to jako učit děti psát tím, že jim ukážete výborně napsané příběhy a eseje.

Pak přichází Reinforcement Learning from Human Feedback (RLHF, „podporované učení založené na lidské zpětné vazbě“). Tady se model učí generovat ještě lepší odpovědi na základě hodnocení nebo zpětné vazby od speciálního modelu odměn. Model odměn se trénuje podle lidských preferencí, kdy jsou odpovědi různě ohodnoceny podle toho, co se lidem líbí. Preferenční data někdy zahrnují nevhodná nebo nepřesná data, na kterých se model učí, jak je rozpoznat a vyhnout se jim. Je to jako odměňování dítěte za dobrou práci: model je odměněn za vytvoření odpovědí, které lidé ocení.

V těchto fázích je nezbytné používat vysoce kvalitní trénovací data. Obvykle se jedná o texty napsané experty nebo vygenerované modelem a zkontrolované experty.

Tyto techniky jsou výkonné, ale mají svá omezení. Například ani s pomocí modelu odměn nemusí být odpověď vždy perfektní. I tak je LLM optimalizovaný k poskytování nejčastěji preferovaných odpovědí na základě zpětné vazby, podobně jako se studenti učí ze zpětné vazby od učitele.

3 Odpovědi na pokyny uživatelů

Generování odpovědí je podobné, jako když člověk zvažuje různé způsoby, jak odpovědět na otázku. Když uživatel zadá pokyn, Gemini použije post-trénovaný LLM, kontext pokynu i interakci s uživatelem a vytvoří koncept několika verzí odpovědi. Spoléhá také na externí zdroje, jako je Vyhledávání Google, případně na některé z několika rozšíření a nedávno nahrané soubory (pouze Gemini Advanced). Tento proces se nazývá „augmentace načítání“. Když Gemini dostane pokyn, pokusí se z externích zdrojů (například z Vyhledávání Google) načíst co nejrelevantnější informace a využít je v odpovědi. V oblasti rozšíření LLM pomocí externích nástrojů probíhá v současné době aktivní výzkum. V různých okamžicích celého procesu se může vyskytnout chyba – například v dotazu, který Gemini použije k aktivaci externích nástrojů, při interpretaci výsledků vrácených nástroji nebo při použití výsledků k vygenerování konečné odpovědi. Odpovědi vygenerované Gemini by proto neměly zohledňovat výkon jednotlivých nástrojů použitých k vytvoření odpovědi.

Před zobrazením konečné odpovědi se každá potenciální odpověď ještě zkontroluje s ohledem na dodržování zásad. Škodlivé nebo nevhodné informace by v tomto kroku měly být odfiltrovány. Zbývající odpovědi se pak seřadí podle kvality a verze s nejvyšším skóre se zobrazí uživateli.

Textové a obrázkové výstupy Gemini opatřujeme vodoznakem SynthID, což je špičkový nástroj k označování obsahu vygenerovaného pomocí AI. SynthID přidává digitální vodoznak (neviditelný pro lidské oko) přímo do pixelů vygenerovaného obrázku. SynthID je důležitý stavební kámen pro vývoj spolehlivějších nástrojů k identifikaci AI, na základě kterých můžou lidé provádět informovaná rozhodnutí ohledně interakce s obsahem od AI.

4 Zpětná vazba a hodnocení od lidí

I přes bezpečnostní kontroly může docházet k chybám. Odpovědi Gemini nemusí vždy plně splnit vaše očekávání. Tady přichází na řadu zpětná vazba od lidí. Hodnotitelé posuzují kvalitu odpovědí, identifikují oblasti ke zlepšení a navrhují řešení. Tato zpětná vazba se stává součástí procesu učení Gemini, jak je popsáno v sekci Po tréninku nahoře.