O prezentare generală a aplicației Gemini

Credem de mult timp în potențialul AI-ului de a face informația și resursele informatice mai accesibile și utile oamenilor. Am făcut pionierat în ceea ce privește modelele lingvistice mari (LLM-uri), iar Google și acest domeniu în general au înregistrat progrese mari. De câțiva ani, am aplicat LLM-uri în fundal pentru a îmbunătăți multe dintre produsele noastre, de exemplu, prin completarea automată a propozițiilor în Gmail, extinderea serviciului Google Traducere și asigurarea unei mai bune înțelegeri a interogărilor în Căutarea Google. Continuăm să folosim LLM-uri pentru multe servicii Google, precum și pentru a susține aplicația Gemini, care face posibilă colaborarea directă între oameni și AI-ul generativ. Ne dorim ca aplicația Gemini să fie cel mai util și mai personal asistent AI, oferindu-le utilizatorilor acces direct la cele mai recente modele AI de la Google.

Deși ne aflăm într-un moment de răscruce și ne încurajează interesul general pentru AI-ul generativ, această tehnologie este încă la început. Această prezentare descrie modul în care abordăm activitățile noastre legate de aplicația Gemini („Gemini”), inclusiv experiențele pe mobil și web asociate: ce este, cum funcționează și capacitățile și limitările sale. Abordarea noastră pentru dezvoltarea serviciului Gemini va evolua odată cu tehnologiile care stau la baza acestuia și pe măsură ce aflăm mai multe din cercetările în desfășurare, experiență și feedbackul utilizatorilor.

Ce este Gemini

Gemini este interfața unui LLM multimodal (care procesează text, conținut audio, imagini și multe altele). Gemini are la bază cercetări de ultimă generație desfășurate de Google în domeniul LLM-urilor, care au început cu documentul Word2Vec în 2013, care a propus noi arhitecturi ale modelelor care să mapeze cuvintele ca pe niște concepte matematice, urmat de introducerea unui model conversațional neuronal în 2015. Acest cadru a demonstrat cum ar putea modelele să estimeze următoarea propoziție într-o conversație pe baza propoziției sau propozițiilor anterioare, ducând la experiențe conversaționale mai naturale. Acesta a fost urmat de munca noastră inovatoare la Transformer în 2017 și capacitățile de chat cu mai multe schimburi de replici în 2020, care au demonstrat un progres lingvistic generativ și mai convingător.

Inițial, am lansat Gemini (numit atunci Bard) ca experiment în martie 2023, în conformitate cu Principiile noastre privind AI-ul. De atunci, utilizatorii au folosit Gemini ca să scrie e-mailuri convingătoare, să rezolve probleme dificile de programare, să caute idei pentru evenimente viitoare, să ceară ajutor la învățarea unor concepte dificile și multe altele. Astăzi, Gemini este un instrument AI care te poate ajuta în multe moduri. Observăm deja că Gemini îi ajută pe oameni să fie mai productivi, mai creativi și mai curioși și adăugăm cu regularitate funcții și inovații noi.

Productivitate

În primul rând, Gemini te ajută să economisești timp. De exemplu, să presupunem că vrei să rezumi un document de cercetare lung. Poți să-l încarci în Gemini, care îți face o sinteză utilă. Gemini poate și să ofere ajutor cu activități de programare, aceasta devenind rapid una dintre cele mai populare situații de folosire.

Creativitate

În plus, Gemini te poate ajuta să dai viață ideilor tale și să-ți stimulezi creativitatea. De exemplu, dacă scrii o postare pe blog, Gemini poate să creeze o structură și să genereze imagini care te ajută să ilustrezi postarea. Și, întrucât în curând vor fi disponibile Gems, vei putea să personalizezi Gemini cu instrucțiuni specifice și să-i ceri să se comporte ca un expert în domeniu pentru a te ajuta să-ți atingi obiectivele personale.

Curiozitate

Gemini poate fi un punct de pornire pentru explorarea ideilor și a lucrurilor despre care vrei să afli mai multe. De exemplu, poate să explice simplu un concept complex sau să afișeze informații relevante despre un subiect sau o imagine. Și, în curând, va asocia aceste informații cu conținut recomandat de pe web, ca să afli mai multe despre anumite subiecte.

Capacitățile serviciului Gemini se extind rapid. În curând, vei putea să îndrepți camera foto a telefonului spre un obiect, de exemplu, podul Golden Gate, și să-i ceri serviciului Gemini să-ți spună despre culoarea vopselei (dacă te întrebai, este „International Orange”). De asemenea, vei putea să-i ceri să te ajute să navighezi în meniul unui restaurant în altă limbă și să-ți recomande un preparat care ți-ar putea plăcea. Acestea sunt doar două exemple de capacități noi care vor fi în curând disponibile în Gemini.

Desigur, instruim și monitorizăm riguros serviciul Gemini, astfel încât răspunsurile sale să fie fiabile și să se ridice la înălțimea așteptărilor tale. În plus, discutăm cu experți în domeniu, profesori, factori de decizie, lideri politici, lideri în domeniul drepturilor civile și ale omului și creatori de conținut pentru a explora situații de folosire, riscuri și limitări noi ale acestei tehnologii emergente.

Cum funcționează Gemini

Limitări cunoscute ale interfețelor bazate pe LLM-uri precum Gemini

Gemini este doar o parte a efortului nostru continuu de a dezvolta LLM-urile în mod responsabil. Pe durata acestor activități, am descoperit și discutat despre câteva limitări asociate LLM-urilor. Ne axăm pe șase aspecte pentru continuarea cercetărilor:

exactitate: răspunsurile de la Gemini pot fi inexacte, mai ales când primește întrebări despre subiecte complexe sau factuale;
prejudecăți: răspunsurile de la Gemini pot să reflecte prejudecățile prezente în datele sale de instruire;
perspective multiple: răspunsurile de la Gemini pot să nu reflecte mai multe puncte de vedere;
profil: răspunsurile de Geminila pot să sugereze în mod incorect că are opinii personale sau sentimente;
rezultate fals pozitive și fals negative: este posibil ca Gemini să nu răspundă la unele solicitări adecvate și să ofere răspunsuri neadecvate la altele;
vulnerabilitatea la solicitări malițioase: utilizatorii vor găsi modalități de a testa limitele serviciului Gemini cu solicitări sau întrebări fără sens, care sunt rareori puse în lumea reală.

Continuăm să explorăm abordări și aspecte noi pentru performanță îmbunătățită în fiecare dintre aceste aspecte.

Exactitate

Gemini se bazează pe ceea ce Google consideră că sunt informații de încredere și este instruit pentru a genera răspunsuri relevante pentru contextul solicitării și bazate pe ceea ce cauți. Dar, la fel ca toate LLM-urile, Gemini poate uneori să genereze cu încredere și în mod convingător răspunsuri care conțin informații incorecte sau înșelătoare.

Întrucât LLM-urile funcționează estimând următorul cuvânt sau următoarele serii de cuvinte, nu sunt încă pe deplin capabile să facă singure distincția între informații corecte și incorecte. Am observat că uneori Gemini dă răspunsuri care conțin informații incorecte sau chiar inventează informații incorecte (de ex., denaturează adevărul despre modul în care a fost instruit sau sugerează titlul unei cărți care nu există). Ca răspuns, am creat funcții precum „Verifică încă o dată”, care folosesc Căutarea Google pentru a găsi conținut care te ajută să evaluezi răspunsurile date de Gemini și îți afișează linkuri spre surse pentru a te ajuta să verifici informațiile primite de la Gemini.

Prejudecăți

Datele de instruire, inclusiv din surse disponibile public, reflectă o diversitate de perspective și opinii. Continuăm să cercetăm modul de utilizare a acestor date astfel încât să ne asigurăm că răspunsul dat de un LLM încorporează o gamă largă de puncte de vedere, minimizând generalizările incorecte și prejudecățile.

Informațiile lipsă, prejudecățile și generalizările din datele de instruire se pot reflecta în datele de ieșire ale unui model când acesta încearcă să estimeze răspunsurile posibile la o solicitare. Observăm că aceste probleme se manifestă în mai multe moduri (de ex., răspunsuri care reflectă o singură cultură sau un singur grup demografic, conțin generalizări problematice, includ prejudecăți privind genul, convingerile religioase sau etnia sau promovează un singur punct de vedere). Pentru anumite subiecte, lipsesc informații. Cu alte cuvinte, nu sunt disponibile suficiente informații fiabile despre un anumit subiect pentru ca LLM-ul să învețe despre acesta, apoi să facă predicții utile. Aceasta poate duce la răspunsuri incorecte sau de calitate slabă. Continuăm să colaborăm cu experți în domeniu și diverse comunități pentru a ne baza pe cunoștințe aprofundate din afara Google.

Perspective multiple

Pentru chestiunile subiective, Gemini a fost conceput astfel încât să le prezinte utilizatorilor mai multe perspective dacă aceștia nu solicită un anumit punct de vedere. De exemplu, dacă i se solicită informații despre un subiect care nu poate fi verificat folosind date din surse primare sau surse de încredere, cum ar fi o părere subiectivă despre „cel mai bun” sau „cel mai rău”, Gemini trebuie să răspundă într-un mod care reflectă multe puncte de vedere. Dar întrucât LLM-urile ca Gemini sunt instruite folosind conținutul disponibil public pe internet, pot să reflecte păreri pozitive sau negative despre anumiți politicieni, anumite celebrități sau alte persoane publice sau chiar să încorporeze opinii părtinitoare legate de chestiuni sociale sau politice controversate. Gemini nu trebuie să răspundă într-un mod care susține un anumit punct de vedere despre aceste subiecte și vom folosi feedbackul despre aceste tipuri de răspunsuri pentru a instrui serviciul Gemini să le gestioneze mai bine.

Profil

Gemini poate uneori să genereze răspunsuri care par să sugereze că are opinii sau emoții, cum ar fi dragostea sau tristețea, deoarece a fost instruit cu limbajul folosit de oameni pentru a reflecta experiența umană. Am dezvoltat o serie de instrucțiuni privind modul în care se poate prezenta Gemini (adică profilul său) și optimizăm în continuare modelul pentru a oferi răspunsuri obiective.

Rezultate fals pozitive și fals negative

Am implementat prevederi ale politicii pentru a instrui serviciul Gemini și a evita generarea de răspunsuri problematice. Gemini poate uneori să interpreteze greșit aceste prevederi, generând „rezultate fals pozitive” și „rezultate fals negative”. În cazul unui „rezultat fals pozitiv”, Gemini poate să nu dea un răspuns la o solicitare rezonabilă, interpretând-o greșit ca neadecvată, iar în cazul unui „rezultat fals negativ”, Gemini poate să genereze un răspuns neadecvat, în ciuda prevederilor implementate. Uneori, afișarea rezultatelor fals pozitive sau fals negative poate da impresia că Gemini are prejudecăți. De exemplu, un rezultat fals pozitiv poate determina serviciul Gemini să nu răspundă la o întrebare despre un aspect al unei probleme și poate să răspundă la aceeași întrebare despre alt aspect. Continuăm să optimizăm aceste modele pentru a înțelege și a clasifica mai bine datele de intrare și de ieșire în contextul evoluției rapide a limbajului, a evenimentelor și a societății.

Vulnerabilitatea la solicitări malițioase

Ne așteptăm ca utilizatorii să testeze limitele serviciului Gemini și să încerce să-i ocolească protecțiile, inclusiv să încerce să-l convingă să-și divulge protocoalele de instruire sau alte informații sau să-i ocolească mecanismele de siguranță. Am testat și continuăm să testăm riguros serviciul Gemini, dar știm că utilizatorii vor descoperi moduri unice și complexe de a-i testa limitele. Acesta este un aspect important al optimizării serviciului Gemini și așteptăm cu interes să aflăm noile solicitări pe care le vor crea utilizatorii. Într-adevăr, de la lansarea Gemini în 2023, am constatat că utilizatorii provoacă serviciul cu solicitări care variază de la filosofie la conținut fără sens și, în unele cazuri, am observat că Gemini dă răspunsuri care nu au nici ele sens sau nu respectă abordarea descrisă de noi. Crearea unor metode prin care să ajutăm serviciul Gemini să răspundă la acest tip de solicitări rămâne o provocare și am continuat să extindem evaluările interne și formarea de echipe roșii ca să facem îmbunătățiri continue pentru exactitate, obiectivitate și nuanțe.

Cum continuăm să dezvoltăm Gemini

Aplicarea abordării noastre pentru Gemini

Pe lângă Principiile noastre privind AI-ul, am descris recent abordarea privind activitățile noastre legate de Gemini: Gemini trebuie să urmeze instrucțiunile tale, să se adapteze în funcție de nevoile tale și să-ți protejeze experiența. Abordarea noastră este axată pe responsabilitate și siguranță. Prevederile politicii Gemini vizează evitarea anumitor tipuri de date de ieșire problematice. Desfășurăm teste cu solicitări malițioase împreună cu membri ai „echipelor roșii” interne (experți în produse și cercetători în domeniul rețelelor sociale care testează intenționat limitele unui model pentru a identifica nerespectarea acestor prevederi ale politicii și abordarea noastră principală pentru Gemini), astfel încât să putem să folosim concluziile și să îmbunătățim în permanență Gemini.

Și confidențialitatea este un aspect important în dezvoltarea serviciului Gemini. Ajutorul privind confidențialitatea în Aplicațiile Gemini conține mai multe informații despre cum dezvoltăm Gemini cu confidențialitate integrată, pentru ca tu să deții controlul.

Utilizatorii și editorii dețin controlul

Am creat diverse comenzi ușor accesibile pentru utilizatorii Gemini, astfel încât să consulți, să actualizezi, să gestionezi, să exporți și să-ți ștergi datele din Gemini. Poți să accesezi și să verifici solicitările tale către Gemini, răspunsurile și feedbackul folosind opțiunea Activitatea din Aplicațiile Gemini. În plus, poți să împiedici folosirea chaturilor tale Gemini viitoare pentru a îmbunătăți tehnologiile de învățare automată Google dacă dezactivezi setarea Activitatea din Aplicațiile Gemini. Și, la fel ca în cazul celorlalte servicii Google, poți și să descarci și să exporți informațiile tale folosind instrumentul Takeout de la Google. De asemenea, avem opțiuni care îți dau posibilitatea să gestionezi linkurile publice pe care le-ai creat în firele Gemini și să activezi sau să dezactivezi accesul la extensii (de ex., Workspace, Maps, YouTube). În plus, explorăm noi moduri de a-ți oferi mai mult control asupra răspunsurilor de la Gemini, inclusiv prin ajustarea filtrelor pentru a permite o gamă mai variată de răspunsuri.

Pentru editori, am lansat Google-Extended, o opțiune pe care editorii web o pot folosi pentru a stabili dacă site-urile lor contribuie la îmbunătățirea serviciului Gemini și a API-urilor generative Vertex AI. Permiterea accesului Google-Extended la conținutul site-urilor poate ajuta modelele AI să devină mai precise și mai capabile în timp. Pe lângă faptul că nu folosește conținutul de la adresele URL neînscrise pentru instruirea modelelor, Gemini nu va folosi acest conținut nici pentru ancorarea în fapte. Întrucât AI-ul este folosit pentru tot mai multe activități, editorii web vor avea de-a face cu un grad tot mai mare de complexitate a gestionării mai multor situații de folosire la scară largă și ne angajăm să interacționăm cu comunitățile web și AI pentru a explora mai multe abordări care pot fi citite de dispozitive privind alegerea și controlul.

Îmbunătățim Gemini împreună

Credem în iterația rapidă și în implementarea celor mai bune funcții Gemini. Feedbackul de la utilizatori a accelerat îmbunătățirile aduse modelelor noastre. De exemplu, folosim tehnici de învățare prin consolidare de ultimă generație pentru a instrui modelele, astfel încât să fie mai intuitive și mai creative și să dea răspunsuri de calitate mai bună și mai precise. Continuăm să investim în cercetare pentru a afla mai multe despre provocările și oportunitățile tehnice, sociale și etice ale LLM-urilor, atât pentru a îmbunătăți tehnicile de instruire și ajustare a modelelor Gemini, cât și pentru a le transmite concluziile noastre cercetătorilor, cum ar fi acest document recent despre Etica asistenților AI avansați. Ne dorim să inovăm în acest domeniu în mod responsabil, colaborând cu utilizatori, testeri de încredere și cercetători pentru a descoperi modalități prin care aceste tehnologii noi pot fi folosite în beneficiul întregului ecosistem.

Transparența este importantă și ne luăm angajamentul să fim deschiși cu privire la procesul de dezvoltare și limitările serviciului Gemini. Gemini nu este o cutie neagră magică. Evoluează în permanență și vom continua să publicăm noutăți despre progresul nostru. Am lansat pagina Actualizări ale versiunii ca să afli despre cele mai recente funcții, îmbunătățiri și remedieri ale erorilor din Gemini și vom actualiza această prezentare, dacă este cazul. Vom identifica situațiile în care Gemini este util și domeniile în care trebuie în continuare să repetăm și să facem îmbunătățiri. Adăugăm activ capacități noi, și așteptăm cu interes să îmbunătățim Gemini împreună prin cercetare și testare continue și feedback de la utilizatori.

Mulțumiri

Apreciem munca incredibilă a colegilor noștri din echipele aplicației Gemini, Google DeepMind, Încredere și siguranță și Google Research.

Scris de

James Manyika
SVP, Cercetare, Tehnologie și Societate

Sissie Hsiao
Vicepreședinte și director general, Asistentul Google și aplicația Gemini

Nota editorului

Acesta este un document dinamic și va fi actualizat periodic pe măsură ce îmbunătățim rapid capacitățile aplicației Gemini și gestionăm limitările inerente ale LLM-urilor. Această prezentare generală a fost actualizată ultima dată pe 25 iulie 2024. Pentru cele mai recente noutăți despre aplicația Gemini, accesează jurnalul Actualizările versiunii sau află mai multe de pe blogul Google Keyword.

3 Răspunsurile la solicitările utilizatorilor

Generarea răspunsurilor este similară modului în care o persoană poate să caute diferite abordări pentru a răspunde la o întrebare. După ce utilizatorul face o solicitare, Gemini folosește LLM-ul instruit ulterior, contextul solicitării și interacțiunea cu utilizatorul pentru a crea mai multe versiuni de răspunsuri. În plus, se bazează pe surse externe, cum ar fi Căutarea Google și/sau una dintre extensiile serviciului și fișierele încărcate recent (numai Gemini Advanced) pentru a genera răspunsuri. Acest proces se numește augmentare prin preluare. Când primește o solicitare, Gemini se străduiește să preia cele mai pertinente informații din aceste surse externe (de ex., Căutarea Google) și să le reprezinte corect în răspunsul dat. Augmentarea LLM-urilor cu instrumente externe este un domeniu de cercetare activ. Există mai multe moduri în care pot să apară erori, inclusiv interogarea folosită de Gemini pentru a invoca aceste instrumente externe, modul în care Gemini interpretează rezultatele returnate de instrumente și modul în care rezultatele returnate sunt folosite pentru a genera răspunsul final. Din acest motiv, răspunsurile generate de Gemini nu ar trebui să reflecte performanța instrumentelor individuale utilizate pentru a crea acel răspuns.

Înainte de afișarea răspunsului final, fiecare răspuns potențial trece printr-o verificare de siguranță pentru a ne asigura că respectă prevederile politicii. Acest proces asigură încă o verificare pentru a exclude informațiile dăunătoare sau jignitoare. Răspunsurile rămase sunt apoi poziționate în funcție de calitatea lor, iar versiunile cu cel mai mare scor sunt prezentate utilizatorului.

Aplicăm filigrane pe textul și imaginile generate de Gemini, folosind SynthID, setul nostru de instrumente digitale de vârf în domeniu pentru aplicarea filigranelor în conținutul generat de AI. În imaginile generate, SynthID adaugă un filigran digital (imperceptibil ochiului uman) direct în pixeli. SynthID este un element important pentru dezvoltarea de instrumente mai fiabile de identificare a tehnologiilor AI și poate ajuta oamenii să ia decizii informate privind interacțiunile lor cu conținutul generat de AI.

O prezentare generală a aplicației Gemini

Ce este Gemini

Productivitate

Creativitate

Curiozitate

Cum funcționează Gemini

Instruirea prealabilă

Instruirea ulterioară

Răspunsurile la solicitările utilizatorilor

Feedback și evaluare umană

Limitări cunoscute ale interfețelor bazate pe LLM-uri precum Gemini

Exactitate

Prejudecăți

Perspective multiple

Profil

Rezultate fals pozitive și fals negative

Vulnerabilitatea la solicitări malițioase

Cum continuăm să dezvoltăm Gemini

Aplicarea abordării noastre pentru Gemini

Utilizatorii și editorii dețin controlul

Îmbunătățim Gemini împreună

Mulțumiri

Schimbă regiunea și limba

Europa și Africa

Americi

Asia-Pacific

1 Instruirea prealabilă

2 Instruirea ulterioară

3 Răspunsurile la solicitările utilizatorilor

4 Feedback și evaluare umană