Skip to main content

Преглед апликације Gemini

Одувек смо видели потенцијал да уз вештачку интелигенцију информације и рачунарство постану доступнији и кориснији људима. Остварили смо пионирске помаке у развоју великих језичких модела и сведочимо великом напретку како у оквиру Google-а, тако и у овој области у ширем смислу. Већ неколико година примењујемо велике језичке моделе у позадини како бисмо побољшали многе наше производе, као што су аутоматско довршавање реченица у Gmail-у, проширивање Google преводиоца и боље разумевање упита у Google претрази. И даље користимо велике језичке моделе у бројним Google услугама, али и као основу за апликацију Gemini, која омогућава људима директну сарадњу са генеративном вештачком интелигенцијом. Желимо да апликација Gemini буде најкориснији и најперсонализованији AI помоћник, који корисницима пружа директан приступ најновијим Google AI моделима.

Иако се налазимо на важној прекретници и охрабрени смо широким узбуђењем око генеративне вештачке интелигенције, ова технологија је и даље у својим раним фазама. Ово објашњење представља наш приступ раду на апликацији Gemini („Gemini“), укључујући доживљај на мобилним уређајима и веб-доживљај — шта је, како ради и које су њене тренутне могућности и ограничења. Наш приступ развоју апликације Gemini ће напредовати упоредо са напредовањем технологије на којој се заснива, као и кроз сазнања стечена актуелним истраживањима, искуством и повратним информацијама корисника.

Шта је Gemini

Gemini је интерфејс ка мултимодалном великом језичком моделу (који обрађује текст, звук, слике и друго). Gemini се заснива на најсавременијим истраживањима Google-а у области великих језичких модела, која су започела радом Word2Vec из 2013, где су предложене нове архитектуре модела које мапирају речи као математичке концепте, а настављена су увођењем неуронског конверзацијског модела 2015. Овај оквир је показао како модели могу да предвиђају наредну реченицу у разговору на основу претходне реченице или реченица, што је довело до природнијег конверзацијског доживљаја. Уследио је наш револуционарни рад на Transformer-у 2017. и могућностима вишеструке размене у четовима 2020, који су показали још импресивнији напредак генеративног језика.

У марту 2023. смо иницијално покренули Gemini (који се тада звао Bard) као експеримент, у складу са нашим принципима вештачке интелигенције. Од тада се корисници ослањају на Gemini за писање важних имејлова, решавање сложених проблема са кодирањем, осмишљавање идеја за предстојеће догађаје, разумевање компликованих концепата и друго. Данас је Gemini свестрана AI алатка која може да вам помогне на различите начине. Већ видимо како Gemini помаже људима да буду продуктивнији, креативнији и радозналији, а редовно додајемо нове функције и иновације.

Продуктивност

Пре свега, Gemini може да вам уштеди време. На пример, ако желите да добијете резиме дугачког истраживачког документа, Gemini вам омогућава да га отпремите и добијете користан резиме. Gemini такође може да помогне при кодирању, које је веома брзо постало једна од његових најпопуларнијих примена.

Креативност

Gemini може да вам помогне у реализацији идеја и подстакне вашу креативност. На пример, ако пишете пост на блогу, Gemini може да направи структуру и генерише слике које ће помоћи у илустровању текста. А ускоро, уз Gem-ове, моћи ћете да прилагодите Gemini помоћу конкретних упутстава и омогућите му да делује као стручњак за одређену област, како би вам помогао у остваривању личних циљева.

Радозналост

Gemini може да послужи као полазна тачка за истраживање идеја и тема о којима желите да сазнате више. На пример, може једноставно да објасни сложен концепт или издвоји релевантне увиде о некој теми или слици. А ускоро ће ове увиде упаривати са препорученим садржајем са интернета, како бисте могли да сазнате више о одређеним темама.

Могућности Gemini-ја се брзо шире — ускоро ћете моћи да усмерите камеру телефона ка неком објекту, рецимо ка мосту Голден Гејт, и затражите од Gemini-ја да вам каже које је боје (ако се питате, одговор је „међународна наранџаста“). Такође ћете моћи да затражите од Gemini-ја да вам помогне да се снађете са јеловником ресторана на другом језику и препоручи јело које ће вам се вероватно свидети. Ово су само два примера нових могућности које ускоро стижу у Gemini.

Наравно, темељно обучавамо и надзиремо Gemini како би његови одговори били поуздани и усклађени са вашим очекивањима. Такође разговарамо са стручњацима из делатности, едукаторима, доносиоцима закона, пословним лидерима, борцима за грађанска и људска права, као и ауторима садржаја, како бисмо заједно истражили нове примене, ризике и ограничења ове технологије у развоју.

Како функционише Gemini

1

Уводна обука

2

Додатна обука

3

Одговори на упите корисника

4

Повратне информације и процена од стране људи

Позната ограничења интерфејса заснованог на великом језичком моделу, као што је Gemini

Gemini је само један део наше сталне посвећености одговорном развоју великих језичких модела. Током овог рада открили смо и дискутовали о неколико ограничења повезаних са великим језичким моделима. Овде се фокусирамо на шест области текућих истраживања:

  • Тачност: одговори Gemini-ја могу да буду нетачни, нарочито када се односе на сложене или чињеничне теме.

  • Пристрасност: одговори Gemini-ја могу да одражавају пристрасности у подацима на којима је модел обучаван.

  • Различите перспективе: одговори Gemini-ја можда неће представити читав спектар ставова.

  • Личност: одговори Gemini-ја могу погрешно да сугеришу да има лична мишљења или осећања.

  • Лажно позитивни и лажно негативни резултати: Gemini можда неће одговорити на неке прикладне упите, а на друге може да пружи неприкладне одговоре.

  • Рањивост на непријатељске упите: корисници ће проналазити начине да тестирају границе Gemini-ја неразумљивим упитима или питањима која се ретко постављају у стварном свету.

Настављамо да истражујемо нове приступе и области у циљу побољшања перформанси у свакој од ових категорија.

Тачност

Gemini се заснива на Google-овом разумевању релевантних и поузданих информација и обучен је да генерише одговоре који су у складу са контекстом упита и оним што тражите. Али, као и сви велики језички модели, Gemini понекад може уверљиво и са сигурношћу да генерише одговоре који садрже нетачне или обмањујуће информације.

Пошто велики језички модели функционишу тако што предвиђају наредну реч или низ речи, још увек нису у потпуности способни да самостално разликују тачне од нетачних информација. Приметили смо да Gemini понекад пружа одговоре који садрже нетачне информације или их чак измишља (нпр. лажно представља начин на који је обучен или наводи назив књиге која не постоји). Као одговор на то, креирали смо функције попут „провере“, која користи Google претрагу како би пронашла садржај који вам помаже да процените одговоре Gemini-ја и наводи линкове ка изворима који могу да вам помогну да потврдите добијене информације.

Пристрасност

Подаци за обуку, укључујући оне из јавно доступних извора, одражавају разноликост ставова и мишљења. Настављамо да истражујемо како да користимо ове податке на начин који обезбеђује да одговор великог језичког модела обухвати широк спектар ставова, уз минимизовање нетачних генерализација и пристрасности.

Недостаци, пристрасности и претеране генерализације у подацима за обуку могу да се одразе на резултате модела док покушава да предвиди највероватније одговоре на упит. Ови проблеми се манифестују на више начина (нпр. одговори који одражавају само једну културу или демографску групу, позивање на проблематичне генерализације, испољавање родне, верске или етничке пристрасности, односно промовисање само једног става). За неке теме постоје празнине у подацима — другим речима, нема довољно поузданих информација о датој теми на основу којих би велики језички модел могао да учи и прави поуздана предвиђања — што може да доведе до неквалитетних или нетачних одговора. Настављамо да сарађујемо са стручњацима из различитих области и разноликим заједницама како бисмо искористили стручно знање ван Google-а.

Различите перспективе

Када је реч о субјективним темама, Gemini је дизајниран тако да корисницима пружи више перспектива, ако не затраже одређено становиште. На пример, ако се затражи информација о нечему што не може да се провери путем примарних извора или поузданих података — као што је субјективно мишљење о „најбољем“ или „најгорем“ — Gemini би требало да одговори на начин који одражава широк спектар ставова. Пошто се велики језички модели попут Gemini-ја обучавају на садржају који је јавно доступан на интернету, могу да одражавају позитивне или негативне ставове о појединим политичарима, славним личностима или другим јавним личностима, па чак и да усвајају ставове само једне стране у контроверзним друштвеним или политичким питањима. Gemini не би требало да одговара на начин који подржава одређено становиште о овим темама, а повратне информације на овакве одговоре користићемо за унапређење начина на који се оне обрађују.

Личност

Gemini понекад може да генерише одговоре који изгледају као да изражавају мишљења или осећања, попут љубави или туге, јер је обучаван на језику који људи користе да би описали људски доживљај. Развили смо скуп смерница о томе како би Gemini требало да представља себе (тј. своју „личност“) и настављамо са дорађивањем модела како би пружао објективне одговоре.

Лажно позитивни и лажно негативни резултати

Утврдили смо скуп смерница како бисмо помогли у обуци Gemini-ја и избегли генерисање проблематичних одговора. Gemini понекад може погрешно да протумачи ове смернице, што доводи до „лажно позитивних“ и „лажно негативних“ резултата. У случају „лажно позитивног“ одговора, Gemini можда неће пружити одговор на разумно формулисан упит ако га погрешно протумачи као неприкладан, док у случају „лажно негативног“ може да генерише неприкладан одговор, иако постоје смернице. Понекад појављивање лажно позитивних или лажно негативних резултата може да остави утисак да је Gemini пристрасан. На пример, лажно позитиван резултат може да доведе до тога да Gemini не одговори на питање о једној страни одређене проблематике, док ће на исто такво питање о другој страни дати одговор. Настављамо да прилагођавамо ове моделе како би боље разумели и категорисали улазне и излазне податке, с обзиром на брз развој језика, догађаја и друштва.

Рањивост на непријатељске упите

Очекујемо да ће корисници тестирати границе могућности Gemini-ја и покушавати да заобиђу његове заштитне механизме — укључујући покушаје да открију информације о протоколима обуке или друге детаље, као и да заобиђу мере безбедности. Темељно смо тестирали Gemini и настављамо да га тестирамо, али знамо да ће корисници пронаћи јединствене и сложене начине да га додатно стављају на пробу. Ово је важан део унапређивања Gemini-ја и жељно ишчекујемо нове упите које ће корисници осмислити. Од покретања Gemini-ја 2023, приметили смо да га корисници тестирају упитима који се крећу од филозофских до потпуно бесмислених, а у неким случајевима, видели смо да и сами одговори могу да буду једнако бесмислени или неусаглашени са нашим званичним приступом. Kако да Gemini одговарајуће одговори на овакве врсте упита остаје стални изазов, и настављамо да ширимо интерне процене и тестирања помоћу „црвених тимова“ како бисмо континуирано унапређивали тачност, објективност и слојевитост одговора.

Како настављамо да развијамо Gemini

Примена нашег приступа Gemini-ју

Уз принципе вештачке интелигенције, недавно смо представили и наш приступ раду на Gemini-ју: Gemini треба да прати упутства, прилагоди се вашим потребама и пружи безбедно корисничко искуство. Срж нашег приступа је у одговорности и безбедности. Gemini-јеве смернице имају за циљ да избегну одређене врсте проблематичних одговора. Спроводимо континуирано тестирање кроз симулације непријатeљских упита помоћу интерног „црвеног тима“. Њега чине стручњаци за производе и друштвени научници који наменски тестирају модел како би открили потенцијалне проблеме усклађености са овим смерницама и нашом визијом развоја Gemini-ја. На основу тих сазнања, унапређујемо модел и континуирано радимо на његовом побољшању.

Приватност је такође један од кључних аспеката у развоју Gemini-ја. Центар за приватност Gemini апликација садржи више информација о томе како развијамо Gemini према принципу осмишљене приватности, при чему је контрола у вашим рукама.

Омогућавање контроле корисницима и објављивачима

Направили смо различите и лако доступне контроле за кориснике Gemini-ја помоћу којих можете да прегледате, ажурирате, извозите и избришете податке, као и да управљате њима. Својим упитима, одговорима и повратним информацијама за Gemini можете да приступите и да их прегледате преко контроле Активности у Gemini апликацијама. Поред тога, можете да спречите да се ваши будући Gemini четови користе за унапређење Google технологија машинског учења тако што ћете искључити подешавање Активности у Gemini апликацијама. Као и код других Google услуга, можете да преузмете и извезете своје податке помоћу Google алатке Архивирање. Такође имамо контроле које вам омогућавају да управљате јавним линковима које сте направили за Gemini конверзације, као и контроле за укључивање или искључивање приступа додацима (нпр. Workspace, Мапе, YouTube). Истражујемо и нове начине да вам пружимо већу контролу над одговорима Gemini-ја, укључујући подешавање филтера ради омогућавања ширег спектра одговора.

За објављиваче смо покренули Google-Extended, контролу коју веб-објављивачи могу да користе да би управљали тиме да ли њихови сајтови помажу у унапређивању Gemini-ја и генеративних API-ја у оквиру Vertex AI-ја. Омогућавање приступа контроли Google-Extended за садржај сајтова може да помогне моделима вештачке интелигенције да временом постану прецизнији и способнији. Поред тога што се садржај са URL-ова за које је онемогућено коришћење неће користити за обуку модела, Gemini такав садржај неће користити ни за утемељавање. Како се примене вештачке интелигенције шире, веб-објављивачи ће се суочавати са све већом сложеношћу управљања различитим начинима коришћења у великом обиму. Посвећени смо сарадњи са веб и AI заједницама у тражењу нових, машински читљивих начина за остваривање избора и контроле.

Improving Gemini together

Верујемо у брзе итерације и желимо да понудимо најбољу верзију Gemini-ја. Повратне информације корисника убрзале су унапређења наших модела. На пример, користимо најсавременије технике учења путем појачања како бисмо обучили наше моделе да буду интуитивнији и креативнији, као и да пружају још квалитетније и прецизније одговоре. Настављамо да улажемо у истраживања како бисмо боље разумели техничке, друштвене и етичке изазове и могућности великих језичких модела – како ради унапређења техника обуке и финог подешавања Gemini модела, тако и ради дељења сазнања са истраживачима, као што је приказано у недавно објављеном раду Етика напредних AI помоћника. Посвећени смо одговорним иновацијама у овој области, кроз сарадњу са корисницима, поузданим тестерима и истраживачима, како бисмо пронашли начине да ова нова технологија донесе корист целом екосистему.

Транспарентност је важна и посвећени смо томе да будемо отворени у погледу процеса развоја Gemini-ја и његових ограничења. Gemini није магична црна кутија, већ се стално развија и наставићемо да делимо новости о нашем напретку. Покренули смо страницу Новости о верзији где можете да пратите најновије функције, унапређења и исправке грешака у оквиру Gemini-ја, а овај преглед ћемо ажурирати по потреби. Идентификоваћемо и области у којима је Gemini користан и помаже, као и оне у којима треба да наставимо са унапређењима и побољшањима. Активно уводимо нове могућности, а кроз континуирана истраживања, тестирања и повратне информације корисника, радујемо се заједничком унапређивању Gemini-ја.

Признања

Захвални смо на изванредном раду наших колега из тима за апликацију Gemini, Google DeepMind-а, Trust & Safety тима и Google истраживања.

Аутор

Џејмс Маника
виши потпредседник за истраживање, технологију и друштво

Сиси Хсијао
потпредседница и генерална директорка, Google помоћник и апликација Gemini

Напомена уредника

Ово је активан документ који ће се периодично ажурирати како настављамо да убрзано унапређујемо могућности апликације Gemini и бавимо се ограничењима која су својствена великим језичким моделима. Овај преглед је последњи пут ажуриран 25. јула 2024. За најновије информације о апликацији Gemini, посетите Новости о верзији или прочитајте више на блогу Google Keyword.

Како функционише Gemini

1 Уводна обука

Gemini покрећу Google-ови најспособнији модели вештачке интелигенције, дизајнирани са различитим могућностима и наменама. Као и већина великих језичких модела данас, ови модели су претходно обучени на разноврсним подацима из јавно доступних извора. Примењујемо филтере квалитета на све скупове података и користимо хеуристичка правила и класификаторе засноване на моделима. Такође спроводимо безбедносно филтрирање ради уклањања садржаја који би могао да доведе до генерисања резултата који крше смернице. Ради очувања интегритета евалуације модела, пре него што користимо податке за обуку, претражујемо и уклањамо све евалуационе податке који су можда били део корпуса за обуку. Коначне комбинације података и учесталост приказивања одређују се кроз аблационе анализе на мањим моделима. Обуку спроводимо у фазама како бисмо мењали састав комбинација током процеса – повећавајући учесталост приказивања података који су релевантни за домен пред крај обуке. Квалитет података може да буде важан фактор за високе перформансе модела, и сматрамо да и даље постоји много занимљивих питања у вези са проналажењем оптималне дистрибуције скупова података за уводну обуку.

Ова обука омогућава да модел научи да разуме обрасце у језику и да их користи како би предвидео следећу вероватну реч или речи у низу. На пример, када велики језички модел учи, он може да предвиди да је наредна реч у фрази „кикирики путер и ___“ вероватније „џем“ него „пертла“. Међутим, ако модел увек бира само највероватнију наредну реч, то ће довести до мање креативних одговора. Према томе, често је неопходно да велики језички модели буду флексибилни при избору разумних, иако нешто мање вероватних, избора (нпр. „банана“) да би се генерисали интересантнији одговори. Вреди напоменути да, иако велики језички модели могу добро да одговоре на чињеничне упите и оставе утисак да „проналазе“ информације, они нису базе података нити детерминистички системи за преузимање информација. Дакле, иако можете да очекујете доследан одговор на упит за базу података (који представља дословно проналажење унапред сачуваних информација у бази података), одговор великог језичког модела на исти упит неће нужно бити исти сваки пут (нити ће дословно „преузети“ информацију на којој је обучаван). Ово је такође важан разлог зашто велики језички модели могу да генеришу одговоре који звуче уверљиво, али понекад садрже чињеничне грешке — што није идеално када је тачност кључна, али може да буде корисно при генерисању креативних или неочекиваних исхода.

2 Додатна обука

После уводне обуке, велики језички модели пролазе кроз додатне кораке ради прецизирања одговора. Један од тих корака је такозвано надгледано прецизно подешавање (SFT), током ког се модел обучава на пажљиво одабраним примерима квалитетних одговора. То је као када учимо децу да пишу показујући им добро написане приче и саставе.

Затим долази појачано учење из људских повратних информација (RLHF). У овој фази модел учи да генерише још боље одговоре на основу оцена или повратних информација које добија од посебног модела за награђивање. Овај модел за награђивање се обучава на основу података о људским преференцама, где су одговори оцењивани у односу један на други, чиме се модел учи шта људи преферирају. Подаци о преференцама понекад могу да садрже и увредљив или нетачан садржај како би модели научили да га препознају и избегавају. Податке о преференцама можете да замислите као награђивање детета за добро обављен задатак — модел добија „награду“ када генерише одговоре који се допадају људима.

Важно је да се током свих ових фаза користе квалитетни подаци за обуку. Примери који се користе за SFT обично су или написани од стране стручњака, или их је генерисао модел, па су потом прегледани од стране стручњака.

Иако су ове технике моћне, имају своја ограничења. На пример, чак и помоћу модела за награђивање, пружени одговор није увек савршен. Ипак, велики језички модел је оптимизован да генерише одговоре који су најшире прихваћени, на основу повратних информација које добија — слично као што ученици уче из коментара својих наставника.

3 Одговори на упите корисника

Генерисање одговора је слично начину на који би човек размишљао о различитим приступима одговарању на неко питање. Када корисник унесe упит, Gemini користи додатно обучени велики језички модел, контекст из самог упита и интеракцију са корисником како би припремио неколико верзија одговора. Такође се ослања на спољне изворе као што су Google претрага и/или један од њених бројних додатака, као и на недавно отпремљене фајлове (само у Gemini Advanced верзији) како би генерисао одговоре. Овај процес је познат као побољшавање уз преузимање. На основу упита, Gemini настоји да преузме најрелевантније информације из ових спољних извора (нпр. Google претраге) и да их прецизно представи у одговору. Побољшавање великих језичких модела спољним алаткама представља активно поље истраживања. Постоји више начина на које могу да се уведу грешке, укључујући упит који Gemini користи за покретање спољних алатки, начин на који тумачи резултате које те алатке приказују, као и начин на који се ти резултати користе при генерисању коначног одговора. Због тога, одговори које генерише Gemini не би требало да се посматрају као одраз перформанси појединачних алатки које су коришћенe при прављењу тог одговора.

На крају, пре него што се прикаже коначан одговор, сваки потенцијални одговор пролази кроз безбедносну проверу како би се осигурало да је у складу са унапред дефинисаним смерницама. Овај процес служи као додатна провера ради филтрирања штетних или увредљивих информација. Преостали одговори се затим рангирају на основу квалитета, а верзије са највишом оценом се приказују кориснику.

Такође водимо рачуна о обележавању текстуалних и визуелних резултата које генерише Gemini помоћу SynthID-а — водеће дигиталне алатке за водени жиг садржаја који је генерисао AI. Код генерисаних слика, SynthID додаје дигитални водени жиг (који је невидљив људском оку) директно у пикселе. SynthID је важан темељ за развој поузданијих алатки за идентификацију садржаја који је генерисао AI и може да помогне људима да донесу утемељене одлуке о томе како приступају таквом садржају.

4 Повратне информације и евалуација од стране људи

Чак и уз безбедносне провере, могуће је да дође до одређених грешака. Одговори које пружа Gemini можда неће увек у потпуности испунити ваша очекивања. Зато важну улогу имају повратне информације људи. Оцењивачи процењују квалитет одговора, идентификују области које треба да се унапреде и предлажу решења. Ове повратне информације постају део процеса учења модела Gemini, описаног у одељку „Додатна обука“ изнад.