Skip to main content

Gemini uygulamasına genel bakış

Yapay zekanın, bilgileri ve bilgisayar teknolojilerini kullanıcılar açısından daha erişilebilir ve faydalı hale getirme potansiyeli olduğunu uzun zamandır görüyoruz. Büyük dil modelleriyle (LLM) ilgili önemli gelişmeler yaşadık ve hem Google'da hem de genel olarak bu alanda büyük ilerlemeler kaydettik. Birkaç yıldır Gmail'de cümleleri otomatik tamamlama, Google Çeviri'nin kapsamını genişletme ve Google Arama'daki sorguları daha iyi anlamamıza yardımcı olma gibi birçok ürün geliştirme çalışmamızda arka planda LLM'lerden yararlandık. LLM'leri pek çok Google hizmetinin yanı sıra kullanıcıların üretken yapay zekayla doğrudan ortak çalışma yapmasını sağlayan Gemini uygulamasını desteklemek için de kullanmaya devam ediyoruz. Gemini uygulamasının, kullanıcıların Google'a ait en yeni yapay zeka modellerine doğrudan erişmesini sağlayarak en faydalı ve kişisel yapay zeka asistanı olmasını istiyoruz.

Üretken yapay zeka çözümlerini heyecanla karşılayanların sayısının arttığı önemli bir dönüm noktasındayız. Bu bize cesaret veriyor ama bu teknolojinin henüz erken aşamalarında olduğumuzu da biliyoruz. Kullanıcıları bilgilendirmeyi amaçlayan bu yazıda, Gemini'ın mobil ve web uygulamalarıyla ilgili çalışmalarımızda benimsediğimiz yaklaşımlardan, uygulamanın tanımından, işleyiş şeklinden, mevcut özelliklerinden ve karşılaştığı kısıtlamalardan bahsetmek istiyoruz. Gemini'ı geliştirme yaklaşımımız; temelindeki teknoloji geliştikçe ve devam eden araştırmalar, deneyimler ve kullanıcı geri bildirimlerinden daha fazla şey öğrendikçe daha da iyi hale gelecektir.

Gemini nedir?

Gemini, metin, ses, görüntü ve diğer öğeleri işleyebilen çok formatlı bir LLM'nin arayüzüdür. Gemini, Google'ın LLM'lerdeki son teknoloji araştırmalarına dayanmaktadır. Bu araştırmalar, 2013'te kelimelerin matematik kavramları olarak eşleştirildiği yeni model mimarileri öneren Word2Vec makalesi ile başladı ve 2015'te etkileşimli nöral modelin sunulmasıyla devam etti. Bu çerçeve, modellerin bir sohbette sonraki cümleyi tahmin etmek için önceki cümle veya cümleleri kullanarak daha doğal sohbet deneyimleri oluşturabileceğini gösterdi. Ardından 2017'de Transformer ile ilgili çığır açan çalışmamız yapıldı ve 2020'de çok aşamalı sohbet özellikleri sunuldu. Tüm bunlar daha da ilgi çekici bir üretken dil gelişimine yol açtı.

Gemini'ı (o zamanki adıyla Bard) ilk olarak Mart 2023'te Yapay Zeka İlkelerimiz doğrultusunda deneysel bir çalışma olarak sunduk. Kullanıcılar o tarihten itibaren ilgi çekici e-postalar yazma, zor kodlama hatalarını ayıklama, yaklaşan etkinlikler için beyin fırtınası yapma ve zorlu kavramları öğrenme gibi pek çok konuda Gemini'dan yardım aldı. Günümüzde Gemini birçok konuda yardımınıza koşabilecek çok yönlü bir yapay zeka aracı haline gelmiş durumda. Halihazırda kullanıcıların daha üretken, yaratıcı ve meraklı olmalarını sağlayan Gemini'a düzenli olarak yeni işlevler ve yenilikler ekliyoruz.

Verimlilik

Öncelikle Gemini size zaman kazandırabilir. Örneğin, uzun bir araştırma belgesini özetlemek istediğinizi varsayalım. Bu belgeyi Gemini'a yüklediğinizde size faydalı bir sentez oluşturabilir. Gemini aynı zamanda kodlama görevlerinde de yardımcı olabilir. Hatta kodlama, çok hızlı bir şekilde en popüler uygulamalarından biri oldu.

Yaratıcılık

Gemini, fikirlerinizi hayata geçirmenize ve yaratıcılığınızı artırmanıza da yardımcı olabilir. Örneğin, blog yayını yazarken Gemini taslak oluşturup yazınızın temasını yansıtan görüntüler üretebilir. Ayrıca yakında Gem'leri kullanarak Gemini'ı belirli talimatlarla özelleştirebilecek ve kişisel hedeflerinize ulaşmanıza yardımcı olması için belirli bir konunun uzmanı olarak hareket etmesini isteyebileceksiniz.

Merak

Gemini, fikirlerinizi geliştirmek ve öğrenmek istediğiniz konuları keşfetmek için kullanabileceğiniz bir başlangıç noktası olabilir. Örneğin, karmaşık kavramları basit ifadelerle açıklayabilir veya bir konu ya da görüntüyle ilgili alakalı analizler sunabilir. Yakında belirli konularla ilgili daha fazla şey öğrenmeniz için bu analizleri, web'deki önerilen içeriklerle de eşleştirecek.

Gemini'ın özelliklerine sürekli yenileri ekleniyor. Yakında telefonunuzun kamerasını bir nesneye, örneğin Golden Gate Köprüsü'ne doğrultup Gemini'dan köprünün hangi renk olduğunu söylemesini isteyebileceksiniz (merak ettiyseniz cevap "enternasyonal turuncu"). Ayrıca, Gemini'dan başka bir dildeki restoran menüsünü anlamanıza yardımcı olmasını ve beğeneceğinizi düşündüğü bir yemeği önermesini isteyebileceksiniz. Bunlar Gemini'a çok yakında eklenecek yeni özelliklerden yalnızca ikisi.

Elbette Gemini'ı sıkı eğitimlerden geçiriyor ve sürekli izliyoruz. Böylece, yanıtlarının güvenilir ve beklentilerinize uygun olmasını sağlıyoruz. Aynı zamanda sektör uzmanları, eğitimciler, politika yapıcılar, iş dünyasındaki liderler, vatandaşlık ve insan hakları liderleri ve içerik üreticilerle de görüşerek gelişmekte olan bu teknolojinin yeni uygulamaları, riskleri ve sınırlamalarını araştırıyoruz.

Gemini'ın işleyiş şekli

1

Ön eğitim

2

Son eğitim

3

Kullanıcı istemlerine verilen yanıtlar

4

Gerçek kişilerin sağladığı geri bildirimler ve değerlendirmeler

Gemini gibi LLM tabanlı arayüzlerin bilinen sınırlamaları

LLM'leri sorumlu bir şekilde geliştirme çalışmalarımız Gemini ile sınırlı değil. Bu alandaki çalışmalarımızda LLM'lerle ilişkili bazı sınırlamaları keşfedip tartıştık. Bu makalede, devam eden araştırmadaki altı alana odaklanacağız:

  • Doğruluk: Gemini, özellikle karmaşık veya olgusal konularla ilgili sorulara yanlış yanıt verebilir.

  • Önyargı: Gemini'ın yanıtları, eğitim verilerindeki önyargıları yansıtabilir.

  • Farklı bakış açıları: Gemini'ın yanıtları, farklı bakış açılarını gösterme konusunda başarısız olabilir.

  • Karakter: Gemini'ın verdiği yanıtlar, kişisel görüşleri veya duyguları olduğu yanılgısına neden olabilir.

  • Yanlış pozitif ve yanlış negatif: Gemini, bazı makul istemlere yanıt vermezken bazılarına uygunsuz yanıtlar verebilir.

  • Yanıltıcı istemlere karşı savunmasızlık:: Kullanıcılar, Gemini'ı anlamsız istemler veya gerçek dünyada pek kullanılmayan sorularla daha fazla zorlayacak yollar bulabilir.

Bu alanların her birinde performansı artırmak için yeni yaklaşımlar ve alanlar bulmaya devam ediyoruz.

Doğruluk

Gemini, Google'ın güvenilir bilgi anlayışına dayalı olarak geliştirilmiş ve hem isteminizin bağlamıyla ilgili hem de aradığınız şeylere uygun yanıtlar üretecek şekilde eğitilmiştir. Bununla birlikte tüm LLM'ler gibi Gemini da bazen kendinden emin ve ikna edici bir şekilde yanlış ya da yanıltıcı bilgiler içeren yanıtlar üretebilir.

LLM'ler bir sonraki kelimeyi veya kelime dizilerini tahmin ederek çalıştığından doğru ve yanlış bilgileri kendi başına ayırt etme yeteneğine henüz tam anlamıyla sahip değildir. Gemini'ın yanlış bilgi içeren ve hatta bilgi uydurduğu yanıtlar verdiğini gördük (ör. eğitilme şeklini yanlış yansıtması veya var olmayan bir kitabı önermesi). Bu sorunları ele almak için "doğrulama" gibi özellikler geliştirdik. "Doğrulama" özelliği, Google Arama'yı kullanarak Gemini'ın yanıtlarını değerlendirmenize yardımcı olacak içerikler bulur ve Gemini'dan aldığınız bilgileri doğrulamanıza yardımcı olacak kaynakların bağlantılarını verir.

Önyargı

Herkese açık kaynaklardan alınanlar da dahil olmak üzere eğitim verileri, çeşitli bakış açılarını ve görüşleri yansıtır. Bu verileri, LLM'nin yanıtında çok çeşitli bakış açıları olmasını sağlarken hatalı bir şekilde aşırı genelleme yapmasına ve önyargılı yanıtlar vermesine mümkün olduğunda engel olacak şekilde nasıl kullanacağımızı araştırmaya devam ediyoruz.

Eğitim verilerindeki eksikler, önyargılar ve aşırı genellemeler bir modelin, istemin olası yanıtlarını tahmin etmeye çalışırken oluşturduğu çıkışlara yansıyabilir. Bu sorunların çeşitli şekillerde ortaya çıktığını görüyoruz (ör. yalnızca bir kültürü veya demografik grubu yansıtan, sorunlu kabul edilen aşırı genellemelere atıfta bulunan; cinsiyet, din veya etnik önyargılarda bulunan veya yalnızca tek bir bakış açısını öne çıkaran yanıtlar). Bazı konularda ise veri boşlukları bulunur. Başka bir deyişle, LLM'nin belirli bir konuyu öğrenebileceği ve iyi tahminlerde bulunabileceği yeterli miktarda güvenilir bilgi yoktur. Bu da düşük kaliteli veya yanlış yanıtlar göstermesine neden olabilir. Sadece Google'daki uzmanlarla değil, alanında uzman kişiler ve farklı toplulukların temsilcileriyle de çalışmaya devam ediyoruz.

Farklı bakış açıları

Gemini, öznel konularda kullanıcı belirli bir bakış açısı talep etmediği sürece birden fazla bakış açısı sunacak şekilde tasarlanmıştır. Örneğin Gemini, kendisinden birincil kaynaktaki gerçekler veya yetkili kaynaklar tarafından doğrulanamayan bir konuyla ilgili bilgi istendiğinde (ör. bir şeyin "en iyisi" veya "en kötüsü" hakkındaki öznel görüş) çok farklı bakış açılarını yansıtacak şekilde yanıt vermelidir. Bununla birlikte, Gemini gibi LLM'ler internetteki herkese açık içeriklerle eğitildiğinden belirli politikacılar, ünlüler veya diğer tanınmış kişilere dair olumlu veya olumsuz görüşleri yansıtabilir, hatta tartışmalı sosyal veya politik konularla ilgili sadece tek bir tarafın görüşlerini sunabilir. Gemini bu konularda belirli bir bakış açısını destekleyecek şekilde yanıt vermemelidir. Bu tür yanıtlarla ilgili geri bildirimleri ise Gemini'ı bunları daha iyi ele alacak şekilde eğitme amacıyla kullanırız.

Karakter

Gemini, insan deneyimini yansıtan bir dil kullanılarak eğitildiği için zaman zaman kendi görüşleri veya sevgi ve üzüntü gibi duyguları varmış gibi yanıtlar üretebilir. Gemini'ın kendini ifade etme şekline (yani karakterine) dair bir dizi yönerge geliştirdik ve modeli, objektif yanıtlar verecek şekilde ayarlamaya devam ediyoruz.

Yanlış pozitif/negatif

Gemini'ı eğitmek ve sorunlu yanıtlar üretmesini önlemek için bir dizi politika yönergesi oluşturduk. Gemini bazen bu yönergeleri yanlış yorumlayarak "yanlış pozitifler" ve "yanlış negatifler" üretebilir. Gemini, "yanlış pozitif" durumunda makul bir istemi yanlışlıkla uygunsuz olarak yorumlayıp yanıt vermeyebilir. "Yanlış negatif" durumunda ise geçerli yönergelere rağmen uygunsuz bir yanıt üretebilir. Bazen yanlış pozitiflerin veya yanlış negatiflerin ortaya çıkması Gemini'ın önyargılı olduğu izlenimini verebilir. Örneğin yanlış pozitif, Gemini'ın konunun belirli bir tarafıyla ilgili soruya yanıt vermemesine, ancak başka tarafıyla ilgili aynı soruya yanıt vermesine neden olabilir. Dil, olaylar ve toplum hızlı bir şekilde geliştiğinden bu modelleri, girişleri ve çıkışları daha iyi anlayıp kategorilere ayıracak şekilde ayarlamaya devam ediyoruz.

Yanıltıcı istemlere karşı savunmasızlık

Kullanıcıların, Gemini'ın yapabileceklerinin sınırlarını test etmelerini ve korumalarını aşmaya çalışmalarını bekliyoruz. Örneğin kullanıcılar, eğitim protokollerini veya diğer bilgileri ifşa etmeye ya da güvenlik mekanizmalarını atlatmaya çalışabilir. Gemini'ı titizlikle test ettik ve etmeye devam ediyoruz, ancak kullanıcıların daha fazla stres testi yapacak benzersiz ve karmaşık yollar bulacağını biliyoruz. Bu, Gemini'ı geliştirme sürecinin önemli bir parçası olduğundan kullanıcıların bulduğu yeni istemleri görmek için sabırsızlanıyoruz. Gerçekten de 2023'te kullanılmaya başladığından beri kullanıcıların Gemini'ı felsefi sorulardan gerçekten anlamsız olanlara kadar çeşitli istemlerle test ettiğini gördük. Bazı durumlarda Gemini aynı derecede anlamsız olan veya belirttiğimiz yaklaşıma uygun olmayan cevaplarla karşılık verdi. Yaşadığımız güncel zorluklardan biri, Gemini'ın bu tür istemlere yanıt vermesine yardımcı olacak yöntemler bulmaktır. Bu nedenle doğruluk, objektiflik ve nüans konularını sürekli geliştirmek için daha fazla şirket içi değerlendirme ve kırmızı takım çalışması yapmaya devam ettik.

Gemini'ı geliştirmeye nasıl devam ediyoruz?

Gemini yaklaşımımızın uygulanması

Yapay Zeka İlkelerimizle birlikte yakın zamanda Gemini çalışmalarımızla ilgili yaklaşımımızı açıkladık: Gemini'ın talimatlarınızı uygulaması, ihtiyaçlarınıza uyum sağlaması ve deneyimlerinizi koruması gerekir. Yaklaşımımızın temelleri sorumlu davranmaya ve güvenliğe dayanıyor. Gemini'ın politika yönergeleri belirli türdeki sorunlu çıkışların önlenmesini amaçlar. Öğrendiklerimizi uygulamak ve Gemini'ı sürekli geliştirmek için şirket içindeki "kırmızı takım" üyeleriyle yanıltıcı testler yapmaya devam ediyoruz. Bu kişiler, bir modele kasıtlı olarak stres testi yaparak bu politika yönergeleriyle ve Gemini ile ilgili stratejimizle uyum sorunlarını araştıran ürün uzmanları ve sosyal bilimcilerdir.

Gemini'ı geliştirme sürecimizde gizlilik de önemli bir konudur. Gemini Uygulamaları Gizlilik Merkezi, Gemini'ı nasıl tasarımdan başlayan gizlilik anlayışıyla ve kontrolü size verecek şekilde geliştirdiğimiz hakkında daha fazla bilgi sunar.

Kullanıcı ve yayıncı kontrolünü etkinleştirme

Gemini verilerinizi incelemek, güncellemek, yönetmek, dışa aktarmak ve silmek için kolayca erişebileceğiniz çeşitli Gemini kullanıcı kontrolleri geliştirdik. Gemini Uygulamaları Etkinliği kontrolünü kullanarak Gemini istemleriniz, yanıtlarınız ve geri bildirimlerinize erişip bunları inceleyebilirsiniz. Ayrıca, Gemini Uygulamaları Etkinliği ayarını kapatarak Gemini ile gelecekteki etkileşimlerinizin, Google makine öğrenimi teknolojilerini geliştirmek için kullanılmasını önleyebilirsiniz. Diğer Google hizmetlerinde olduğu gibi, Google'ın Paket Servisi aracını kullanarak bilgilerinizi de indirebilir ve dışa aktarabilirsiniz. Gemini ileti dizilerinizin herkese açık bağlantılarını yönetebileceğiniz kontroller ve uzantılara (ör. Workspace, Haritalar, YouTube) erişimi açıp kapatabileceğiniz kontroller de bulunuyor. Bunların yanı sıra daha fazla yanıt görmek için filtre ayarlama gibi Gemini'ın yanıtlarıyla ilgili kontrolünüzü artıracak yeni yöntemleri de araştırıyoruz.

Yayıncılara yönelik olarak ise web yayıncılarının, sitelerinin Gemini ve Vertex AI üretken yapay zeka API'lerini iyileştirmeye yardımcı olup olmayacağını belirlemesini sağlayan bir kontrol olan Google-Extended'ı geliştirdik. Google-Extended'ın site içeriklerine erişmesine izin vermek, yapay zeka modellerinin zaman içinde daha doğru yanıtlar göstermesine ve daha yetenekli olmasına yardımcı olabilir. Devre dışı bırakılan URL'lerdeki içeriği model eğitimi için kullanmayan Gemini, bu tür içerikleri temellendirme amacıyla da kullanmaz. Yapay zeka uygulamalarının sayısı arttıkça web yayıncıları farklı kullanımları geniş ölçekte yönetmenin yaratacağı karmaşa nedeniyle zorlanabilir. Google olarak seçim ve kontrol konularında makine tarafından okunabilir daha fazla yaklaşım bulmak için web ve yapay zeka topluluklarıyla etkileşim kurmayı sürdüreceğiz.

Birlikte Gemini’ı daha iyi hale getiriyoruz

Modellerimizi hızla geliştirerek Gemini'ın en iyi özelliklerini tüm dünyaya sunmak istiyoruz. Kullanıcı geri bildirimleri, modellerimizin gelişimini hızlandırdı. Örneğin, modellerimizi daha sezgisel ve hayal gücü yüksek hale getirip daha kaliteli ve doğru yanıtlar vermesini sağlamak için son teknoloji destekli öğrenme tekniklerini kullanıyoruz. Gemini'ın model eğitimi ve ayarlama tekniklerini geliştirmek, ayrıca öğrendiklerimizi araştırmacılarla paylaşmak için Ethics of Advanced AI Assistants (Gelişmiş Yapay Zeka Asistanlarında Etik) başlıklı bu makale gibi araştırmalara yatırım yaparak LLM'lerin teknik, sosyal ve etik zorluklarının yanı sıra sunduğu fırsatlar hakkında daha fazla şey öğrenmeye devam ediyoruz. Bu alanda sorumluluk bilinciyle yenilik yaparken kullanıcılar, güvenilir test kullanıcıları ve araştırmacılarla birlikte çalışıp bu yeni teknolojinin tüm ekosisteme fayda sağlayacağı yollar bulmaya kararlıyız.

Şeffaflık önemli bir konu olduğu için Gemini'ın geliştirme süreci ve sınırlamaları konusunda açık davranmayı sürdüreceğiz. Gemini sihirli bir karakutu değildir ve sürekli gelişir. Biz de bu gelişmelerle ilgili güncellemeleri sizinle paylaşmaya devam edeceğiz. Gemini'ın en yeni özellikleri, güncellemeleri ve hata düzeltmelerini görebilmeniz için Sürüm Güncellemeleri sayfasını yayınladık ve bu genel bakışı da uygun şekilde güncelleyeceğiz. Gemini'ın işe yaradığı ve yardımcı olduğu noktaları belirlerken geliştirmemiz gereken yönlerini de tespit edeceğiz. Sürekli yeni özellikler ekliyoruz ve devam eden araştırmalar, testler ve kullanıcı geri bildirimleri sayesinde Gemini'ı birlikte daha da iyi hale getirmek için sabırsızlanıyoruz.

Teşekkür

Gemini uygulama ekibi, Google DeepMind, Politika Değerlendirme Ekibi ve Google Research'teki meslektaşlarımızı katkılarından dolayı kutluyor, teşekkürlerimizi sunuyoruz.

Yazan:

James Manyika
SVP, Research, Technology and Society

Sissie Hsiao
Vice President and General Manager, Google Asistan ve Gemini Uygulaması

Editör notu

Bu dinamik bir belge olduğu için Gemini uygulamasındaki özellikler hızla gelişmeye ve LLM'lerin doğası gereği sahip olduğu sınırlamaları ele almaya devam ettikçe düzenli olarak güncellenecektir. Bu genel bakış en son 25 Temmuz 2024 tarihinde güncellenmiştir. Gemini uygulamasıyla ilgili son güncellemeler için Sürüm Güncellemeleri günlüğünü ziyaret edin veya Google Keyword blogunu okuyun.

Gemini'ın işleyiş şekli

1 Ön eğitim

Gemini, Google'ın çeşitli özellikler ve kullanım alanları için tasarlanmış en yetenekli yapay zeka modelleriyle desteklenir. Günümüzdeki çoğu LLM (büyük dil modeli) gibi, bu modeller de herkese açık kaynaklardan elde edilen çeşitli verilerle önceden eğitilir. Veri kümelerinin tamamına, hem sezgisel kurallar hem de model tabanlı sınıflandırıcılar kullanarak kalite filtreleri uygularız. Ayrıca, politika ihlaline neden olan çıktılar üretebilecek içerikleri kaldırmak için güvenlik filtrelerinden de yararlanırız. Verileri eğitim amaçlı kullanmadan önce model değerlendirmelerinin doğruluğunu korumak için eğitim kitaplığımızda bulunan tüm değerlendirme verilerini arayıp kaldırırız. Son veri oranları ve miktarları, daha küçük modellerde yapılan ablasyon çalışmalarıyla belirlenir. Eğitim sırasında oran dağılımını değiştirmek için aşamalı eğitim düzenler ve eğitimin sonuna doğru alanla ilgili verilerin miktarını artırırız. Veri kalitesi, yüksek performans gösteren modeller için önemli bir faktör olabilir. Ön eğitimde en uygun veri kümesi dağıtımını bulma açısından hâlâ cevaplanmayan pek çok ilginç soru olduğunu düşünüyoruz.

Bu ön eğitim, modelin dildeki kalıpları öğrenerek bir sonraki olası kelimeyi veya kelimeleri tahmin etmek için kullanmasını sağlar. Örneğin, bir LLM eğitim aldıkça "simit ve ___" ifadesinde boşluğa gelecek kelimenin "ayakkabı" yerine "ayran" olacağını tahmin edebilir. Bununla birlikte, LLM yalnızca en olası kelimeyi seçerse daha az yaratıcı cevaplar vermeye başlar. Bu nedenle, daha ilginç yanıtlar oluşturmak için LLM'ye genellikle makul ancak daha az olası seçenekler ("muz" gibi) arasından tercih yapma esnekliği sunulur. LLM'ler, olgusal istemlerde iyi performans gösterse ve bilgiyi getirme izlenimi yaratsa da aslında bilgi içeren veritabanları ya da deterministik bilgi getirme sistemleri olmadıklarını belirtmek gerekir. Dolayısıyla, bir veritabanı sorgusu için her defasında tutarlı yanıtlar alsanız da (veritabanında saklanan sabit bilginin olduğu gibi getirilmesi) LLM aynı isteme her zaman aynı yanıtı vermeyebilir (veya öğretilen bilgiyi olduğu gibi getirmeyebilir). Bu, LLM'lerin kulağa makul gelen ancak hatalı olgular içeren yanıtlar vermesine yol açan önemli nedenlerden biridir. Olgusallığın önemli olduğu durumlarda istenmeyen bu durum, yaratıcı veya beklenmedik yanıtlar vermek gerektiğinde faydalı olabilir.

2 Son eğitim

LLM'ler, ilk eğitimden sonra yanıtlarını daha da iyi hale getirmeyi amaçlayan ek adımlardan geçer. Bu adımlardan biri de modeli dikkatlice seçilmiş mükemmel cevap örnekleriyle eğiten Denetimli İnce Ayar (Supervised Fine-Tuning - SFT) olarak adlandırılır. Süreç, çocuklara iyi yazılmış hikayeler ve kompozisyonlar göstererek yazmayı öğretmeye benzer.

Sonraki adım ise Pekiştirmeli İnsan Geri Bildiriminden Öğrenme (RLHF) olarak adlandırılır. Bu adımda model, özel bir ödül modelindeki puanları veya geri bildirimleri dikkate alarak daha iyi yanıtlar üretmeyi öğrenir. Bu ödül modeli, yanıtların birbiriyle karşılaştırılarak puanlanması ve insanların hangi yanıtları tercih ettiğini anlamak üzere gerçek kişilerin tercih verilerinin kullanılması yoluyla eğitilmiştir. Tercih verileri bazen rahatsız edici veya yanlış veriler içerebilir ve modelleri bu verilere maruz bırakabilir. Böylece modellerin bu verileri tanımayı ve bunlardan kaçınmayı öğrenmesi sağlanır. Tercih verilerini, çocuğu iyi yaptığı bir şey için ödüllendirmek gibi düşünebilirsiniz. Model, kullanıcıların hoşuna giden cevaplar ürettiği için ödüllendirilir.

Bu aşamaların tümünde yüksel kaliteli eğitim verilerinin kullanılması önemlidir. SFT için kullanılan örnekler genellikle uzmanlar tarafından yazılır veya bir model tarafından oluşturulup uzmanlar tarafından incelenir.

Bu teknikler güçlü olsa da bazı sınırlamaları vardır. Örneğin verilen yanıt, ödül modelinden yararlanıldığında bile mükemmel olmayabilir. Yine de nasıl ki öğrenciler öğretmenlerinin yorumlarından öğreniyorsa LLM de aldığı geri bildirimlere göre en çok tercih edilen yanıtları üretecek şekilde optimize edilmiştir.

3 Kullanıcı istemlerine verilen yanıtlar

Yanıt üretme süreci, insanların bir soruya cevap verirken farklı yaklaşımlar üzerinde beyin fırtınası yapmasına benzer. Kullanıcı bir istem girdikten sonra Gemini, yanıtın birkaç farklı versiyonunu hazırlamak için son eğitimden geçmiş LLM'yi, istemdeki bağlamı ve kullanıcıyla olan etkileşimi kullanır. Ayrıca, yanıtları oluşturmak için Google Arama ve/veya çeşitli uzantılarından biri gibi harici kaynaklardan ve en son yüklenen dosyalardan da (yalnızca Gemini Advanced) yararlanır. Bu süreç, veriyle artırma olarak bilinir. Gemini, bir istem verildiğinde bu harici kaynaklardan (ör. Google Arama) uygun bilgileri almaya çalışır ve bunları yanıtında doğru şekilde temsil eder. LLM'leri harici araçlarla genişletmek, aktif olarak devam eden bir araştırma alanıdır. Gemini'ın bu harici araçları çağırmak için kullandığı sorgu, araçların döndürdüğü sonuçların Gemini tarafından yorumlanma şekli ve bu döndürülen sonuçların son yanıtı oluştururken kullanılma şekli gibi çeşitli nedenlerle hatalar ortaya çıkabilir. Dolayısıyla Gemini'ın ürettiği yanıtlar, ilgili yanıtı oluşturmak için kullanılan bağımsız araçların performansı olarak değerlendirilmemelidir.

Son olarak da son yanıt gösterilmeden önce her olası yanıt, önceden belirlenmiş politika yönergelerine uyduğundan emin olmak için güvenlik kontrolünden geçer. Bu süreç, zararlı veya rahatsız edici bilgileri filtreleyen bir doğrulama adımı sağlar. Kontrolden geçen yanıtlar, kaliteye göre sıralanarak en yüksek puanı alanlar kullanıcıya gösterilir.

Bunlara ek olarak, yapay zekayla üretilen içeriklere filigran ekleyen sektör lideri dijital araç setimiz SynthID'yi kullanarak Gemini metin ve görüntü çıkışlarına filigran da ekliyoruz. SynthID, üretilen görüntülerde doğrudan piksellere insan gözüyle algılanamayan dijital bir filigran ekler. Daha güvenilir yapay zeka tanımlama araçlarının geliştirilmesi için önemli bir yapı taşı olan SynthID, kullanıcıların yapay zekayla üretilen içeriklerle nasıl etkileşim kuracaklarına dair bilinçli kararlar vermesini sağlayabilir.

4 Gerçek kişilerin sağladığı geri bildirimler ve değerlendirmeler

Güvenlik kontrolleri yapılmış olsa bile hatalar oluşabilir. Ayrıca, Gemini'ın yanıtları beklentilerinizi her zaman tam anlamıyla karşılamayabilir. Bu noktada gerçek kişilerin geri bildirimleri devreye girer. Değerlendirme yapan kişiler yanıtların kalitesini değerlendirir, geliştirilebilecek alanları belirler ve çözüm önerilerinde bulunur. Bu geri bildirimler, yukarıdaki "Son eğitim" bölümünde açıklanan Gemini öğrenme sürecinin bir parçası olur.