Gemini uygulamasına genel bakış
Yapay zekanın, bilgileri ve bilgisayar teknolojilerini kullanıcılar açısından daha erişilebilir ve faydalı hale getirme potansiyeli olduğunu uzun zamandır görüyoruz. Büyük dil modelleriyle (LLM) ilgili önemli gelişmeler yaşadık ve hem Google'da hem de genel olarak bu alanda büyük ilerlemeler kaydettik. Birkaç yıldır Gmail'de cümleleri otomatik tamamlama, Google Çeviri'nin kapsamını genişletme ve Google Arama'daki sorguları daha iyi anlamamıza yardımcı olma gibi birçok ürün geliştirme çalışmamızda arka planda LLM'lerden yararlandık. LLM'leri pek çok Google hizmetinin yanı sıra kullanıcıların üretken yapay zekayla doğrudan ortak çalışma yapmasını sağlayan Gemini uygulamasını desteklemek için de kullanmaya devam ediyoruz. Gemini uygulamasının, kullanıcıların Google'a ait en yeni yapay zeka modellerine doğrudan erişmesini sağlayarak en faydalı ve kişisel yapay zeka asistanı olmasını istiyoruz.
Üretken yapay zeka çözümlerini heyecanla karşılayanların sayısının arttığı önemli bir dönüm noktasındayız. Bu bize cesaret veriyor ama bu teknolojinin henüz erken aşamalarında olduğumuzu da biliyoruz. Kullanıcıları bilgilendirmeyi amaçlayan bu yazıda, Gemini'ın mobil ve web uygulamalarıyla ilgili çalışmalarımızda benimsediğimiz yaklaşımlardan, uygulamanın tanımından, işleyiş şeklinden, mevcut özelliklerinden ve karşılaştığı kısıtlamalardan bahsetmek istiyoruz. Gemini'ı geliştirme yaklaşımımız; temelindeki teknoloji geliştikçe ve devam eden araştırmalar, deneyimler ve kullanıcı geri bildirimlerinden daha fazla şey öğrendikçe daha da iyi hale gelecektir.
Gemini nedir?
Gemini, metin, ses, görüntü ve diğer öğeleri işleyebilen çok formatlı bir LLM'nin arayüzüdür. Gemini, Google'ın LLM'lerdeki son teknoloji araştırmalarına dayanmaktadır. Bu araştırmalar, 2013'te kelimelerin matematik kavramları olarak eşleştirildiği yeni model mimarileri öneren Word2Vec makalesi ile başladı ve 2015'te etkileşimli nöral modelin sunulmasıyla devam etti. Bu çerçeve, modellerin bir sohbette sonraki cümleyi tahmin etmek için önceki cümle veya cümleleri kullanarak daha doğal sohbet deneyimleri oluşturabileceğini gösterdi. Ardından 2017'de Transformer ile ilgili çığır açan çalışmamız yapıldı ve 2020'de çok aşamalı sohbet özellikleri sunuldu. Tüm bunlar daha da ilgi çekici bir üretken dil gelişimine yol açtı.
Gemini'ı (o zamanki adıyla Bard) ilk olarak Mart 2023'te Yapay Zeka İlkelerimiz doğrultusunda deneysel bir çalışma olarak sunduk. Kullanıcılar o tarihten itibaren ilgi çekici e-postalar yazma, zor kodlama hatalarını ayıklama, yaklaşan etkinlikler için beyin fırtınası yapma ve zorlu kavramları öğrenme gibi pek çok konuda Gemini'dan yardım aldı. Günümüzde Gemini birçok konuda yardımınıza koşabilecek çok yönlü bir yapay zeka aracı haline gelmiş durumda. Halihazırda kullanıcıların daha üretken, yaratıcı ve meraklı olmalarını sağlayan Gemini'a düzenli olarak yeni işlevler ve yenilikler ekliyoruz.
Verimlilik
Öncelikle Gemini size zaman kazandırabilir. Örneğin, uzun bir araştırma belgesini özetlemek istediğinizi varsayalım. Bu belgeyi Gemini'a yüklediğinizde size faydalı bir sentez oluşturabilir. Gemini aynı zamanda kodlama görevlerinde de yardımcı olabilir. Hatta kodlama, çok hızlı bir şekilde en popüler uygulamalarından biri oldu.
Yaratıcılık
Gemini, fikirlerinizi hayata geçirmenize ve yaratıcılığınızı artırmanıza da yardımcı olabilir. Örneğin, blog yayını yazarken Gemini taslak oluşturup yazınızın temasını yansıtan görüntüler üretebilir. Ayrıca yakında Gem'leri kullanarak Gemini'ı belirli talimatlarla özelleştirebilecek ve kişisel hedeflerinize ulaşmanıza yardımcı olması için belirli bir konunun uzmanı olarak hareket etmesini isteyebileceksiniz.
Merak
Gemini, fikirlerinizi geliştirmek ve öğrenmek istediğiniz konuları keşfetmek için kullanabileceğiniz bir başlangıç noktası olabilir. Örneğin, karmaşık kavramları basit ifadelerle açıklayabilir veya bir konu ya da görüntüyle ilgili alakalı analizler sunabilir. Yakında belirli konularla ilgili daha fazla şey öğrenmeniz için bu analizleri, web'deki önerilen içeriklerle de eşleştirecek.
Gemini'ın özelliklerine sürekli yenileri ekleniyor. Yakında telefonunuzun kamerasını bir nesneye, örneğin Golden Gate Köprüsü'ne doğrultup Gemini'dan köprünün hangi renk olduğunu söylemesini isteyebileceksiniz (merak ettiyseniz cevap "enternasyonal turuncu"). Ayrıca, Gemini'dan başka bir dildeki restoran menüsünü anlamanıza yardımcı olmasını ve beğeneceğinizi düşündüğü bir yemeği önermesini isteyebileceksiniz. Bunlar Gemini'a çok yakında eklenecek yeni özelliklerden yalnızca ikisi.
Elbette Gemini'ı sıkı eğitimlerden geçiriyor ve sürekli izliyoruz. Böylece, yanıtlarının güvenilir ve beklentilerinize uygun olmasını sağlıyoruz. Aynı zamanda sektör uzmanları, eğitimciler, politika yapıcılar, iş dünyasındaki liderler, vatandaşlık ve insan hakları liderleri ve içerik üreticilerle de görüşerek gelişmekte olan bu teknolojinin yeni uygulamaları, riskleri ve sınırlamalarını araştırıyoruz.
Gemini'ın işleyiş şekli
Ön eğitim
Son eğitim
Kullanıcı istemlerine verilen yanıtlar
Gerçek kişilerin sağladığı geri bildirimler ve değerlendirmeler
Gemini gibi LLM tabanlı arayüzlerin bilinen sınırlamaları
LLM'leri sorumlu bir şekilde geliştirme çalışmalarımız Gemini ile sınırlı değil. Bu alandaki çalışmalarımızda LLM'lerle ilişkili bazı sınırlamaları keşfedip tartıştık. Bu makalede, devam eden araştırmadaki altı alana odaklanacağız:
Doğruluk: Gemini, özellikle karmaşık veya olgusal konularla ilgili sorulara yanlış yanıt verebilir.
Önyargı: Gemini'ın yanıtları, eğitim verilerindeki önyargıları yansıtabilir.
Farklı bakış açıları: Gemini'ın yanıtları, farklı bakış açılarını gösterme konusunda başarısız olabilir.
Karakter: Gemini'ın verdiği yanıtlar, kişisel görüşleri veya duyguları olduğu yanılgısına neden olabilir.
Yanlış pozitif ve yanlış negatif: Gemini, bazı makul istemlere yanıt vermezken bazılarına uygunsuz yanıtlar verebilir.
Yanıltıcı istemlere karşı savunmasızlık:: Kullanıcılar, Gemini'ı anlamsız istemler veya gerçek dünyada pek kullanılmayan sorularla daha fazla zorlayacak yollar bulabilir.
Bu alanların her birinde performansı artırmak için yeni yaklaşımlar ve alanlar bulmaya devam ediyoruz.
Doğruluk
Gemini, Google'ın güvenilir bilgi anlayışına dayalı olarak geliştirilmiş ve hem isteminizin bağlamıyla ilgili hem de aradığınız şeylere uygun yanıtlar üretecek şekilde eğitilmiştir. Bununla birlikte tüm LLM'ler gibi Gemini da bazen kendinden emin ve ikna edici bir şekilde yanlış ya da yanıltıcı bilgiler içeren yanıtlar üretebilir.
LLM'ler bir sonraki kelimeyi veya kelime dizilerini tahmin ederek çalıştığından doğru ve yanlış bilgileri kendi başına ayırt etme yeteneğine henüz tam anlamıyla sahip değildir. Gemini'ın yanlış bilgi içeren ve hatta bilgi uydurduğu yanıtlar verdiğini gördük (ör. eğitilme şeklini yanlış yansıtması veya var olmayan bir kitabı önermesi). Bu sorunları ele almak için "doğrulama" gibi özellikler geliştirdik. "Doğrulama" özelliği, Google Arama'yı kullanarak Gemini'ın yanıtlarını değerlendirmenize yardımcı olacak içerikler bulur ve Gemini'dan aldığınız bilgileri doğrulamanıza yardımcı olacak kaynakların bağlantılarını verir.
Önyargı
Herkese açık kaynaklardan alınanlar da dahil olmak üzere eğitim verileri, çeşitli bakış açılarını ve görüşleri yansıtır. Bu verileri, LLM'nin yanıtında çok çeşitli bakış açıları olmasını sağlarken hatalı bir şekilde aşırı genelleme yapmasına ve önyargılı yanıtlar vermesine mümkün olduğunda engel olacak şekilde nasıl kullanacağımızı araştırmaya devam ediyoruz.
Eğitim verilerindeki eksikler, önyargılar ve aşırı genellemeler bir modelin, istemin olası yanıtlarını tahmin etmeye çalışırken oluşturduğu çıkışlara yansıyabilir. Bu sorunların çeşitli şekillerde ortaya çıktığını görüyoruz (ör. yalnızca bir kültürü veya demografik grubu yansıtan, sorunlu kabul edilen aşırı genellemelere atıfta bulunan; cinsiyet, din veya etnik önyargılarda bulunan veya yalnızca tek bir bakış açısını öne çıkaran yanıtlar). Bazı konularda ise veri boşlukları bulunur. Başka bir deyişle, LLM'nin belirli bir konuyu öğrenebileceği ve iyi tahminlerde bulunabileceği yeterli miktarda güvenilir bilgi yoktur. Bu da düşük kaliteli veya yanlış yanıtlar göstermesine neden olabilir. Sadece Google'daki uzmanlarla değil, alanında uzman kişiler ve farklı toplulukların temsilcileriyle de çalışmaya devam ediyoruz.
Farklı bakış açıları
Gemini, öznel konularda kullanıcı belirli bir bakış açısı talep etmediği sürece birden fazla bakış açısı sunacak şekilde tasarlanmıştır. Örneğin Gemini, kendisinden birincil kaynaktaki gerçekler veya yetkili kaynaklar tarafından doğrulanamayan bir konuyla ilgili bilgi istendiğinde (ör. bir şeyin "en iyisi" veya "en kötüsü" hakkındaki öznel görüş) çok farklı bakış açılarını yansıtacak şekilde yanıt vermelidir. Bununla birlikte, Gemini gibi LLM'ler internetteki herkese açık içeriklerle eğitildiğinden belirli politikacılar, ünlüler veya diğer tanınmış kişilere dair olumlu veya olumsuz görüşleri yansıtabilir, hatta tartışmalı sosyal veya politik konularla ilgili sadece tek bir tarafın görüşlerini sunabilir. Gemini bu konularda belirli bir bakış açısını destekleyecek şekilde yanıt vermemelidir. Bu tür yanıtlarla ilgili geri bildirimleri ise Gemini'ı bunları daha iyi ele alacak şekilde eğitme amacıyla kullanırız.
Karakter
Gemini, insan deneyimini yansıtan bir dil kullanılarak eğitildiği için zaman zaman kendi görüşleri veya sevgi ve üzüntü gibi duyguları varmış gibi yanıtlar üretebilir. Gemini'ın kendini ifade etme şekline (yani karakterine) dair bir dizi yönerge geliştirdik ve modeli, objektif yanıtlar verecek şekilde ayarlamaya devam ediyoruz.
Yanlış pozitif/negatif
Gemini'ı eğitmek ve sorunlu yanıtlar üretmesini önlemek için bir dizi politika yönergesi oluşturduk. Gemini bazen bu yönergeleri yanlış yorumlayarak "yanlış pozitifler" ve "yanlış negatifler" üretebilir. Gemini, "yanlış pozitif" durumunda makul bir istemi yanlışlıkla uygunsuz olarak yorumlayıp yanıt vermeyebilir. "Yanlış negatif" durumunda ise geçerli yönergelere rağmen uygunsuz bir yanıt üretebilir. Bazen yanlış pozitiflerin veya yanlış negatiflerin ortaya çıkması Gemini'ın önyargılı olduğu izlenimini verebilir. Örneğin yanlış pozitif, Gemini'ın konunun belirli bir tarafıyla ilgili soruya yanıt vermemesine, ancak başka tarafıyla ilgili aynı soruya yanıt vermesine neden olabilir. Dil, olaylar ve toplum hızlı bir şekilde geliştiğinden bu modelleri, girişleri ve çıkışları daha iyi anlayıp kategorilere ayıracak şekilde ayarlamaya devam ediyoruz.
Yanıltıcı istemlere karşı savunmasızlık
Kullanıcıların, Gemini'ın yapabileceklerinin sınırlarını test etmelerini ve korumalarını aşmaya çalışmalarını bekliyoruz. Örneğin kullanıcılar, eğitim protokollerini veya diğer bilgileri ifşa etmeye ya da güvenlik mekanizmalarını atlatmaya çalışabilir. Gemini'ı titizlikle test ettik ve etmeye devam ediyoruz, ancak kullanıcıların daha fazla stres testi yapacak benzersiz ve karmaşık yollar bulacağını biliyoruz. Bu, Gemini'ı geliştirme sürecinin önemli bir parçası olduğundan kullanıcıların bulduğu yeni istemleri görmek için sabırsızlanıyoruz. Gerçekten de 2023'te kullanılmaya başladığından beri kullanıcıların Gemini'ı felsefi sorulardan gerçekten anlamsız olanlara kadar çeşitli istemlerle test ettiğini gördük. Bazı durumlarda Gemini aynı derecede anlamsız olan veya belirttiğimiz yaklaşıma uygun olmayan cevaplarla karşılık verdi. Yaşadığımız güncel zorluklardan biri, Gemini'ın bu tür istemlere yanıt vermesine yardımcı olacak yöntemler bulmaktır. Bu nedenle doğruluk, objektiflik ve nüans konularını sürekli geliştirmek için daha fazla şirket içi değerlendirme ve kırmızı takım çalışması yapmaya devam ettik.
Gemini'ı geliştirmeye nasıl devam ediyoruz?
Gemini yaklaşımımızın uygulanması
Yapay Zeka İlkelerimizle birlikte yakın zamanda Gemini çalışmalarımızla ilgili yaklaşımımızı açıkladık: Gemini'ın talimatlarınızı uygulaması, ihtiyaçlarınıza uyum sağlaması ve deneyimlerinizi koruması gerekir. Yaklaşımımızın temelleri sorumlu davranmaya ve güvenliğe dayanıyor. Gemini'ın politika yönergeleri belirli türdeki sorunlu çıkışların önlenmesini amaçlar. Öğrendiklerimizi uygulamak ve Gemini'ı sürekli geliştirmek için şirket içindeki "kırmızı takım" üyeleriyle yanıltıcı testler yapmaya devam ediyoruz. Bu kişiler, bir modele kasıtlı olarak stres testi yaparak bu politika yönergeleriyle ve Gemini ile ilgili stratejimizle uyum sorunlarını araştıran ürün uzmanları ve sosyal bilimcilerdir.
Gemini'ı geliştirme sürecimizde gizlilik de önemli bir konudur. Gemini Uygulamaları Gizlilik Merkezi, Gemini'ı nasıl tasarımdan başlayan gizlilik anlayışıyla ve kontrolü size verecek şekilde geliştirdiğimiz hakkında daha fazla bilgi sunar.
Kullanıcı ve yayıncı kontrolünü etkinleştirme
Gemini verilerinizi incelemek, güncellemek, yönetmek, dışa aktarmak ve silmek için kolayca erişebileceğiniz çeşitli Gemini kullanıcı kontrolleri geliştirdik. Gemini Uygulamaları Etkinliği kontrolünü kullanarak Gemini istemleriniz, yanıtlarınız ve geri bildirimlerinize erişip bunları inceleyebilirsiniz. Ayrıca, Gemini Uygulamaları Etkinliği ayarını kapatarak Gemini ile gelecekteki etkileşimlerinizin, Google makine öğrenimi teknolojilerini geliştirmek için kullanılmasını önleyebilirsiniz. Diğer Google hizmetlerinde olduğu gibi, Google'ın Paket Servisi aracını kullanarak bilgilerinizi de indirebilir ve dışa aktarabilirsiniz. Gemini ileti dizilerinizin herkese açık bağlantılarını yönetebileceğiniz kontroller ve uzantılara (ör. Workspace, Haritalar, YouTube) erişimi açıp kapatabileceğiniz kontroller de bulunuyor. Bunların yanı sıra daha fazla yanıt görmek için filtre ayarlama gibi Gemini'ın yanıtlarıyla ilgili kontrolünüzü artıracak yeni yöntemleri de araştırıyoruz.
Yayıncılara yönelik olarak ise web yayıncılarının, sitelerinin Gemini ve Vertex AI üretken yapay zeka API'lerini iyileştirmeye yardımcı olup olmayacağını belirlemesini sağlayan bir kontrol olan Google-Extended'ı geliştirdik. Google-Extended'ın site içeriklerine erişmesine izin vermek, yapay zeka modellerinin zaman içinde daha doğru yanıtlar göstermesine ve daha yetenekli olmasına yardımcı olabilir. Devre dışı bırakılan URL'lerdeki içeriği model eğitimi için kullanmayan Gemini, bu tür içerikleri temellendirme amacıyla da kullanmaz. Yapay zeka uygulamalarının sayısı arttıkça web yayıncıları farklı kullanımları geniş ölçekte yönetmenin yaratacağı karmaşa nedeniyle zorlanabilir. Google olarak seçim ve kontrol konularında makine tarafından okunabilir daha fazla yaklaşım bulmak için web ve yapay zeka topluluklarıyla etkileşim kurmayı sürdüreceğiz.
Birlikte Gemini’ı daha iyi hale getiriyoruz
Modellerimizi hızla geliştirerek Gemini'ın en iyi özelliklerini tüm dünyaya sunmak istiyoruz. Kullanıcı geri bildirimleri, modellerimizin gelişimini hızlandırdı. Örneğin, modellerimizi daha sezgisel ve hayal gücü yüksek hale getirip daha kaliteli ve doğru yanıtlar vermesini sağlamak için son teknoloji destekli öğrenme tekniklerini kullanıyoruz. Gemini'ın model eğitimi ve ayarlama tekniklerini geliştirmek, ayrıca öğrendiklerimizi araştırmacılarla paylaşmak için Ethics of Advanced AI Assistants (Gelişmiş Yapay Zeka Asistanlarında Etik) başlıklı bu makale gibi araştırmalara yatırım yaparak LLM'lerin teknik, sosyal ve etik zorluklarının yanı sıra sunduğu fırsatlar hakkında daha fazla şey öğrenmeye devam ediyoruz. Bu alanda sorumluluk bilinciyle yenilik yaparken kullanıcılar, güvenilir test kullanıcıları ve araştırmacılarla birlikte çalışıp bu yeni teknolojinin tüm ekosisteme fayda sağlayacağı yollar bulmaya kararlıyız.
Şeffaflık önemli bir konu olduğu için Gemini'ın geliştirme süreci ve sınırlamaları konusunda açık davranmayı sürdüreceğiz. Gemini sihirli bir karakutu değildir ve sürekli gelişir. Biz de bu gelişmelerle ilgili güncellemeleri sizinle paylaşmaya devam edeceğiz. Gemini'ın en yeni özellikleri, güncellemeleri ve hata düzeltmelerini görebilmeniz için Sürüm Güncellemeleri sayfasını yayınladık ve bu genel bakışı da uygun şekilde güncelleyeceğiz. Gemini'ın işe yaradığı ve yardımcı olduğu noktaları belirlerken geliştirmemiz gereken yönlerini de tespit edeceğiz. Sürekli yeni özellikler ekliyoruz ve devam eden araştırmalar, testler ve kullanıcı geri bildirimleri sayesinde Gemini'ı birlikte daha da iyi hale getirmek için sabırsızlanıyoruz.
Teşekkür
Gemini uygulama ekibi, Google DeepMind, Politika Değerlendirme Ekibi ve Google Research'teki meslektaşlarımızı katkılarından dolayı kutluyor, teşekkürlerimizi sunuyoruz.
James Manyika
SVP, Research, Technology and Society
Sissie Hsiao
Vice President and General Manager, Google Asistan ve Gemini Uygulaması
Bu dinamik bir belge olduğu için Gemini uygulamasındaki özellikler hızla gelişmeye ve LLM'lerin doğası gereği sahip olduğu sınırlamaları ele almaya devam ettikçe düzenli olarak güncellenecektir. Bu genel bakış en son 25 Temmuz 2024 tarihinde güncellenmiştir. Gemini uygulamasıyla ilgili son güncellemeler için Sürüm Güncellemeleri günlüğünü ziyaret edin veya Google Keyword blogunu okuyun.