Skip to main content

Gemini अ‍ॅपचे अवलोकन

लोकांसाठी माहिती आणि काँप्युटिंग अधिक अ‍ॅक्सेसिबल व उपयुक्त करण्याची AI ची क्षमता आम्ही खूप आधी पाहिली आहे. आम्ही लार्ज लँग्वेज मॉडेलवर (LLMs) प्रवर्तनात्मक प्रगती केली आहे आणि Google वर, तसेच या क्षेत्रामध्ये अधिक व्यापक स्तरावर उत्तम प्रगती झालेली पाहिली आहे. बऱ्याच वर्षांपासून, Gmail मधील ऑटोकंप्लीट होणारी वाक्ये, Google Translate चा विस्तार यांसारख्या आमच्या अनेक उत्पादनांमध्ये सुधारणा करण्यासाठी आणि Google Search मधील क्वेरी अधिक चांगल्या प्रकारे समजून घेणे यात आम्हाला मदत व्हावी म्हणून आम्ही बॅकग्राउंडमध्ये LLMs लागू केली आहेत. आम्ही अनेक Google सेवांसाठी, तसेच Gemini अ‍ॅप सक्षम करण्यासाठी LLMs वापरणे सुरू ठेवतो, ज्यामुळे लोकांना जनरेटिव्ह AI सोबत थेट सहयोग करता येतो. आम्हाला Gemini अ‍ॅप हे सर्वात उपयुक्त आणि वैयक्तिक AI असिस्टंट बनवायचे आहे, ज्यामुळे वापरकर्त्यांना Google च्या नवीनतम AI मॉडेलचा थेट अ‍ॅक्सेस मिळेल.

आम्ही एका महत्त्वाच्या टप्प्यावर असताना आणि जनरेटिव्ह AI च्या बाबतीत सर्वत्र असलेल्या उत्साहामुळे आम्हाला प्रोत्साहन मिळत असले, तरीही हे तंत्रज्ञान अजूनही सुरुवातीच्या टप्प्यात आहे. हे स्पष्टीकरण Gemini अ‍ॅपवरील (“Gemini”) त्याच्या मोबाइल आणि वेब अनुभवांसह आमचे काम आम्ही कसे हाताळत आहोत हे सांगते. यामध्ये Gemini काय आहे, ते कसे काम करते आणि त्याच्या सद्य क्षमता व मर्यादा काय आहेत याचा समावेश आहे. Gemini तयार करण्याचा आमचा दृष्टिकोन त्यामधील तंत्रज्ञान विकसित होत जाईल तसा आणि आम्ही सुरू असलेले संशोधन, अनुभव व वापरकर्ता फीडबॅक या गोष्टींमधून शिकत जाऊ तसा विकसित होईल.

Gemini म्हणजे काय आहे

Gemini हा मल्टीमोडल LLM (मजकूर, ऑडिओ, प्रतिमा आणि आणखी बरेच काही हाताळणे) याचा इंटरफेस आहे. Gemini हे LLMs मधील Google च्या अत्याधुनिक संशोधनावर आधारित आहे, ज्याची सुरुवात २०१३ मध्ये Word2Vec शोधनिबंधाने झाली होती, ज्यामध्ये शब्दांना गणितीय संकल्पना म्हणून मॅप करणारे नवीन मॉडेल आर्किटेक्चर प्रस्तावित केले गेले होते, त्यानंतर २०१५ मध्ये न्यूरल संभाषणपर मॉडेल सादर केले गेले. या फ्रेमवर्कमधून हे दर्शवले गेले, की मॉडेल ही मागील वाक्याच्या किंवा वाक्यांच्या आधारावर संभाषणामध्ये पुढील वाक्याचे पूर्वानुमान कसे करू शकतात, ज्यामुळे अधिक नैसर्गिक संभाषणपर अनुभव मिळतील. यानंतर २०१७ मध्ये ट्रान्सफॉर्मर वरील आमचे ब्रेकथ्रू काम आणि २०२० मध्ये मल्टी-टर्न चॅट क्षमता यांचा समावेश झाला, ज्याने जनरेटिव्ह लँग्वेजमधील अधिक आकर्षक प्रगती दर्शवली.

आमची AI तत्त्वे यांनुसार आम्ही मार्च २०२३ मध्ये एक प्रयोग म्हणून सुरुवातीला (त्यावेळी Bard असे नाव असलेले) Gemini लाँच केले. तेव्हापासून आकर्षक ईमेल लिहिणे, कोडिंगसंबंधी कठीण समस्या डीबग करणे, आगामी इव्‍हेंटसाठी विचारविनिमय करणे, कठीण संकल्पना शिकण्यात मदत मिळवणे यासह आणखी बरेच काही करण्यासाठी वापरकर्ते Gemini कडे वळले आहेत. आज, Gemini हे अष्टपैलू AI टूल आहे, जे तुम्हाला अनेक प्रकारे मदत करू शकते. आम्ही आधीच पाहत आहोत, की Gemini लोकांना अधिक उत्पादनक्षम, अधिक क्रीएटिव्ह आणि अधिक जिज्ञासू बनण्यात मदत करत आहे व आम्ही नियमितपणे नवीन कार्यक्षमता आणि नावीन्य जोडतो.

उत्पादनक्षमता

सुरुवात म्हणून, Gemini तुमचा वेळ वाचवू शकते. उदाहरणार्थ, तुम्हाला एखाद्या दीर्घ संशोधनपर दस्तऐवजाचा सारांश द्यायचा आहे असे समजा; Gemini तुम्हाला तो अपलोड करू देते आणि उपयुक्त संश्लेषण देते. Gemini हे कोडिंगशी संबंधित टास्कमध्येदेखील मदत करू शकते आणि कोडिंग हे झटपट त्याच्या सर्वात लोकप्रिय अ‍ॅप्लिकेशनपैकी एक बनले आहे.

सर्जनशीलता

Gemini तुमच्या कल्पना प्रत्यक्षात आणण्यात आणि तुमच्या सर्जनशीलतेला चालना देण्यातदेखील मदत करू शकते. उदाहरणार्थ, तुम्ही ब्लॉग पोस्ट लिहित असल्यास, Gemini हे आउटलाइन तयार करू शकते आणि तुमची पोस्ट इलस्ट्रेट करण्यात मदत करणाऱ्या इमेज जनरेट करू शकते. आणि लवकरच Gems सह, तुम्ही विशिष्ट सूचनांसह Gemini कस्टमाइझ करू शकाल आणि तुम्हाला तुमची वैयक्तिक ध्येये साध्य करण्यात मदत करण्यासाठी त्यांच्याकडून विषयातील तज्ञ म्हणून काम करून घेऊ शकाल.

जिज्ञासा

तुमच्या कल्पना आणि तुम्हाला ज्यांबद्दल अधिक जाणून घ्यायचे आहे अशा गोष्टी एक्सप्लोर करण्यासाठी Gemini हा आरंभबिंदू असू शकतो. उदाहरणार्थ, ते एखाद्या जटिल संकल्पनेचे सोपे स्पष्टीकरण देऊ शकते किंवा एखाद्या विषयाबाबत अथवा इमेजबाबत सुसंबद्ध इनसाइट देऊ शकते. आणि लवकरच, ते विशिष्ट विषयांबद्दल अधिक जाणून घेण्यासाठी संपूर्ण वेबवरील शिफारस केलेल्या आशयासोबत या इनसाइट पेअर करेल.

Gemini च्या क्षमता वेगाने विस्तारत आहेत -- लवकरच, तुम्हाला तुमच्या फोनचा कॅमेरा एखाद्या ऑब्जेक्टवर, उदाहरणार्थ, गोल्डन गेट ब्रिजवर रोखता येईल आणि Gemini ला त्याच्या पेंटचा रंग कोणता आहे हे विचारता येईल (तुम्हाला प्रश्न पडला असल्यास, तो “इंटरनॅशनल ऑरेंज” आहे). तुम्ही Gemini ला एखाद्या रेस्टॉरंटचा दुसर्‍या भाषेत असलेला मेनू समजून घेण्यात मदत करण्यासाठी आणि तुम्हाला आवडू शकेल अशा पदार्थाची शिफारस करण्यासदेखील सांगू शकाल. ही Gemini मध्ये लवकरच येत असलेल्या नवीन क्षमतांची फक्त दोन उदाहरणे आहेत.

अर्थातच, आम्ही Gemini ला काटेकोरपणे प्रशिक्षण देतो आणि त्याचे निरीक्षण करतो, जेणेकरून त्याचे प्रतिसाद विश्वसनीय आणि तुमच्या अपेक्षांशी सुसंगत असतील. या उदयोन्मुख तंत्रज्ञानाची नवीन उपयोजने, जोखमी आणि मर्यादा एक्सप्लोर करण्यासाठी आम्ही उद्योग तज्ञ, शिक्षक, धोरणकर्ते, आघाडीचे व्यावसायिक, नागरी अधिकार व मानवाधिकार नेते आणि आशय निर्माणकर्त्यांशीदेखील बोलतो.

Gemini कसे काम करते

1

पूर्वप्रशिक्षण

2

प्रशिक्षणपश्चात

3

वापरकर्ता प्रॉम्प्टना प्रतिसाद

4

मानवी फीडबॅक आणि मूल्यांकन

Gemini सारख्या LLM वर आधारित इंटरफेसच्या ज्ञात मर्यादा

Gemini हा LLMs जबाबदारीने विकसित करण्याच्या आमच्या सततच्या प्रयत्नांचा फक्त एक भाग आहे. या संपूर्ण कामादरम्यान, आम्ही LLMs शी संलग्न असलेल्या मर्यादा डिस्कव्हर केल्या आहेत आणि त्यांवर चर्चा केली आहे. इथे, आम्ही सतत सुरू असलेल्या संशोधनाच्या सहा क्षेत्रांवर फोकस करतो:

  • अचूकता: Gemini चे प्रतिसाद चुकीचे असू शकतात, विशेषतः त्याला जटिल किंवा तथ्याधारित विषयांबद्दल विचारले जाते तेव्हा.

  • पूर्वग्रह: Gemini च्या प्रतिसादांमधून त्याच्या प्रशिक्षण डेटामध्ये असलेले पूर्वग्रह दर्शवले जाऊ शकतात.

  • एकाहून अधिक दृष्टिकोन: Gemini चे प्रतिसाद कदाचित विविध दृष्टिकोन दाखवणार नाहीत.

  • पर्सोना: Gemini चे प्रतिसाद असे चुकीच्या पद्धतीने सुचवू शकतात, की त्याला वैयक्तिक मते किंवा भावना आहेत.

  • फॉल्स पॉझिटिव्ह आणि फॉल्स नेगेटिव्ह: Gemini कदाचित काही योग्य प्रॉम्प्टना प्रतिसाद देणार नाही आणि इतर प्रॉम्प्टना अयोग्य प्रतिसाद देईल.

  • दुर्भावनापूर्ण प्रॉम्प्टिंगबाबत असुरक्षितता: वापरकर्ते निरर्थक प्रॉम्प्ट किंवा प्रत्यक्ष जगात क्वचितच विचारल्या जाणाऱ्या प्रश्नांसह Gemini ची ताण चाचणी घेण्याचे मार्ग शोधतील.

यांपैकी प्रत्येक क्षेत्रामधील सुधारित परफॉर्मन्ससाठी आम्ही नवीन दृष्टिकोन आणि क्षेत्रे शोधणे सुरू ठेवले आहे.

अचूकता

Gemini हे Google च्या अधिकृत माहितीच्या समजुतीमध्ये ग्राउंड केलेले आहे आणि तुमच्या प्रॉम्प्टच्या संदर्भाशी सुसंबद्ध असलेले व तुम्ही जे शोधत आहात त्याच्याशी सुसंगत असलेले प्रतिसाद जनरेट करण्यासाठी प्रशिक्षित केलेले आहे. मात्र सर्व LLMs प्रमाणे, Gemini कधीकधी आत्मविश्वासाने आणि खात्रीपूर्वक चुकीची किंवा दिशाभूल करणारी माहिती असलेले प्रतिसाद जनरेट करू शकते.

LLMs ही पुढील शब्द किंवा शब्दांच्या क्रमांचे पूर्वानुमान करून काम करत असल्याने, ती स्वतःहून अचूक आणि चुकीच्या माहितीमध्ये फरक करण्यास अद्याप पूर्णपणे सक्षम नाहीत. Gemini ने चुकीच्या माहितीचा समावेश असणारे किंवा अगदी ती तयार करून प्रतिसाद देताना आम्ही पाहिले आहे (उदा., त्याला प्रशिक्षण कसे दिले गेले याबाबत दिशाभूल करणे किंवा अस्तित्वात नसलेल्या पुस्तकाचे नाव सुचवणे). याला प्रतिसाद म्हणून आम्ही “दोनदा तपासणे” यासारखी वैशिष्ट्ये तयार केली आहेत, जी Gemini च्या प्रतिसादांचे मूल्यांकन करण्यात तुम्हाला मदत करणारा आशय शोधण्यासाठी Google Search वापरतात आणि Gemini कडून मिळालेल्या माहितीची पुष्टी करण्यासाठी तुम्हाला स्रोतांच्या लिंक देतात.

पूर्वग्रह

सार्वजनिकरीत्या उपलब्ध असलेल्या स्रोतांसह, प्रशिक्षण डेटा हा दृष्टिकोन आणि मते यांमधील वैविध्य दर्शवतो. चुकीची अतिसामान्यीकरणे आणि पूर्वग्रह कमी करत असतानाचा, LLM च्या प्रतिसादामध्ये विविध दृष्टिकोनांचा समावेश असेल याची खात्री करण्यासाठी आम्ही हा डेटा कसा वापरावा यावर संशोधन करणे सुरू ठेवले आहे.

प्रशिक्षण डेटामधील उणिवा, पूर्वग्रह आणि अतिसामान्यीकरणे मॉडेलच्या आउटपुटमध्ये दर्शवली जाऊ शकतात, कारण ते प्रॉम्प्टसाठी संभाव्य प्रतिसादांचे पूर्वानुमान करण्याचा प्रयत्न करते. या समस्या अनेक मार्गांनी प्रकट होत असल्याचे आम्हाला दिसते (उदा., फक्त एक संस्कृती किंवा लोकसंख्याशास्त्र दर्शवणारे, समस्या असलेल्या अतिसामान्यीकरणांचा संदर्भ देणारे, लिंगविषयक, धार्मिक किंवा वांशिक पूर्वग्रह प्रदर्शित करणारे किंवा एकच दृष्टिकोन प्रमोट करणारे प्रतिसाद). काही विषयांसाठी, डेटा अपुरा असतो — दुसऱ्या शब्दांत, दिलेल्या विषयाबद्दल LLM ने जाणून घेण्यासाठी आणि त्यानंतर चांगली पूर्वानुमाने करण्यासाठी पुरेशी विश्वसनीय माहिती नसते — ज्यामुळे कमी गुणवत्तेचे किंवा चुकीचे प्रतिसाद मिळू शकतात. Google च्या बाहेरील दर्जेदार कौशल्य वापरण्यासाठी आम्ही डोमेन तज्ञ आणि वैविध्यपूर्ण समुदायांसोबत काम करणे सुरू ठेवले आहे.

एकाहून अधिक दृष्टिकोन

व्यक्तिनिष्ठ विषयांसाठी, वापरकर्त्याने विशिष्ट दृष्टिकोनाची विनंती केली नसल्यास वापरकर्त्यांना एकाहून अधिक दृष्टिकोन देण्यासाठी Gemini डिझाइन केले गेले आहे. उदाहरणार्थ, प्राथमिक स्रोत तथ्ये किंवा अधिकृत स्रोत यांद्वारे पडताळणी केली जाऊ शकत नसलेल्या एखाद्या गोष्टीबद्दल माहितीसाठी प्रॉम्प्ट दिली असल्यास — जसे की “सर्वोत्तम” किंवा “सर्वात वाईट” याबाबत व्यक्तिनिष्ठ मत — Gemini ने विविध दृष्टिकोन दर्शवले जातील अशा प्रकारे प्रतिसाद दिला पाहिजे. पण Gemini सारखी LLMs ही इंटरनेटवर सार्वजनिकरीत्या उपलब्ध असलेल्या आशयावर प्रशिक्षण घेत असल्याने, ती विशिष्ट राजकारणी, सेलिब्रिटी किंवा इतर लोकप्रिय व्यक्तींची सकारात्मक अथवा नकारात्मक मते दर्शवू शकतात किंवा वादग्रस्त सामाजिक अथवा राजकीय मुद्द्यांच्या फक्त एका बाजूच्या विचारांचा समावेशदेखील करू शकतात. या विषयांवरील एखाद्या विशिष्ट दृष्टिकोनाचे समर्थन करेल अशा प्रकारे Gemini ने प्रतिसाद देऊ नये आणि या प्रकारचे प्रतिसाद Gemini ला अधिक चांगल्या प्रकारे हाताळता यावे यासाठी त्याला प्रशिक्षण देण्याकरिता आम्ही त्यांवरील फीडबॅक वापरू.

पर्सोना

Gemini कधीकधी असे प्रतिसाद जनरेट करू शकते, जे त्याला प्रेम किंवा दुःख यांसारखी मते किंवा भावना असल्याचे सुचवतात, कारण त्याने मानवी अनुभव दर्शवण्यासाठी लोक वापरत असलेल्या भाषेमध्ये प्रशिक्षण घेतले आहे. Gemini स्वतःचे (म्हणजेच, त्याच्या पर्सोनाचे) प्रतिनिधित्व कसे करू शकेल याबाबत आम्ही मार्गदर्शक तत्त्वांचा एक संच विकसित केला आहे आणि वस्तुनिष्ठ प्रतिसाद देता येण्यासाठी मॉडेल फाइनट्यून करणे सुरू ठेवले आहे.

फॉल्स पॉझिटिव्ह / नेगेटिव्ह

Gemini ला प्रशिक्षण देण्यात मदत होण्यासाठी आणि समस्या असलेले प्रतिसाद जनरेट करणे टाळण्यासाठी आम्ही धोरण मार्गदर्शक तत्त्वे यांचा एक संच लागू केला आहे. Gemini कधीकधी या मार्गदर्शक तत्त्वांचा चुकीचा अर्थ लावू शकते, ज्यामुळे “फॉल्स पॉझिटिव्ह” आणि “फॉल्स नेगेटिव्ह” निर्माण होतात. “फॉल्स पॉझिटिव्ह” मध्ये प्रॉम्प्ट अयोग्य आहे असा चुकीचा अर्थ लावून Gemini कदाचित वाजवी प्रॉम्प्टला प्रतिसाद देणार नाही आणि “फॉल्स नेगेटिव्ह” मध्ये, सर्व मार्गदर्शक तत्त्वे लागू केलेली असूनही, Gemini अयोग्य प्रतिसाद जनरेट करू शकेल. कधीकधी, फॉल्स पॉझिटिव्ह किंवा फॉल्स नेगेटिव्ह मिळाल्याने Gemini पूर्वग्रहदूषित आहे असे वाटू शकते: उदाहरणार्थ, फॉल्स पॉझिटिव्हमुळे Gemini एखाद्या समस्येच्या एका बाजूबद्दलच्या प्रश्नाला कदाचित प्रतिसाद देणार नाही, तर त्याच प्रश्नाच्या दुसऱ्या बाजूबद्दल प्रतिसाद देईल. भाषा, इव्‍हेंट आणि समाज झपाट्याने विकसित होत असताना, इनपुट व आउटपुट अधिक चांगल्या प्रकारे समजून घेण्यासाठी आणि त्यांचे वर्गीकरण करण्यासाठी आम्ही ही मॉडेल ट्यून करणे सुरू ठेवले आहे.

दुर्भावनापूर्ण प्रॉम्प्टिंगबाबत असुरक्षितता

वापरकर्ते Gemini काय करू शकते याच्या मर्यादा तपासतील आणि त्याची संरक्षणे भंग करण्याचा प्रयत्न करतील असे आम्हाला अपेक्षित आहे, ज्यामध्ये त्याचे प्रशिक्षण प्रोटोकॉल किंवा इतर माहिती उघड करण्याचा प्रयत्न करणे अथवा त्याच्या सुरक्षितता यंत्रणा टाळण्याचा प्रयत्न करणे समाविष्ट आहे. आम्ही Gemini ची काटेकोरपणे चाचणी केली आहे आणि ती करणे सुरू ठेवले आहे, पण आम्हाला माहीत आहे, की वापरकर्ते त्याची आणखी ताण चाचणी करण्यासाठी युनिक, जटिल मार्ग शोधतील. Gemini अधिक चांगल्या प्रकारे सुधारित करण्याचा हा एक महत्त्वाचा भाग आहे आणि वापरकर्त्यांना सुचणारे नवीन प्रॉम्प्ट जाणून घेण्यास आम्ही उत्सुक आहोत. खरोखर, २०२३ मध्ये Gemini लाँच झाल्यापासून, आम्ही वापरकर्त्यांना तात्विक ते निरर्थक असे प्रॉम्प्ट वापरून आव्हान देताना पाहिले आहे – आणि काही बाबतीत, आम्ही Gemini ला अशी उत्तरे वापरून प्रतिसाद देताना पाहिले आहे, जे तितकेच निरर्थक आहेत किंवा आमचा नमूद केलेला दृष्टिकोन याच्याशी सुसंगत नाहीत. अशा प्रकारच्या प्रॉम्प्टना प्रतिसाद देण्यासाठी Gemini ला मदत करण्याकरिता पद्धती शोधणे हे एक सततचे आव्हान आहे आणि अचूकता, वस्तुनिष्ठता व बारकावे यांमध्ये सातत्याने सुधारणा करण्यासाठी आम्ही आमचे अंतर्गत मूल्यांकन आणि रेड-टीमिंगचा विस्तार करणे सुरू ठेवले आहे.

आम्ही Gemini विकसित करणे कसे सुरू ठेवत आहोत

आमच्या Gemini संबंधी दृष्टिकोनाचे उपयोजन

आमची AI तत्त्वे यांसोबत, आम्ही अलीकडेच Gemini वरील आमच्या कामाबाबत आमचा दृष्टिकोन स्पष्ट केला आहे: Gemini ने तुमचे दिशानिर्देश फॉलो करावेत, तुमच्या गरजांशी जुळवून घ्यावे आणि तुमच्या अनुभवाचे संरक्षण करावे. जबाबदारी आणि सुरक्षितता यांवर फोकस करणे हा आमच्या दृष्टिकोनाचा गाभा आहे. Gemini ची धोरण मार्गदर्शक तत्त्वे विशिष्ट प्रकारची, समस्या असलेली आउटपुट टाळण्याचा प्रयत्न करतात. सुरू असलेल्या दुर्भावनापूर्ण चाचणीमध्ये आम्ही अंतर्गत “रेड टीम” सदस्यांसह सहभागी होत आहोत — उत्पादन तज्ञ आणि सामाजिक शास्त्रज्ञ, जे सहेतुक मॉडेलची ताण चाचणी घेतात, जेणेकरून ते या धोरण मार्गदर्शक तत्त्वांशी आणि Gemini साठीच्या आमच्या नॉर्थस्टार दृष्टिकोनाशी अलाइनमेंटसंबंधी समस्या तपासू शकतील — ज्यामुळे ते जे शिकतात ते आम्हाला लागू करता येईल आणि Gemini मध्ये सातत्याने सुधारणा करता येईल.

आम्ही Gemini विकसित करत असताना गोपनीयतादेखील प्रामुख्याने विचारात घेतो. Gemini अ‍ॅप्स गोपनीयता केंद्र यामध्ये आम्ही प्रायव्हसी बाय डिझाइनसह आणि तुम्हाला नियंत्रक ठेवून Gemini कसे तयार करतो याबद्दल अधिक माहिती आहे.

वापरकर्ता आणि प्रकाशक नियंत्रण सुरू करणे

तुमच्या Gemini डेटाचे पुनरावलोकन करणे, तो अपडेट करणे, व्यवस्थापित करणे, एक्सपोर्ट करणे आणि हटवणे यांसाठी आम्ही तुमच्याकरिता सहज अ‍ॅक्सेसिबल असलेली विविध Gemini वापरकर्ता नियंत्रणे तयार केली आहेत. Gemini अ‍ॅप्स अ‍ॅक्टिव्हिटी कंट्रोलद्वारे तुम्ही तुमचे Gemini प्रॉम्प्ट, प्रतिसाद आणि फीडबॅक अ‍ॅक्सेस करू शकता व त्यांचे पुनरावलोकन करू शकता. त्याव्यतिरिक्त, तुम्ही तुमचे Gemini अ‍ॅप्स अ‍ॅक्टिव्हिटी सेटिंग बंद करून भविष्यातील तुमची Gemini चॅट Google मशीन-लर्निंग तंत्रज्ञानांमध्ये सुधारणा करण्यासाठी वापरली जाण्यापासून रोखू शकता. आणि इतर Google सेवांप्रमाणेच, तुम्ही Google च्या Takeout टूल द्वारे तुमची माहिती डाउनलोड आणि इंपोर्टदेखील करू शकता. आमच्याकडे अशी नियंत्रणेदेखील आहेत, जी तुम्हाला तुमच्या Gemini थ्रेडमध्ये तयार केलेल्या सार्वजनिक लिंक व्यवस्थापित करू देतात आणि अशी नियंत्रणे आहेत, जी तुम्हाला एक्सटेंशनचा अ‍ॅक्सेस सुरू/बंद करू देतात. (उदा., Workspace, Maps, YouTube). Gemini च्या प्रतिसादांवर तुम्हाला आणखी नियंत्रण देण्यासाठी आम्ही नवीन मार्ग एक्सप्लोर करत आहोत, ज्यामध्ये प्रतिसादांची अधिक विस्तृत रेंज सुरू करण्याकरिता फिल्टर अ‍ॅडजस्ट करणे समाविष्ट आहे.

प्रकाशकांसाठी, आम्ही Google एक्स्टेंडेड लाँच केले आहे, जे वेब प्रकाशक त्यांच्या साइट Gemini आणि Vertex AI जनरेटिव्ह APIs सुधारण्यात मदत करते की नाही हे व्यवस्थापित करण्यासाठी वापरू शकतात. साइटच्या आशयाचा Google एक्स्टेंडेड अ‍ॅक्सेस दिल्याने AI मॉडेल कालांतराने अधिक अचूक आणि सक्षम होण्यात मदत होऊ शकते. मॉडेल प्रशिक्षणासाठी निवड रद्द केलेल्या URLs मधील आशय Gemini वापरणार नाही आणि तसेच, असा आशय ग्राउंडिंगसाठीदेखील वापरणार नाही. AI अ‍ॅप्लिकेशनचा विस्तार होत असताना, वेब प्रकाशकांना मोठ्या प्रमाणात विविध वापरांचे व्यवस्थापन करण्यासंबंधी वाढत्या जटिलतेचा सामना करावा लागेल. निवड व नियंत्रण यांबाबत मशीनद्वारे वाचले जाऊ शकणारे आणखी दृष्टिकोन एक्सप्लोर करण्यासाठी आम्ही वेब आणि AI समुदायांशी प्रतिबद्ध होण्याकरिता वचनबद्ध आहोत.

एकत्रितपणे Gemini मध्ये सुधारणा करणे

वेगवान पुनरावृत्ती आणि जगाला सर्वोत्तम Gemini उपलब्ध करून देणे यांवर आमचा विश्वास आहे. वापरकर्त्याच्या फीडबॅकमुळे आमच्या मॉडेलमधील सुधारणांना वेग आला आहे. उदाहरणार्थ, आमच्या मॉडेलना अधिक अंतर्ज्ञानी आणि कल्पनाशील बनवण्यासाठी व अधिक गुणवत्ता आणि अचूकता यांसह प्रतिसाद देण्यासाठी प्रशिक्षित करण्याकरिता आम्ही अत्याधुनिक रीएन्फोर्समेंट लर्निंग तंत्रे वापरतो. Gemini चे मॉडेल प्रशिक्षण आणि ट्यूनिंग तंत्रे यांमध्ये सुधारणा करणे, त्याचप्रमाणे प्रगत AI असिस्टंटची नैतिकता यावरील या अलीकडील शोधनिबंधासारखे आमचे शिक्षण संशोधकांसोबत शेअर करणे या दोन्हींसाठी, आम्ही LLMs च्या तांत्रिक, सामाजिक आणि नैतिक आव्हानांबद्दल व संधींबद्दल अधिक जाणून घेण्याकरिता संशोधनात गुंतवणूक करणे सुरू ठेवले आहे. वापरकर्ते, विश्वसनीय परीक्षक आणि संशोधक यांच्याशी सहयोग करून संपूर्ण व्यवस्थेला या नवीन तंत्रज्ञानाचा फायदा होईल असे मार्ग शोधून, या क्षेत्रामध्ये जबाबदारीने नवीन प्रयोग करण्यासाठी आम्ही वचनबद्ध आहोत.

पारदर्शकता महत्त्वाची असते आणि Gemini च्या विकास प्रक्रियेबद्दल व मर्यादांबद्दल खुलेपणा बाळगण्यासाठी आम्ही वचनबद्ध आहोत. Gemini म्हणजे जादूचा पेटारा नाही; ते सातत्याने विकसित होत आहे आणि आम्ही आमच्या प्रगतीबाबतची अपडेट शेअर करणे सुरू ठेवू. आम्ही रिलीझ अपडेट पेज लाँच केले आहे, जेणेकरून तुम्हाला Gemini ची नवीनतम वैशिष्ट्ये, सुधारणा व बग फिक्स पाहता येतील आणि आम्ही योग्य असेल त्यानुसार हे अवलोकन अपडेट करू. Gemini कुठे उपयुक्त आणि कामाचे आहे व आम्हाला त्याची पुनरावृत्ती करणे सुरू ठेवून ते कुठे अधिक चांगले करण्याची आवश्यकता आहे हे दोन्ही आम्ही ओळखू. आम्ही सक्रियपणे नवीन क्षमता जोडत आहोत आणि सुरू असलेले संशोधन, चाचणी व वापरकर्ता फीडबॅक यांद्वारे, Gemini मध्ये सुधारणा करण्यासाठी उत्सुक आहोत.

श्रेयनिर्देश

आम्ही Gemini अ‍ॅप टीम, Google DeepMind, विश्वास आणि सुरक्षितता व Google संशोधन यांमधील आमच्या सहकाऱ्यांच्या अविश्वसनीय कामाचे आम्ही कौतुक करतो आणि त्यांचे श्रेयनिर्देश करतो.

लेखक

जेम्स मान्यिका
SVP, संशोधन, तंत्रज्ञान आणि समाज

सिसी शाओ
उपाध्यक्ष आणि महाव्यवस्थापक, Google Assistant व Gemini अ‍ॅप

संपादकाची टीप

हा एक सक्रिय दस्तऐवज आहे आणि आम्ही Gemini अ‍ॅपच्या क्षमतांमध्ये झपाट्याने सुधारणा करत असताना, त्याचप्रमाणे LLMs मधील अंगभूत मर्यादा हाताळत असताना, तो वेळोवेळी अपडेट केला जाईल. हे अवलोकन शेवटचे २५ जुलै २०२४ रोजी अपडेट केले गेले. Gemini अ‍ॅपबाबत नवीनतम अपडेटसाठी, रिलीझ अपडेट लॉगला भेट द्या किंवा Google Keyword संबंधित ब्लॉग यावर अधिक वाचा.

Gemini कसे काम करते

पूर्वप्रशिक्षण

Gemini हे Google च्या सर्वात सक्षम AI मॉडेलद्वारे सक्षम केलेले आहे, जे वेगवेगळ्या क्षमता आणि यूज केस यांसह डिझाइन केलेले आहे. आजच्या बहुतांश LLMs प्रमाणे, ही मॉडेल सार्वजनिकरीत्या उपलब्ध स्रोतांकडून विविध डेटाबाबत पूर्वप्रशिक्षित आहेत. आम्ही सर्व डेटासेटवर दर्जेदार फिल्टर लागू करतो, ज्यांमध्ये ह्यूरिस्टिक नियम आणि मॉडेलवर आधारित क्लासिफायर दोन्ही वापरले जातात. धोरण उल्लंघन करणारी आउटपुट निर्माण करण्याची शक्यता असलेला आशय काढून टाकण्यासाठी आम्ही सुरक्षितता फिल्टरिंगदेखील करतो. मॉडेल मूल्यांकनांची इंटेग्रिटी कायम राखण्यासाठी, आम्ही प्रशिक्षणासाठी डेटा वापरण्यापूर्वी आमच्या प्रशिक्षण कॉर्पसमध्ये असलेला कोणताही मूल्यांकन डेटा शोधतो आणि तो काढून टाकतो. लहान मॉडेलवरील उच्छेदनांद्वारे अंतिम डेटा मिश्रणे आणि वजने निर्धारित केली जातात. प्रशिक्षणादरम्यान मिश्रण रचना बदलण्यासाठी आम्ही प्रशिक्षणाचे आयोजन करतो – ज्यामुळे प्रशिक्षणाच्या शेवटी डोमेनशी सुसंबद्ध असलेल्या डेटाचे वजन वाढते. उच्च परफॉर्मन्स देणाऱ्या मॉडेलसाठी डेटा गुणवत्ता हा एक महत्त्वाचा घटक असू शकतो आणि आमचा असा विश्वास आहे, की पूर्वप्रशिक्षणासाठी ऑप्टिमल डेटासेट डिस्ट्रिब्यूशन शोधण्याबाबत अनेक रोचक प्रश्न शिल्लक आहेत.

या पूर्वप्रशिक्षणामुळे मॉडेलला भाषेतील पॅटर्न शिकण्यास आणि पुढील संभाव्य शब्द किंवा शब्दांच्या क्रमाचा अंदाज घेण्यासाठी त्यांचा वापर करण्यास अनुमती मिळते. उदाहरणार्थ, LLM शिकत असताना, ते “पीनट बटर आणि ___’’ यामधील पुढील शब्द हा “शूलेस” यापेक्षा “जेली” असण्याची अधिक शक्यता असल्याचे पूर्वानुमान करू शकते. मात्र, एखाद्या LLM ने फक्त सर्वात संभाव्य असलेला पुढील शब्द निवडल्यास, त्यामुळे कमी क्रीएटिव्ह प्रतिसाद मिळतील. त्यामुळे LLMs ना अधिक रोचक प्रतिसाद जनरेट करता यावा यासाठी वाजवी, मग ते कमी संभाव्य असले तरीही, पर्यायांमधून (जसे की, “केळे”) निवड करण्याची मुभा दिली जाते. हे लक्षात घेण्यासारखे आहे, की LLMs ही तथ्याधारित प्रॉम्प्टवर चांगल्या प्रकारे परफॉर्म करू शकत असली आणि माहिती मिळवण्याचे इंप्रेशन तयार करू शकत असली, तरीही ती माहिती डेटाबेस नाहीत किंवा माहिती मिळवण्याच्या डिटरमिनिस्टिक सिस्टीम नाहीत. त्यामुळे तुम्ही डेटाबेस क्वेरीसाठी (जे डेटाबेसमध्ये स्टोअर केलेली निश्चित माहिती लिटरल पद्धतीने मिळवणे असते) सुसंगत प्रतिसादाची अपेक्षा करत असलात, तरीही LLM ने एकाच प्रॉम्प्टला दिलेला प्रतिसाद प्रत्येक वेळी सारखाच असेल असे नाही (किंवा त्याला ज्या माहितीवरून प्रशिक्षित केले गेले आहे तीच माहिती ते लिटरल पद्धतीने मिळवेल असे नाही). LLMs काही वेळा तथ्याधारित एररचा समावेश असू शकेल असे विश्वासार्ह वाटणारे प्रतिसाद जनरेट का करू शकतात याचे हेदेखील एक महत्त्वाचे कारण आहे — तथ्याधारितता महत्त्वाची असताना हे आदर्श नसते, पण क्रीएटिव्ह आणि अनपेक्षित आउटपुट जनरेट करताना हे उपयुक्त ठरू शकते.

प्रशिक्षणपश्चात

सुरुवातीच्या प्रशिक्षणानंतर, LLMs त्यांचे प्रतिसाद सुधारित करण्यासाठी अतिरिक्त पायऱ्यांमधून जातात. यापैकी एका पायरीला पर्यवेक्षित फाइन-ट्यूनिंग (SFT) म्हणतात, जे मॉडेलला उत्कृष्ट उत्तरांच्या काळजीपूर्वक निवडलेल्या उदाहरणांवर प्रशिक्षण देते. हे लहान मुलांना उत्तम प्रकारे लिहिलेल्या कथा आणि निबंध दाखवून लिहायला शिकवण्यासारखे आहे.

त्यानंतर मानवी फीडबॅकद्वारे रीएन्फोर्समेंट लर्निंग (RLHF) येते. इथे, मॉडेल एका विशेष रिवॉर्ड मॉडेलमधील स्कोअर किंवा फीडबॅक यांच्या आधारावर आणखी चांगले प्रतिसाद जनरेट करण्यास शिकते. या रिवॉर्ड मॉडेलला लोक कशाला प्राधान्य देतात हे शिकवून, जिथे प्रतिसाद एकमेकांच्या संबंधात रेट केले गेले आहेत अशा मानवी प्राधान्य डेटाबाबत प्रशिक्षित केले जाते. प्राधान्य डेटामध्ये कधीकधी मॉडेलसाठी आक्षेपार्ह किंवा चुकीचा असलेला डेटा समाविष्ट केलेला जाऊ शकतो आणि तो त्यांच्यासमोर ठेवला जाऊ शकतो, जेणेकरून तो कसा ओळखावा आणि कसा टाळावा हे ते शिकतील. एखाद्या लहान मुलाला काम चांगल्या प्रकारे केल्याबद्दल रिवॉर्ड देणे अशा प्रकारे तुम्ही प्राधान्य डेटाचा विचार करू शकता; लोकांना आवडणारी उत्तरे तयार केल्याबद्दल मॉडेलला रिवॉर्ड दिले जाते.

या सर्व टप्प्यांवर, उच्च गुणवत्तेचा प्रशिक्षण डेटा वापरणे महत्त्वाचे आहे. SFT साठी वापरलेली उदाहरणे सहसा तज्ञांनी लिहिलेली असतात किंवा मॉडेलद्वारे जनरेट केलेली आणि तज्ञांनी पुनरावलोकन केलेली असतात.

ही तंत्रे प्रभावी असली, तरी त्यांना मर्यादा आहेत. उदाहरणार्थ, रिवॉर्ड मॉडेलच्या मदतीनेदेखील, दिलेला प्रतिसाद नेहमीच परिपूर्ण असेल असे नाही. तरीही, ज्याप्रमाणे विद्यार्थी त्यांच्या शिक्षकांच्या टिप्पण्यांमधून शिकतात, त्याप्रमाणेच LLM ला मिळालेल्या फीडबॅकच्या आधारावर सर्वाधिक प्राधान्य असलेले प्रतिसाद निर्माण करण्यासाठी ते ऑप्टिमाइझ केले जाते.

वापरकर्ता प्रॉम्प्टना प्रतिसाद

प्रतिसाद जनरेशन हे एखाद्या प्रश्नाचे उत्तर देण्यासाठी माणूस वेगवेगळ्या दृष्टिकोनांवर विचारविनिमय करतो त्यासारखेच असते. वापरकर्त्याने प्रॉम्प्ट पुरवल्यावर, प्रतिसादाच्या बऱ्याच आवृत्त्यांचा मसुदा तयार करण्यासाठी Gemini हे प्रशिक्षणपश्चात LLM, प्रॉम्प्टमधील संदर्भ आणि वापरकर्त्यासोबतचा संवाद वापरते. त्याचे प्रतिसाद जनरेट करण्यासाठी ते Google Search आणि/किंवा त्याच्या बऱ्याच एक्स्टेंशनपैकी एक आणि अलीकडे अपलोड केलेल्या फाइल (फक्त Gemini Advanced) यांसारख्या बाह्य स्रोतांवरदेखील विसंबून असते. या प्रक्रियेला रिट्रीव्हल ऑगमेंटेशन असे म्हणतात. प्रॉम्प्ट दिल्यावर, Gemini या बाह्य स्रोतांकडून सर्वात सुसंबद्ध माहिती मिळवण्याचा प्रयत्न करते (उदा. Google Search) आणि त्याच्या प्रतिसादांमध्ये ते अचूकपणे दर्शवते. बाह्य टूल वापरून LLMs चे ऑगमेंटेशन करणे हे संशोधनाचे एक सक्रिय क्षेत्र आहे. एरर अनेक प्रकारे उद्भवू शकतात, ज्यामध्ये या बाह्य टूलना विनंती करण्यासाठी Gemini वापरत असलेली क्वेरी, टूलद्वारे मिळवलेल्या परिणामांचे Gemini कसा अर्थ लावते आणि अंतिम प्रतिसाद जनरेट करण्यासाठी हे मिळवलेले परिणाम कसे वापरले जातात या गोष्टींचा समावेश आहे. यामुळे, तो प्रतिसाद तयार करण्यासाठी वापरल्या जाणाऱ्या स्वतंत्र टूलच्या परफॉर्मन्सवर Gemini ने जनरेट केलेले प्रतिसाद दर्शवले जाऊ नयेत.

शेवटी, अंतिम प्रतिसाद प्रदर्शित केला जाण्यापूर्वी, प्रत्येक संभाव्य प्रतिसाद हा पूर्वनिर्धारित धोरण मार्गदर्शक तत्त्वे यांचे पालन करत असल्याची खात्री करण्यासाठी सुरक्षा तपासणी केली जाते. हानिकारक किंवा आक्षेपार्ह माहिती फिल्टर करण्यासाठी ही प्रक्रिया दोनदा तपासणी पुरवते. उर्वरित प्रतिसाद त्यांच्या गुणवत्तेनुसार रँक केले जातात, ज्यामध्ये सर्वाधिक स्कोअर करणारी(ऱ्या) आवृत्ती(त्त्या) वापरकर्त्याला परत प्रेझेंट केली(ल्या) जाते(तात).

AI द्वारे जनरेट केलेला आशय वॉटरमार्क करण्यासाठी आमचे SynthID हे उद्योगातील आघाडीचे डिजिटल टूलकिट वापरून Gemini मजकूर आणि इमेज आउटपुटदेखील आम्ही वॉटरमार्क करतो. जनरेट केलेल्या इमेजसाठी, SynthID हे थेट पिक्सेलमध्ये डिजिटल वॉटरमार्क (मानवी डोळ्यांना दिसू न शकणारा वॉटरमार्क) जोडते. अधिक विश्वासार्ह AI ओळख टूल विकसित करण्यासाठी SynthID हा एक महत्त्वाचा बिल्डिंग ब्लॉक आहे आणि लोकांनी AI द्वारे जनरेट केलेल्या आशयाशी संवाद कसा साधावा याबद्दल माहितीपूर्ण निर्णय घेण्यात त्यांना मदत करू शकतो.

मानवी फीडबॅक आणि मूल्यांकन

सुरक्षितता तपासण्या असूनदेखील, काही एरर उद्भवू शकतात. आणि Gemini चे प्रतिसाद तुमच्या अपेक्षांची नेहमीच पूर्णपणे पूर्तता करतील असे नाही. इथेच मानवी फीडबॅक काम करतो. सुधारणेसाठी क्षेत्रे ओळखून आणि निराकरणे सुचवून, परीक्षणकर्ते प्रतिसादांच्या गुणवत्तेचे मूल्यांकन करतात. हा फीडबॅक Gemini च्या शिकण्याच्या प्रक्रियेचा भाग बनतो, ज्याचे वर्णन वरील “प्रशिक्षणपश्चात” विभागामध्ये केले आहे.