Skip to main content

Gemini ऐप्लिकेशन के बारे में ख़ास जानकारी

हम काफ़ी पहले यह समझ गए थे कि एआई की मदद से, जानकारी पाना और कंप्यूटिंग करना सभी के लिए आसान हो जाता है. इससे लोगों को काफ़ी मदद मिल सकती है. हमने लार्ज लैंग्वेज मॉडल (एलएलएम) में नए-नए सुधार किए. इससे, Google के अलग-अलग प्रॉडक्ट के साथ-साथ, इस फ़ील्ड में भी काफ़ी प्रोग्रेस देखने को मिली. कई सालों से, हम अपने अलग-अलग प्रॉडक्ट में सुधार करने के लिए बैकग्राउंड में एलएलएम का इस्तेमाल कर रहे हैं. इससे हमें इन कामों में भी मदद मिली. जैसे, Gmail में वाक्यों को अपने-आप पूरा करने की सुविधा उपलब्ध कराना, ज़्यादा से ज़्यादा भाषाओं में Google Translate की सुविधा उपलब्ध कराना, और Google Search में बेहतर तरीक़े से क्वेरी समझना. हमने Google की सेवाओं और Gemini ऐप्लिकेशन को बेहतर बनाने के लिए, एलएलएम का इस्तेमाल जारी रखा है. इससे लोगों को जनरेटिव एआई के साथ मिलकर काम करने में मदद मिलती है. हमारा लक्ष्य Gemini ऐप्लिकेशन को सबसे मददगार और निजी एआई असिस्टेंट बनाना है, ताकि लोग सीधे तौर पर Google के नए-नए एआई मॉडल इस्तेमाल कर पाएँ.

हम अभी जनरेटिव एआई के मामले में ऐसे मोड़ पर खड़े हैं जहाँ से इस टेक्नोलॉजी में बड़े बदलाव हो सकते हैं. इसे लेकर पूरी दुनिया की तरह हम भी काफ़ी उत्सुक हैं. हालाँकि, अभी यह टेक्नोलॉजी शुरुआती दौर में है और हमें आने वाले समय में इसके इस्तेमाल और उससे मिलने वाले सभी नतीजों को ध्यान में रखना होगा. यहाँ बताया गया है कि हम Gemini ऐप्लिकेशन (“Gemini”) को बेहतर बनाने के लिए क्या कदम उठा रहे हैं. इसमें Gemini के मोबाइल वर्शन और वेब वर्शन को इस्तेमाल करने का अनुभव शामिल है — जैसे, यह क्या है, कैसे काम करता है, और फ़िलहाल इसकी क्या खू़ूबियाँ और सीमाएँ हैं. जैसे-जैसे Gemini के साथ काम करने वाली टेक्नोलॉजी बेहतर होती जाएगी वैसे-वैसे Gemini को बेहतर बनाने के हमारे तरीक़े में भी बदलाव आता जाएगा. इसमें हमारी रिसर्च, उपयोगकर्ता अनुभव, और उनसे मिले सुझाव, राय या शिकायतों से भी मदद मिलेगी.

Gemini क्या है

Gemini, किसी मल्टीमोडल एलएलएम (टेक्स्ट, इमेज वग़ैरह को प्रोसेस करने वाला मॉडल) के इंटरफ़ेस की तरह है. Gemini, ऐडवांस टेक्नोलॉजी की मदद से एलएलएम के लिए की गई Google की रिसर्च पर आधारित है. इसकी शुरुआत साल 2013 में पब्लिश हुए एक रिसर्च पेपर, Word2Vec से हुई. इसमें मॉडल के लिए एक नए आर्किटेक्चर के बारे में बताया गया था जो शब्दों को गणित के सिद्धांतों के तौर पर मैप करता था. इसके बाद, साल 2015 में हमने neural conversational model लॉन्च किया. इस फ़्रेमवर्क में यह जानकारी मिलती है कि मॉडल किसी बातचीत के दौरान, पिछले वाक्य/वाक्यों के आधार पर अगले वाक्य का अनुमान कैसे लगाते हैं. इससे लोगों को बातचीत का बेहतर अनुभव मिलता है. इसके बाद, हमें साल 2017 में ट्रांसफ़ॉर्मर और साल 2020 में, लगातार चैट करने की सुविधाओं से जुड़ी रिसर्च में कामयाबी मिली. इससे हमें भाषा से जुड़े जनरेटिव एआई में काफ़ी प्रोग्रेस देखने को मिली.

मार्च 2023 में, हमने Gemini (इसे पहले Bard कहा जाता था) को एआई से जुड़े हमारे सिद्धांतों के मुताबिक़ एक्सपेरिमेंट के तौर पर लॉन्च किया था. इसके बाद, लोगों ने कई कामों के लिए Gemini का इस्तेमाल किया. जैसे, शानदार ईमेल लिखना, कोडिंग से जुड़ी समस्याओं को ठीक करना, आने वाले किसी इवेंट के लिए आइडिया ढूँढकर चर्चा करना, मुश्किल विषयों के बारे में जानने में मदद पाना वग़ैरह. आज Gemini, अलग-अलग स्थितियों में काम करने वाला एक ऐसा एआई टूल है जो कई तरीक़ों से आपकी मदद कर सकता है. हम यह समझते हैं कि Gemini, प्रॉडक्टिविटी बढ़ाने, ज़्यादा क्रिएटिव बनने, और चीज़ों के बारे में ज़्यादा जानने में लोगों की मदद करता है. हम इसमें नई सुविधाएँ जोड़ना और सुधार करना जारी रखेंगे.

प्रॉडक्टिविटी

Gemini, आपका समय बचाता है. उदाहरण के लिए, अगर आपको किसी बड़े रिसर्च डॉक्यूमेंट की ख़ास जानकारी चाहिए, तो बस उसे Gemini पर अपलोड करें और वह आपको उसमें से काम की जानकारी निकालकर दे देगा. कोडिंग से जुड़े टास्क पूरे करने के लिए भी Gemini का इस्तेमाल किया जा सकता है. यह इसकी सबसे लोकप्रिय सेवाओं में से एक है.

क्रिएटिविटी

Gemini की मदद से अपने आइडिया को हक़ीक़त में बदला जा सकता है. यही नहीं, यह आपकी क्रिएटिविटी भी बढ़ा सकता है. उदाहरण के लिए, अगर आपको कोई ब्लॉग पोस्ट लिखना है, तो Gemini उसकी आउटलाइन बना सकता है और ऐसी इमेज जनरेट कर सकता है जो आपकी पोस्ट को बेहतर तरीक़े से समझने में मदद करें. अब ख़ास निर्देश देकर Gems तैयार किए जा सकते हैं. ये Gemini के कस्टम वर्शन होते हैं और आपके निजी लक्ष्य पूरे करने में किसी विषय के एक्सपर्ट की तरह मदद कर सकते हैं.

नई-नई चीज़ों के बारे में जानें

नए-नए आइडिया एक्सप्लोर करने और किसी विषय के बारे में ज़्यादा जानने के लिए, Gemini आपके बड़े काम आ सकता है. उदाहरण के लिए, यह किसी मुश्किल विषय को आसानी से समझा सकता है या किसी विषय या इमेज के बारे में अहम जानकारी दे सकता है. इतना ही नहीं, जल्द ही यह वेब पर मौजूद, काम का ऐसा कॉन्टेंट भी उपलब्ध कराएगा जिससे आपको उस विषय या इमेज के बारे में पूरी जानकारी मिल सके.

Gemini में लगातार नई सुविधाएँ जोड़ी जा रही हैं -- जल्द ही आपको इसमें एक और सुविधा देखने को मिलेगी. इसके ज़रिए, फ़ोन के कैमरे का इस्तेमाल करके किसी चीज़ के बारे में जानकारी ली जा सकेगी. जैसे, कैमरे का व्यू ताज महल पर लाकर Gemini से उसका रंग बताने को कहें (अगर आप जानना चाहें, तो यह “सफ़ेद” रंग का है). इसके अलावा, Gemini से किसी रेस्टोरेंट के मेन्यू को दूसरी भाषा में दिखाने और ऐसी डिश का सुझाव देने के लिए कहा जा सकेगा जो शायद आपको पसंद आए. ये उन सुविधाओं के सिर्फ़ दो उदाहरण हैं जो जल्द ही Gemini में उपलब्ध होने वाली हैं.

ज़ाहिर है कि हम Gemini को ट्रेन और मॉनिटर करने में कोई कमी नहीं छोड़ते, ताकि इसके जवाब भरोसेमंद हों और आपकी उम्मीद के मुताबिक़ हों. इसके अलावा, हम उभरती हुई इस टेक्नोलॉजी के नए-नए इस्तेमाल, इससे होने वाले जोखिम, और इसकी सीमाओं के बारे में जानने के लिए, अलग-अलग क्षेत्र के लोगों से बातचीत भी करते हैं. जैसे, इस इंडस्ट्री से जुड़े विशेषज्ञ, एजुकेटर, नीति बनाने वाले, कारोबारी, नागरिक अधिकारों और मानवाधिकारों के लिए काम करने वाले नेता, और कॉन्टेंट क्रिएटर्स.

Gemini कैसे काम करता है

1

प्री-ट्रेनिंग

2

पोस्ट-ट्रेनिंग

3

उपयोगकर्ता के प्रॉम्प्ट के जवाब देना

4

लोगों के सुझाव, शिकायत या राय और उनकी समीक्षा

Gemini जैसे एलएलएम पर आधारित इंटरफ़ेस की सीमाएँ

हम लंबे समय से ज़िम्मेदारी के साथ एलएलएम डेवलप करने के लिए काम कर रहे हैं. Gemini भी इस कोशिश का हिस्सा है. इस पूरी प्रोसेस के दौरान, हमने एलएलएम से जुड़ी कई सीमाओं के बारे में जाना और उन पर चर्चा की. इन पर हमारी रिसर्च जारी है. यहाँ ऐसे ही छह पहलुओं पर फ़ोकस किया गया है.

  • सटीक जवाब: Gemini से मिले जवाब ग़लत भी हो सकते हैं. ख़ास तौर पर, कोई मुश्किल या तथ्यों पर आधारित सवाल पूछने पर ऐसा हो सकता है.

  • पक्षपात: ट्रेनिंग में इस्तेमाल हुए डेटा की वजह से ऐसा हो सकता है कि Gemini के जवाबों में लोगों या दूसरे विषयों को लेकर पक्षपात दिखे.

  • अलग-अलग नज़रिए: ऐसा हो सकता है कि Gemini के जवाबों में आपको अलग-अलग नज़रिए देखने को न मिलें.

  • पर्सोना: Gemini के जवाबों से ऐसा लग सकता है कि इसकी अपनी भी कोई राय या भावना है.

  • फ़ॉल्स पॉज़िटिव और फ़ॉल्स नेगेटिव: ऐसा हो सकता है कि Gemini, कुछ सही सवालों के जवाब न दे और कुछ सवालों के ग़लत जवाब दे.

  • ग़लत इरादे से सवाल पूछे जाने पर जोखिम की आशंका: Gemini की सीमाएँ और कमियाँ जानने के लिए, लोग इससे जान-बूझकर अटपटे या आपत्तिजनक सवाल पूछ सकते हैं.

हम इन पहलुओं में सुधार करने के लिए लगातार नए-नए तरीक़ों पर काम कर रहे हैं.

सटीक जवाब

Gemini, Google के हिसाब से आधिकारिक जानकारी के आधार पर जवाब देता है. साथ ही, इसे ऐसे जवाब जनरेट करने के लिए ट्रेन किया गया है जो आपके सवाल के कॉन्टेक्स्ट से मिलते-जुलते और काम के हों. हालाँकि, अन्य एलएलएम की तरह Gemini भी, कभी-कभी पूरे आत्मविश्वास के साथ ऐसे जवाब जनरेट कर सकता है जो ग़लत या गुमराह करने वाले हों.

एलएलएम को किसी बातचीत के अगले शब्द या शब्दों के क्रम का अनुमान लगाने के लिए ट्रेन किया गया है. इसलिए, फ़िलहाल एलएलएम ख़ुद से सही और ग़लत जानकारी के बीच का फ़र्क़ नहीं कर पाते. हमने देखा है कि Gemini के जवाबों में ग़लत जानकारी मिलती है या वह ख़ुद से भी कोई ग़लत जानकारी जनरेट करता है. जैसे, इसे ट्रेन करने की जानकारी को ग़लत तरीक़े से पेश करना और किसी ऐसी किताब का सुझाव देना जो असल में है ही नहीं. इससे बचने के लिए, हमने “दोबारा जाँच करने की सुविधा” जैसे तरीक़े ईजाद किए हैं. इस तरह की सुविधा Google Search का इस्तेमाल करके, ऐसे कॉन्टेंट का पता लगाती है जो Gemini से मिले जवाबों की जाँच करने में आपकी मदद करता है. साथ ही, इन जवाबों के साथ सोर्स के लिंक जोड़कर जानकारी की जाँच करने का विकल्प उपलब्ध कराती है.

पक्षपात

ट्रेनिंग डेटा में, आपको कई तरह की राय और नज़रिए दिखते हैं. इसमें सार्वजनिक तौर पर उपलब्ध सोर्स से लिया गया ट्रेनिंग डेटा भी शामिल है. हम लगातार यह रिसर्च कर रहे हैं कि इस डेटा का इस्तेमाल कैसे किया जाए, ताकि यह पक्का हो सके कि एलएलएम से मिले जवाब में अलग-अलग नज़रिए शामिल हों. हमारा मक़सद यह भी है कि एलएलएम अपने जवाब में किसी विषय से जुड़े एक नज़रिए की तरफ़ झुकाव न रखे और कम जानकारी उपलब्ध होने के बावजूद, ग़लत तरीक़े से हर स्थिति में उसी नज़रिए पर ज़ोर न दे.

अगर मॉडल की ट्रेनिंग वाले डेटा में किसी पहलू के बारे में कम जानकारी मौजूद हो, एक ही नज़रिए की तरफ़ झुकाव हो, और कम जानकारी उपलब्ध होने के बावजूद ग़लत तरीक़े से हर स्थिति में उसी नज़रिए पर ज़ोर दिया गया हो, तो किसी प्रॉम्प्ट के लिए संभावित जवाबों का अनुमान लगाते समय यह उस मॉडल के आउटपुट में भी देखने को मिल सकता है. ये समस्याएँ कई तरीक़ों से सामने आ सकती हैं. जैसे, वे जवाब जिनमें सिर्फ़ एक संस्कृति या डेमोग्राफ़िक के हिसाब से जानकारी दी गई हो, कम जानकारी उपलब्ध होने के बावजूद ग़लत तरीक़े से हर स्थिति में उसी नज़रिए पर ज़ोर दिया गया हो. इसके अलावा, लिंग, धर्म या जातीयता के आधार पर पक्षपात किया गया हो या सिर्फ़ एक तरह का नज़रिया पेश किया गया हो. कुछ विषयों के बारे में ज़रूरी डेटा मौजूद नहीं होता है — दूसरे शब्दों में कहें, तो किसी दिए गए विषय के बारे में जानने और अच्छे से अनुमान लगाने के लिए, एलएलएम के पास ज़रूरत के मुताबिक़ भरोसेमंद जानकारी मौजूद नहीं होती है — इस वजह से, कम क्वालिटी वाले या ग़लत जवाब जनरेट होते हैं. हम किसी विषय के जानकारों और अलग कम्यूनिटी के साथ मिलकर लगातार रिसर्च करते हैं, ताकि Google से बाहर के जानकारों की मदद ली जा सके.

अलग-अलग नज़रिए

जिन विषयों से जुड़े सवालों के तय जवाब नहीं होते हैं उनके लिए Gemini, अपने जवाब में अलग-अलग नज़रिए दिखाता है. ऐसा तब होता है, जब उपयोगकर्ता ने ख़ास तौर पर किसी एक नज़रिए के बारे में बताने के लिए न कहा हो. उदाहरण के लिए, यह तब होता है, जब कोई ऐसा सवाल पूछा जाए जिसकी पुष्टि किसी प्राइमरी सोर्स के तथ्यों या आधिकारिक सोर्स के आधार पर नहीं की जा सकती — जैसे, किसी विषय की “सबसे अच्छी” और “सबसे बुरी” बात बताना, जिसके लिए सबका अलग-अलग नज़रिया हो सकता है — Gemini को इन सवालों के ऐसे जवाब देने चाहिए जिनसे अलग-अलग नज़रिए का पता चल सके. हालाँकि, Gemini जैसे एलएलएम, इंटरनेट पर सार्वजनिक तौर पर उपलब्ध कॉन्टेंट से ट्रेन किए जाते हैं. इसलिए, वे राजनेताओं, अन्य मशहूर हस्तियों या मशहूर लोगों के सकारात्मक और नकारात्मक विचार दिखा सकते हैं. इसके अलावा, वे विवादास्पद सामाजिक या राजनैतिक मुद्दों पर सिर्फ़ एक पक्ष के विचारों को अपने जवाबों में शामिल कर सकते हैं. Gemini को इस तरीक़े से जवाब नहीं देने चाहिए जो इन विषयों पर किसी ख़ास नज़रिए को बढ़ावा देते हों. हम Gemini को बेहतर तरीक़े से जवाब देने की ट्रेनिंग में, इस तरह के जवाबों पर लोगों से मिले सुझाव, शिकायत या राय का इस्तेमाल करेंगे.

पर्सोना

Gemini के जवाबों से कभी-कभी ऐसा लग सकता है कि इसकी अपनी भी कोई राय या भावना है. जैसे, प्यार या निराशा. ऐसा इसलिए होता है, क्योंकि इसे ऐसी भाषा में ट्रेनिंग दी गई है जिसका इस्तेमाल लोग, मानवीय अनुभव ज़ाहिर करने के लिए करते हैं. हमने दिशा-निर्देशों का एक सेट डेवलप किया है. इसमें यह बताया गया है कि Gemini ख़ुद को किस तरह पेश कर सकता है (इसे पर्सोना कहा जाता है). इसके अलावा, हम इसे बेहतर बनाने का काम जारी रखेंगे, ताकि इसके जवाब बिना पक्षपात के सटीक हों.

फ़ॉल्स पॉज़िटिव / नेगेटिव

हमने Gemini को ट्रेन करने के लिए, नीति के दिशा-निर्देशों का एक सेट तैयार किया है, ताकि यह ग़लत जवाब न दे. कभी-कभी Gemini इन दिशा-निर्देशों को ग़लत तरीक़े से समझ सकता है, जिससे “फ़ॉल्स पॉज़िटिव” और “फ़ॉल्स नेगेटिव” जैसी समस्याएँ आ सकती हैं. जब Gemini किसी सही सवाल को आपत्तिजनक समझकर उसका जवाब नहीं देता है, तो इसे “फ़ॉल्स पॉज़िटिव” कहते हैं. वहीं, जब वह नीतियों के मुताबिक़ ग़लत माने जाने वाले सवाल को सही मानकर उसका आपत्तिजनक जवाब दे देता है, तो इसे “फ़ॉल्स नेगेटिव” कहा जाता है. कभी-कभी “फ़ॉल्स पॉज़िटिव” और “फ़ॉल्स नेगेटिव” जैसी समस्याओं की वजह से, लोगों को ऐसा लग सकता है कि Gemini पक्षपात करता है: उदाहरण के लिए, फ़ॉल्स पॉज़िटिव की वजह से Gemini, किसी विषय से जुड़े एक पहलू के बारे में जवाब देने से मना कर देता है. वहीं, उसी विषय से जुड़े दूसरे पहलू के बारे में जवाब दे देता है. भाषा, घटनाओं, और समाज में लगातार बदलाव आते रहते हैं. इसलिए, हम इन मॉडल को बेहतर बनाने की लगातार कोशिश कर रहे हैं, ताकि वे इनपुट और आउटपुट को बेहतर तरीक़े से समझ पाएँ और उन्हें सही कैटगरी में बाँट सकें.

जानकारी हासिल करने के लिए, ग़लत इरादे से सवाल पूछे जाने पर जोखिम की आशंका

हम जानते हैं कि उपयोगकर्ता, Gemini की सीमाओं को परखने और उसकी सुरक्षा को गच्चा देने की कोशिश करेंगे. जैसे, Gemini से उसके ट्रेनिंग प्रोटोकॉल से जुड़ा डेटा/अन्य गोपनीय जानकारी हासिल करने या सुरक्षा से जुड़ी इसकी सुविधाओं को चकमा देने की कोशिश करना. हमने Gemini की अच्छी तरह से जाँच की है और आगे भी करते रहेंगे. हालाँकि, हमें मालूम है कि उपयोगकर्ता, इसे परखने के लिए यूनीक और मुश्किल से मुश्किल तरीक़े ढूँढ ही लेंगे. Gemini को बेहतर बनाने में इसकी अहम भूमिका है. हम उपयोगकर्ताओं के इस तरह के नए-नए प्रॉम्प्ट के बारे में जानने के लिए भी उत्सुक हैं. साल 2023 में Gemini के लॉन्च के बाद से, हमने देखा है कि उपयोगकर्ता इसे टेस्ट करने के लिए गहरी बातों वाले प्रॉम्प्ट से लेकर बेतुके प्रॉम्प्ट भी देते हैं – कुछ मामलों में, हमने Gemini को भी इसी तरह के बेतुके जवाब देते देखा है, जो हमारे तय मक़सद के मुताबिक़ नहीं होते. हम लगातार कोशिश कर रहे हैं कि Gemini इस तरह के प्रॉम्प्ट के सही जवाब दे. इसलिए, हम लगातार आंतरिक समीक्षाएँ और रेड-टीमिंग करते जा रहे हैं, ताकि Gemini के जवाब लगातार सटीक हो सकें. साथ ही, इसकी निष्पक्षता बनी रहे और यह बारीक से बारीक जानकारी को प्रोसेस कर पाए.

हम Gemini को बेहतर बनाने के लिए क्या-क्या काम कर रहे हैं

Gemini के पीछे के मक़सद को पूरा करने का हमारा तरीक़ा

एआई से जुड़े हमारे सिद्धांतों के साथ-साथ, हमने हाल ही में Gemini को बेहतर बनाने के हमारे मक़सद के बारे जानकारी दी. हमारा मक़सद है कि Gemini आपके निर्देशों का पालन करे, आपकी ज़रूरतों के मुताबिक़ ख़ुद को ढाले, और आपको सुरक्षित अनुभव दे. हमारा फ़ोकस Gemini को एक ज़िम्मेदार और सुरक्षित लैंग्वेज मॉडल बनाना है. Gemini की नीति के दिशा-निर्देशों के तहत इस बात का ध्यान रखा जाता है कि Gemini ग़लत या आपत्तिजनक नतीजे न दिखाए. हमारी इंटरनल “रेड टीम”, Gemini को लगातार टेस्ट कर रही है, ताकि यह पक्का किया जा सके कि इसका इस्तेमाल नुक़सान पहुँचाने वाले और अनैतिक कामों के लिए न किया जा सके. इस टीम में, प्रॉडक्ट के विशेषज्ञ और सोशल साइंटिस्ट शामिल हैं. यह टीम पक्का करती है कि Gemini, नीति के दिशा-निर्देशों और हमारे मक़सद के मुताबिक़ काम कर रहा है या नहीं. ऐसा करके, हमें Gemini की कमियों का पता चलता है और इससे Gemini को लगातार बेहतर बनाने में मदद मिलती है.

हम Gemini को डेवलप करते समय निजता का भी ख़ास ध्यान रखते हैं. Gemini Apps निजता हब में आपको इस बारे में ज़्यादा जानकारी मिल जाएगी कि Gemini को डेवलप करने की पूरी प्रोसेस के दौरान, निजता की सुरक्षा बनाए रखने और आपको अपने डेटा का कंट्रोल देने के लिए क्या किया जाता है.

उपयोगकर्ता और पब्लिशर, दोनों को अपने डेटा का कंट्रोल देना

हमने Gemini के उपयोगकर्ताओं के लिए, आसानी से इस्तेमाल किए जा सकने वाले कंट्रोल बनाए हैं. इनका इस्तेमाल, Gemini की मदद से की गई अपनी गतिविधि के डेटा की समीक्षा करने, उसे अपडेट करने, मैनेज करने, एक्सपोर्ट करने, और मिटाने के लिए करें. 'Gemini Apps में की गई गतिविधि' सेटिंग में जाकर, Gemini से मिले जवाब, उसे दिए गए अपने प्रॉम्प्ट, सुझाव, शिकायत या राय को ऐक्सेस किया जा सकता है और उसकी समीक्षा भी की जा सकती है. इसके अलावा, आपके पास आने वाले समय में Gemini से की जाने वाली अपनी चैट को, Google की मशीन लर्निंग टेक्नोलॉजी को बेहतर बनाने के लिए इस्तेमाल होने से रोकने का विकल्प भी है. इसके लिए, 'Gemini Apps में की गई गतिविधि' सेटिंग को बंद करें. Google की अन्य सेवाओं की तरह यहाँ भी आपको अपना डेटा डाउनलोड और एक्सपोर्ट करने का विकल्प मिलता है. इसके लिए, Takeout टूल का इस्तेमाल करें. इसके अलावा, हमने आपके लिए ऐसे कंट्रोल भी उपलब्ध कराए हैं जिनकी मदद से, Gemini थ्रेड में बनाए गए सार्वजनिक लिंक को मैनेज किया जा सकता है. साथ ही, Workspace, Maps, YouTube जैसे एक्सटेंशन के ऐक्सेस को चालू या बंद किया जा सकता है. हम ऐसे नए तरीक़े भी खोज रहे हैं जिनकी मदद से Gemini के जवाबों को और ज़्यादा कंट्रोल किया जा सकेगा. इसमें ऐसे फ़िल्टर शामिल हैं जिनकी मदद से आपको कई तरह के जवाब देखने को मिलेंगे.

हमने पब्लिशर के लिए Google-Extended लॉन्च किया है. यह ऐसा कंट्रोल है जिसकी मदद से वेब पब्लिशर तय कर सकते हैं कि उनकी साइट पर मौजूद डेटा का इस्तेमाल, Gemini और Vertex AI की मदद से तैयार किए गए एपीआई को बेहतर बनाने के लिए किया जाना चाहिए या नहीं. Google-Extended को साइटों पर मौजूद कॉन्टेंट का ऐक्सेस देकर, समय के साथ एआई मॉडल को ज़्यादा सटीक और कारगर बनाने में मदद की जा सकती है. हालाँकि, साइटों पर मौजूद कॉन्टेंट का ऐक्सेस नहीं दिए जाने पर उनके कॉन्टेंट का इस्तेमाल, मॉडल को ट्रेन करने के लिए नहीं किया जाएगा. इसके अलावा, Gemini अपने जवाबों में भी उस कॉन्टेंट को नहीं दिखाएगा. जैसे-जैसे एआई के इस्तेमाल का दायरा बढ़ता जाएगा वैसे-वैसे वेब पब्लिशर के लिए यह मैनेज करना मुश्किल होगा कि बड़े पैमाने पर उनके डेटा का किस तरह इस्तेमाल हो. हमारी कोशिश है कि वेब पब्लिशर और एआई कम्यूनिटी के साथ मिलकर, ऐसे तौर-तरीक़े उपलब्ध कराए जाएँ जिनसे सिस्टम, कॉन्टेंट के इस्तेमाल और उनके कंट्रोल से जुड़े विकल्पों को आसानी से प्रोसेस कर पाए.

Improving Gemini together

हमारा मानना है कि इस मॉडल में तेज़ी से बदलाव होते रहने चाहिए और दुनिया को Gemini का सबसे अच्छा वर्शन मिलना चाहिए. उपयोगकर्ता से मिले सुझाव, राय या शिकायत से, हमें अपने मॉडल को तेज़ी से बेहतर बनाने में मदद मिली है. उदाहरण के लिए, हम रीइन्फ़ोर्समेंट लर्निंग वाली बेहतरीन तकनीकों की मदद से अपने मॉडल को ट्रेन करते हैं, ताकि वे आपकी भावनाओं को और अच्छी तरह समझ पाएँ और पहले से कहीं बेहतर नए आइडिया दे पाएँ. साथ ही, इनसे मिले जवाब सटीक और बेहतर क्वालिटी के हों. हम एलएलएम से जुड़ी तकनीकी, सामाजिक, और नैतिक चुनौतियों को बेहतर तरीके़ से समझने और इनसे जुड़े अवसरों के बारे में अपनी समझ बढ़ाने के लिए लगातार रिसर्च करते रहेंगे. इनका इस्तेमाल Gemini के मॉडल को ट्रेन करने और बेहतर बनाने के तरीक़ों में सुधार करने के लिए किया जाता है. इसके अलावा, रिसर्चर के साथ अपने अनुभव शेयर करने के लिए भी इनका इस्तेमाल किया जाता है. उदाहरण के लिए, हमने Ethics of Advanced AI Assistants रिसर्च में अपने अनुभव शेयर किए थे. हम Gemini को बेहतर बनाने के लिए, ज़िम्मेदारी के साथ काम करेंगे. इसके लिए, हम Gemini के उपयोगकर्ता, भरोसेमंद टेस्टर, और रिसर्चर के साथ मिलकर काम करते रहेंगे, ताकि सभी लोग इस नई टेक्नोलॉजी का फ़ायदा ले सकें.

पारदर्शिता ज़रूरी है और यही वजह है कि हम Gemini को डेवलप करने की प्रोसेस और इसकी सीमाओं के बारे में लोगों से कुछ भी नहीं छिपाते. Gemini कोई जादुई चिराग़ नहीं है. यह लगातार बेहतर हो रहा है और हम इसकी प्रोग्रेस के बारे में आपको अपडेट देते रहेंगे. हमने आपको Gemini की नई सुविधाओं, इसमें किए गए सुधार, और ठीक की गई गड़बड़ियों के बारे में अपडेट देने के लिए, रिलीज़ से जुड़े अपडेट वाला पेज लॉन्च किया है. हम इस पेज पर समय-समय पर ख़ास जानकारी उपलब्ध कराते रहेंगे. हम उन पहलुओं की पहचान करेंगे जिनमें Gemini मददगार और फ़ायदेमंद है और जिनमें बदलाव और सुधार करने की ज़रूरत है. हम Gemini पर लगातार नई सुविधाएँ उपलब्ध करा रहे हैं. इसके लिए हम रिसर्च, टेस्टिंग, और लोगों के सुझाव, शिकायत या राय पर ध्यान दे रहे हैं. इससे हमें Gemini को बेहतर बनाने में मदद मिलेगी.

लोगों का आभार

हम इस शानदार काम के लिए, Gemini ऐप्लिकेशन बनाने वाली टीम, भरोसा और सुरक्षा टीम, Google की रिसर्च टीम, और Google DeepMind में काम करने वाले हमारे सहकर्मियों का शुक्रिया अदा करते हैं.

यह लेख इन्होंने लिखा है

जेम्स मैनयीका
एसवीपी, रिसर्च, टेक्नोलॉजी, और सोसाइटी

सिसी सियाओ
वाइस प्रेसिडेंट और जनरल मैनेजर, Google Assistant और Gemini ऐप्लिकेशन

एडिटर का नोट

यह एक लाइव दस्तावेज़ है और इसमें समय-समय पर बदलाव होते रहेंगे. ऐसा इसलिए, क्योंकि हम Gemini ऐप्लिकेशन की सुविधाओं में तेज़ी से सुधार करते रहेंगे. साथ ही, एलएलएम की सीमाओं का पता लगाते रहेंगे. इस ख़ास जानकारी को पिछली बार 25 जुलाई, 2024 को अपडेट किया गया था. Gemini ऐप्लिकेशन के बारे में अप-टू-डेट जानकारी पाने के लिए, रिलीज़ से जुड़े अपडेट वाले पेज पर जाएँ या Google Keyword ब्लॉग पर जाकर इस बारे में ज़्यादा जानें.

Gemini कैसे काम करता है

1 प्री-ट्रेनिंग

Gemini, Google के सबसे सक्षम एआई मॉडल की मदद से काम करता है. इन मॉडल की अलग-अलग खू़बियाँ हैं और इन्हें अलग-अलग कामों के लिए इस्तेमाल किया जाता है. आज के दौर के ज़्यादातर एलएलएम की तरह, इन मॉडल को भी सार्वजनिक तौर पर उपलब्ध सोर्स से लिए गए अलग-अलग तरह के डेटा की मदद से ट्रेन किया गया है. हम हर तरह के डेटासेट पर क्वालिटी वाले फ़िल्टर लगाते हैं. इसके लिए, हम सामान्य जानकारी वाले नियमों और मॉडल पर आधारित क्लासिफ़ायर इस्तेमाल करते हैं. इसके अलावा, हम सुरक्षित कॉन्टेंट की पहचान करने वाले फ़िल्टर का भी इस्तेमाल करते हैं, ताकि ऐसे कॉन्टेंट को हटाया जा सके जिससे नीति का उल्लंघन करने वाले नतीजे मिल सकते हैं. हमारी कोशिश होती है कि मॉडल का आकलन सटीक और भरोसेमंद हो. इसके लिए, हम उसकी ट्रेनिंग में इस्तेमाल होने वाले डेटा से उस डेटा को हटा देते हैं जिसका इस्तेमाल मॉडल के आकलन में किया जाना है. कौन-कौनसा और कितना डेटा इस्तेमाल किया जाए, यह छोटे-छोटे मॉडल के साथ की जाने वाली अबलेशन प्रोसेस (किसी ख़ास तरह के डेटा को अलग करने की प्रोसेस) की मदद से तय किया जाता है. इस प्रोसेस में, ट्रेनिंग डेटा के किसी हिस्से को हटाकर मॉडल की परफ़ॉर्मेंस का आकलन किया जाता है. हम ट्रेनिंग के चरण कुछ इस तरह से तय करते हैं कि ट्रेनिंग के दौरान भी किसी डेटा की भागीदारी में बदलाव किया जा सके. ट्रेनिंग के आख़िरी पड़ाव आने तक, मॉडल के डोमेन से जुड़े डेटा की भागीदारी बढ़ा दी जाती है. मॉडल की बेहतरीन परफ़ॉर्मेंस के लिए डेटा क्वालिटी एक अहम फ़ैक्टर है. हमे लगता है कि प्री-ट्रेनिंग के लिए डेटासेट का सबसे सही डिस्ट्रिब्यूशन कैसे हो, इससे जुड़े कई ज़रूरी सवालों के जवाब तलाशना अब भी बाक़ी है.

इस ट्रेनिंग से, मॉडल किसी भाषा के पैटर्न को समझकर उनका इस्तेमाल, किसी बातचीत के क्रम में आने वाले अगले शब्द का अनुमान लगाने के लिए करता है. उदाहरण के लिए, सीखने के क्रम में आगे बढ़ने पर कोई एलएलएम यह अनुमान लगा सकता है कि “पीनट बटर और ___’’ में अगला शब्द “जेली” होगा न कि “जूते का फ़ीता”. हालाँकि, अगर कोई एलएलएम बिलकुल वही शब्द चुनता है जिसकी संभावना पहले से थी, तो उस जवाब को हम ज़्यादा क्रिएटिव नहीं कहेंगे. इसलिए, एलएलएम को ऐसे जवाब देने के लिए भी ट्रेन किया जाता है जो सटीक हों, लेकिन उस जवाब की उम्मीद कम हो (जैसे, “केला”). इससे जवाब ज़्यादा दिलचस्प होते हैं. इस बात पर ध्यान दें कि एलएलएम कभी-कभी तथ्यों पर आधारित सवालों के बहुत सटीक जवाब दे सकते हैं, जिससे आपको लगेगा कि वे कहीं से जानकारी हासिल करके ऐसा कर रहे हैं. हालाँकि, ये मॉडल न तो जानकारी वाले डेटाबेस हैं और न ही डिटरमिनिस्टिक एल्गोरिदम के ज़रिए जानकारी वापस पाने वाले सिस्टम. इसलिए, आपको ऐसा लग सकता है कि किसी डेटाबेस से जुड़ी क्वेरी के लिए बार-बार एक ही जवाब मिलेगा (जो कि हूबहू वैसा ही होगा जैसी जानकारी डेटाबेस में सेव की गई है). हालाँकि, उस क्वेरी के लिए एलएलएम हर बार न तो हूबहू एक जैसा जवाब देगा और न ही यह जवाब बिलकुल उस जानकारी की तरह होगा जिससे मॉडल को ट्रेन किया गया था. यह भी एक ऐसा अहम फ़ैक्टर है जिसकी वजह से एलएलएम, लोगों और अन्य विषयों के बारे में भरोसेमंद लगने वाले, लेकिन ग़लत जवाब दे सकते हैं — तथ्यों पर आधारित जवाबों के मामले में ऐसा होना ठीक नहीं है. हालाँकि, क्रिएटिव और उम्मीद से हटकर जवाब तैयार करने में इससे मदद मिल सकती है.

2 पोस्ट-ट्रेनिंग

शुरुआती ट्रेनिंग के बाद, एलएलएम को और भी कई चरण पार करने होते हैं, ताकि उनके जवाब बेहतर हो सकें. इनमें से एक चरण सुपरवाइज़्ड फ़ाइन-ट्यूनिंग (एसएफ़टी) है. इसमें मॉडल को, बेहतरीन जवाबों के चुनिंदा उदाहरणों की मदद से ट्रेन किया जाता है. यह किसी बच्चे को बेहतरीन तरीक़े से लिखी गई कहानियाँ और निबंध दिखाकर, लिखना सिखाने जैसा ही है.

अगला चरण, लोगों के सुझाव पर आधारित रीइन्फ़ोर्समेंट लर्निंग (आरएलएचएफ़) के बारे में है. इसमें मॉडल, किसी ख़ास रिवॉर्ड मॉडल से मिले स्कोर या सुझाव/शिकायत/राय के आधार पर बेहतर जवाब तैयार करना सीखता है. इस रिवॉर्ड मॉडल को लोगों से मिले सुझाव, शिकायत या राय की मदद से ट्रेन किया गया है. इसमें अलग-अलग जवाबों की आपस में तुलना करके रेटिंग दी जाती है. इससे रिवॉर्ड मॉडल को ऐसा जवाब चुनना सिखाया जाता है जो लोगों को पसंद आए. इस तरह के डेटा में कभी-कभी ग़लत या आपत्तिजनक जानकारी भी शामिल की जाती है, ताकि मॉडल यह सीख सके कि इस तरह की जानकारी को कैसे पहचानना है और कैसे नज़रअंदाज़ करना है. रिवॉर्ड मॉडल का इस्तेमाल करके दी जाने वाली ट्रेनिंग, किसी बच्चे को अच्छी तरह से काम करने पर मिलने वाले इनाम की तरह है. लोगों को पसंद आने वाले जवाब जनरेट करने पर, एलएलएम को उस जवाब के लिए अच्छी रेटिंग मिलती है.

इन सभी चरणों के दौरान, अच्छी क्वालिटी का ट्रेनिंग डेटा इस्तेमाल करना ज़रूरी होता है. आम तौर पर, एसएफ़टी के दौरान इस्तेमाल किए जाने वाले उदाहरणों को विशेषज्ञ लिखते हैं या फिर उन्हें किसी मॉडल की मदद से जनरेट किया जाता है. इसके बाद, विशेषज्ञ उनकी समीक्षा करते हैं.

काफ़ी ऐडवांस होने के बावजूद इन तकनीकों की सीमाएँ भी हैं. उदाहरण के लिए, रिवार्ड मॉडल की ट्रेनिंग मिलने के बाद जनरेट किए गए जवाब भी हमेशा उम्मीद के मुताबिक़ नहीं हो सकते. हालाँकि, एलएलएम को इस तरह से ऑप्टिमाइज़ किया जाता है कि वह लोगों के सुझाव, राय या शिकायत के आधार पर, सबसे ज़्यादा पसंद किए जाने वाले जवाब दे सके. यह टीचर के सुझावों पर अमल करके, छात्र-छात्राओं के सीखने जैसा ही है.

3 उपयोगकर्ता के सवालों के जवाब देना

जवाब देने की प्रोसेस वैसी ही होती है जैसे कोई इंसान किसी सवाल के पूछे जाने पर, जवाब देने के अलग-अलग तरीक़ों पर सोच-विचार करता है. उपयोगकर्ता से प्रॉम्प्ट मिलने पर Gemini, सवाल और उपयोगकर्ता से हुई बातचीत में मिले कॉन्टेक्स्ट और पहले से ट्रेन किए गए एलएलएम का इस्तेमाल करता है. इससे वह जवाब के लिए कई ड्रॉफ़्ट तैयार कर पाता है. यह Google Search जैसे एक्सटर्नल सोर्स और/या अपने किसी एक्सटेंशन, और हाल ही में अपलोड की गई फ़ाइलों की मदद से भी जवाब जनरेट करता है (फ़ाइलें अपलोड करने की सुविधा सिर्फ़ Gemini Advanced के उपयोगकर्ताओं के लिए उपलब्ध है). इस प्रोसेस को रिट्रीवल ऑगमेंटेशन कहते हैं. प्रॉम्प्ट मिलने पर Gemini, Google Search जैसे एक्सटर्नल सोर्स से काम की जानकारी इकट्ठा करने की कोशिश करता है और उन्हें अपने जवाब में बड़े सटीक तरीक़े से पेश करता है. हम इसके लिए भी रिसर्च कर रहे हैं कि एलएलएम और एक्सटर्नल टूल को साथ में कैसे इस्तेमाल किया जाए. जवाब में गड़बड़ी होने की कई वजहें हो सकती हैं. जैसे, Gemini इन एक्सटर्नल टूल से क्या क्वेरी करता है, वह इन टूल की मदद से मिले नतीजों को कैसे समझता है, और जवाब जनरेट करने के लिए इन नतीजों का कैसे इस्तेमाल किया जाता है. इसलिए, Gemini से मिले जवाबों के लिए सिर्फ़ किसी टूल को ज़िम्मेदार नहीं ठहराया जा सकता.

आख़िर में, फ़ाइनल आउटपुट देने से पहले हर संभावित जवाब की सुरक्षा जाँच होती है, ताकि यह पक्का किया जा सके कि जवाब नीति के दिशा-निर्देशों का पालन करता है या नहीं. इससे, नुक़सान पहुँचाने वाली या आपत्तिजनक जानकारी को हटाने के लिए दोबारा जाँच करने में मदद मिलती है. इसके बाद, बाक़ी जवाबों को उनकी क्वालिटी के आधार पर रैंक किया जाता है. उपयोगकर्ता को सबसे अच्छी रैंक वाले जवाब दिखाए जाते हैं.

हम Gemini के जनरेट किए गए टेक्स्ट और इमेज को वॉटरमार्क भी करते हैं. इसके लिए, SynthID का इस्तेमाल किया जाता है. यह एआई से बनाए गए कॉन्टेंट की पहचान करने के लिए, हमारा बेहतरीन डिजिटल टूलकिट है. SynthID, जनरेट की गई इमेज के पिक्सल में एक डिजिटल वॉटरमार्क जोड़ता है, जो आम तौर पर नज़र नहीं आता. SynthID, एआई से जनरेट किए गए कॉन्टेंट की पहचान करने के लिए भरोसेमंद टूल बनाने में काफ़ी अहम भूमिका निभाता है. साथ ही, इसकी मदद से लोगों को एआई से बनाए गए कॉन्टेंट के साथ सोच-समझकर इंटरैक्ट करने में मदद मिलती है.

4 लोगों के सुझाव, शिकायत या राय और उनकी समीक्षा

अलग-अलग सुरक्षा जाँच के बावजूद कुछ गड़बड़ियाँ हो सकती हैं. ऐसा हो सकता है कि Gemini हमेशा आपकी उम्मीदों के मुताबिक़ जवाब न दे. इसलिए, हम लोगों से मिले सुझाव, राय या शिकायतों की मदद लेते हैं. समीक्षा करने वाले लोग, जवाबों की क्वालिटी का आकलन करते हैं, ताकि उन चीज़ों की पहचान की जा सके जिनमें सुधार की गुंजाइश हो और उसी हिसाब से समाधान के सुझाव दिए जाते हैं. ऊपर मौजूद “पोस्ट-ट्रेनिंग” सेक्शन में यह जानकारी दी गई है कि इन सुझाव, राय या शिकायतों का इस्तेमाल Gemini को बेहतर बनाने के लिए किया जाता है.