Gemini অ্যাপের ওভারভিউ

তথ্য ও কম্পিউটিং লোকজনের কাছে আরও অ্যাক্সেসযোগ্য ও উপযোগী করে তোলার ব্যাপারে AI কতখানি কার্যকর হতে পারে তা আমরা দীর্ঘ দিন ধরে দেখেছি। আমরা লার্জ ল্যাঙ্গুয়েজ মডেলের (LLM) ব্যাপারে অগ্রগামী হিসেবে উল্লেখযোগ্য পারদর্শিতা দেখিয়েছি এবং Google জুড়ে ও সামগ্রিকভাবে এই ক্ষেত্রে অনেক উন্নতি করেছি। অনেক বছর ধরে আমাদের বিভিন্ন প্রোডাক্টের উন্নতির জন্য আমরা ব্যাকগ্রাউন্ডে LLM ব্যবহার করছি, যেমন Gmail-এ বাক্য অটোমেটিক সম্পূর্ণ করা, Google Translate-কে আরও বেশি মানুষের কাছে পৌঁছে দেওয়া এবং Google Search-এ লেখা কোয়েরি আরও ভালোভাবে বোঝার ব্যাপারে আমাদের সাহায্য করা। আমরা বেশ কিছু Google পরিষেবায় ও Gemini অ্যাপ পরিচালনার জন্য LLM ব্যবহার করা চালিয়ে যাচ্ছি, এই Gemini অ্যাপ লোকজনকে সরাসরি জেনারেটিভ AI-এর সাথে কোলাবরেট করতে সাহায্য করে। আমরা চাই, Gemini অ্যাপ যেন সবচেয়ে সহায়ক ও ব্যক্তিগত AI অ্যাসিস্ট্যান্ট হয়ে ওঠে, যা Google-এর লেটেস্ট AI মডেলে ব্যবহারকারীদের সরাসরি অ্যাক্সেস দেয়।

যদিও আমরা পথের খুব গুরুত্বপূর্ণ একটি বাঁকে এসে পৌঁছেছি এবং জেনারেটিভ AI-কে ঘিরে তুমুল আগ্রহের কারণে উৎসাহিত, মনে রাখা দরকার যে এই প্রযুক্তির যাত্রা সবে শুরু হয়েছে। Gemini অ্যাপ ("Gemini") নিয়ে আমাদের কাজ কীভাবে এগিয়ে চলেছে তা এই নিবন্ধে ব্যাখ্যা করা হয়েছে, যার মধ্যে এটির মোবাইল ও ওয়েব অভিজ্ঞতাও অন্তর্ভুক্ত — এটি কী, কীভাবে কাজ করে, বর্তমানে এর ক্ষমতা ও সীমাবদ্ধতা কী কী ইত্যাদি এখান থেকে জানা যাবে। নেপথ্যে থাকা প্রযুক্তির উন্নতির সাথে সাথে এবং চালু থাকা রিসার্চ, অভিজ্ঞতা ও ব্যবহারকারীর মতামতের উপর নির্ভর করে Gemini-কে গড়ে তোলার কাজও উন্নত হতে থাকবে।

Gemini কী

Gemini হল একটি মাল্টিমোডাল LLM-এর (যা টেক্সট, অডিও, ছবি ও আরও অনেক কিছু ম্যানেজ করে) ইন্টারফেস। LLM নিয়ে Google-এর অত্যাধুনিক রিসার্চের উপর নির্ভর করে Gemini তৈরি হয়েছে। ২০১৩ সালে প্রকাশিত Word2Vec পেপার, যেখানে শব্দকে গাণিতিক ধারণা হিসেবে ম্যাপিং করে অভিনব মডেল আর্কিটেকচারের প্রস্তাব দেওয়া হয় এবং তারপরে ২০১৫ সালে লঞ্চ হওয়া নিউরাল কনভার্সেশনাল মডেলের হাত ধরে এটির যাত্রা শুরু হয়। কোনও কথোপকথনে আগের এক বা একাধিক বাক্যের উপর নির্ভর করে মডেল কীভাবে পরের বাক্যটি অনুমান করতে পারে, যাতে স্বাভাবিক কথোপকথনের অভিজ্ঞতা পাওয়া যায়, সেই বিষয়ে এই ফ্রেমওয়ার্কে ব্যাখ্যা করা হয়েছে। তারপরে ২০১৭ সালে ট্রান্সফর্মার এবং ২০২০ সালে মাল্টি-টার্ন চ্যাট করার ক্ষমতা সংক্রান্ত আমাদের যুগান্তকারী কাজের মাধ্যমে জেনারেটিভ ল্যাঙ্গুয়েজের আরও উল্লেখযোগ্য উন্নতি তুলে ধরা হয়।

প্রথমে আমাদের AI-এর নীতি মেনে ২০২৩ সালের মার্চ মাসে পরীক্ষামূলকভাবে Gemini (যা সেই সময় Bard নামে পরিচিত ছিল) লঞ্চ করা হয়। তখন থেকেই ব্যবহারকারীরা গুরুত্বপূর্ণ ইমেল লেখা, কোডিংয়ের জটিল সমস্যা ডিবাগ করা, আসন্ন ইভেন্টের জন্য আইডিয়া নিয়ে ভাবনাচিন্তা করা, কঠিন বিষয় বোঝার ব্যাপারে সাহায্য পাওয়া সহ আরও অনেক কাজে Gemini-র সাহায্য নিয়ে চলেছেন। আজকের দিনে দাঁড়িয়ে Gemini হল একটি বহুমুখী AI টুল যা আপনাকে বিভিন্নভাবে সাহায্য করতে পারে। Gemini ইতিমধ্যেই লোকজনকে আরও কর্মক্ষম, সৃজনশীল ও কৌতূহলী হয়ে উঠতে সাহায্য করছে বলে আমরা লক্ষ্য করছি এবং নিয়মিত নতুন কার্যকারিতা ও উদ্ভাবন যোগ করে চলেছি।

কর্মক্ষমতা

প্রথমত, Gemini আপনাকে সময় বাঁচাতে সাহায্য করে। যেমন, আপনি কোনও দীর্ঘ রিসার্চ ডকুমেন্টের সারসংক্ষেপ চাইলে, Gemini আপনাকে ডকুমেন্টটি আপলোড করতে দেয় এবং তা বিশ্লেষণ করে একটি কার্যকর সারসংক্ষেপ তৈরি করে। এছাড়াও, Gemini কোডিংয়ের কাজে সাহায্য করে। কোডিং খুব দ্রুত এটির অন্যতম জনপ্রিয় অ্যাপ্লিকেশন হয়ে উঠেছে।

সৃজনশীলতা

Gemini আপনার আইডিয়াকে বাস্তব রূপ দিতে এবং সৃজনশীলতাকে উদ্বুদ্ধ করতেও সাহায্য করতে পারে। যেমন, আপনি ব্লগ পোস্ট লিখলে, সেটির জন্য একটি রূপরেখা তৈরি করা এবং পোস্টে যোগ করার জন্য ছবি জেনারেট করার কাজে Gemini আপনাকে সাহায্য করতে পারে। এছাড়াও, শীঘ্রই Gem-এর সাহায্যে আপনি নির্দিষ্ট নির্দেশাবলী দিয়ে Gemini-কে কাস্টমাইজ করতে পারবেন এবং নিজের লক্ষ্য পূরণের উদ্দেশ্যে সেটিকে সাবজেক্ট ম্যাটার এক্সপার্ট হিসেবে কাজে লাগাতে পারবেন।

কৌতূহল

নিজের আইডিয়াগুলি এক্সপ্লোর করা এবং কোনও বিষয় নিয়ে আরও জানার কাজে Gemini আপনাকে সাহায্য করতে পারে। যেমন, এটি জটিল বিষয়কে সরলভাবে ব্যাখ্যা করতে পারে অথবা কোনও বিষয় বা ছবির প্রাসঙ্গিক ইনসাইট তুলে ধরতে পারে। শীঘ্রই, নির্দিষ্ট বিষয়ে আরও জানার কাজে সাহায্য করতে এই ইনসাইটের পাশাপাশি এটি ওয়েব থেকে সাজেস্ট করা কন্টেন্টও আপনাকে দেখাবে।

Gemini-র ক্ষমতা দ্রুত বৃদ্ধি পাচ্ছে -- শীঘ্রই আপনি নিজের ফোনের ক্যামেরা কোনও জিনিসের দিকে তাক করে, যেমন ধরুন জয়পুরের হাওয়া মহল, সেটির রঙ (যদি আপনি জানতে চান যে সেটি "প্রবালের মতো লাল" কিনা) কী তা Gemini-কে জিজ্ঞেস করতে পারবেন। এছাড়াও, রেস্তোরাঁর মেনু অন্য ভাষায় লেখা হলে সেটি বোঝার কাজে সাহায্য করা এবং আপনার পছন্দ হতে পারে এমন খাবার সাজেস্ট করার জন্য Gemini-কে বলতে পারবেন। Gemini-র আসন্ন ক্ষমতাগুলির মধ্যে মাত্র দুটিরই উদাহরণ দেওয়া হল।

অবশ্যই আমরা Gemini-কে কঠোরভাবে ট্রেনিং দিই ও মনিটর করি, যাতে এর উত্তর নির্ভরযোগ্য ও আপনার আশানুরূপ হওয়ার সম্ভাবনা বাড়ে। এছাড়াও, এই অত্যাধুনিক প্রযুক্তির নতুন নতুন প্রয়োগ, ঝুঁকি ও সীমাবদ্ধতা সম্পর্কে ভালোভাবে জানতে আমরা ইন্ডাস্ট্রির বিশেষজ্ঞ, শিক্ষাবিদ, নীতি নির্ধারক, ব্যবসার ক্ষেত্রে গুরুত্বপূর্ণ ব্যক্তি, নাগরিক ও মানবাধিকার রক্ষার কাজে লিপ্ত নেতা ও কন্টেন্ট ক্রিয়েটরদের সাথে আলোচনা করি।

Gemini কীভাবে কাজ করে

Gemini-র মতো LLM-ভিত্তিক ইন্টারফেসের ক্ষেত্রে আগে থেকেই জানা সীমাবদ্ধতা

Gemini হল দায়িত্বশীল উপায়ে LLM ডেভেলপ করার ব্যাপারে আমাদের নিরবচ্ছিন্ন প্রয়াসের মাত্র একটি অংশ। এই কাজ চলাকালীন আমরা LLM-এর একাধিক সীমাবদ্ধতা শনাক্ত ও সেগুলি নিয়ে আলোচনা করেছি। এখানে আমরা এমন ছয়টি ক্ষেত্রের দিকে নজর দেব, যেগুলি নিয়ে রিসার্চ চলছে:

নির্ভুলতা: Gemini-র উত্তরে ভুল থাকতে পারে, বিশেষত যদি জটিল বা তথ্যনির্ভর প্রশ্ন করা হয়।
পক্ষপাত: Gemini-র উত্তরে ট্রেনিং ডেটায় অন্তর্ভুক্ত পক্ষপাতের প্রতিফলন দেখা যেতে পারে।
একাধিক দৃষ্টিকোণ: Gemini-র উত্তরে একাধিক দৃষ্টিকোণের প্রতিফলন নাও থাকতে পারে।
পারসোনা: Gemini-র উত্তর দেখে এই ভুল ধারণা হতে পারে যে সেটির ব্যক্তিগত মতামত বা অনুভূতি আছে।
ভুল পজিটিভ ও ভুল নেগেটিভ: Gemini কিছু উপযুক্ত প্রম্পটের উত্তর নাও দিতে পারে, আবার অন্য প্রম্পটের অনুপযুক্ত উত্তরও দিতে পারে।
অ্যাডভার্সেরিয়াল প্রম্পটিংয়ের ব্যাপারে দুর্বলতা: ব্যবহারকারীরা Gemini-র স্ট্রেস টেস্ট করার জন্য অর্থহীন প্রম্পট দিতে পারেন বা এমন প্রশ্ন করতে পারেন যা বাস্তবে প্রায় কখনই জিজ্ঞেস করা হয় না।

প্রতিটি ক্ষেত্রেই আমরা পারফর্ম্যান্সে উন্নতির অবকাশ ও নতুন নতুন উপায় খোঁজার কাজ চালিয়ে যাচ্ছি।

নির্ভুলতা

প্রামাণ্য তথ্যের ব্যাপারে Google-এর বোধগম্যতা Gemini-র ভিত্তি হিসেবে কাজ করে এবং আপনার প্রম্পটের জন্য প্রাসঙ্গিক ও আপনি কী খুঁজছেন তা মাথায় রেখে উত্তর দেখানোর জন্য এটিকে ট্রেনিং দেওয়া হয়। কিন্তু সব LLM-এর মতোই Gemini কখনও কখনও আত্মবিশ্বাস ও প্রত্যয়ের সাথে ভুল বা বিভ্রান্তিকর তথ্য সহ উত্তর দেখাতে পারে।

Since LLMs work by predicting the next word or sequences of words, they are not yet fully capable of distinguishing between accurate and inaccurate information on their own. We have seen Gemini present responses that contain or even invent inaccurate information (e.g., misrepresenting how it was trained or suggesting the name of a book that doesn’t exist).

পক্ষপাত

সকলের জন্য উপলভ্য সোর্স থেকে পাওয়া তথ্য সহ ট্রেনিং ডেটাতে নানারকম মতামত ও দৃষ্টিকোণের প্রতিফলন দেখতে পাওয়া যায়। এই ডেটা কেমনভাবে ব্যবহার করলে LLM-এর উত্তরে বিবিধ দৃষ্টিকোণ অন্তর্ভুক্ত হতে পারে এবং একইসাথে ভুল অতিসাধারণীকরণ ও পক্ষপাত কমানো যেতে পারে, সেই বিষয়ে আমরা রিসার্চ করে চলেছি।

কোনও প্রম্পটের সম্ভাব্য উত্তর দেওয়ার চেষ্টা করার সময় ট্রেনিং ডেটায় থাকা ফাঁক, পক্ষপাত ও অতিসাধারণীকরণ মডেলের আউটপুটে প্রতিফলিত হতে পারে। এই ধরনের সমস্যার বহিঃপ্রকাশ নানাভাবে (যেমন, শুধু একটি ডেমোগ্রাফিক বা সংস্কৃতির প্রতিফলন দেখা যায়, সমস্যাজনক অতিসাধারণীকরণকে রেফার করে, লিঙ্গ ও জাতিগত পরিচয় বা ধর্মের ভিত্তিতে পক্ষপাত প্রদর্শন করে বা শুধু একটি দৃষ্টিকোণকেই তুলে ধরে এমন উত্তর) হতে পারে। কিছু বিষয়ের ক্ষেত্রে ডেটায় ফাঁক রয়েছে — অর্থাৎ, কোনও নির্দিষ্ট বিষয়ে যথেষ্ট পরিমাণে নির্ভরযোগ্য ডেটা নেই যাতে LLM বিষয়টি শিখতে ও তারপরে সঠিক অনুমান করতে পারে — এর ফলে, ভুল বা খারাপ কোয়ালিটির উত্তর দেখানো হতে পারে। আমরা ডোমেন এক্সপার্ট ও বিবিধ কমিউনিটির সাথে কাজ করে চলেছি, যাতে Google-এর বাইরের অগাধ দক্ষতার সুবিধা নেওয়া যায়।

একাধিক দৃষ্টিকোণ

সাবজেক্টিভ বিষয়ের ক্ষেত্রে Gemini-কে এমনভাবে তৈরি করা হয়েছে যাতে ব্যবহারকারী কোনও বিশেষ দৃষ্টিকোণ থেকে উত্তর না চাইলে তাকে একাধিক দৃষ্টিকোণ সমন্বিত উত্তর দেওয়া হয়। যেমন, প্রাথমিক বা প্রামাণ্য সোর্সের ডেটার ভিত্তিতে যাচাই করা যায় না এমন তথ্যের জন্য প্রম্পট করা হলে — "সবচেয়ে ভালো" বা "সবচেয়ে খারাপ" সম্পর্কে সাবজেক্টিভ মতামতের মতো — Gemini-র এমনভাবে উত্তর দেওয়া উচিৎ যাতে বিভিন্ন দৃষ্টিকোণের প্রতিফলন তাতে দেখা যায়। কিন্তু Gemini-র মতো LLM-কে যেহেতু সকলের জন্য উপলভ্য ডেটার ভিত্তিতে ট্রেনিং দেওয়া হয়, তাই নির্দিষ্ট রাজনীতিবিদ, বিখ্যাত বা অন্যান্য সুপরিচিত ব্যক্তির ইতিবাচক বা নেতিবাচক দৃষ্টিকোণের প্রতিফলন তার উত্তরে দেখা যেতে পারে, এমনকি বিতর্কিত সামাজিক বা রাজনৈতিক সমস্যার ব্যাপারে কেবলমাত্র একটি দৃষ্টিকোণকে তুলে ধরে উত্তর দেওয়া হতে পারে। এই বিষয়গুলিতে Gemini-র এমন উত্তর দেওয়া উচিৎ নয় যাতে কোনও নির্দিষ্ট দৃষ্টিকোণের প্রতি সমর্থন স্পষ্ট বোঝা যায়, তাই Gemini-কে আরও ভালো ট্রেনিং দিয়ে এইরকম সমস্যা এড়াতে আমরা এই ধরনের উত্তর সম্পর্কে দেওয়া মতামত কাজে লাগাব।

পারসোনা

Gemini মাঝেমধ্যে এমন উত্তর দিতে পারে যা দেখে হয়ত মনে হবে যে সেটির ব্যক্তিগত মতামত বা অনুভূতি রয়েছে, যেমন ভালোবাসা বা দুঃখ। কারণ, এটিকে এমন ভাষার ভিত্তিতে ট্রেনিং দেওয়া হয়েছে যা লোকজন নিজের অভিজ্ঞতাকে বর্ণনা করার জন্য ব্যবহার করেন। Gemini নিজেকে কীভাবে উপস্থাপন করবে (অর্থাৎ, এর পারসোনা) সেই বিষয়ে আমরা কিছু নির্দেশিকা তৈরি করেছি এবং মডেল যাতে আরও অবজেক্টিভ উত্তর দিতে পারে সেই জন্য সেটিকে ফাইন-টিউন করে চলেছি।

ভুল পজিটিভ / নেগেটিভ

Gemini-কে ট্রেনিং দেওয়া এবং সমস্যাজনক উত্তর না দেখানোর ব্যবস্থা করার জন্য আমরা কিছু নীতি নির্দেশিকা তৈরি করেছি। Gemini কখনও কখনও এই নির্দেশিকাগুলিকে ভুলভাবে বোঝার ফলে "ভুল পজিটিভ" ও "ভুল নেগেটিভ" দেখাতে পারে। "ভুল পজিটিভ"-এর ক্ষেত্রে Gemini যুক্তিসম্মত প্রম্পটকে অনুপযুক্ত মনে করে সেটির উত্তর নাও দিতে পারে এবং "ভুল নেগেটিভ"-এর ক্ষেত্রে নির্দেশিকা থাকা সত্ত্বেও Gemini অনুপযুক্ত উত্তর দিতে পারে। কখনও কখনও ভুল পজিটিভ বা ভুল নেগেটিভ দেখে মনে হতে পারে যে Gemini পক্ষপাতদুষ্ট: যেমন, ভুল পজিটিভের কারণে Gemini কোনও সমস্যা সংক্রান্ত প্রশ্নের একটি দিক সম্পর্কে উত্তর নাও দিতে পারে, কিন্তু সেই একই প্রশ্নের অন্য দিক সম্পর্কে উত্তর দেখাতে পারে। ভাষা, ঘটনা ও সমাজের দ্রুত পরিবর্তনের সাথে সাথে আমরা মডেলকে ফাইন-টিউন করার কাজ চালিয়ে যাচ্ছি, যাতে সেটি ইনপুট ও আউটপুট আরও ভালোভাবে বুঝতে ও শ্রেণীবদ্ধ করতে পারে।

অ্যাডভার্সেরিয়াল প্রম্পটিংয়ের ব্যাপারে দুর্বলতা

আমাদের ধারণা অনুযায়ী ব্যবহারকারীরা Gemini-র ক্ষমতার সীমা পরীক্ষা এবং সেটির সুরক্ষা ব্যবস্থা লঙ্ঘনের চেষ্টা করতে পারেন, এটি যাতে নিজের ট্রেনিং প্রোটোকল বা অন্য তথ্য ফাঁস করে দেয় সেই চেষ্টা করা বা এটির নিরাপত্তা ব্যবস্থাকে এড়ানোর চেষ্টা করার মতো কাজ এর মধ্যে অন্তর্ভুক্ত থাকবে। আমরা Gemini-কে খুব ভালোভাবে টেস্ট করেছি এবং এখনও করে চলেছি, কিন্তু এও জানি যে ব্যবহারকারীরা আরও অনন্য ও জটিল পদ্ধতিতে এটির স্ট্রেস-টেস্ট করবেন। Gemini-কে আরও উন্নত করার কাজে এটি গুরুত্বপূর্ণ ভূমিকা পালন করে এবং ব্যবহারকারীরা নতুন আর কী কী প্রম্পট ব্যবহার করবেন তা জানতে আমরা আগ্রহী। প্রকৃতপক্ষে, ২০২৩ সালে Gemini লঞ্চ হওয়ার পরে দার্শনিক থেকে শুরু করে অবাস্তব সব ধরনের প্রম্পট ব্যবহার করে ব্যবহারকারীরা কীভাবে সেটিকে চ্যালেঞ্জ করেছেন তা আমরা লক্ষ্য করেছি – এবং কিছু ক্ষেত্রে Gemini একইরকম অবাস্তব বা আমাদের উল্লিখিত আদর্শের পরিপন্থী উত্তর দিয়েছে বলেও আমরা দেখেছি। এই ধরনের প্রম্পটের উত্তর দিতে Gemini-কে কীভাবে সাহায্য করা যায় তা বোঝা একটি নিরন্তর চ্যালেঞ্জ এবং আমরা ইন্টার্নাল মূল্যায়ন ও red-টিমিং বাড়িয়ে তোলার কাজ করে চলেছি যাতে নির্ভুলতা, অবজেক্টিভিটি ও সূক্ষ্ম পার্থক্য করার ব্যাপারে মডেলের ক্ষমতার উন্নতি অব্যাহত থাকে।

আমরা কীভাবে Gemini ডেভেলপ করার কাজ চালিয়ে যাচ্ছি

Gemini সংক্রান্ত আমাদের আদর্শের প্রয়োগ

আমরা সম্প্রতি AI-এর নীতির পাশাপাশি Gemini নিয়ে কাজের ক্ষেত্রে আমাদের আদর্শ সম্পর্কে বিস্তারিত জানিয়েছি: Gemini-র উচিৎ আপনার নির্দেশ অনুসরণ করা, আপনার প্রয়োজন অনুযায়ী কাজ করা এবং আপনার অভিজ্ঞতাকে সুরক্ষিত রাখা। এখানে মূলত দায়িত্ব ও নিরাপত্তার উপর জোর দেওয়া হচ্ছে। Gemini-র নীতি নির্দেশিকার মাধ্যমে নির্দিষ্ট কিছু ধরনের সমস্যাজনক আউটপুট এড়িয়ে যাওয়ার চেষ্টা করা হয়। অ্যাডভার্সেরিয়াল টেস্টিংয়ের কাজ চালিয়ে যেতে আমাদের সাহায্য করছেন ইন্টার্নাল "red টিম" মেম্বাররা — কিছু প্রোডাক্ট এক্সপার্ট ও সমাজ বিজ্ঞানী যারা ইচ্ছাকৃতভাবে কোনও মডেল স্ট্রেস টেস্ট করে দেখেন সেটি এই নীতি নির্দেশিকা ও Gemini-র ব্যাপারে আমাদের নর্থস্টার আদর্শ মেনে চলছে কিনা — যাতে তারা যা জানতে পারেন তা আমরাও প্রয়োগ করতে পারি এবং Gemini-র উন্নতি অব্যাহত রাখতে পারি।

Gemini ডেভেলপ করার সময় গোপনীয়তার বিষয়টিও গুরুত্ব সহকারে দেখা হয়। ডিজাইন অনুযায়ী গোপনীয়তা ও আপনার হাতে থাকা নিয়ন্ত্রণ কাজে লাগিয়ে কীভাবে Gemini তৈরি করা হচ্ছে সেই বিষয়ে আরও জানতে, Gemini অ্যাপ গোপনীয়তা হাব দেখুন।

ব্যবহারকারী ও প্রকাশককে নিয়ন্ত্রণের সুবিধা দেওয়া

আপনি যাতে নিজের Gemini ডেটা পর্যালোচনা, আপডেট, ম্যানেজ ও এক্সপোর্ট করতে এবং মুছতে পারেন সেই জন্য সহজে অ্যাক্সেসযোগ্য একাধিক কন্ট্রোল Gemini-তে যোগ করা হয়েছে। আপনি Gemini অ্যাপ অ্যাক্টিভিটি কন্ট্রোল ব্যবহার করে আপনার Gemini প্রম্পট, উত্তর ও মতামত অ্যাক্সেস ও পর্যালোচনা করতে পারবেন। এছাড়াও, Gemini অ্যাপ অ্যাক্টিভিটি সেটিংস বন্ধ করার মাধ্যমে আপনার ভবিষ্যতের Gemini চ্যাট যাতে Google-এর মেশিন লার্নিং টেকনোলজির উন্নতির জন্য ব্যবহার করা না হয় সেই ব্যবস্থা করতে পারবেন। উপরন্তু, অন্যান্য Google পরিষেবার মতোই Google-এর Takeout টুল ব্যবহার করে আপনি নিজের তথ্য ডাউনলোড ও এক্সপোর্ট করতে পারবেন। এছাড়াও, Gemini থ্রেডে আপনার তৈরি পাবলিক লিঙ্ক ম্যানেজ করা এবং এক্সটেনশনের (যেমন Workspace, Maps, YouTube) অ্যাক্সেস চালু/বন্ধ করার জন্যও কন্ট্রোল পাবেন। Gemini-র উত্তরের উপর আপনাকে আরও নিয়ন্ত্রণ দেওয়ার নতুন নতুন পদ্ধতি নিয়েও ভাবনাচিন্তা করা হচ্ছে, আরও বেশি ধরনের উত্তর পেতে ফিল্টার অ্যাডজাস্ট করা এর মধ্যে পড়ে।

প্রকাশকদের জন্য আমরা Google-Extended লঞ্চ করেছি, এর মাধ্যমে Gemini ও Vertex AI জেনারেটিভ API-এর উন্নতির জন্য তাদের সাইট সাহায্য করবে কিনা তা ওয়েব প্রকাশকরা নিয়ন্ত্রণ করতে পারবেন। Google-Extended কন্ট্রোলকে সাইটের কন্টেন্টে অ্যাক্সেস দিলে তা AI মডেলগুলিকে সময়ের সাথে আরও নিখুঁত ও দক্ষ হয়ে ওঠার কাজে সাহায্য করতে পারে। মডেল ট্রেনিংয়ের জন্য অপ্ট-আউট করা URL-এর কন্টেন্ট ব্যবহার না করার পাশাপাশি, গ্রাউন্ডিংয়ের জন্যও Gemini এই ধরনের কন্টেন্ট ব্যবহার করবে না। AI অ্যাপ্লিকেশনের প্রসারের সাথে সাথে ওয়েব প্রকাশকরা বিভিন্ন কাজে বহুল ব্যবহার ম্যানেজ করার ব্যাপারে ক্রমবর্ধমান জটিলতার সম্মুখীন হবেন। পছন্দ ও নিয়ন্ত্রণের জন্য আরও মেশিন-পাঠযোগ্য পদ্ধতি এক্সপ্লোর করার উদ্দেশ্যে ওয়েব ও AI কমিউনিটির সাথে জুড়ে থাকার ব্যাপারে আমরা প্রতিশ্রুতিবদ্ধ।

একসাথে Gemini-কে আরও উন্নত করা

আমরা দ্রুত আইটেরেশনে বিশ্বাস করি ও Gemini-র সেরা দিকগুলি পৃথিবীর লোকজনের কাছে পৌঁছে দিতে চাই। ব্যবহারকারীদের মতামত আমাদের মডেলের উন্নতিকে ত্বরান্বিত করেছে। যেমন, মডেলকে আরও অন্তর্দৃষ্টিসম্পন্ন ও কল্পনাশক্তিতে ভরপুর করে তোলার জন্য ট্রেনিং দিতে আমরা অত্যাধুনিক রিইনফোর্সমেন্ট লার্নিং টেকনিক ব্যবহার করি, যাতে মডেল আগের চেয়েও নির্ভুল ও উন্নতমানের উত্তর দিতে পারে। Gemini-র মডেল ট্রেনিং ও টিউনিং টেকনিকের উন্নতি ও যা যা শিখেছি তা রিসার্চারদের সাথে শেয়ার করার জন্য (যেমন উন্নত AI অ্যাসিস্ট্যান্টের নৈতিকতা প্রসঙ্গে এই সাম্প্রতিক পেপার), LLM-এর প্রযুক্তিগত, সামাজিক ও আদর্শগত চ্যালেঞ্জ ও সুযোগ সম্পর্কে আরও জানতে আমরা রিসার্চে বিনিয়োগ করে চলেছি। এই নতুন প্রযুক্তি যাতে সকলের উপকার করে সেই জন্য ব্যবহারকারী, বিশ্বস্ত টেস্টার ও রিসার্চারদের সাথে কোলাবরেট করার মাধ্যমে এই ক্ষেত্রে দায়িত্ব সহকারে উদ্ভাবনের বিষয়ে আমরা প্রতিশ্রুতিবদ্ধ।

স্বচ্ছতা বজায় রাখা খুবই গুরুত্বপূর্ণ এবং Gemini-র ডেভেলপমেন্ট পদ্ধতি ও সীমাবদ্ধতার ব্যাপারে খোলাখুলি জানাতে আমরা প্রতিশ্রুতিবদ্ধ। Gemini কোনও ম্যাজিক বা অলৌকিক কিছু নয়; এটিতে প্রতিনিয়ত পরিবর্তন হয়ে চলেছে এবং এই উন্নতি সংক্রান্ত আপডেট আমরা শেয়ার করতে থাকব। আমরা রিলিজ আপডেট পৃষ্ঠা লঞ্চ করেছি, যাতে আপনি Gemini-র লেটেস্ট ফিচার, উন্নতি ও ত্রুটির সমাধান সম্পর্কে জানতে পারবেন। এই ওভারভিউ আমরা যথাসময়ে আপডেট করব। কোন ব্যাপারে Gemini কার্যকরী ও উপযোগী এবং কোন ব্যাপারে আরও উন্নতির জন্য এর আইটেরেশন প্রয়োজন, এই দুটি বিষয়ই আমরা শনাক্ত করতে থাকব। নিয়মিত রিসার্চ, টেস্টিং ও ব্যবহারকারীর মতামতের ভিত্তিতে আমরা সক্রিয়ভাবে নতুন ফিচার যোগ করে চলেছি এবং একযোগে Gemini-র উন্নতি করার ব্যাপারে আগ্রহী।

কৃতজ্ঞতা স্বীকার

আমরা Gemini অ্যাপ টিম, Google DeepMind, বিশ্বাস ও নিরাপত্তা এবং Google Research টিমের অন্তর্গত আমাদের সহকর্মীদের অসাধারণ কাজের প্রশংসা করি ও তাকে স্বীকৃতি দিই।

লিখেছেন

জেমস মান্যিকা
সিনিয়র ভাইস প্রেসিডেন্ট, রিসার্চ, টেকনোলজি অ্যান্ড সোসাইটি

সিসি শাও
ভাইস প্রেসিডেন্ট ও জেনারেল ম্যানেজার, Google Assistant ও Gemini অ্যাপ

এডিটরের নোট

এটি এমন একটি ডকুমেন্ট যা মাঝেমধ্যেই আপডেট করা হবে, Gemini অ্যাপের ক্ষমতার দ্রুত উন্নতি ও LLM-এর নিজস্ব সীমাবদ্ধতা অতিক্রম করার সাথে সাথে ডকুমেন্টে তা উল্লেখ করা হবে। ২৫ জুলাই, ২০২৪ তারিখে এই ডকুমেন্ট শেষবার আপডেট করা হয়েছে। Gemini অ্যাপের ব্যাপারে লেটেস্ট আপডেট পেতে রিলিজ আপডেট লগ দেখুন অথবা Google Keyword ব্লগে বিস্তারিত তথ্য পড়ুন।

৩ ব্যবহারকারীর প্রম্পটের উত্তর

মানুষ যেমন কোনও প্রশ্নের কীভাবে উত্তর দেওয়া যায় তা নিয়ে ভাবনাচিন্তা করতে পারে, উত্তরও সেভাবেই জেনারেট করা হয়। ব্যবহারকারী প্রম্পট লেখার পরে, Gemini পোস্ট-ট্রেনিংপ্রাপ্ত LLM, প্রম্পটে দেওয়া প্রসঙ্গ এবং ব্যবহারকারীর সাথে ইন্টার‍্যাকশনকে কাজে লাগিয়ে উত্তরের একাধিক ভার্সন তৈরি করে। এছাড়াও, উত্তর দেওয়ার জন্য এটি Google Search এবং/অথবা এর একাধিক এক্সটেনশনের মধ্যে থেকে একটি ও সম্প্রতি আপলোড করা ফাইলের (শুধু Gemini Advanced-এর ক্ষেত্রে প্রযোজ্য) উপর নির্ভর করে। এই প্রক্রিয়াকে রিট্রিভাল অগমেন্টেশন বলা হয়। প্রম্পট লেখা হলে, Gemini এই এক্সটার্নাল সোর্সগুলি (যেমন, Google Search) থেকে সবচেয়ে প্রাসঙ্গিক তথ্য সংগ্রহ করে উত্তরে নির্ভুলভাবে দেখানোর চেষ্টা করে। এক্সটার্নাল টুলের সাহায্যে LLM-এর ক্ষমতা বৃদ্ধি করার বিষয়টি নিয়ে রিসার্চ চলছে। ভুল বিভিন্ন উপায়ে হতে পারে। এই এক্সটার্নাল টুলগুলিকে কাজে লাগানোর জন্য Gemini-র ব্যবহার করা কোয়েরি, টুলগুলির মাধ্যমে পাওয়া উত্তর Gemini কীভাবে বোঝে, চূড়ান্ত উত্তর দেখানোর জন্য সংগ্রহ করা এই উত্তরগুলিকে যেভাবে ব্যবহার করা হয় ইত্যাদি সহ আরও অনেক কিছু এর মধ্যে অন্তর্ভুক্ত থাকে। এই কারণে, যে টুল ব্যবহার করে Gemini উত্তর জেনারেট করেছে সেটির পারফর্ম্যান্সের মূল্যায়ন Gemini-র উত্তরের ভিত্তিতে করা উচিত নয়।

পরিশেষে, চূড়ান্ত উত্তর দেখানোর আগে প্রতিটি সম্ভাব্য উত্তরকে নিরাপত্তা চেকিংয়ের মধ্যে দিয়ে যেতে হয় যাতে সেটি পূর্বনির্ধারিত নীতি নির্দেশিকা মেনে চলছে কিনা তা বোঝা যায়। এই প্রক্রিয়ার অংশ হিসেবে ক্ষতিকর বা আপত্তিকর তথ্য বাদ দেওয়ার জন্য ডবল-চেক করা হয়। বাকি উত্তরগুলিকে কোয়ালিটির ভিত্তিতে র‍্যাঙ্ক করা হয় এবং সবচেয়ে বেশি পয়েন্ট পাওয়া ভার্সন ব্যবহারকারীকে দেখানো হয়।

এছাড়াও, Gemini-র জেনারেট করা টেক্সট ও ছবিতে আমরা SynthID ব্যবহার করে ওয়াটারমার্ক যোগ করি, এটি AI-জেনারেটেড কন্টেন্টে ওয়াটারমার্ক যোগ করার জন্য ইন্ডাস্ট্রির সেরা ডিজিটাল টুলকিট। জেনারেট করা ছবির ক্ষেত্রে SynthID সরাসরি পিক্সেলে ডিজিটাল ওয়াটারমার্ক (যা মানুষের চোখে ধরা পড়ে না) যোগ করে। আরও নির্ভরযোগ্য AI শনাক্তকরণ টুল ডেভেলপ করার জন্য SynthID একটি গুরুত্বপূর্ণ ভিত্তি হিসেবে কাজ করে এবং AI-জেনারেটেড কন্টেন্টের সাথে লোকজন কীভাবে ইন্টার‍্যাক্ট করবেন সেই ব্যাপারে সচেতন সিদ্ধান্ত নিতে সাহায্য করে।

Gemini অ্যাপের ওভারভিউ

Gemini কী

কর্মক্ষমতা

সৃজনশীলতা

কৌতূহল

Gemini কীভাবে কাজ করে

প্রি-ট্রেনিং

পোস্ট-ট্রেনিং

ব্যবহারকারীর প্রম্পটে দেওয়া উত্তর

লোকজনের মতামত ও মূল্যায়ন

Gemini-র মতো LLM-ভিত্তিক ইন্টারফেসের ক্ষেত্রে আগে থেকেই জানা সীমাবদ্ধতা

নির্ভুলতা

পক্ষপাত

একাধিক দৃষ্টিকোণ

পারসোনা

ভুল পজিটিভ / নেগেটিভ

অ্যাডভার্সেরিয়াল প্রম্পটিংয়ের ব্যাপারে দুর্বলতা

আমরা কীভাবে Gemini ডেভেলপ করার কাজ চালিয়ে যাচ্ছি

Gemini সংক্রান্ত আমাদের আদর্শের প্রয়োগ

ব্যবহারকারী ও প্রকাশককে নিয়ন্ত্রণের সুবিধা দেওয়া

একসাথে Gemini-কে আরও উন্নত করা

কৃতজ্ঞতা স্বীকার

আপনার অঞ্চল ও ভাষা পরিবর্তন করুন

এশিয়া প্যাসিফিক

আমেরিকা

ইউরোপ ও আফ্রিকা

১ প্রি-ট্রেনিং

২ পোস্ট-ট্রেনিং

৩ ব্যবহারকারীর প্রম্পটের উত্তর

৪ লোকজনের মতামত ও মূল্যায়ন