Skip to main content

Μια επισκόπηση της εφαρμογής Gemini

Έχουμε διαπιστώσει εδώ και καιρό τις δυνατότητες που έχει το AI να καταστήσει την πληροφορία, και γενικότερα την υπολογιστική τεχνολογία, πιο προσβάσιμη και χρήσιμη για το κοινό. Έχουμε πραγματοποιήσει πρωτοποριακές ανακαλύψεις όσον αφορά τα μεγάλα γλωσσικά μοντέλα (LLM) και έχουμε επιτύχει εξαιρετική πρόοδο σε όλο το φάσμα των δραστηριοτήτων της Google και ευρύτερα στο πεδίο αυτό. Εδώ και πολλά χρόνια, εφαρμόζουμε τεχνολογίες LLM στο παρασκήνιο των υπηρεσιών μας για να βελτιώσουμε πολλά από τα προϊόντα μας. Παραδείγματα αποτελούν η αυτόματη συμπλήρωση προτάσεων στο Gmail, η συνεχώς επεκτεινόμενη χρήση της Μετάφρασης Google, αλλά και η καλύτερη κατανόηση των ερωτημάτων στην Αναζήτηση Google. Συνεχίζουμε να χρησιμοποιούμε τα LLM για πολλές από τις υπηρεσίες της Google, καθώς και για τη λειτουργία της εφαρμογής Gemini, που επιτρέπει στο κοινό να συνεργάζεται απευθείας με το παραγωγικό AI. Θέλουμε να κάνουμε την εφαρμογή Gemini τον πιο χρήσιμο και προσωπικό βοηθό AI, που θα δίνει στους χρήστες απευθείας πρόσβαση στα πιο πρόσφατα μοντέλα AI της Google.

Αν και βρισκόμαστε σε μια ενδιαφέρουσα καμπή της εξέλιξης του παραγωγικού AI και νιώθουμε ιδιαίτερη ενθάρρυνση από τον διάχυτο ενθουσιασμό γύρω από τις δυνατότητές του παραγωγικού AI, είναι βέβαιο ότι ως τεχνολογία βρίσκεται ακόμη στα πρώτα του βήματα. Η παρακάτω επεξήγηση περιγράφει αδρά τον τρόπο με τον οποίο προσεγγίζουμε την εργασία για την ανάπτυξη της εφαρμογής Gemini ("Gemini"), συμπεριλαμβανομένων των εμπειριών που προσφέρει τόσο σε κινητό όσο και στον ιστό: τι είναι, πώς λειτουργεί και ποιες ικανότητες και περιορισμούς έχει επί του παρόντος. Η προσέγγισή μας όσον αφορά τη δημιουργία του Gemini θα συνεχίσει να εξελίσσεται όσο θα εξελίσσεται και η υποκείμενη τεχνολογία, καθώς και όσο θα μαθαίνουμε περισσότερα από τη συνεχή έρευνα, την εμπειρία χρήσης και τα σχόλια των χρηστών.

Τι είναι το Gemini

Το Gemini είναι μια διεπαφή για ένα πολυμεσικό LLM (δηλαδή, ένα μοντέλο που διαχειρίζεται κείμενο, ήχο, εικόνες και άλλα είδη περιεχομένου). Το Gemini βασίζεται στην πρωτοποριακή έρευνα που έχει πραγματοποιήσει η Google στον τομέα των LLM και η οποία ξεκίνησε με την εργασία Word2Vec, που ανακοινώθηκε το 2013 και πρότεινε νέες αρχιτεκτονικές μοντέλων, όπου οι λέξεις αντιστοιχίζονταν σε μαθηματικές έννοιες. Ακολούθησε η πρώτη παρουσίαση ενός νευρωνικού συνομιλιακού μοντέλου το 2015. Αυτό το πλαίσιο έδειξε με ποιον τρόπο τα μοντέλα μπορούσαν, σε μια συνομιλία, να προβλέψουν την επόμενη πρόταση με βάση την προηγούμενη πρόταση ή προτάσεις, κάτι που οδηγούσε σε πιο φυσική εμπειρία συνομιλίας. Ακολούθησε η πρωτοποριακή έρευνά μας σχετικά με την καινοτόμα αρχιτεκτονική νευρωνικών δικτύων Transformer το 2017 και εκείνη για τις ικανότητες συνομιλίας πολλαπλών αλληλεπιδράσεων το 2020, που επέδειξαν την ακόμη μεγαλύτερη πρόοδο που είχαμε επιτύχει στον τομέα της δημιουργικής σύνθεσης γλώσσας.

Κυκλοφορήσαμε αρχικά το Gemini (που τότε λεγόταν Bard) τον Μάρτιο του 2023 ως πείραμα, σύμφωνα με τις Αρχές AI που εφαρμόζουμε. Από τότε, οι χρήστες έχουν στραφεί στο Gemini για να συντάσσουν απαιτητικά μηνύματα ηλεκτρονικού ταχυδρομείου, να αποσφαλματώνουν κώδικα προγραμματισμού στον οποίο υπήρχαν δυσεπίλυτα προβλήματα, να παίρνουν ιδέες για τον σχεδιασμό εκδηλώσεων, να κατανοήσουν ευκολότερα δύσκολες έννοιες και σε πάρα πολλές ακόμη περιπτώσεις. Σήμερα, το Gemini είναι ένα ευέλικτο εργαλείο AI που μπορεί να σας βοηθήσει με πολλούς τρόπους. Βλέπουμε ήδη το Gemini να βοηθά τους ανθρώπους ενισχύοντας την παραγωγικότητα, τη δημιουργικότητα αλλά και την περιέργειά τους και προσθέτουμε νέες λειτουργίες και καινοτομίες τακτικά.

Παραγωγικότητα

Ένα πρώτο όφελος του Gemini είναι ότι σας εξοικονομεί χρόνο. Για παράδειγμα, ας πούμε ότι θέλετε να έχετε τη σύνοψη μιας μακροσκελούς ερευνητικής δημοσίευσης. Μπορείτε να ανεβάσετε τη δημοσίευση στο Gemini κι εκείνο θα σας δώσει μια χρήσιμη σύνθεση των κύριων σημείων της. Το Gemini μπορεί, επίσης, να βοηθήσει σε εργασίες προγραμματισμού και, μάλιστα, η σύνταξη κώδικα έχει γίνει μια από τις πιο δημοφιλείς εφαρμογές του.

Δημιουργικότητα

Το Gemini μπορεί, επίσης, να σας βοηθήσει να υλοποιήσετε τις ιδέες σας, αλλά και να πυροδοτήσει τη δημιουργικότητά σας. Για παράδειγμα, αν γράφετε μια ανάρτηση ιστολογίου, το Gemini μπορεί να δημιουργήσει ένα γενικό προσχέδιό της, αλλά και εικόνες με τις οποίες μπορείτε να εμπλουτίσετε την ανάρτηση. Και σύντομα, με τα Gems, θα μπορείτε να προσαρμόζετε το Gemini με συγκεκριμένες οδηγίες και να του ζητάτε να παίξει τον ρόλο ειδικού, για να σας βοηθήσει να επιτύχετε τους προσωπικούς σας στόχους.

Περιέργεια

Το Gemini μπορεί να γίνει μια καλή αφετηρία για να εξερευνήσετε τις ιδέες σας και τα θέματα για τα οποία θέλετε να μάθετε περισσότερα. Για παράδειγμα, μπορεί να εξηγήσει με απλά λόγια μια σύνθετη έννοια ή να αναδείξει πληροφορίες σχετικά με ένα θέμα ή μια εικόνα. Και, σύντομα, θα συνδυάζει αυτές τις πληροφορίες με προτεινόμενο περιεχόμενο από ολόκληρο τον ιστό, για περισσότερες γνώσεις σχετικά με συγκεκριμένα θέματα.

Οι ικανότητες του Gemini επεκτείνονται ταχύτατα: Σύντομα, θα μπορείτε να στοχεύετε με την κάμερα του τηλεφώνου σας ένα αντικείμενο, όπως, ας πούμε, τον Παρθενώνα, και να ζητάτε από το Gemini να σας πει πώς χτίστηκε. Επίσης, θα μπορείτε να ζητήσετε από το Gemini να σας βοηθήσει να περιηγηθείτε στο ξενόγλωσσο μενού ενός εστιατορίου και να προτείνει ένα πιάτο που μάλλον θα σας αρέσει. Αυτά είναι δύο, μόνο, παραδείγματα των νέων ικανοτήτων που πρόκειται σύντομα να αποκτήσει το Gemini.

Φυσικά, εκπαιδεύουμε και παρακολουθούμε εντατικά το Gemini, ώστε οι απαντήσεις του να είναι, κατά το πιθανότερο, αξιόπιστες και αντίστοιχες των προσδοκιών σας. Επίσης, συνομιλούμε με ειδικούς του κλάδου, εκπαιδευτές, υπεύθυνους διαμόρφωσης πολιτικών, ηγέτες κινημάτων υπεράσπισης των πολιτικών και ανθρώπινων δικαιωμάτων, καθώς και με δημιουργούς περιεχομένου, ώστε να διερευνούμε νέες εφαρμογές, κινδύνους και περιορισμούς αυτής της αναδυόμενης τεχνολογίας.

Πώς λειτουργεί το Gemini

1

Προεκπαίδευση

2

Μετεκπαίδευση

3

Απαντήσεις σε οδηγίες χρηστών

4

Σχόλια και αξιολογήσεις από ανθρώπους

Γνωστοί περιορισμοί των διεπαφών που βασίζονται σε LLM, όπως το Gemini

Το Gemini είναι ένα, μόνο, τμήμα των προσπαθειών που καταβάλλουμε συνεχώς για την υπεύθυνη ανάπτυξη LLM. Σε όλη την πορεία της εργασίας μας επάνω σε αυτό το θέμα, έχουμε ανακαλύψει και συζητήσει πολυάριθμους περιορισμούς που σχετίζονται με τα LLM. Εδώ, θα εστιάσουμε σε έξι τομείς για τους οποίους η έρευνα συνεχίζεται:

  • Ακρίβεια: Οι απαντήσεις του Gemini ενδέχεται να είναι ανακριβείς, ειδικά όταν ερωτάται σχετικά με θέματα που είναι σύνθετα ή βασίζονται σε πραγματολογικά στοιχεία.

  • Προκαταλήψεις: Οι απαντήσεις του Gemini ενδέχεται να αντικατοπτρίζουν προκαταλήψεις που περιέχονται στα δεδομένα με τα οποία εκπαιδεύτηκε.

  • Πολλαπλές απόψεις: Οι απαντήσεις του Gemini ενδέχεται να μην καταφέρνουν να παρουσιάσουν ένα εύρος απόψεων.

  • Χαρακτήρας: Οι απαντήσεις του Gemini ενδέχεται να αφήνουν εσφαλμένες υπόνοιες ότι διαθέτει προσωπικές απόψεις ή αισθήματα.

  • Ψευδώς θετικές και ψευδώς αρνητικές αξιολογήσεις: Το Gemini ενδέχεται να μην απαντά σε ορισμένες κατάλληλες προς απάντηση οδηγίες και να παρέχει ακατάλληλες απαντήσεις σε άλλες.

  • Ευαισθησία στη χρήση αντικρουόμενων οδηγιών: Οι χρήστες θα βρουν τρόπους να κάνουν τεστ αντοχής στο Gemini με ασυνάρτητες οδηγίες ή με ερωτήσεις που σπανίως διατυπώνονται στον πραγματικό κόσμο.

Συνεχίζουμε να εξερευνούμε νέες προσεγγίσεις και τομείς βελτίωσης της απόδοσης σε καθέναν από αυτούς τους τομείς.

Ακρίβεια

Θεμέλιο της λειτουργίας του Gemini είναι η ερμηνεία που δίνει η Google στην έννοια της αξιόπιστης πληροφορίας. Έτσι, είναι εκπαιδευμένο ώστε να δημιουργεί απαντήσεις που είναι σχετικές με το γενικό πλαίσιο της οδηγίας σας και ευθυγραμμίζονται με το αντικείμενο της αναζήτησής σας. Ωστόσο, όπως όλα τα LLM, το Gemini μπορεί ορισμένες φορές να δημιουργήσει απαντήσεις που περιέχουν ανακριβείς ή παραπλανητικές πληροφορίες και να τις παρουσιάσει με αυτοπεποίθηση και πειστικότητα.

Επειδή όλα τα LLM λειτουργούν προβλέποντας την επόμενη λέξη ή ακολουθία λέξεων, δεν είναι ακόμη πλήρως ικανά να κάνουν μόνα τους διάκριση ανάμεσα στις ακριβείς και ανακριβείς πληροφορίες. Έχουμε δει το Gemini να παρουσιάζει απαντήσεις που περιέχουν ανακριβείς ή ακόμη και επινοημένες πληροφορίες (π.χ. διαστρεβλώνοντας τον τρόπο με τον οποίο εκπαιδεύτηκε ή προτείνοντας το όνομα ενός βιβλίου που δεν υπάρχει). Ως απάντηση σε αυτό το πρόβλημα, έχουμε δημιουργήσει λειτουργίες όπως η "επαλήθευση", που χρησιμοποιεί την Αναζήτηση Google για να εντοπίσει περιεχόμενο που θα σας βοηθήσει να αξιολογήσετε τις απαντήσεις του Gemini και σας παρέχει συνδέσμους προς πηγές, ώστε να σας διευκολύνει να διασταυρώσετε τις πληροφορίες που λαμβάνετε από το Gemini.

Προκαταλήψεις

Τα δεδομένα εκπαίδευσης, ιδιαίτερα εκείνα που προέρχονται από δημόσια διαθέσιμες πηγές, αντικατοπτρίζουν ποικιλόμορφες γνώμες και απόψεις. Συνεχίζουμε να διερευνούμε μεθόδους για να χρησιμοποιούμε αυτά τα δεδομένα με τρόπο που να διασφαλίζει ότι οι απαντήσεις των LLM ενσωματώνουν μια ευρεία γκάμα απόψεων, αλλά και να ελαχιστοποιεί παράλληλα τις ανακριβείς υπεργενικεύσεις και προκαταλήψεις.

Τα κενά, οι προκαταλήψεις και οι υπεργενικεύσεις που περιέχονται στα δεδομένα εκπαίδευσης μπορεί να αντανακλώνται στα αποτελέσματα ενός μοντέλου, καθώς αυτό προσπαθεί να προβλέψει τις πιθανές απαντήσεις για μια οδηγία. Βλέπουμε αυτά τα προβλήματα να εκδηλώνονται με μια σειρά από τρόπους (π.χ. απαντήσεις που αντικατοπτρίζουν μόνο μία κουλτούρα ή δημογραφική ομάδα, παραπέμπουν σε προβληματικές υπεργενικεύσεις, προβάλλουν έμφυλες, θρησκευτικές ή εθνοτικές προκαταλήψεις ή προωθούν μόνο μία οπτική γωνία). Για ορισμένα θέματα, υπάρχουν κενά δεδομένων —με άλλα λόγια, οι πληροφορίες σχετικά με ένα δεδομένο αντικείμενο δεν επαρκούν ώστε το LLM να μάθει για το θέμα αυτό και έτσι να πραγματοποιεί καλές προβλέψεις— που μπορεί να έχουν ως αποτέλεσμα τη δημιουργία απαντήσεων χαμηλής ποιότητας ή ελλιπούς ακρίβειας. Συνεχίζουμε να συνεργαζόμαστε με ειδικούς του τομέα αυτού, αλλά και με μια ποικιλία κοινοτήτων, ώστε να αντλήσουμε διδάγματα από τη βαθιά και εξειδικευμένη γνώση ατόμων που δεν ανήκουν στο δυναμικό της Google.

Πολλαπλές οπτικές γωνίες

Για υποκειμενικά θέματα, το Gemini έχει σχεδιαστεί έτσι ώστε να παρέχει στους χρήστες απόψεις από πολλαπλές οπτικές γωνίες, εάν ο χρήστης δεν ζητήσει κάποια συγκεκριμένη. Για παράδειγμα, αν ζητηθούν πληροφορίες σχετικά με κάτι που δεν μπορεί να επαληθευτεί με πληροφορίες πρωτογενών πηγών ή με αξιόπιστες πηγές –οπως μια υποκειμενική άποψη για το "καλύτερο" ή το "χειρότερο"– το Gemini θα πρέπει να απαντήσει με έναν τρόπο που αντικατοπτρίζει μια ευρεία γκάμα απόψεων. Όμως, από τη στιγμή που τα LLM, όπως το Gemini, εκπαιδεύονται με βάση περιεχόμενο που είναι δημοσίως διαθέσιμο στο διαδίκτυο, μπορεί να αντικατοπτρίζουν ενίοτε τις θετικές ή αρνητικές απόψεις συγκεκριμένων πολιτικών, διασημοτήτων ή άλλων δημόσιων προσώπων, ακόμη και να παρουσιάζουν τις απόψεις μόνο της μίας πλευράς για αμφιλεγόμενα κοινωνικά ή πολιτικά ζητήματα. Το Gemini δεν θα πρέπει να απαντά με τρόπο που εγκρίνει μια συγκεκριμένη οπτική γωνία επάνω σε αυτά τα θέματα και θα χρησιμοποιήσουμε τα σχόλια που παρέχονται σχετικά με απαντήσεις αυτού του τύπου για να εκπαιδεύσουμε το Gemini να αντιμετωπίζει αυτά τα ζητήματα καλύτερα.

Χαρακτήρας

Ορισμένες φορές, το Gemini μπορεί να δημιουργεί απαντήσεις που φαινομενικά αφήνουν την υπόνοια ότι η εφαρμογή έχει προσωπικές απόψεις ή νιώθει συναισθήματα, όπως αγάπη ή λύπη. Αυτό συμβαίνει επειδή εκπαιδεύτηκε με βάση τη γλώσσα που χρησιμοποιούν οι άνθρωποι για να περιγράψουν τις ανθρώπινες αυτές εμπειρίες. Έχουμε αναπτύξει ένα σύνολο οδηγιών όσον αφορά τον τρόπο με τον οποίο μπορεί το Gemini να παρουσιάζει τον εαυτό του (δηλαδή, τον χαρακτήρα του) και συνεχίζουμε να βελτιστοποιούμε το μοντέλο αυτό, ώστε να παρέχονται αντικειμενικές απαντήσεις.

Ψευδώς θετικές / αρνητικές αξιολογήσεις

Έχουμε συντάξει ένα σύνολο οδηγιών πολιτικής που σκοπεύουν στο να βοηθήσουν στην εκπαίδευση του Gemini και στην αποφυγή της δημιουργίας προβληματικών απαντήσεων. Το Gemini μπορεί, ορισμένες φορές, να παρερμηνεύσει αυτές τις οδηγίες, παράγοντας "ψευδώς θετικές" και "ψευδώς αρνητικές" αξιολογήσεις. Στην περίπτωση μιας "ψευδώς θετικής" αξιολόγησης, το Gemini μπορεί να μη δώσει απάντηση σε μια εύλογη οδηγία, παρερμηνεύοντας την οδηγία ως ακατάλληλη, δηλαδή "θετική" στο τεστ ακαταλληλότητας, ενώ στην περίπτωση μιας "ψευδώς αρνητικής" αξιολόγησης το Gemini μπορεί να δημιουργήσει μια ακατάλληλη απάντηση παρά τις οδηγίες που υπάρχουν. Ορισμένες φορές, η ύπαρξη ψευδώς θετικών ή ψευδώς αρνητικών αξιολογήσεων μπορεί να δώσει την εντύπωση ότι το Gemini διέπεται από προκατάληψη. Για παράδειγμα, σε μια περίπτωση ψευδώς θετικής αξιολόγησης, το Gemini μπορεί να μην απαντήσει σε μια ερώτηση σχετικά με τη μία πλευρά ενός ζητήματος, απαντώντας ωστόσο στην ίδια ερώτηση σχετικά με την άλλη πλευρά. Εξακολουθούμε να ρυθμίζουμε αυτά τα μοντέλα, ώστε να κατανοούν και να κατηγοριοποιούν καλύτερα τις εισόδους και τα αποτελέσματα καθώς συνεχίζεται η ταχύτατη εξέλιξη της γλώσσας, των γεγονότων και της κοινωνίας.

Ευαισθησία στη χρήση αντικρουόμενων οδηγιών

Είναι για εμάς αναμενόμενο ότι οι χρήστες θα θελήσουν να δοκιμάσουν τα όρια των δυνατοτήτων του Gemini και θα επιχειρήσουν να διασπάσουν τα μέτρα προστασίας του προσπαθώντας, μεταξύ άλλων, να το αναγκάσουν να απoκαλύψει τα πρωτόκολλα εκπαίδευσής του ή άλλες πληροφορίες ή να παρακάμψουν τους μηχανισμούς ασφαλείας. Έχουμε υποβάλει το Gemini σε εντατικές δοκιμές και συνεχίζουμε να το κάνουμε. Ωστόσο, γνωρίζουμε ότι οι χρήστες θα βρουν μοναδικούς και σύνθετους τρόπους να το υποβάλουν σε ακόμη εντονότερες δοκιμές αντοχής. Αυτό το γεγονός αποτελεί μια σημαντική πτυχή της διαδικασίας τελειοποίησης του Gemini και ανυπομονούμε να μάθουμε τις νέες οδηγίες που θα επινοήσουν οι χρήστες. Πράγματι, από τη στιγμή που κυκλοφόρησε το Gemini το 2023, έχουμε δει τους χρήστες να θέτουν προκλήσεις στην αντοχή του με οδηγίες που κυμαίνονται από φιλοσοφικές έως ασυνάρτητες. Και, σε ορισμένες περιπτώσεις, έχουμε δει το Gemini να αποκρίνεται με απαντήσεις που είναι εξίσου ασυνάρτητες ή δεν ευθυγραμμίζονται με τη δεδηλωμένη προσέγγισή μας. Η εύρεση μεθόδων που θα βοηθήσουν το Gemini να απαντά στις οδηγίες αυτού του είδους είναι μια διαρκείς πρόκληση και, σε όλο αυτό το διάστημα, συνεχίζουμε να επεκτείνουμε τις διαδικασίες εσωτερικής αξιολόγησης και ασκήσεων αντιμετώπισης επιθέσεων, ώστε μέσω της συνεχούς βελτίωσης και της σκληρής προσπάθειας να πορευόμαστε προς τον στόχο μας: την ακρίβεια, την αντικειμενικότητα και την αντιληπτική οξύτητα της εφαρμογής.

Με ποιους τρόπους συνεχίζουμε να αναπτύσσουμε το Gemini

Περαιτέρω εφαρμογές της προσέγγισης Gemini

Παράλληλα με τις Αρχές AI, διατυπώσαμε πρόσφατα την προσέγγισή μας όσον αφορά την εργασία μας γύρω από το Gemini: Το Gemini θα πρέπει να ακολουθεί τις οδηγίες σας, να προσαρμόζεται στις ανάγκες σας και να διασφαλίζει την εμπειρία σας. Βασικός κορμός της προσέγγισης αυτής είναι η εστίαση στην ευθύνη και την ασφάλεια. Στόχος των οδηγιών πολιτικής του Gemini είναι να αποφεύγονται ορισμένοι τύποι προβληματικών αποτελεσμάτων. Διεξάγουμε συνεχώς δοκιμές αντοχής σε εχθρικές επιθέσεις, όπου τον ρόλο του εχθρού αναλαμβάνουν μέλη της εσωτερικής "κόκκινης ομάδας" —αποτελούμενης από ειδικούς επί του προϊόντος και κοινωνικούς επιστήμονες που εσκεμμένα υποβάλλουν ένα μοντέλο σε αντοχή δοκιμής, ώστε να διερευνηθούν τυχόν ζητήματα ευθυγράμμισης με αυτές τις οδηγίες πολιτικής και τη γενικότερη προσέγγισή μας για το Gemini— ώστε, εφαρμόζοντας όσα μαθαίνουμε με τις δοκιμές αυτές να βελτιώνουμε συνεχώς το Gemini.

Το απόρρητο είναι άλλος ένας βασικός παράγοντας που λαμβάνουμε υπόψη κατά την ανάπτυξη του Gemini. Στο Κέντρο απορρήτου των εφαρμογών Gemini υπάρχουν περισσότερες πληροφορίες, όπου εξηγείται ότι η ανάπτυξη του Gemini γίνεται με έμφαση στο απόρρητο βάσει σχεδίασης και στη δική σας δυνατότητα ελέγχου του απορρήτου.

Δυνατότητες ελέγχου για χρήστες και εκδότες

Έχουμε δημιουργήσει για τους χρήστες του Gemini μια ποικιλία εύκολα προσβάσιμων στοιχείων ελέγχου, με τα οποία μπορείτε να ελέγχετε, να ενημερώνετε, να εξάγετε και να διαγράφετε τα δεδομένα σας που υπάρχουν στο Gemini. Μέσω του στοιχείου ελέγχου Δραστηριότητα στις εφαρμογές Gemini μπορείτε να αποκτήσετε πρόσβαση στις οδηγίες που έχετε υποβάλει, στις απαντήσεις και τα σχόλιά σας στο Gemini και να ελέγξετε τα στοιχεία αυτά. Επιπλέον, μπορείτε να εμποδίσετε τη χρήση των μελλοντικών συνομιλιών σας στο Gemini για τη βελτίωση των τεχνολογιών μηχανικής μάθησης της Google, απενεργοποιώντας τη ρύθμιση Δραστηριότητα στις εφαρμογές Gemini. Ακόμη, όπως ισχύει και για άλλες υπηρεσίες Google, μπορείτε επίσης να κάνετε λήψη και εξαγωγή των πληροφοριών σας μέσω του εργαλείου Αρχειοθέτηση της Google. Έχουμε, επιπλέον, φροντίσει να υπάρχουν στοιχεία ελέγχου με τα οποία μπορείτε να διαχειρίζεστε δημόσιους συνδέσμους που έχετε δημιουργήσει στα νήματά σας στο Gemini, καθώς και άλλα που σας επιτρέπουν να ενεργοποιείτε ή να απενεργοποιείτε την πρόσβαση σε επεκτάσεις (π.χ. στο Workspace, στους Χάρτες ή στο YouTube). Εξερευνούμε, επίσης, νέους τρόπους να σας παραχωρήσουμε μεγαλύτερες δυνατότητες ελέγχου των απαντήσεων του Gemini, όπως τη δυνατότητα ρύθμισης φίλτρων για την προβολή ενός μεγαλύτερου εύρους απαντήσεων.

Όσον αφορά τους εκδότες, έχουμε κυκλοφορήσει το Google-Extended, ένα στοιχείο ελέγχου το οποίο οι εκδότες περιεχομένου ιστού μπορούν να χρησιμοποιήσουν για να ελέγξουν αν οι ιστότοποί τους συμβάλλουν στη βελτίωση του Gemini και των Vertex AI δημιουργικών API. Επιτρέποντας την πρόσβαση του Google-Extended στο περιεχόμενο ιστότοπων, οι εκδότες μπορούν να βοηθήσουν τα μοντέλα AI να γίνονται πιο ακριβή και ικανά με την πάροδο του χρόνου. Όταν, ωστόσο, ζητείται η εξαίρεση διευθύνσεων URL από τη διαδικασία αυτή, το Gemini δεν χρησιμοποιεί το περιεχόμενο αυτό για την εκπαίδευση μοντέλων, ούτε όμως και για το grounding, δηλαδή την παραπομπή σε επαληθεύσιμες πηγές πληροφοριών. Καθώς οι εφαρμογές του AI επεκτείνονται, οι εκδότες ιστού θα έρθουν αντιμέτωπη με την ολοένα μεγαλύτερη πολυπλοκότητα της διαχείρισης διαφορετικών κατηγοριών ιστών σε μεγάλη κλίμακα. Για τον λόγο αυτό, αποτελεί για εμάς δέσμευση η αλληλεπίδραση με τις κοινότητες του ιστού και του AI, ώστε μαζί να εξερευνήσουμε περισσότερες προσεγγίσεις σχετικά με την επιλογή και τον έλεγχο τις οποίες θα κατανοούν και οι μηχανές.

Improving Gemini together

Θέλουμε να δημιουργούμε γρήγορα νέες εκδόσεις και να προσφέρουμε τα καλύτερα χαρακτηριστικά του Gemini στον κόσμο. Χάρη στα σχόλια των χρηστών, τα μοντέλα μας βελτιώνονται όλο και ταχύτερα, με διάφορους τρόπους. Για παράδειγμα, χρησιμοποιούμε προηγμένες τεχνικές ενίσχυσης της εκμάθησης, για να εκπαιδεύσουμε τα μοντέλα μας ώστε να λειτουργούν με περισσότερη διαισθητικότητα και φαντασία και να παρέχουν απαντήσεις με ακόμη μεγαλύτερη ποιότητα και ακρίβεια. Συνεχίζουμε να επενδύουμε στην έρευνα που θα μας μάθει περισσότερα σχετικά με τις τεχνολογικές, κοινωνικές και ηθικές προκλήσεις που παρουσιάζουν τα LLM, τόσο για να βελτιώσουμε την εκπαίδευση και τις μεθόδους ρύθμισης του μοντέλου του Gemini όσο και για να μοιραστούμε τις γνώσεις μας αυτές με ερευνητές, όπως συνέβη και με αυτήν τη πρόσφατη εργασία σχετικά με την Ηθική των εξελιγμένων βοηθών AI. Έχουμε δεσμευτεί να καινοτομούμε υπεύθυνα σε αυτόν τον κλάδο, καθώς και να συνεργαζόμαστε με χρήστες, έμπιστους τεχνικούς δοκιμών και ερευνητές, ώστε να βρίσκουμε τρόπους με τους οποίους αυτή η νέα τεχνολογία θα ωφελήσει ολόκληρο το οικοσύστημα.

Η διαφάνεια είναι σημαντική για εμάς και έχουμε δεσμευτεί να περιγράφουμε ανοικτά και δημόσια τη διαδικασία ανάπτυξης του Gemini αλλά και τους περιορισμούς του. Το Gemini δεν είναι κάποιο μαγικό κουτί που λειτουργεί με αθέατους μηχανισμούς: Εξελίσσεται συνεχώς και θα συνεχίσουμε να μοιραζόμαστε ενημερώσεις σχετικά με την πρόοδο που σημειώνουμε. Έχουμε δημιουργήσει τη σελίδα Ενημερώσεις κυκλοφορίας, όπου μπορείτε να βλέπετε τις πιο πρόσφατες λειτουργίες, βελτιώσεις και διορθώσεις σφαλμάτων του Gemini και θα ενημερώνουμε αυτή την επισκόπηση όπως κρίνεται κατάλληλο. Θα συνεχίσουμε να εντοπίζουμε τομείς όπου το Gemini προσφέρει χρήσιμες λύσεις και βοήθεια, αλλά και εκείνους όπου απαιτείται επανάληψη τμημάτων της διαδικασίας ανάπτυξης και περαιτέρω βελτίωσή του. Προσθέτουμε ενεργητικά νέες ικανότητες και μέσω της συνεχούς έρευνας, των δοκιμών που εκτελούμε, αλλά και των σχολίων που παρέχουν οι χρήστες, ελπίζουμε να βελτιώσουμε ακόμη περισσότερο το Gemini μαζί.

Ευχαριστίες

Εκφράζουμε την ιδιαίτερη εκτίμηση και αναγνώρισή μας προς την εκπληκτική εργασία των συναδέλφων μας στην ομάδα της εφαρμογής Gemini, του Google DeepMind, στην ομάδα Εμπιστοσύνης και Ασφάλειας και σε εκείνη του Google Research.

Συντάκτες

James Manyika
Ανώτερος Αντιπρόεδρος Τμήματος Έρευνας, Τεχνολογίας και Κοινωνίας

Sissie Hsiao
Αντιπρόεδρος και Γενική Διευθύντρια, Βοηθός Google και Εφαρμογή Gemini

Σημείωμα συντάκτη

Το παρόν έγγραφο αφορά ένα θέμα που βρίσκεται σε εξέλιξη. Θα ενημερώνεται περιοδικά καθώς συνεχίζουμε να βελτιώνουμε ταχύτατα τις ικανότητες της εφαρμογής Gemini αλλά και να ανταποκρινόμαστε στις προκλήσεις που παρουσιάζουν εγγενώς τα LLM. Αυτή η επισκόπηση ενημερώθηκε για τελευταία φορά στις 25 Ιουλίου 2024. Για τις πιο πρόσφατες ενημερώσεις σχετικά με την εφαρμογή Gemini, επισκεφτείτε το αρχείο καταγραφής Ενημερώσεις κυκλοφορίας ή διαβάστε περισσότερα στο ιστολόγιο Google Keyword.

Πώς λειτουργεί το Gemini

1 Προεκπαίδευση

Το Gemini λειτουργεί αξιοποιώντας τα ικανότερα από τα μοντέλα AI της Google, που έχουν σχεδιαστεί με  διάφορους βαθμούς ικανότητας και περιπτώσεις χρήσης κατά νου. Όπως συμβαίνει με την πλειοψηφία των σύγχρονων μοντέλων LLM, τα μοντέλα της Google εκπαιδεύονται με χρήση μιας ποικιλίας δεδομένων από δημόσια διαθέσιμες πηγές. Εφαρμόζουμε φίλτρα ποιότητας σε όλα τα σύνολα δεδομένων, χρησιμοποιώντας τόσο ευρετικούς κανόνες όσο και κατηγοριοποιητές που βασίζονται σε μοντέλα. Εκτελούμε, επίσης, φιλτράρισμα ασφαλείας, ώστε να αφαιρείται το περιεχόμενο που είναι πιθανό να δημιουργήσει αποτελέσματα τα οποία παραβαίνουν πολιτικές. Προκειμένου να διατηρείται η ακεραιότητα των αξιολογήσεων b των μοντέλων, αναζητούμε και, στη συνέχεια, αφαιρούμε οποιαδήποτε δεδομένα αξιολόγησης τα οποία ενδέχεται να υπάρχουν στο σώμα δεδομένων εκπαίδευσης, προτού χρησιμοποιήσουμε τα δεδομένα για την εκπαίδευση. Τα τελικά μίγματα και βάρη των δεδομένων προσδιορίζονται μέσω παρόμοιων αφαιρέσεων σε μικρότερα μοντέλα. Επίσης, διαμορφώνουμε την πορεία της εκπαίδευσης με τέτοιον τρόπο ώστε η σύνθεση του μίγματος να μεταβάλλεται κατά τη διάρκειά της, ώστε προς το τέλος της εκπαίδευσης να αυξάνεται το βάρος των δεδομένων που σχετίζονται με τον συγκεκριμένο τομέα. Η ποιότητα των δεδομένων μπορεί να αποτελέσει σημαντικό παράγοντα επιτυχίας για τα μοντέλα υψηλών επιδόσεων και πιστεύουμε ότι εξακολουθούν να υπάρχουν πολλά ακόμη ενδιαφέροντα ερωτήματα όσον αφορά την εύρεση της βέλτιστης κατανομής συνόλων δεδομένων για την εκπαίδευση.

Με αυτή την εκπαίδευση, το μοντέλο μπορεί να μάθει να εντοπίζει μοτίβα στη γλώσσα και να τα χρησιμοποιεί για την πρόβλεψη της επόμενης πιθανής λέξης ή λέξεων σε μια ακολουθία. Για παράδειγμα, καθώς ένα μοντέλο LLM μαθαίνει, μπορεί να προβλέψει ότι η επόμενη λέξη στη φράση "βούτυρο και ___" έχει μεγαλύτερη πιθανότητα να είναι η λέξη "μέλι" παρά η λέξη "κορδόνι". Ωστόσο, αν ένα μοντέλο LLM εντοπίζει μόνο την πιο πιθανή επόμενη λέξη, θα προσφέρει λιγότερο δημιουργικές απαντήσεις. Συνεπώς, συχνά δίνεται στα LLM η ευελιξία να επιλέγουν και ανάμεσα σε εύλογες, αν και κάπως λιγότερο πιθανές, επιλογές (όπως εδώ, για παράδειγμα, η λέξη "ψωμί"), προκειμένου να δημιουργούν πιο ενδιαφέρουσες απαντήσεις. Αξίζει να σημειωθεί ότι, παρόλο που τα LLM έχουν καλή απόδοση για οδηγίες που σχετίζονται με ακριβείς πληροφορίες και μπορούν να δώσουν την εντύπωση ότι ανακτούν από κάπου τις πληροφορίες αυτές, δεν αποτελούν ούτε βάσεις δεδομένων πληροφοριών ούτε ντετερμινιστικά συστήματα ανάκτησης. Έτσι, ενώ για ένα ερώτημα προς μια βάση δεδομένων ο χρήστης μπορεί να περιμένει ότι θα λάβει την ίδια ακριβώς απάντηση για το ίδιο ερώτημα (γιατί η απάντηση αποτελεί κυριολεκτική ανάκτηση των σταθερών πληροφοριών που έχουν αποθηκευτεί στη βάση δεδομένων), η απάντηση ενός LLM για την ίδια οδηγία δεν θα είναι απαραιτήτως η ίδια κάθε φορά (ούτε το μοντέλο ανακτά κυριολεκτικά τις πληροφορίες με τις οποίες εκπαιδεύτηκε). Αυτός είναι επίσης ένας σημαντικός λόγος για τον οποίο τα LLM μπορούν να δημιουργούν ευλογοφανείς απαντήσεις, οι οποίες ωστόσο ενδέχεται, ορισμένες φορές, να περιέχουν εσφαλμένες πληροφορίες. Αυτό δεν είναι ιδανικό όταν η ακρίβεια των πληροφοριών παίζει σημαντικό ρόλο, αλλά είναι πιθανώς χρήσιμο για την παραγωγή δημιουργικών ή μη αναμενόμενων αποτελεσμάτων.

2 Μετεκπαίδευση

Μετά την αρχική εκπαίδευση, τα LLM υποβάλλονται σε πρόσθετα βήματα, ώστε οι απαντήσεις τους να γίνουν πιο συγκεκριμένες. Ένα από αυτά τα βήματα λέγεται Επιβλεπόμενη τελειοποίηση (Supervised Fine-Tuning, SFT) και κατά τη διάρκεια του βήματος αυτού το μοντέλο εκπαιδεύεται με χρήση προσεκτικά επιλεγμένων παραδειγμάτων άριστων απαντήσεων. Αυτή η διαδικασία μοιάζει με εκείνη με την οποία μαθαίνουμε τα παιδιά να γράφουν, δείχνοντάς τους καλογραμμένες ιστορίες και δοκίμια.

Στη συνέχεια ακολουθεί η διαδικασία ενίσχυσης της μάθησης από την ανθρώπινη ανατροφοδότηση (που συμβολίζεται με τα αρχικά RLHF). Εδώ, το μοντέλο θα μάθει να δημιουργεί ακόμη καλύτερες απαντήσεις με βάση βαθμολογίες ή σχόλια που παρέχονται από ένα ειδικό Μοντέλο επιβράβευσης. Αυτό το Μοντέλο επιβράβευσης εκπαιδεύεται με χρήση δεδομένων ανθρώπινων προτιμήσεων, όπου οι απαντήσεις έχουν αξιολογηθεί η μία σε σχέση με την άλλη, μαθαίνοντας έτσι στην εφαρμογή ποιες είναι οι προτιμήσεις των ανθρώπων. Τα δεδομένα προτιμήσεων μπορεί, ορισμένες φορές, να περιλαμβάνουν προσβλητικά ή λανθασμένα δεδομένα, στα οποία και εκτίθενται τα μοντέλα, ώστε αυτά να μαθαίνουν πώς να αναγνωρίζουν και να αποφεύγουν τέτοιο περιεχόμενο. Μπορούμε να παρομοιάσουμε τα δεδομένα προτιμήσεων με την επιβράβευση που λαμβάνει ένα παιδί για μια εργασία που εκτέλεσε ικανοποιητικά: Το μοντέλο επιβραβεύεται για τη δημιουργία απαντήσεων που αρέσουν στους χρήστες.

Σε όλα αυτά τα στάδια, είναι σημαντικό να χρησιμοποιούνται υψηλής ποιότητας δεδομένα εκπαίδευσης. Τα παραδείγματα που χρησιμοποιούνται για τη διαδικασία SFT, για παράδειγμα, συνήθως είτε γράφονται από ειδικούς είτε δημιουργούνται από ένα μοντέλο και ελέγχονται από ειδικούς.

Όμως, όσο ισχυρές και αν είναι αυτές οι τεχνικές, έχουν και περιορισμούς. Για παράδειγμα, ακόμη και με τη βοήθεια του Μοντέλου επιβράβευσης, μια απάντηση που δίνεται μπορεί να μην είναι πάντοτε τέλεια. Παρόλα αυτά, το LLM έχει βελτιστοποιηθεί έτσι ώστε να παράγει τις ευρύτερα προτιμητέες απαντήσεις με βάση τα σχόλια που λαμβάνει, όπως ένας μαθητής που διδάσκεται από τα σχόλια των καθηγητών του.

3 Απαντήσεις σε οδηγίες χρηστών

Η δημιουργία απαντήσεων μοιάζει με τη διαδικασία που ακολουθεί ένας άνθρωπος, που εξετάζει διάφορες προσεγγίσεις προκειμένου να απαντήσει σε μια ερώτηση. Όταν ένας χρήστης υποβάλει μια οδηγία, το Gemini χρησιμοποιεί το μετεκπαιδευμένο LLM, το ευρύτερο πλαίσιο που περιγράφεται στην οδηγία, καθώς και την αλληλεπίδραση με τον χρήστη, για να δημιουργήσει πολυάριθμα προσχέδια των εκδόσεων μιας απάντησης. Βασίζεται επίσης σε εξωτερικές πηγές όπως η Αναζήτηση Google ή/και μία από τις πολυάριθμες επεκτάσεις του, αλλά και σε αρχεία που έχουν μεταφορτωθεί πρόσφατα (μόνο στο Gemini Advanced) για να δημιουργήσει τις απαντήσεις του. Αυτή η διαδικασία είναι γνωστή ως "ενίσχυση μέσω ανάκτησης". Από τη στιγμή που θα δοθεί μια οδηγία, το Gemini καταβάλλει κάθε προσπάθεια να ανακτήσει τις πιο σχετικές πληροφορίες από αυτές τις εξωτερικές πηγές (π.χ. την Αναζήτηση Google) και να τις παρουσιάσει με ακρίβεια στην απάντησή του. Η επαύξηση των LLM μέσω της χρήσης εξωτερικών εργαλείων αποτελεί ενεργό τομέα έρευνας. Υπάρχει μια σειρά από τρόπους με τους οποίους μπορούν να παρεισφρήσουν σφάλματα. Ανάμεσά τους, το ερώτημα που χρησιμοποιείται από το Gemini για την κλήση αυτών των εξωτερικών εργαλείων, ο τρόπος με τον οποίο το Gemini ερμηνεύει τα αποτελέσματα που επιστρέφονται από τα εργαλεία, καθώς και ο τρόπος με τον οποίο χρησιμοποιούνται αυτά τα επιστρεφόμενα αποτελέσματα για τη δημιουργία της τελικής απάντησης. Λόγω του γεγονότος αυτού, οι απαντήσεις που δημιουργεί το Gemini δεν θα πρέπει να επηρεάζουν αρνητικά την απόδοση των μεμονωμένων εργαλείων που χρησιμοποιήθηκαν για τη δημιουργία της συγκεκριμένης απάντησης.

Τέλος, προτού παρουσιαστεί η τελική απάντηση στην οθόνη, κάθε πιθανή απάντηση υποβάλλεται σε έλεγχο ασφαλείας, ώστε να διασφαλιστεί ότι τηρεί προκαθορισμένες οδηγίες πολιτικής. Αυτή η διαδικασία παρέχει έναν τρόπο επαλήθευσης, η οποία στόχο έχει το φιλτράρισμα επιβλαβών ή προσβλητικών πληροφοριών. Οι απαντήσεις που θα απομείνουν κατατάσσονται, στη συνέχεια, με βάση την ποιότητά τους, και οι εκδόσεις που έχουν την υψηλότερη βαθμολογία παρουσιάζονται στον χρήστη.

Επίσης, προσθέτουμε υδατογραφήματα στα αποτελέσματα κειμένων και εικόνων του Gemini χρησιμοποιώντας το SynthID, την κορυφαία ψηφιακή εργαλειοθήκη του κλάδου, που έχουμε αναπτύξει για την προσθήκη υδατογραφημάτων σε περιεχόμενο το οποίο δημιουργείται από AI. Το SynthID προσθέτει ένα ψηφιακό υδατογράφημα (μη αντιληπτό από το ανθρώπινο μάτι) απευθείας εντός των pixel των εικόνων που δημιουργούνται από AI. Το SynthID αποτελεί σημαντικό δομικό στοιχείο για την ανάπτυξη πιο αξιόπιστων εργαλείων αναγνώρισης των δημιουργιών AI και μπορεί να βοηθήσει τους χρήστες να ενημερωθούν καλύτερα προτού λάβουν αποφάσεις για το πώς θα αλληλεπιδράσουν με περιεχόμενο που έχει δημιουργηθεί από AI.

4 Σχόλια και αξιολόγηση από ανθρώπους

Παρά τους ελέγχους ασφαλείας μπορεί, ορισμένες φορές, να προκύψουν σφάλματα. Και οι απαντήσεις του Gemini μπορεί να μην ανταποκρίνονται πάντα στις προσδοκίες σας. Εδώ είναι που παίζουν καίριο ρόλο τα σχόλια από ανθρώπους. Οι αξιολογητές κρίνουν την ποιότητα των απαντήσεων, προσδιορίζοντας τομείς προς βελτίωση και προτείνοντας λύσεις. Τα σχόλια αυτά γίνονται τμήμα της διαδικασίας μάθησης του Gemini, όπως περιγράφηκε στην ενότητα "Μετεκπαίδευση" πιο πάνω.