Παρασκευή 27 Μαΐου 2022

Στο στόχαστρο της Microsoft και της τεχνητής νοημοσύνης η τοξικότητα του Internet


Στην κατηγορία του open source λογισμικού προσθέτει σήμερα η Microsoft εργαλεία και βάσεις δεδομένων που έχουν σχεδιαστεί με σκοπό τον έλεγχο των συστημάτων συντονισμού περιεχομένου με τη χρήση τεχνητής νοημοσύνης και την αυτόματη δημιουργία δοκιμών που εντοπίζουν ενδεχόμενες αστοχίες σε αυτά τα μοντέλα.

Η εταιρία υποστηρίζει πως τα δύο αυτά προγράμματα, με τις ονομασίες AdaTest και (De)ToxiGen, θα μπορούσαν να οδηγήσουν σε περισσότερο αξιόπιστα μεγάλα γλωσσικά μοντέλα (LLM) ή μοντέλα παρόμοια με το GPT-3 του OpenAI, ικανά να αναλύουν και να παράγουν κείμενα με συνθετότητα ανθρωπίνου επιπέδου.

Είναι σαφές πως τα LLM ενέχουν κινδύνους. Ακριβώς επειδή εκπαιδεύονται με την εισαγωγή μεγάλου όγκου δεδομένων από το διαδίκτυο, συμπεριλαμβανομένων των μέσων κοινωνικής δικτύωσης, είναι ικανά να παράξουν τοξικά κείμενα, βασισμένα σε παρόμοια γλωσσικά δείγματα τα οποία συναντούν στο πλαίσιο της εκπαίδευσής τους. Το πρόβλημα είναι πως ο εντοπισμός και η αποκατάσταση των αστοχιών σε αυτά τα μοντέλα εξακολουθεί να συνιστά πρόκληση, τόσο λόγω του κόστους επανεκπαίδευσης των μοντέλων όσο και του ευρύτατου φάσματος αστοχιών που θα μπορούσαν να υφίστανται.

Έχοντας ως στόχο την καταγραφή προόδου στην αντιμετώπιση του προβλήματος της τοξικότητας, μια ερευνητική ομάδα της Microsoft ανέπτυξε το ToxiGen, μια βάση δεδομένων που προορίζεται για την εκπαίδευση των αυτόματων εργαλείων συντονισμού περιεχομένου, ικανή να εντοπίζει προβληματικές χρήσεις της γλώσσας. Η ToxiGen περιλαμβάνει 274.000 παραδείγματα “ουδέτερων” και “τοξικών” διατυπώσεων, γεγονός που την καθιστά τη μεγαλύτερη δημόσια διαθέσιμη βάση δεδομένων ρητορικής μίσους, σύμφωνα με τη Microsoft.

«Κατανοούμε πως το οιοδήποτε σύστημα συντονισμού περιεχομένου θα έχει κενά, καθώς και ότι θα απαιτείται διαρκής βελτίωση αυτών των μοντέλων. Ο στόχος με το (De)ToxiGen είναι να μπορέσουν οι προγραμματιστές συστημάτων τεχνητής νοημοσύνης να εντοπίζουν κινδύνους ή προβλήματα σε οποιαδήποτε υφιστάμενη τεχνολογία συντονισμού περιεχομένου αποτελεσματικότερα», δήλωσε η Έτσε Καμάρ, στέλεχος του ερευνητικού τομέα της Microsoft και επικεφαλής των AdaTest και (De)ToxiGen. «Τα πειράματά μας καταδεικνύουν πως το εργαλείο μπορεί να χρησιμοποιηθεί για τη δοκιμή πολλών υφιστάμενων συστημάτων και προσδοκούμε να διδαχτούμε από την κοινότητα σχετικά με τα νέα περιβάλλοντα που θα μπορούσαν να ωφεληθούν από αυτό το εργαλείο». 

1 σχόλιο:

  1. Οργουελιανη νεογλωσσα! Τοξικοτητα το νεο ονομα της Ελευθεριας του Λογου!

    ΑπάντησηΔιαγραφή