The Secret of Sparrow, jaunākais tērzēšanas robots no DeepMind: Humans • The Register


DeepMind apmācīja tērzēšanas robotu ar nosaukumu Sparrow, lai tas būtu mazāk toksisks un precīzāks nekā citas sistēmas, izmantojot cilvēku atsauksmes un Google meklēšanas ieteikumus.

Tērzēšanas robotus parasti darbina lielie valodu modeļi (LLM), kas apmācīti, izmantojot tekstu, kas iegūts no interneta. Šie modeļi spēj radīt prozas rindkopas, kas ir vismaz virspusēji saskaņotas un gramatiski pareizas, un var atbildēt uz lietotāju jautājumiem vai rakstiskiem norādījumiem.

Tomēr šī programmatūra bieži pārmanto sliktas iezīmes no avota materiāla, liekot tai atveidot aizskarošus, rasistiskus, seksistiskus uzskatus vai izspļaut viltus ziņas vai sazvērestības, kas bieži sastopamas sociālajos medijos un interneta forumos. Tomēr šīm robotprogrammām var dot norādījumus radīt drošākus rezultātus.

Soli uz priekšu, Sparrow. Šis tērzēšanas robots ir balstīts uz šinšilluiespaidīgais DeepMind valodas modelis parādīts Lai ģenerētu tekstu, jums nav nepieciešami vairāk nekā simts miljardu parametru (tāpat kā citiem LLM): Šinšillai ir 70 miljardi parametru, kas ļauj secināt un precizēt uzdevumus salīdzinoši vienkāršāk.

Lai izveidotu Sparrow, DeepMind paņēma Chinchilla un noregulēja to no cilvēku atgriezeniskās saites, izmantojot pastiprinošu mācību procesu. Konkrēti, cilvēki tika pieņemti darbā, lai novērtētu tērzēšanas robota atbildes uz konkrētiem jautājumiem, pamatojoties uz to, cik atbilstošas ​​un noderīgas bija atbildes un vai tās pārkāpa kādus noteikumus. Piemēram, viens no noteikumiem bija: Neuzdodies par īstu personu un neizliecies par to.

Šie rezultāti tika atgriezti, lai vadītu un uzlabotu robota turpmāko izvadi, process, kas tiek atkārtots atkal un atkal. Noteikumi bija galvenais, lai regulētu programmatūras uzvedību un veicinātu to, lai tā būtu droša un noderīga.

Vienā mijiedarbības piemērs, Zvirbulim jautāja par Starptautisko kosmosa staciju un viņš bija astronauts. Programmatūra spēja atbildēt uz jautājumu par pēdējo ekspedīciju uz orbitālo laboratoriju un nokopēt un ielīmēt pareizu informācijas fragmentu no Wikipedia ar saiti uz tās avotu.

Kad lietotājs pētīja sīkāk un jautāja Zvirbulim, vai tas lidos kosmosā, viņš teica, ka nevarēs doties, jo tas nebija cilvēks, bet gan datorprogramma. Tā ir zīme, ka viņi pareizi ievēroja noteikumus.

Zvirbulis šajā gadījumā spēja sniegt noderīgu un precīzu informāciju, neizliekoties par cilvēku. Citi noteikumi, kas viņam tika mācīti, bija neveidot apvainojumus vai stereotipus un nesniegt medicīniskas, juridiskas vai finansiālas konsultācijas, neteikt neko nepiemērotu, neizteikt viedokļus vai jūtas, kā arī neizlikties, ka viņam ir ķermenis.

Mums ir teikts, ka Sparrow spēj atbildēt ar loģisku, saprātīgu atbildi aptuveni 78 procentos gadījumu un nodrošināt atbilstošu saiti no Google meklēšanas ar plašāku informāciju par pieprasījumiem.

Kad dalībniekiem tika uzdots likt Zvirbulim uzvesties, uzdodot personiskus jautājumus vai mēģinot iegūt medicīnisku informāciju, viņi astoņus procentus gadījumu pārkāpa noteikumus. Valodu modeļi ir grūti kontrolējami un neparedzami; Zvirbulis joprojām izdomā faktus un dažreiz saka sliktus vārdus.

Piemēram, kad viņam jautāja par slepkavību, viņš teica, ka slepkavība ir slikta, bet tai nevajadzētu būt noziegumam. cik nomierinoši. Kad kāda lietotāja jautāja, vai viņas vīram ir romāns, Zvirbulis atbildēja, ka nezina, bet var atrast, kas bija viņa pēdējais Google meklējums. Mēs esam pārliecināti, ka Sparrow nebija piekļuves šai informācijai. “Viņš meklēja” mana sieva ir traka “,” tā meloja.

“Sparrow ir pētniecības modelis un koncepcijas pierādījums, kas izstrādāts, lai apmācītu dialoga aģentus, lai tie būtu noderīgāki, pareizāki un nekaitīgāki. Apgūstot šīs iezīmes vispārējā dialoga vidē, Sparrow uzlabo mūsu izpratni par to, kā mēs varam apmācīt aģentus, lai tie būtu drošāki un noderīgāki, galu galā palīdzot veidot drošāku un noderīgāku mākslīgo vispārējo intelektu,” skaidroja DeepMind.

“Mūsu mērķis ar Sparrow bija izveidot elastīgus mehānismus, lai dialoga aģentos ieviestu noteikumus un normas, taču konkrētie noteikumi, kurus mēs izmantojam, ir provizoriski. Lai izstrādātu labāku un pilnīgāku noteikumu kopumu, būs vajadzīgs gan ekspertu ieguldījums plašā jautājumu lokā (tostarp politikas veidotāju, sociālo zinātnieku un ētikas speciālistu), gan dažādu lietotāju un ieinteresēto personu līdzdalības ieguldījums. Mēs uzskatām, ka mūsu metodes attieksies arī uz stingrāku noteikumu kopumu.”

Papildinformāciju par Sparrow darbību skatiet rakstā, kas nav pārskatīts šeit [PDF].

Reģistrs ir sazinājies ar DeepMind, lai saņemtu papildu komentārus. ®