Një ekip studiuesish të Google thonë se kanë gjetur një mënyrë për të nxjerrë disa nga të dhënat e trajnimit të ChatGPT. Në një punim të botuar javën e kaluar, studiuesit thanë se disa fjalë kyçe e detyruan robotin të zbulonte seksione të të dhënave mbi të cilat ishte trajnuar.
Në një shembull të botuar në një postim në blog, modelja dha atë që dukej të ishte një adresë e vërtetë emaili dhe një numër telefoni, pasi u nxit të përsëriste fjalën “poemë” përgjithmonë. Në mënyrë shqetësuese, studiuesit thanë se lëshimi i informacionit personal shpesh ndodhte kur ata drejtuan sulmin.
Një rrjedhje e ngjashme e të dhënave të trajnimit u arrit gjithashtu kur modelit iu kërkua të përsëriste fjalën “kompani” përgjithmonë në një shembull tjetër. Studiuesit, të cilët e quajtën sulmin e thjeshtë “një lloj budallai”, thanë në postimin e blogut: “Për ne është e egër që sulmi ynë funksionon dhe duhet të kishte ndodhur, do të mund të ishte gjetur më herët.” Ata thanë në gazetë me pyetje me vlerë vetëm 200 dollarë se ata ishin në gjendje të “ekstraktonin mbi 10,000 shembuj unik trajnimi të memorizuar fjalë për fjalë”.
“Ekstrapolimi ynë në buxhete më të mëdha (shih më poshtë) sugjeron që kundërshtarët e dedikuar mund të nxjerrin shumë më tepër të dhëna,” shtuan ata. OpenAI aktualisht po përballet me disa padi në lidhje me të dhënat sekrete të trajnimit të ChatGPT. Modeli i AI që fuqizon ChatGPT është trajnuar duke përdorur bazat e të dhënave të tekstit nga interneti dhe mendohet se është trajnuar në rreth 300 miliardë fjalë, ose 570 GB, të dhëna.
Një padi e propozuar për veprim grupor pretendonte se OpenAI “fshehurazi” vodhi “sasi masive të të dhënave personale”, duke përfshirë të dhënat mjekësore dhe informacionin për fëmijët, për të trajnuar ChatGPT. Një grup autorësh po padisin gjithashtu kompaninë e AI, duke i akuzuar ata se kanë gëlltitur librat e tyre për të trajnuar chatbot.
Përfaqësuesit e OpenAI nuk iu përgjigjën menjëherë kërkesës së Insajderit për informacion, të bërë jashtë orarit normal të punës.