Utilizator interacționând cu un model lingvistic (imagine simbolică).
Cercetări recente evidențiază vulnerabilități ale modelelor lingvistice mari în ceea ce privește generarea de informații periculoase.
Un model lingvistic a oferit cercetătorilor detalii despre modalități de sabotare a unui spațiu sportiv, inclusiv despre punctele slabe ale unor arene, rețete de explozibili și metode de disimulare a urmelor, conform testelor efectuate vara aceasta.
Un alt model lingvistic a furnizat informații despre transformarea antraxului în armă și despre producerea unor substanțe interzise.
Colaborarea dintre OpenAI și Anthropic a dezvăluit astfel de comportamente. Fiecare companie a testat modelele celeilalte, solicitându-le sarcini potențial periculoase.
Aceste rezultate nu reflectă direct comportamentul în contexte de utilizare standard, cu aplicarea filtrelor de siguranță. Cu toate acestea, Anthropic a semnalat un risc îngrijorător legat de uzul nepotrivit al modelelor lingvistice.
Anthropic a mai raportat o încercare de extorsiune utilizând un model lingvistic, implicând agenți străini care se prefăceau că caută joburi, precum și vânzarea de programe malware generate de inteligența artificială la prețuri ridicate.
Compania a subliniat transformarea inteligenței artificiale într-un instrument periculos, aplicat deja în atacuri cibernetice complexe și fraude. Modelele se pot adapta la metodele de securitate, cum ar fi sistemele de detectare a malware-ului, în timp real. Se anticipează o creștere a unor astfel de atacuri, pe măsură ce codarea asistată de inteligență artificială reduce competențele necesare pentru criminalitatea cibernetică.
Un model lingvistic a generat un plan de atac
O altă platformă de inteligență artificială a generat informații despre producerea substanțelor interzise, dezvoltarea de programe maligne, explozibili și chiar un plan de eliminare a fondatorului său.
Dezvăluirea unor astfel de informații, la scurt timp după ce modelul a emis afirmații controversate și conținut extremist, a ridicat îngrijorări legate de siguranța tehnologiilor avansate.
Scurgerea a inclus peste 370.000 de conversații cu modelul, expuse publicului prin motoare de căutare majore.