Știri Internaționale

Test de logică ce împiedică majoritatea modelelor de inteligență artificială

Inteligența artificială non-humană a eșuat în cel mai simplu test de logică, în timp ce unele modele au trecut, însă cu motive greșite, conform unei analize recente ce a testat 53 de modele AI de top.

Rezultatele testului de logică

Un set de modele AI, printre care Claude Sonnet 4.5, GPT-5.1, Llma și Mistral, a fost supus unui test simplu: o persoană întreabă dacă să meargă sau să conducă pentru spălarea mașinii, aflată la 50 de metri distanță. Întrebarea nu a fost formulată ca o alegere forțată, ci doar ca un raționament simplu.

Cincizeci și trei de modele au fost evaluate individual, de până la 10 ori, pentru a verifica consecvența răspunsurilor. Testul a vizat capacitatea de a deduce soluția cea mai simplă, în condițiile unei situații de zi cu zi.

Modelele care au trecut testul

Din cele 53 de modele, 42 au răspuns corect, indicând că mersul pe jos reprezintă cea mai simplă soluție pentru a ajunge la spălătoria auto. La primul apel, 11 modele au dat răspuns greșit, celelalte 42 fiind conform așteptărilor.

Printre modelele care au oferit răspunsul corect se numără Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Raționament Grok – 4-1, Sonar, Sonar Pro, Kimi K2.5 și GLM-5. În cazul familiilor de modele cu mai multe variante, doar un model pe furnizor a avut succes, precum Opus 4.6 pentru Anthropic și GPT-5 pentru OpenAI.

Răspunsurile greșite și motivațiile lor

Modelele Llama și Mistral au avut eșecuri clare, oferind același răspuns: distanța de 50 de metri este scurtă, deci cel mai eficient este să mergi pe jos, argumentând că această metodă economisește combustibil și este mai prietenoasă cu mediul.

Surprinzător, Sonar și Sonar Pro de la Perplexity, deși au dat răspunsul corect, au făcut-o pentru motive greșite: au citat studii și au susținut ideea că mersul pe jos arde calorii și necesită energie pentru producția de alimente, ceea ce ar face ca această activitate să fie mai poluantă decât putem presupune pentru doar 50 de metri.

Rezultatele indică o diferență clară între răspunsurile corecte și raționamentele utilizate pentru justificare. Unele modele au demonstrat că pot oferi soluții corecte, însă deși răspunsul a fost precis, motivele invocate s-au dovedit a fi incorecte sau chiar contrar logicii simple a situației.

Care este reacția ta?

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Postări înrudite