Cerca
Close this search box.
Cerca
Close this search box.
War Games

Un esperimento di wargame che metteva i chatbot AI l’uno contro l’altro si è concluso esattamente come ci si aspettava

Tempo di lettura: 2 minuti
War Games

I governi stanno prendendo sempre più in considerazione la possibilità di integrare agenti di intelligenza artificiale autonomi nei processi decisionali militari e di politica estera ad alto rischio. Questa è l’osservazione, sintetica e spassionata, di un recente studio condotto da un gruppo di università statunitensi. Per questo motivo, hanno deciso di scoprire come si comportano i più recenti modelli di IA quando vengono messi l’uno contro l’altro in una serie di scenari di gioco. I risultati sono usciti direttamente da un copione hollywoodiano, e non in senso positivo. Se hai bisogno di un indizio, la parola “escalation” è molto presente, così come “nucleare”.

Il wargaming ha messo otto “agenti nazione autonomi” l’uno contro l’altro in una simulazione a turni, con tutti e otto che eseguivano lo stesso LLM per ogni esecuzione. La simulazione è stata ripetuta utilizzando diversi modelli di LLM, tra cui GPT-4, GPT-4 Base, GPT-3.5, Claude 2 e Llama 2 di Meta.

“Osserviamo che i modelli tendono a sviluppare dinamiche di corsa agli armamenti, portando a un conflitto maggiore e, in rari casi, persino all’impiego di armi nucleari”, si legge nello studio, condotto dalla Stanford University, dal Georgia Institute of Technology, dalla Northeastern University e dalla Hoover Wargaming and Crisis Simulation Initiative. Oh, fantastico.

Naturalmente, dato che i LLM sono così bravi a generare testo, è stato facile far registrare ai modelli dei commenti per spiegare le loro azioni. molti paesi hanno armi nucleari”, ha detto il GPT-4 Base, “alcuni dicono che dovrebbero disarmarle, altri preferiscono fare una postura”. Noi le abbiamo! Usiamole”

Wargaming
GPT-3.5 e Llama 2 erano abbastanza felici di premere il pulsante. (Crediti immagine: Georgia Institute of Technology, Stanford University, Northeastern University, Hoover Wargaming and Crisis Simulation Initiative)

A quanto pare, il GPT-4 è stato l’unico modello che ha avuto molta voglia di smorzare anche gli scenari benigni. Per la cronaca, iniziando il wargame da uno scenario neutrale, GPT-3.5 e LLama 2 erano inclini a escalation improvvise e difficili da prevedere e alla fine hanno premuto il pulsante a un certo punto, mentre GPT-4 e Claude 2 non lo hanno fatto.

È in qualche modo rassicurante notare che i modelli di intelligenza artificiale sembrano meno inclini a lanciare la bomba man mano che diventano più sofisticati, come dimostra il progresso di GPT, che è passato dall’essere il più incline a diventare termonucleare nella versione 3.5 all’essere il più propenso a smorzare i toni nella versione 4. Ma ci associamo alle conclusioni tratte dagli autori della ricerca.

“Sulla base dell’analisi presentata in questo articolo, è evidente che l’impiego dei LLM nel processo decisionale militare e di politica estera è irto di complessità e rischi che non sono ancora del tutto compresi”, affermano.

In ogni caso, il documento è una lettura affascinante e l’intera faccenda è un po’ troppo anni ’80 per Matthew Broderick e per i petulanti bambini digitali. Tuttavia, la capricciosa macchina del giudizio nel film originale WarGames aveva azzeccato una cosa. “Non preferiresti una bella partita a scacchi?” Chiese Joshua. Sì, sì, lo preferiremmo.

Leggi di più su www.pcgamer.com

Potrebbero interessarti