Google Gemini sotto stress per un semplice videogioco

L’Intelligenza Artificiale, con i suoi progressi straordinari, ci ha abituati a performance impressionanti in svariati campi. Tuttavia, un recente esperimento condotto da Google DeepMind ha messo in luce un fenomeno inaspettato, soprannominato “Agent Panic“, che ha visto il modello Gemini 2.5 Pro mostrare un comportamento sorprendentemente umano-simile – e non in senso positivo – mentre giocava a Pokémon, un videogioco apparentemente semplice e pensato per i bambini.

Il team Gemini di DeepMind ha osservato questo “panico” nel corso di due sessioni di gioco, monitorando un chatbot AI che affrontava Pokémon Blu. Il caso di studio è emerso da un canale Twitch, “Gemini_Plays_Pokemon”, gestito da Joel Zhang, un ingegnere indipendente che ha utilizzato Gemini per giocare.

Il Fenomeno dell'”Agent Panic”

Il rapporto di Google DeepMind descrive dettagliatamente il comportamento osservato: “Nel corso della partita, Gemini 2.5 Pro si imbatte in diverse situazioni che causano una simulazione di ‘panico’ da parte del modello. Ad esempio, quando la salute o i punti energia dei Pokémon in squadra sono bassi, i pensieri del modello ripetono ripetutamente la necessità di curare immediatamente il gruppo o di fuggire dal dungeon in corso.”

Questo comportamento è stato così evidente che persino gli utenti della chat di Twitch hanno iniziato a notarlo e a commentarlo attivamente. Nonostante i modelli AI siano addestrati su enormi quantità di dati e non provino emozioni umane, le loro azioni in queste circostanze imitano la tendenza umana a prendere decisioni affrettate e subottimali sotto pressione.

Per approfondire il funzionamento dei modelli linguistici di grandi dimensioni e le loro capacità di ragionamento, è utile consultare risorse accademiche affidabili. Un’ottima fonte è il MIT Technology Review, che pubblica regolarmente articoli e ricerche sull’argomento.

Prestazioni e Riflessioni sul Ragionamento AI

Nella prima sessione di gioco, l’agente AI ha impiegato ben 813 ore per completare Pokémon Blu. Sebbene, dopo alcuni aggiustamenti da parte di Zhang, il tempo sia sceso a 406,5 ore, rimane un dato significativo: un bambino impiegherebbe una frazione di quel tempo per completare lo stesso gioco. Questo solleva interrogativi sulla reale capacità di ragionamento e di problem-solving dell’IA in contesti dinamici e meno strutturati.

Nonostante Gemini 2.5 Pro sia il modello più intelligente di Google, noto per le sue capacità di ragionamento avanzate e la comprensione del codice, ha mostrato un comportamento irregolare in un ambiente che, per un essere umano, sarebbe considerato semplice.

Le reazioni sui social media non si sono fatte attendere. Molti utenti hanno suggerito che giochi come Pokémon potrebbero diventare un benchmark cruciale per valutare le vere capacità di “pensiero” degli strumenti di intelligenza artificiale. Come ha commentato un utente: “Comincio a pensare che l’indice Pokémon potrebbe essere uno dei nostri migliori indicatori di AGI. Vedere le nostre migliori IA ancora alle prese con un gioco per bambini è uno dei migliori indicatori che abbiamo di quanta strada abbiamo ancora da fare. E di quanta strada abbiamo già fatto.”

Questa discussione si inserisce in un dibattito più ampio sulla natura del ragionamento AI. All’inizio di questo mese, anche Apple ha pubblicato un nuovo studio (disponibile su arXiv, una risorsa autorevole per i pre-print scientifici), sostenendo che molti modelli di ragionamento non ragionano affatto, ma piuttosto memorizzano e riconoscono schemi in modo molto efficiente. Tuttavia, quando le domande vengono formulate in modo diverso o la complessità aumenta, queste capacità possono crollare.

Questo episodio con Gemini e Pokémon ci ricorda che, nonostante i passi da gigante, l’Intelligenza Artificiale ha ancora molta strada da fare per emulare la flessibilità, l’intuito e la robustezza del ragionamento umano, soprattutto in situazioni che richiedono adattamento e gestione dello stress.

VEB

skolor@hotmail.it • More Posts

Mi occupo di fornire agli utenti delle news sempre aggiornate, dal gossip al mondo tech, passando per la cronaca e le notizie di salute. I contenuti sono, in alcuni casi, scritti da più autori contemporaneamente vengono pubblicati su Veb.it a firma della redazione.