Intelligenza Artificiale: nessuna macchina ha ancora superato il Test di Turing

Diverse volte, in passato, qualcuno ha affermato che questa o quella Intelligenza Artificiale aveva superato il test di Turing, ovvero la capacità di una macchina di non farsi riconoscere per tale in una chat con un umano. Affinché il test risulti superato, un potenziale giudice esterno non dovrebbe poter riconoscere la macchina da un umano sulla base delle sue risposte scritte

0
9182

di Harry Collins per The Conversation

Stiamo entrando nell’era dell’intelligenza artificiale. E man mano che i programmi di intelligenza artificiale diventano sempre più bravi a comportarsi come umani, dovremo sempre più affrontare la questione se ci sia davvero qualcosa di così speciale nella nostra intelligenza o se siamo solo macchine di un tipo diverso.

Tutto ciò che sappiamo e facciamo, un giorno potrebbe essere riprodotto da un programma abbastanza sofisticato, installato in un robot abbastanza complicato?

Nel 1950, Alan Turing, pioniere dell’informatica famoso per aver violato i codici cifrati nazisti durante la seconda guerra mondiale, fece uno dei più influenti tentativi di affrontare questo problema.

In un documento di riferimento, ha suggerito che il dubbio sul confronto tra intelligenza umana e artificiale potrebbe essere dissolto con un semplice test. Questo “test di Turing” valuta la capacità di un computer di imitare un essere umano, attraverso la valutazione di un essere umano che, senza sapere di stare dialogando con una macchina, gli ponesse domande scritte.



Negli ultimi anni, è stato riportato che diversi software AI hanno superato il test di Turing. Ciò ha portato alcuni a sostenere che il test è troppo facile per essere un utile giudice dell’intelligenza artificiale ma il test di Turing non è stato affatto superato.

In effetti, non lo sarà nel prossimo futuro, ma, se un giorno verrà superato un test di Turing progettato correttamente, allora dovremo preoccuparci per il nostro status unico di esseri umani.

Il test di Turing è fondamentalmente un test di fluidità linguistica. Capito correttamente, può rivelare la cosa che è probabilmente più distintiva degli esseri umani: le nostre diverse culture.

I contesti culturali in cui cresciamo danno origine a enormi variazioni di credenze e comportamenti che non si registrano tra gli animali o la maggior parte delle macchine. E il fatto che possiamo programmare questo tipo di variazione nei computer è ciò che dà loro il potenziale per imitare le capacità umane.

Nel giudicare il mimetismo fluente, il Test di Turing ci consente di cercare la capacità dei computer di condividere la cultura umana dimostrando la loro conoscenza del linguaggio in un contesto sociale.

Turing basò il suo test sul “gioco d’imitazione“, un gioco di società in cui un uomo faceva finta di essere qualcun altro e un giudice cercava di indovinare chi fosse chi ponendo domande ai giocatori nascosti. Nel test di Turing, il giudice deve cercare di capire chi sia il computer e chi sia un vero essere umano.

Non sorprende che, nel 1950, Turing non abbia elaborato il protocollo dettagliato necessario per noi per giudicare i software di IA attuali. Per prima cosa, suggerì che il test dovrebbe essere eseguito in soli cinque minuti ma, la cosa che è poco chiara ai più è che il giudice e il giocatore umano debbano condividere una cultura comune e che il computer debba cercare di emularla.

Ciò ha portato molte persone a dichiarare che il test è stato superato e ad altri che il test è troppo semplice o dovrebbe includere l’emulazione delle capacità fisiche.

Primo passaggio richiesto

Una parte di ciò è stato reso evidente quasi 50 anni fa con la costruzione del programma noto come ELIZA dallo scienziato informatico Joseph WeizenbaumELIZA è stato usato per simulare un tipo di psicoterapeuta noto come terapeuta Rogeriano o centrato sulla persona. Diversi pazienti che hanno interagito con esso hanno pensato che fosse reale, portando alla prima affermazione che il test di Turing era stato superato.

Ma Weizenbaum fu chiaro sul fatto che ELIZA fosse, in effetti, uno scherzo. L’allestimento non ha nemmeno seguito il piccolo protocollo fornito da Turing perché i pazienti non sapevano che stavano cercando frodi e non c’erano risposte simultanee date da un vero psicoterapeuta. Inoltre, la cultura non faceva parte del test perché gli psicoterapeuti Rogeriani dicono il meno possibile. Qualsiasi test di Turing valido deve avere il giudice e il giocatore umano che agiscono nel modo più umano possibile.

Dato che si tratta di una prova di comprensione del testo, i computer devono essere giudicati in base alle capacità del primo percento di editor di copie. Se le domande sono giuste, possono indicare se il computer ha compreso la cultura materiale degli altri partecipanti.

Schemi di Winograd

Il giusto tipo di domanda potrebbe basarsi sull’idea del 1975 degli “schemi di Winograd“, coppie di frasi che differiscono per una o due parole che richiedono una conoscenza del mondo per essere comprese. Un test per l’IA basato su questi è noto come Winograd Schema Challenge ed è stato proposto nel 2012 come miglioramento del test di Turing.

Considera la seguente frase con due possibili finali: “Il trofeo non si adattava alla valigia perché era troppo piccola/grande“. Se l’ultima parola è “piccola“, allora si riferisce alla valigia. Se l’ultima parola è “grande“, allora si riferisce al trofeo.

Per capirlo, devi conoscere il retroterra culturale e pratico di trofei e valigie. Nella società di lingua inglese, usiamo la lingua in modo tale che anche se un piccolo trofeo non si adatta esattamente a una grande valigia che non è ciò che un normale oratore inglese vorrebbe dire “adattarsi” in questo contesto. Ecco perché nell’inglese normale, se l’ultima parola è “piccola”, “deve” riferirsi alla valigia.

Inoltre, è necessario conoscere il mondo fisico dei trofei e delle valigie, così come se li si fosse effettivamente gestiti. Quindi un test di Turing che adotta questo tipo di approccio sarebbe un test che include una valutazione della capacità di un’IA di emulare le capacità e le conoscenze fisiche reali di un essere umano.

Stabilire i paletti

Ciò significa che un test di Turing basato sugli schemi di Winograd è un modo molto migliore per valutare la fluidità linguistica e culturale di un computer rispetto a una semplice conversazione di cinque minuti.

Questo permette di imporre dei paletti ben definiti e stringenti sulla valutazione del test di Turing.

Infatti, tutti i computer che hanno partecipato ad una competizione basata su questo tipo di test nel 2016 2016 hanno fallito miseramente, e nessuna grande azienda ha inserito le proprie macchine dotate di IA nella gara perché sapevano che avrebbero fallito.

Nessuna delle affermazioni secondo cui il Test di Turing è già stato superato significa qualcosa se viene impostato come un serio test delle capacità distintive dell’umanità nel creare e comprendere la cultura.

Con un protocollo adeguato, il test è tanto impegnativo quanto deve essere. Ancora una volta, Alan Turing ha capito bene. E, allo stato attuale, non esiste una via ovvia per creare macchine che possano comprendere in maniera sufficientemente approfondita la cultura umana per superare il giusto tipo di test linguistico.

2