ChatGPT parlerà e interpreterà le immagini

OpenAI ha dichiarato lunedì che alimenterà il software di intelligenza artificiale (AI) ChatGPT con parlato e visione per renderlo “più intuitivo”.

• Leggi anche: Intelligenza artificiale: Amazon investe fino a 4 miliardi di dollari in Anthropic

L’interfaccia che ha reso popolare l’intelligenza artificiale generativa (in grado di produrre testo, immagini e altri contenuti sulla base di una semplice richiesta nel linguaggio quotidiano) sarà presto in grado di elaborare richieste contenenti immagini e di chattare verbalmente con i suoi utenti.

Potranno, ad esempio, scattare una foto a un monumento e “chiacchierare con ChatGPT” sulla storia dell’edificio, o anche mostrare al programma cosa c’è nel loro frigorifero in modo che possa suggerire una ricetta. OpenAI in un comunicato stampa.

Questi nuovi strumenti verranno distribuiti nelle prossime due settimane agli abbonati di ChatGPT Plus, la versione a pagamento del chatbot, o ai clienti aziendali del servizio.

L’azienda ha annunciato l’aggiunta anticipata di tali funzionalità lo scorso marzo, nel periodo dell’introduzione di GPT-4, l’ultima versione del suo modello linguistico, la tecnologia alla base di chatGPT.

GPT-4 è multimediale, il che significa che può gestire dati diversi dal testo o dal codice del computer.

Il successo di ChatGPT dalla fine del 2022 ha portato a un’importante corsa per l’intelligenza artificiale generativa tra i giganti della tecnologia, con Google e Microsoft in testa.

Ma desta molta preoccupazione anche la rapida implementazione di questi programmi, ancora poco organizzati, soprattutto perché tendono ad “allucinare”, cioè a inventare risposte dal nulla.

“I modelli visibili presentano nuove sfide, dalle allucinazioni al fatto che le persone si affidino all’interpretazione delle immagini da parte del software in campi ad alto rischio”, ha riconosciuto OpenAI nella sua dichiarazione lunedì.

La startup afferma di aver “testato il modello” su argomenti come l’estremismo e la conoscenza scientifica, e si affida agli usi del mondo reale e al feedback degli utenti per migliorarlo.

Ha inoltre limitato le capacità di ChatGPT di “analizzare le persone” perché l’interfaccia “non è sempre accurata e questi sistemi devono rispettare la privacy delle persone”.

Lunedì anche la piattaforma di streaming Spotify ha annunciato una partnership con OpenAI per tradurre i podcast direttamente utilizzando l’intelligenza artificiale.

Il servizio ha affermato in un comunicato che le trasmissioni registrate in inglese saranno ora disponibili in altre lingue “pur mantenendo le caratteristiche vocali distintive di chi parla”.

L’azienda svedese afferma che la nuova tecnologia di generazione del suono di OpenAI “riproduce lo stile di un madrelingua, consentendo un’esperienza di ascolto più autentica, più personale e più naturale rispetto al doppiaggio tradizionale”.