ChatGPT ora può vedere, ascoltare e parlare con alcuni utenti

ChatGPT ha una voce, anzi cinque voci. di lunedi, Annunciato OpenAI Il popolare e controverso Large Language Model (LLM) ora può conversare verbalmente con gli utenti, nonché analizzare foto e immagini caricate.

Nelle dimostrazioni video, viene mostrato ChatGPT mentre offre ai bambini una favola improvvisata della buonanotte basata sul suggerimento: “Raccontaci una storia su un riccio di girasole super-duper di nome Larry”. ChatGPT descrive poi il riccio protagonista, fornendo dettagli sulla sua casa e sui suoi amici. In un altro esempio, l’immagine di una bicicletta viene caricata tramite l’app per smartphone ChatGPT insieme alla richiesta “Aiutami ad abbassare il seggiolino della bici”. ChatGPT fornisce quindi un processo passo passo insieme a consigli sugli strumenti tramite una combinazione di immagini caricate dall’utente e input di testo dell’utente. L’azienda descrive anche situazioni come aiutare ChatGPT a preparare ricette per la cena basate sugli ingredienti identificati nelle foto del frigorifero e della dispensa di un utente, parlare di punti di riferimento mostrati nelle foto e aiutare con i compiti di matematica, anche se non necessariamente numeri. Il suo punto forte.

[Related: School district uses ChatGPT to help remove library books.]

Secondo OpenAI, i cinque suoni vocali iniziali si basano su un nuovo modello di sintesi vocale in grado di creare audio realistico semplicemente inserendo testo e “pochi secondi” di esempio vocale. Le attuali opzioni vocali sono progettate dopo la collaborazione con doppiatori professionisti.

A differenza dei precedenti sviluppi di LLM, gli ultimi sviluppi di OpenAI si concentrano specificamente sulle esperienze dirette degli utenti con il software poiché l’azienda cerca di espandere la portata e l’utilità di ChatGPT per renderlo un assistente virtuale più completo. Anche i componenti aggiuntivi audio e video sono molto utili in termini di accessibilità per gli utenti disabili.

READ Trattare i tumori in base alle loro anomalie genetiche, non in base all'organo

“Questo approccio è stato direttamente ispirato dal nostro lavoro con Sii i miei occhiun’app mobile gratuita per persone non vedenti e ipovedenti, per comprenderne usi e limitazioni Annuncio 25 settembre. “Gli utenti ci hanno detto che trovano utile avere conversazioni generali sulle foto che hanno persone sullo sfondo, ad esempio qualcuno che appare sulla TV mentre stai cercando di capire le impostazioni sul telecomando.”

Per molti anni, i più diffusi assistenti vocali con intelligenza artificiale, come Siri e Alexa, hanno offerto funzionalità e servizi specifici che si basano su database programmabili di comandi specifici. spiritoso New York Times Note: sebbene l’aggiornamento e la modifica di questi database richieda spesso molto tempo, le alternative LLM possono essere più veloci, più flessibili e più precise. Pertanto, aziende come Amazon e Apple stanno investendo nella riorganizzazione dei propri assistenti AI per sfruttare i loro master.

OpenAI si sta impegnando molto per garantire che la sua capacità di riconoscimento visivo sia quanto più utile possibile, rispettando allo stesso tempo la privacy e la sicurezza di terzi. L’azienda ha dimostrato per la prima volta Funzione dell’identità visiva all’inizio di quest’anno, ma ha detto che non ne avrebbe rilasciato alcuna versione al pubblico prima di una comprensione più completa di come potrebbe esserne abusato. OpenAI afferma che i suoi sviluppatori hanno adottato “misure tecniche per limitare in modo significativo la capacità di ChatGPT di analizzare e riferire direttamente sulle persone” a causa dei problemi ben documentati del software che coinvolgono accuratezza e privacy. Inoltre, il modello attuale “padroneggia” solo le attività in inglese, mentre le sue capacità si riducono significativamente con altre lingue, in particolare quelle che utilizzano scritture non latine.

READ Nelle notizie: St. Thomas apre una nuova struttura di ingegneria, scienza e arte - Sala stampa

OpenAI prevede di implementare i nuovi aggiornamenti audio e video ChatGPT nelle prossime due settimane, ma solo per gli abbonati premium sui suoi piani Plus ed Enterprise. Tuttavia, le funzionalità diventeranno disponibili per più utenti e sviluppatori “poco dopo”.