Le lundi 25 septembre, OpenAI a annoncé qu’il intégrerait des capacités de vision et de parole à son programme d’intelligence artificielle ChatGPT. Par exemple, les utilisateurs pourront prendre une photo d’un monument et avoir une conversation avec ChatGPT sur l’histoire du bâtiment ou montrer au logiciel ce qui se trouve dans leur réfrigérateur pour qu’il puisse suggérer une recette, indique OpenAI dans un communiqué.
Ces nouvelles fonctionnalités avaient déjà été évoquées en mars lors de la présentation de GPT-4, la dernière version de la technologie du modèle de langage sous-jacente à ChatGPT.
Une course majeure dans le domaine de l’IA générative entre Google et Microsoft
Lancé fin 2022, le succès de ChatGPT a déclenché une course importante dans le domaine de l’IA générative, opposant les géants technologiques Google et Microsoft. Cependant, le déploiement rapide de ces programmes encore largement non réglementés suscite également de nombreuses inquiétudes, notamment en raison de leur tendance à halluciner ou inventer des réponses de toutes pièces.
ChatGPT face aux défis de l’interprétation des images et du respect de la vie privée
Les modèles équipés de capacités de vision présentent des défis inédits, allant des hallucinations à la dépendance des utilisateurs vis-à-vis de l’interprétation des images par le programme dans des domaines à enjeux élevés, reconnaît OpenAI dans son communiqué du lundi. L’entreprise a également limité la capacité de ChatGPT à analyser les individus, car « l’interface n’est pas toujours précise et nos systèmes doivent respecter la vie privée des personnes ».
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023
Des podcasts traduits avec une voix fidèle à celle de l’orateur
Désormais, les émissions enregistrées en anglais pourront être disponibles dans d’autres langues tout en conservant les caractéristiques vocales distinctives de l’orateur, selon le communiqué du service. La société suédoise assure que la nouvelle technologie de génération de voix d’OpenAI reproduit le style du locuteur original, permettant ainsi une expérience d’écoute plus authentique, personnelle et naturelle que le doublage traditionnel.
De nouvelles options : recherche multimodale et réponses vocales
- Recherche multimodale : Avec cette fonctionnalité, il sera bientôt possible d’importer des images dans une conversation pour que l’IA puisse les analyser. Cela permettra d’enrichir considérablement les échanges et d’obtenir des réponses plus précises.
- Réponses vocales : Alors qu’il était déjà possible de dicter ses requêtes sur l’application mobile, vous pourrez bientôt écouter l’agent conversationnel. Pratique pour écouter une histoire, comprendre les enjeux d’un sujet sans avoir à lire ou, plus généralement, discuter avec un chatbot le plus naturel possible.
En cherchant à rendre son IA générative plus interactive, OpenAI rejoint ainsi la concurrence puisque Bing Chat intègre déjà la recherche multimodale et Google Bard.
Génération de sons humains à partir de quelques secondes d’échantillons de parole
L’agent conversationnel ChatGPT sera capable de générer des sons semblables à ceux de l’homme uniquement à partir de texte et de quelques secondes d’échantillons de parole. Il sera possible de choisir parmi l’une des cinq voix disponibles : Sky, Juniper, Cove, Ember, Breeze, créées en collaboration avec des acteurs. Spotify utilise déjà cette technologie pour traduire ses podcasts dans d’autres langues en imitant les voix des présentateurs.