IA : Il est maintenant possible de parler vocalement avec ChatGPT

Par:

Date:

Le lundi 25 septembre, OpenAI a annoncé qu’il intégrerait des capacités de vision et de parole à son programme d’intelligence artificielle ChatGPT. Par exemple, les utilisateurs pourront prendre une photo d’un monument et avoir une conversation avec ChatGPT sur l’histoire du bâtiment ou montrer au logiciel ce qui se trouve dans leur réfrigérateur pour qu’il puisse suggérer une recette, indique OpenAI dans un communiqué.

Ces nouvelles fonctionnalités avaient déjà été évoquées en mars lors de la présentation de GPT-4, la dernière version de la technologie du modèle de langage sous-jacente à ChatGPT.

Une course majeure dans le domaine de l’IA générative entre Google et Microsoft

Lancé fin 2022, le succès de ChatGPT a déclenché une course importante dans le domaine de l’IA générative, opposant les géants technologiques Google et Microsoft. Cependant, le déploiement rapide de ces programmes encore largement non réglementés suscite également de nombreuses inquiétudes, notamment en raison de leur tendance à halluciner ou inventer des réponses de toutes pièces.

ChatGPT face aux défis de l’interprétation des images et du respect de la vie privée

Les modèles équipés de capacités de vision présentent des défis inédits, allant des hallucinations à la dépendance des utilisateurs vis-à-vis de l’interprétation des images par le programme dans des domaines à enjeux élevés, reconnaît OpenAI dans son communiqué du lundi. L’entreprise a également limité la capacité de ChatGPT à analyser les individus, car « l’interface n’est pas toujours précise et nos systèmes doivent respecter la vie privée des personnes ».

Des podcasts traduits avec une voix fidèle à celle de l’orateur

Désormais, les émissions enregistrées en anglais pourront être disponibles dans d’autres langues tout en conservant les caractéristiques vocales distinctives de l’orateur, selon le communiqué du service. La société suédoise assure que la nouvelle technologie de génération de voix d’OpenAI reproduit le style du locuteur original, permettant ainsi une expérience d’écoute plus authentique, personnelle et naturelle que le doublage traditionnel.

De nouvelles options : recherche multimodale et réponses vocales

  • Recherche multimodale : Avec cette fonctionnalité, il sera bientôt possible d’importer des images dans une conversation pour que l’IA puisse les analyser. Cela permettra d’enrichir considérablement les échanges et d’obtenir des réponses plus précises.
  • Réponses vocales : Alors qu’il était déjà possible de dicter ses requêtes sur l’application mobile, vous pourrez bientôt écouter l’agent conversationnel. Pratique pour écouter une histoire, comprendre les enjeux d’un sujet sans avoir à lire ou, plus généralement, discuter avec un chatbot le plus naturel possible.

En cherchant à rendre son IA générative plus interactive, OpenAI rejoint ainsi la concurrence puisque Bing Chat intègre déjà la recherche multimodale et Google Bard.

Génération de sons humains à partir de quelques secondes d’échantillons de parole

L’agent conversationnel ChatGPT sera capable de générer des sons semblables à ceux de l’homme uniquement à partir de texte et de quelques secondes d’échantillons de parole. Il sera possible de choisir parmi l’une des cinq voix disponibles : Sky, Juniper, Cove, Ember, Breeze, créées en collaboration avec des acteurs. Spotify utilise déjà cette technologie pour traduire ses podcasts dans d’autres langues en imitant les voix des présentateurs.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

A lire également

Plaud NotePin : ce gadget prend des notes pour vous avec ChatGPT

Le Plaud NotePin pourrait bien être le complément intelligent dont vous avez toujours rêvé pour enregistrer et transcrire...

iPhone 16 leak : fuite des caractéristiques et coloris du prochain smartphone d’Apple

Chaque année, l'attente pour le nouveau modèle d'iPhone suscite un vif intérêt parmi les passionnés de technologie. Alors...

Google Pixel 9 : avis du smartphone et ses fonctionnalités IA

Le marché des smartphones est en constante évolution, et chaque nouvelle génération apporte son lot d'améliorations et de...

Google TV Streamer 4K : découvrez le remplaçant de Chromecast

Google franchit une nouvelle étape dans l'univers des médias numériques avec son tout dernier produit, la Google TV...