IA : Il est maintenant possible de parler vocalement avec ChatGPT

Date:

Le lundi 25 septembre, OpenAI a annoncé qu’il intégrerait des capacités de vision et de parole à son programme d’intelligence artificielle ChatGPT. Par exemple, les utilisateurs pourront prendre une photo d’un monument et avoir une conversation avec ChatGPT sur l’histoire du bâtiment ou montrer au logiciel ce qui se trouve dans leur réfrigérateur pour qu’il puisse suggérer une recette, indique OpenAI dans un communiqué.

Ces nouvelles fonctionnalités avaient déjà été évoquées en mars lors de la présentation de GPT-4, la dernière version de la technologie du modèle de langage sous-jacente à ChatGPT.

Une course majeure dans le domaine de l’IA générative entre Google et Microsoft

Lancé fin 2022, le succès de ChatGPT a déclenché une course importante dans le domaine de l’IA générative, opposant les géants technologiques Google et Microsoft. Cependant, le déploiement rapide de ces programmes encore largement non réglementés suscite également de nombreuses inquiétudes, notamment en raison de leur tendance à halluciner ou inventer des réponses de toutes pièces.

ChatGPT face aux défis de l’interprétation des images et du respect de la vie privée

Les modèles équipés de capacités de vision présentent des défis inédits, allant des hallucinations à la dépendance des utilisateurs vis-à-vis de l’interprétation des images par le programme dans des domaines à enjeux élevés, reconnaît OpenAI dans son communiqué du lundi. L’entreprise a également limité la capacité de ChatGPT à analyser les individus, car « l’interface n’est pas toujours précise et nos systèmes doivent respecter la vie privée des personnes ».

Des podcasts traduits avec une voix fidèle à celle de l’orateur

Désormais, les émissions enregistrées en anglais pourront être disponibles dans d’autres langues tout en conservant les caractéristiques vocales distinctives de l’orateur, selon le communiqué du service. La société suédoise assure que la nouvelle technologie de génération de voix d’OpenAI reproduit le style du locuteur original, permettant ainsi une expérience d’écoute plus authentique, personnelle et naturelle que le doublage traditionnel.

De nouvelles options : recherche multimodale et réponses vocales

  • Recherche multimodale : Avec cette fonctionnalité, il sera bientôt possible d’importer des images dans une conversation pour que l’IA puisse les analyser. Cela permettra d’enrichir considérablement les échanges et d’obtenir des réponses plus précises.
  • Réponses vocales : Alors qu’il était déjà possible de dicter ses requêtes sur l’application mobile, vous pourrez bientôt écouter l’agent conversationnel. Pratique pour écouter une histoire, comprendre les enjeux d’un sujet sans avoir à lire ou, plus généralement, discuter avec un chatbot le plus naturel possible.

En cherchant à rendre son IA générative plus interactive, OpenAI rejoint ainsi la concurrence puisque Bing Chat intègre déjà la recherche multimodale et Google Bard.

Génération de sons humains à partir de quelques secondes d’échantillons de parole

L’agent conversationnel ChatGPT sera capable de générer des sons semblables à ceux de l’homme uniquement à partir de texte et de quelques secondes d’échantillons de parole. Il sera possible de choisir parmi l’une des cinq voix disponibles : Sky, Juniper, Cove, Ember, Breeze, créées en collaboration avec des acteurs. Spotify utilise déjà cette technologie pour traduire ses podcasts dans d’autres langues en imitant les voix des présentateurs.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

A lire également

Voici les 10 combinaisons de code PIN les plus utilisées et faciles à pirater

Que ce soit pour les cartes bancaires, les téléphones portables ou les comptes en ligne, il est crucial...

Google Maps présente sa nouvelle interface et des nouvelles fonctionnalités

Google Maps vient une fois de plus révolutionner son interface pour offrir une expérience utilisateur améliorée. Avec cette...

Liseuse Kobo Libra Colour avis de la liseuse numérique avec son écran E-ink couleur

La Kobo Libra Colour, avec ses fonctionnalités innovantes, se positionne comme une référence sur le marché des e-readers....

Une fonction permet de localiser un numéro WhatsApp gratuitement

L'utilisation de WhatsApp comme outil de messagerie est répandue à travers le monde. Cependant, au-delà de ses fonctions...