Le lundi 13 mai, OpenAI, la société américaine propriétaire de l’intelligence artificielle ChatGPT, a présenté son nouveau modèle de langage IA “GPT-4o”. Disponible pour le moment à tous les utilisateurs (gratuits et payants), cette nouvelle version de ChatGPT possède des capacités de traitement d’un autre niveau comparé à GPT-4.

GPT-4o : le nouveau modèle de langage IA d’OpenAI

OpenAI ne compte pas se laisser devancer par ses concurrents. C’est la raison pour laquelle, la startup a dévoilé un modèle de langage plus rapide et performant que GPT-4. Selon OpenAI, GPT-4o dépasse de loin tous les modèles de langages existants.

Aujourd’hui, GPT-4o est bien meilleur que n’importe quel modèle existant pour comprendre et discuter des images que vous partagez. Par exemple, vous pouvez maintenant prendre une photo d’un menu dans une autre langue et parler à GPT-4o pour le traduire, apprendre l’histoire et la signification de l’aliment, et obtenir des recommandations.

Dans un avenir très proche, le nouveau modèle de langage d’openAI pourra évoluer pour traiter naturellement la voix et les images et interagir directement avec l’utilisateur à travers une vidéo.

À l’avenir, des améliorations permettront une conversation vocale plus naturelle et en temps réel, ainsi que la possibilité de converser avec ChatGPT par le biais d’une vidéo en temps réel. Par exemple, vous pourriez montrer à ChatGPT un match de sport en direct et lui demander de vous en expliquer les règles.

ChatGPT : le nouveau modèle de langage GPT-4o meilleur que GPT-4

Pour démontrer que GPT-4o est meilleur que GPT-4 en reconnaissance vocale et en analyse d’image, OpenAI a établi une comparaison entre ses 2 modèles de langage. Dans son comparatif technique, GPT-4o présente les mêmes capacités que GPT-4 en texte, en raisonnement et en code. La différence est que le nouveau modèle de langage d’OpenAI est plus adapté aux potentialités audio, visuelles et multilingues.

En ce qui concerne les fonctionnalités orales, GPT-4o est carrément meilleur que Whisper, l’ancien modèle de reconnaissance vocale utilisé par OpenAI pour ses IA.

Ce processus signifie que la principale source d’intelligence, GPT-4, perd beaucoup d’informations : elle ne peut pas observer directement le ton, les locuteurs multiples ou les bruits de fond, et elle ne peut pas émettre de rires, de chants ou exprimer des émotions, souligne OpenAI.

OpenAI affirme que son langage omnimodèle (GPT-4o) est capable, à lui seul de traiter, la voix, la vidéo et le texte. Contrairement à GPT-3.5 et GPT-4, ils nécessitaient 3 modèles de langages différents pour générer des résultats, ce qui causait préalablement une latence et une perte d’informations.

GPT-4o est actuellement disponible pour tous les utilisateurs

GPT-4o se trouve désormais disponible pour les abonnés des formules payantes ChatGPT Plus et Team. Toutefois, les utilisateurs du plan Enterprise devront patienter quelques semaines avant d’y avoir accès. Il est aussi accessible dans la version gratuite du chatbot, mais avec une limite de messages environ cinq fois inférieure à celle des utilisateurs de ChatGPT Plus.

De fait, les utilisateurs de la version gratuite de ChatGPT peuvent dès maintenant tester des fonctionnalités payantes grâce à GPT-4o, le nouveau modèle de langage IA d’OpenAI. Il s’agit entre autres de l’accès au web, l’analyse de données, l’analyse d’images et les chatbots personnalisés.

source