La société Stability AI ne cesse de faire évoluer ses modèles de génération d’images basés sur l’intelligence artificielle. Avec son dernier né, le modèle Stable Diffusion 3.0, elle entend offrir des performances accrues et une meilleure qualité d’image pour les requêtes multi-sujets. La typographie, un point faible par le passé, a également fait l’objet d’améliorations majeures, à l’instar de ses concurrents tels que et Midjourney.
- Amélioration de la prise en charge de la typographie
- Performances optimisées pour les requêtes multi-sujets
- Architecture innovante inspirée du modèle Sora d’OpenAI
Stable Diffusion 3.0, un modèle innovant basé sur les transformateurs de diffusion
Emad Mostaque, PDG de Stability AI, a récemment dévoilé lors de l’AI Impact Tour – NYC event que le modèle Stable Diffusion 3 est basé sur une nouvelle architecture de transformateurs de diffusion similaire à celle utilisée dans le modèle Sora développé par OpenAI. Ce type d’architecture ouvre la voie à une nouvelle ère de génération d’image grâce aux différentes techniques comme le flow matching pour accélérer l’apprentissage et améliorer les performances.
Editing seen by Stable Diffusion 3 🔥#SD3pic.twitter.com/5TDNKmmvci
— Aurélien Sacaze (@AurelienSacaze) February 24, 2024
Des applications étendues pour la génération d’images et bien au-delà
Bien que le modèle Stable Diffusion 3.0 ait été initialement conçu pour la génération d’image basée sur du texte, Stability AI envisage d’étendre ses applications aux vidéos, à la 3D et bien plus encore, selon les informations communiquées par VentureBeat. Le modèle sert donc de base pour de futurs développements dans le domaine de la création visuelle assistée par intelligence artificielle.
Comparaison avec DALL-E d’OpenAI et concurrence ouverte
Le modèle Stable Diffusion 3 rivalise directement avec des modèles comme celui de DALL-E d’OpenAI. Une comparaison entre ces deux modèles montre qu’ils offrent une qualité d’image similaire, si l’on se réfère aux exemples présentés sur les sites web respectifs et les comptes de médias sociaux des sociétés. Toutefois, Stable Diffusion 3 se distingue en ce qui concerne la prise en charge des fonctionnalités avancées, notamment :
- Sa compatibilité avec divers matériels
- Sa capacité à traiter des vidéos et générer des séquences vidéo
- L’ouverture de son code source et la possibilité de personnalisation
Un outil pour les développeurs et chercheurs artistiques
Les concepteurs de Stable Diffusion 3 ont annoncé que leur modèle pourrait être utilisé directement par les développeurs et chercheurs sans nécessité de passer par une API, contrairement aux modèles développés par Google et OpenAI. Le logiciel est open-weights et source-available, offrant donc de meilleures possibilités d’orientation et de personnalisation pour le rendu final.
Sécurité et prévention des utilisations malveillantes
En plus de ces caractéristiques techniques, Stability AI s’attache à promouvoir la sécurité dans l’utilisation de sa technologie avec des mesures visant à éviter l’usage malintentionné du modèle Stable Diffusion 3. La société collabore activement avec les experts et chercheurs afin d’assurer un usage responsable de ses outils.
Vers un futur encore plus évolué pour la génération d’images assistée par IA
Même si de nombreux détails restent encore à préciser concernant ces avancées, il est indiscutable que Stable Diffusion 3 représente une étape majeure dans la progression de la génération d’images à base d’intelligence artificielle. Les prochaines technologies englobant la vidéo et la 3D laissent présager un avenir des plus excitants pour les créatifs et développeurs soucieux d’explorer les possibilités offertes par cette nouvelle ère de création visuelle assistée par intelligence artificielle.