L’innovation de Google se distingue par une approche différente de ses concurrents, privilégiant l’intuition visuelle aux descriptions textuelles.
Fini les longues commandes d’instruction, place à des invites à base d’images. Telle est la méthodologie promue par Whisk, la technologie d’intelligence artificielle (IA) générative dévoilée le 16 décembre 2024 par Google, qui devrait redéfinir les standards du secteur.
Alors que les autres outils exigent des prompts (commandes, souvent à base de mots) textuels élaborés et une certaine maîtrise du langage descriptif, elle propose une méthode plus naturelle et accessible, axée sur trois piliers fondamentaux, dont le sujet, la scène et le style.
Cela suppose que vous n’avez pas besoin d’user de mots pour générer des images. Il suffit, pour chacun de ces éléments, de proposer des images de référence ou de laisser l’intelligence artificielle en suggérer pour vous via un simple clic sur un dé virtuel, selon la description de Google.
Selon le géant de la tech, les images fournies sont analysées et traduites en descriptions textuelles détaillées par Gemini, son modèle d’IA. Ces descriptions sont ensuite transmises à Imagen 3, le dernier modèle de génération d’images de la société, présenté ce même 16 décembre.
Une création artistique démocratisée
« Ce processus capture l’essence de votre sujet, et non une réplique exacte. De cette façon, vous pouvez facilement remixer vos sujets, scènes et styles de manière novatrice », indique le géant des moteurs de recherches dans un article de blog consacré à l’annonce de cet outil sans précédent.
Elle ouvre de larges perspectives pour les créateurs qui peinent parfois à traduire leurs idées en mots, même s’il est toujours possible d’affiner ses créations grâce à un champ de texte optionnel. De quoi offrir un niveau de contrôle supplémentaire sans pour autant complexifier le processus créatif.
En quelques secondes seulement, Whisk génère d’après l’essai réalisé par le site américain d’infos tech The Verge, plusieurs variations d’images, chacune accompagnée de sa description textuelle. Cela permet de fait, une itération rapide et intuitive.
Une stratégie ambitieuse dans un marché concurrentiel
C’est peu dire que Google frappe fort à travers Whisk, une technologie combinant l’utile au ludique. Son introduction s’inscrit dans une stratégie plus large de Google pour s’imposer sur un marché de l’IA générative, bouillonnant de produits et d’initiatives.
Face à des concurrents de taille comme le leader de l’industrie OpenAI et son outil Sora, la firme de Mountain View démontre sa volonté de ne pas se laisser distancer dans la course à la fois lucrative et coûteuse à l’innovation.
Par ailleurs, l’entreprise semble avoir compris que l’avenir de l’intelligence artificielle générative ne réside pas uniquement dans la performance technique, mais aussi dans l’accessibilité et l’expérience utilisateur.