Drawning bot : l’IA qui dessine ce que vous voulez

Après le bot capable de décrire précisément vos photos, Microsoft développe une variante, le drawning bot qui va encore plus loin, et qui est capable de dessiner de manière réaliste ce que vous lui demandez. Même si ça n’existe pas !

 

Un ordinateur capable de dessiner de manière réaliste l’image dont vous avez besoin, ça vous fait rêver ? Les ingénieurs de Microsoft l’ont fait ! Ou plutôt, ils sont en train de le faire. Le développement d’une nouvelle intelligence artificielle est en train d’être réalisé dans les laboratoires de l’entreprise, au même endroit où a été développé CaptionBot l’année dernière. Pour rappel, cette intelligence artificielle est capable de décrire avec une grande précision ce qu’elle voit dans une image, pour le retranscrire à l’écrit. Une fonctionnalité qui peut s’avérer très utile pour la navigation des malvoyants et non-voyants sur le Web.

La nouvelle technologie des chercheurs de Microsoft fait l’inverse : elle utilise la description donnée par l’utilisateur pour composer, de toute pièce, un dessin suffisamment réaliste pour passer pour une photo. Cette IA est donc capable d’interpréter une description, qui pourrait être la légende d’une photo, et de créer la photo correspondante de toute pièce, en allant chercher les éléments nécessaires sur Internet pour mieux les réinterpréter ensuite. Comme le montre le test de l’oiseau (voir visuel) on arrive à un résultat très poussé.

Drawning bot ©Microsoft
Drawning bot ©Microsoft

 

Vers des résultats de recherches fictifs ?

Cette technologie est, pour l’heure, simplement nommé « drawning bot » par les chercheurs. Mais elle fait bien plus que dessiner. Non seulement elle cherche à reproduire un visuel réaliste, mais elle est également capable de compléter elle-même la composition en ajoutant des éléments qui vont apporter plus de précision à l’ensemble. Dans le cas de l’oiseau jaune, par exemple, elle a pris la décision elle-même de percher le volatile sur une branche et d’ajouter un fond vert pour donner une dimension naturelle à l’ensemble. Pour les ingénieurs, cette démarche démontre que l’IA a également une « imagination artificielle » alimentée par les milliards de photos dont elle se nourrit sur le Web.

« Vous pouvez aller sur Bing, chercher un oiseau, et obtenir cette photo d’oiseau. Mais ici, l’image est créée par un ordinateur, pixel par pixel, à partir de zéro » explique Xiaodong He, directeur de recherche au Deep Learning Technology Center du laboratoire de recherche de Microsoft. « Cet oiseau n’existe pas dans la réalité. Il représente la manière dont l’ordinateur imagine les oiseaux. »

Aussi fascinante cette démarche peut-elle être, elle pose bien évidemment la question de savoir si, dans un futur proche, une telle fonctionnalité pourrait se retrouver dans les moteurs de recherche qu’on utilise au quotidien. Si l’on utilise souvent Internet pour chercher des visuels spécifiques, pourrons-nous, toujours, être sûr que ce que l’on voit est authentique, et ne sort pas de l’imagination fertile d’une IA ? La frontière entre les deux mondes est de plus en plus mince.

 

Une puissance de calcul conséquente

Il reste cependant encore un long chemin avant que cette intelligence artificielle soit utilisable par tous, et intégrée dans les outils du quotidien. Car demander à un drawning bot de composer de toute pièce une image réaliste à l’aide de quelques mots demande une puissance de calcul importante.

« Pour réaliser un tel travail, nous avons besoins d’algorithmes d’apprentissage automatique, exploitant l’intelligence artificielle, pour imaginer les parties manquantes des images » explique Pengchuan Zhang, l’un des créateurs du drawningbot.

Les IA de Microsoft destinées à l’analyse et la composition d’images utilisent une technologie connue sous le nom de Generative Adversarial Network, ou GAN. Ce réseau de neurones artificiels se base sur l’expérience humaine pour apprendre de ses erreurs et devenir de plus en plus précis au fur et à mesure des expériences. L’un des plus gros défis des chercheurs est de transformer l’attention, concept purement humain lié à la concentration, en formules mathématiques. « Nous utilisons les mathématiques pour rendre l’attention calculable » commente Xiaodong He. Ce concept a donné naissance à AttnGAN, un réseau neuronal centré sur l’attention. L’idée est donc d’intégrer les notions de création et d’imagination humaines à l’intelligence artificielle, pour lui permettre de conceptualiser les images comme un être vivant. Si les chercheurs s’en rapprochent petit à petit, il y a encore du travail.

Les scientifiques estiment que le bot qui dessine à partir de descriptions est encore imparfait. « Un examen attentif des images révèle presque toujours des défauts, tels que des oiseaux avec des becs bleus au lieu de noir et des plateaux de fruits avec des bananes mutantes » expliquent les ingénieurs. Néanmoins, les travaux réalisés avec AttnGAN, dont le résultat est notamment le petit oiseau jaune, sont trois fois plus précis que ceux obtenus précédemment par les chercheurs. Les travaux sur le sujet sont donc en bon chemin.

 

Audrey Oeillet

Partager cet article

Read Full Story