banner
Maison / Blog / L’échec étrange de l’IA
Blog

L’échec étrange de l’IA

Jul 07, 2023Jul 07, 2023

Par Kyle Chayka

C'est un exercice classique en cours d'art au lycée : une élève est assise à son bureau, un fusain tenu dans une main, posée au-dessus d'une feuille de papier, tandis que l'autre main est tendue devant elle, paume vers le haut, les doigts détendus pour que ils se courbent vers l'intérieur. Ensuite, elle utilise une main pour dessiner l'autre. Il s'agit d'un travail de débutant, mais la tâche consistant à représenter les mains de manière convaincante est l'un des défis les plus connus de l'art figuratif. Je me souviens que c'était incroyablement frustrant de trouver les angles et les proportions de chaque doigt, de déterminer comment le pouce se connecte à la paume, de montrer un doigt qui en chevauche un autre juste ainsi. Trop souvent, je me retrouvais avec un petit doigt bizarrement long ou un pouce dépassant à un angle impossible comme un os cassé. «C'est ainsi que les élèves commencent à apprendre à dessiner : apprendre à regarder de près», m'a expliqué Kristi Soucie, mon professeur d'art au lycée du Connecticut, lorsque je l'ai appelée récemment. "Tout le monde pense savoir à quoi ressemble une main, mais tant qu'on ne la regarde pas vraiment, on ne comprend pas."

L’intelligence artificielle est confrontée à un problème similaire. Des outils nouvellement accessibles tels que Midjourney, Stable Diffusion et DALL-E sont capables de restituer un paysage photoréaliste, de copier le visage d'une célébrité, de remixer une image dans le style de n'importe quel artiste et de remplacer de manière transparente les arrière-plans des images. En septembre dernier, une image générée par l’IA a remporté le premier prix d’art numérique à la Colorado State Fair. Mais lorsqu'ils sont confrontés à une demande de dessin de mains, les outils ont craché une série d'appendices cauchemardesques : des mains avec une douzaine de doigts, des mains avec deux pouces, des mains avec d'autres mains qui en sortent comme un mutant botanique. Les doigts ont soit trop d’articulations, soit aucune. Ils ressemblent à des diagrammes dans un manuel de médecine provenant d’un monde extraterrestre. L'ineptie des machines dans cette tâche particulière est devenue une plaisanterie courante sur les lacunes de l'IA. Comme l'a dit une personne sur Twitter : « Ne demandez jamais à une femme de son âge ou à un modèle d'IA pourquoi ils cachent leurs mains. »

Comme d'autres l'ont signalé, le problème manuel est en partie lié à la capacité des générateurs à extrapoler des informations à partir des vastes ensembles de données d'images sur lesquelles ils ont été formés. Lorsqu'un utilisateur saisit une invite de texte dans un générateur, celui-ci s'appuie sur d'innombrables images associées et reproduit les modèles qu'il a appris. Mais, comme un archéologue essayant de traduire les hiéroglyphes égyptiens de la pierre de Rosette, la machine ne peut déduire que de son matériau donné, et il existe des lacunes dans ses connaissances, en particulier lorsqu'il s'agit de comprendre de manière holistique des formes organiques complexes. Des ensembles de données défectueux ou incomplets produisent des résultats erronés. Comme le linguiste Noam Chomsky et ses co-auteurs l’ont récemment soutenu dans un récent article du Times Op-Ed, les machines et les humains apprennent différemment. "L'esprit humain n'est pas, comme ChatGPT et ses semblables, un moteur statistique fastidieux pour la correspondance de modèles, se gavant de centaines de téraoctets de données", ont-ils écrit. Au lieu de cela, il « fonctionne avec de petites quantités d’informations ; il ne cherche pas à déduire des corrélations brutes entre les points de données mais à créer des explications.

Un générateur peut calculer que les mains ont des doigts, mais il est plus difficile de l'entraîner à savoir qu'il ne doit y en avoir que cinq, ou que les chiffres ont des longueurs plus ou moins définies les uns par rapport aux autres. Après tout, les mains sont très différentes sous différents angles. En regardant ma propre paire pendant que je tape ceci sur le clavier de mon ordinateur portable, mes doigts sont raccourcis et à moitié masqués par mes paumes ; un observateur ne serait pas en mesure de déterminer leur structure exacte en rayons X à partir d'une image statique. Peter Bentley, professeur d'informatique à l'University College de Londres, m'a dit que les outils d'IA « ont appris que les mains comportent des éléments tels que les doigts, les ongles, les paumes. Mais ils ne comprennent pas vraiment ce qu’est une main. Le même problème se produit parfois lorsque l’IA tente de restituer des éléments plus petits tels que les oreilles, qui apparaissent comme des tourbillons charnus sans la structure complexe du cartilage ; ou des dents mal placées dans la bouche ; ou des pupilles, qui se révèlent être des blobs caprins. L’IA peut saisir des modèles visuels mais pas la logique biologique sous-jacente.