AI a écouté les voix des gens. Ensuite, cela a généré leurs visages.

Pin
Send
Share
Send

Avez-vous déjà construit une image mentale d'une personne que vous n'avez jamais vue, basée uniquement sur sa voix? L'intelligence artificielle (IA) peut désormais le faire, générant une image numérique du visage d'une personne en utilisant uniquement un bref clip audio pour référence.

Nommé Speech2Face, le réseau neuronal - un ordinateur qui "pense" d'une manière similaire au cerveau humain - a été formé par des scientifiques sur des millions de vidéos éducatives sur Internet qui ont montré plus de 100 000 personnes différentes en train de parler.

À partir de cet ensemble de données, Speech2Face a appris les associations entre les signaux vocaux et certaines caractéristiques physiques d'un visage humain, ont écrit les chercheurs dans une nouvelle étude. L'IA a ensuite utilisé un clip audio pour modéliser un visage photoréaliste correspondant à la voix.

Les résultats ont été publiés en ligne le 23 mai dans l'arXiv jounral préimprimé et n'ont pas été revus par des pairs.

Heureusement, l'IA ne sait pas (encore) exactement à quoi ressemble un individu en se basant uniquement sur sa voix. Le réseau neuronal a reconnu certains marqueurs dans le discours qui pointaient vers le sexe, l'âge et l'origine ethnique, des caractéristiques communes à de nombreuses personnes, ont rapporté les auteurs de l'étude.

"En tant que tel, le modèle ne produira que des visages d'apparence moyenne", ont écrit les scientifiques. "Il ne produira pas d'images d'individus spécifiques."

L'IA a déjà montré qu'elle peut produire des visages humains d'une précision étrange, bien que ses interprétations des chats soient franchement un peu terrifiantes.

Les visages générés par Speech2Face - tous tournés vers l'avant et avec des expressions neutres - ne correspondaient pas précisément aux personnes derrière les voix. Mais les images capturaient généralement les tranches d'âge, les ethnies et les sexes corrects des individus, selon l'étude.

Cependant, les interprétations de l'algorithme étaient loin d'être parfaites. Speech2Face a fait preuve de «performances mitigées» face aux variations linguistiques. Par exemple, lorsque l'IA a écouté un clip audio d'un homme asiatique parlant chinois, le programme a produit une image d'un visage asiatique. Cependant, lorsque le même homme a parlé en anglais dans un clip audio différent, l'IA a généré le visage d'un homme blanc, ont rapporté les scientifiques.

L'algorithme a également montré un biais de genre, associant des voix graves avec des visages masculins et des voix aiguës avec des visages féminins. Et parce que l'ensemble de données de formation ne représente que des vidéos éducatives de YouTube, il "ne représente pas également la population mondiale entière", ont écrit les chercheurs.

Une autre préoccupation concernant cet ensemble de données vidéo est survenue lorsqu'une personne qui était apparue dans une vidéo YouTube a été surprise d'apprendre que sa ressemblance avait été intégrée à l'étude, a indiqué Slate. Nick Sullivan, responsable de la cryptographie avec la société de sécurité Internet Cloudflare à San Francisco, a inopinément repéré son visage comme l'un des exemples utilisés pour entraîner Speech2Face (et que l'algorithme avait reproduit assez approximativement).

Sullivan n'avait pas consenti à apparaître dans l'étude, mais les vidéos YouTube de cet ensemble de données sont largement considérées comme disponibles pour les chercheurs à utiliser sans obtenir d'autorisations supplémentaires, selon Slate.

Pin
Send
Share
Send