DeepMind, la société de Google spécialisée dans l'intelligence artificielle, a créé un nouveau type d'algorithme capable d'apprendre des choses par lui-même, en mêlant l'audio et le son.

Une intelligence artificielle pense en termes de flots de données et de calcul. Contrairement aux humains, les paysages, les sons, les visages qu’une IA côtoie ne lui apparaissent que comme un flux de calcul. Mais cela pourrait changer.

VOIR AUSSI : L’intelligence artificielle a-t-elle été confisquée par une poignée d’êtres humains?

DeepMind, la société rachetée par Google en 2014 et qui est à l’origine du programme AlphaGo, a développé une intelligence artificielle capable de s’apprendre des choses, par elle-même, en regardant des vidéos et en écoutant des sons. Celle-ci peut par exemple comprendre le concept du chatouillement ou même de la tonte de la pelouse, sans qu’on ne lui ait inculqué de quoi il s’agit. Elle l’apprendra par elle-même, en observant des clips vidéo.

Normalement, l’apprentissage de la vision par ordinateur – appelée apprentissage supervisé – nécessite de nourrir l’algorithme avec une série d’images labellisées. Par exemple, montrez à un algorithme une série de photos de chats intitulées "chats" et celui-ci sera, in fine, capable de reconnaître des photographies de chats qu’il n’avait jamais vus auparavant.

En voyant quelqu’un faire des claquettes, l’algorithme était capable de déterminer le son qui allait avec l’image

Mais cette façon de fonctionner n’est pas "évolutive", selon Relja Arandjelovic, qui gère le projet au sein de DeepMind et qui a été interrogé par New Scientist. Ainsi, il souhaite que son algorithme, au lieu d’être dépendant de données labellisées par les humains, soit capable d’apprendre et de reconnaître des images et des sons en faisant correspondre les données qu’il obtient.

L’algorithme qui voulait être (un peu) humain

New Scientist nous raconte que Relja Arandjelovic a conçu son intelligence artificielle en liant deux connexions. La première est spécialisée dans la reconnaissance d’images et la deuxième dans la reconnaissance audio. Les deux fonctionnant simultanément pour analyser à la fois les images et les sons de mêmes séquences vidéo. Au final, le système s’est entraîné sur 60 millions d’entrées audio récupérées sur 400 000 vidéos.

L’intelligence artificielle a ainsi appris à reconnaître différents concepts audio et vidéo, comme des foules, de l’eau en mouvement ou même des claquettes. Ainsi, en voyant quelqu’un faire des claquettes, l’algorithme était capable, la plupart du temps, de déterminer le son qui allait avec l’image.

Même si l’algorithme de DeepMind n’interagit pas directement avec le monde réel – il s’agissait bien de vidéos –, ce travail pourrait servir de base à la création d’une IA capable de faire de même face au monde extérieur. DeepMind présentera d’ailleurs en totalité ce projet à l’occasion de l’International Conference on Computer Vision, qui prendra place à Venise en octobre prochain.

Quelque chose à ajouter ? Dites-le en commentaire.