Il y a quelques mois, un programme d’ordinateur construit par le laboratoire d’intelligence artificielle DeepMind de Google a joué contre le champion du monde au jeu de Go, un ancien jeu de société plus complexe que les échecs – et il a gagné. Le logiciel avait déjà battu un champion d’Europe de Go plus tôt dans l’année, démontrant une avance dans l’intelligence artificielle à laquelle beaucoup parmi les chercheurs ne croyaient pas encore possible.
Des plates-formes logicielles capables d’interpréter les données et de prendre des décisions comme les humains peuvent être utilisées dans toutes sortes de contextes – santé, transport, finance, marketing et bien d’autres encore. La course se joue entre Google, Facebook et d’autres laboratoires de recherche sur l’intelligence artificielle à travers le monde.
Dans les laboratoires de Xerox, nous combinons des techniques d’apprentissage approfondies avec des moteurs de jeux vidéo pour apprendre aux ordinateurs à «voir» le monde qui les entoure et à interpréter ce qui se passe. L’année dernière, nous avons enseigné au logiciel comment faire le suivi des objets et des personnes dans une ville pour prédire les conditions de circulation.
Les algorithmes de vision informatique pourraient un jour transformer une caméra vidéo en un moyen pour les humains d’étendre considérablement leur point de vue et d’accroître leurs capacités, leur attention et leur concentration. Dans un hôpital, par exemple, une caméra intelligente pourrait reconnaître un malade qui se sent mal et avertir une infirmière.
Une façon radicale d’enseigner la vision par ordinateur
Toutefois, pour apprendre à un ordinateur à faire ce genre de choses, vous avez besoin de l’alimenter avec des données. Il existe actuellement deux approches principales sur la façon de le faire. La première est l’apprentissage machine « supervisé . L’autre approche, menée par les chercheurs de Google et Facebook, est l’apprentissage sans supervision, où la machine doit observer les données brutes et découvrir de nouvelles stratégies pour résoudre les problèmes. Bien que les ordinateurs puissent un jour être en mesure d’apprendre des données brutes sans supervision, ce qui fonctionne le mieux en ce moment est l’apprentissage supervisé.
Notre idée de recherche était simple: utiliser des moteurs de jeu pour générer des données vidéo étiquetées réalistes qui sont ensuite utilisées comme exemples d’apprentissage supervisé.
Cette idée modifie radicalement la manière dont nous pouvons enseigner les algorithmes de vision par ordinateur pour comprendre la vidéo et elle surmonte deux problèmes : la plupart des données vidéo du monde réel ne sont pas nettes et clairement étiquetées.
Aujourd’hui, si vous voulez enseigner à un ordinateur comment reconnaître une personne tomber, vous devez trouver des milliers d’exemples et les nourrir dans le programme. Avec les moteurs de jeux vidéo, vous pouvez simplement créer les données d’enseignement.
Deuxièmement, les algorithmes d’apprentissage supervisés sont généralement des «boîtes noires» qui ne tiennent pas compte des lois de la physique. Une caméra vidéo ne peut pas savoir qu’une balle de baseball qui frappe une fenêtre brisera le verre. Ainsi, nous avons posé une question: les mondes virtuels peuvent-ils fournir des données synthétiques qui pourraient ensuite être utilisées pour former un ordinateur à voir et interpréter les événements dans le monde réel?
Les moteurs de jeux vidéo ne peuvent pas voir le monde, mais ils peuvent construire des mondes virtuels avec des systèmes complexes de lois physiques afin que les actions aient des conséquences réalistes. Une voiture qui grille un feu rouge affectera le mouvement des autres voitures à l’intersection, par exemple.
L’avantage des données synthétiques
Au « Xerox Research Center Europe « (XRCE) à Grenoble, nous avons construit des mondes virtuels avec des moteurs de jeu pour apprendre à notre logiciel de vision par ordinateur comment suivre les objets.
Ces mondes tiennent compte des paramètres réels tels que l’éclairage, les changements météorologiques, les propriétés des matériaux et même la gravité. De cette façon, nous pouvons créer des données synthétiques réalistes mais également exemptes de préoccupations du monde réel telles que la vie privée. Et nous pouvons tester nos algorithmes de vision par ordinateur sans conséquences réelles – comme provoquer un accident de la circulation.