0

Des échecs au jeu de Go : la remarquable évolution de l’intelligence artificielle

De Deep Blue à AlphaGo Zero, l’intelligence artificielle (IA) utilise des méthodes de plus en plus optimales pour jouer et gagner.

Plateau de Go, partie terminée — License: CC0 Public Domain

Du jeu d’échecs au jeu de Go

Le 11 mai 1997, c’est à dire il y a déjà plus de 20 ans, le champion mondial d’échec Garry Kasparov se faisait damer le pion par Deep Blue. L’intelligence artificielle d’IBM, gavée de centaines de milliers de parties jouées par les plus grands — Kasparov compris — avait été pourtant battue par le joueur russe l’année précédente. Aussi, lorsque la machine gagne ce jour-là, l’exploit est copieusement applaudi.

19 ans plus tard, l’intelligence artificielle se distingue à nouveau, mais au jeu de Go.
Pour qui ne connaît pas le jeu de Go, il n’est pas simple d’évaluer vraiment l’ampleur du défi.
Le Go, comme les échecs, est un jeu de plateau. Un jeu de stratégie. Il y a des règles, une logique. Un terrain idéal pour une machine qui a une puissance de calcul bien supérieure à un humain et la rapidité qui va avec. Sauf que…

Ce jeu ne peut être abordé comme un jeu d’échecs : il ne suffit pas de chercher les coups possibles, d’en évaluer les conséquences, et de sélectionner à chaque fois le coup qui conférera la meilleure position. Au jeu de Go, les possibles sont infiniment plus nombreux. Une telle stratégie conduirait, même une machine d’aujourd’hui à des temps de calcul colossaux.

Comment fonctionne AlphaGo ?

AlphaGo développé par la société DeepMind Technologies (détenue par Google) ne se contente pas de calculer. AlphaGo apprend. Puis AlphaGo décide.
Ces deux fonctions sont assurées par un duo de réseaux neuronaux qui coopèrent. Cette appellation qui fait directement référence à ce qui peut se passer dans un véritable cerveau, traduit pour la machine, la capacité de son logiciel à modifier sa façon de faire en fonction des cas qu’il rencontre. C’est ce qu’on appelle l’apprentissage profond : le programme évolue au fil de sa propre expérience.

Comme Deep Blue, AlphaGo a pu analyser des milliers de parties jouées par des professionnels de haut niveau, et aussi contre lui-même. Il détient ainsi une connaissance phénoménale des chemins qui mènent à la victoire ou à l’échec.

AlphaGo utilise pour déterminer le prochain coup l’arbre de recherche dit de Mont-Carlo. La machine va simuler un grand nombre de parties à partir de la position en cours, jusqu’à ce qu’il y ait un gagnant. Au début, les coups sont produits au hasard. Puis la machine enregistre pour chaque position rencontrée, combien de fois celle-ci est associée à une victoire. Au fur et à mesure des simulations, la machine intègre cette connaissance et la part de hasard dans le choix des positions suivantes diminue peu à peu. Ce faisant, elle estime progressivement la position optimale.

AlphaGo contre Lee Sedol

Ainsi conçu, alphaGo bat en mars 2016, le joueur de renommée mondiale Lee Sedol, classé 9e dan professionnel, soit le niveau le plus élevé au Go. Après 3 défaites successives, Lee Sedol gagne enfin une manche, sous les applaudissements nourris du public. L’exploit a changé de camp : l’homme vient enfin de battre la machine.
À la conférence de presse, Lee Sedol est accueilli en héros. « Merci beaucoup. J’ai tellement reçu de félicitations pour avoir gagné une seule manche. Après trois défaites d’affilée, je ne pourrais être plus heureux. Cette victoire est tellement précieuse, je ne l’échangerais pour rien au monde. » confie-t-il à la salle.

AlphaGo Zero, l’IA sans connaissance humaine

L’histoire ne s’arrête cependant pas là. En octobre 2017, paraît dans le journal « Nature » un article sur les exploits de la nouvelle intelligence artificielle spécialisée dans le jeu de Go : AlphaGo Zero. Sous le titre « Mastering the game of Go without human knowledge » (Maîtriser le jeu de Go sans connaissance humaine), les auteurs expliquent en quoi cette version est une véritable nouveauté.
La machine n’a cette fois-ci pas accès aux meilleurs parties mondiales pour constituer sa base de connaissance. On lui a juste fourni les règles du jeu de Go.
Il n’y a plus qu’un seul réseau neuronal d’apprentissage profond, et l’arbre de recherche a été simplifié sur des échantillons de mouvements possibles à partir de la position de départ.
Ainsi conçue, la machine s’est mise à jouer des milliers de parties contre elle-même, améliorant son niveau petit à petit, et inventant de nouvelles stratégies de jeu. Après 21 jours d’autoapprentissage, alphaGo Zero bat à plate couture (100 – 0) la version qui elle-même avait battu le champion Lee Sedol en 2016.
Aucun être humain à ce jour ne s’est mesuré publiquement à AlphaGo Zero qui devient de fait le meilleur joueur de Go au monde.

Des IA pour quoi faire finalement ?

D’après DeepMind Technologies, une intelligence artificielle du type d’AlphaGo Zero pourrait servir à d’autres domaines comme la consommation d’énergie, ou encrore la santé ; plus généralement à chaque fois que des décisions doivent être prises en fonction d’une quantité de données recueillies.
Cependant, le travail effectué par AlphaGo Zero reste basé sur des règles simples de fonctionnement, avec peu d’incertitude à la clé. Dans l’état actuel des choses, seuls les domaines où la connaissance humaine est suffisante et les règles de décision parfaitement claires peuvent être envisagés.
Afin d’être capables d’accomplir des tâches complexes dans le monde réel, les successeurs d’alphaGo Zero devront acquérir des compétences bien au-delà de celles déjà acquises aujourd’hui. DeepMind compte sur le jeu vidéo Starcraft pour aborder les stratégies incluant des degrés d’incertitude bien plus élevés.
Combien de temps faudra-t-il cette fois-ci à l’IA pour surpasser l’humain ? Seul l’avenir nous le dira.

Annie

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *