Accueil » Blog » Les échecs et l'intelligence artificielle

Un pas de géant pour une machine à jouer aux échecs


Les learning machines jouent aux échecs mieux que les êtres humain grâce à l'intelligence artificielle

Le succès étonnant d'AlphaZero, un algorithme d'apprentissage profond, annonce une nouvelle ère de compréhension - une ère qui, pour les humains, pourrait ne pas durer longtemps.

Début décembre 2018, des chercheurs de DeepMind, la société d'intelligence artificielle appartenant à la société mère de Google, Alphabet Inc. a fait parvenir un message des frontières des échecs.


Jouer aux échecs en ligne sur Chess.com

Un an plus tôt, le 5 décembre 2017, l'équipe avait stupéfié le monde des échecs en annonçant AlphaZero, un algorithme de machine-learning qui maîtrisait non seulement les échecs, mais le shogi (jeu d'échecs japonais), et Go. L'algorithme a débuté sans aucune connaissance des jeux au-delà de leurs règles de base. Il a ensuite joué contre lui-même des millions de fois et a appris de ses erreurs. En quelques heures, l'algorithme est devenu le meilleur joueur, humain ou ordinateur, que le monde ait jamais vu.

Les détails des réalisations d'AlphaZero et de son fonctionnement interne ont maintenant été officiellement examinés par des pairs et publiés dans la revue Science de décembre 2018. Le nouveau document aborde plusieurs critiques sérieuses à l'égard de la déclaration initiale. (Entre autres choses, il était difficile de dire si AlphaZero jouait son adversaire choisi, une bête informatique nommée Stockfish, en toute équité.) Considérez ces préoccupations comme dissipées. AlphaZero ne s'est pas renforcé au cours des douze derniers mois, mais la preuve de sa supériorité l'a fait. Il montre clairement une race d'intellect que les humains n'ont jamais vue auparavant, et que nous allons mûrement étudier pendant encore longtemps.

Les échecs par ordinateur ont parcouru un long chemin au cours des vingt dernières années. En 1997, le programme de jeu d'échecs d'I.B.M., Deep Blue, a réussi à battre le champion du monde humain en titre, Garry Kasparov, dans un match de six parties. Rétrospectivement, il y avait peu de mystère dans cette réalisation. Deep Blue pourrait évaluer 200 millions de positions par seconde. Il ne s'est jamais fatigué, n'a jamais fait d'erreur de calcul et n'a jamais oublié ce qu'il pensait un instant auparavant.

Pour le meilleur et pour le pire, il a joué comme une machine, brutalement et matériellement. Il pourrait faire mieux que M. Kasparov, mais il ne pourrait pas le supplanter. Dans la première partie de leur match, Deep Blue a accepté avec avidité le sacrifice d'une tour par M. Kasparov pour un fou, mais a perdu la partie après 16 coups. La génération actuelle des programmes d'échecs les plus forts du monde, tels que Stockfish et Komodo, joue toujours dans ce style inhumain. Ils aiment capturer les pièces de l'adversaire. Ils se défendent dur comme du fer. Mais bien qu'ils soient beaucoup plus forts que n'importe quel joueur humain, ces "moteurs" d'échecs n'ont aucune réelle compréhension du jeu. Ils doivent être initiés aux principes de base des échecs.

Ces principes, qui ont été affinés au fil de décennies de pratique humaine, sont programmés dans les moteurs comme des fonctions d'évaluation complexes qui indiquent ce qu'il faut chercher dans une position et ce qu'il faut éviter : combien pour valoriser la sécurité du roi, les pièces, la structure du pion, le contrôle du centre et plus, et comment trouver le bon compromis parmi elles. Les moteurs d'échecs d'aujourd'hui, inconscients de ces principes, apparaissent comme des brutes : extrêmement rapides et forts, mais sans aucune perspicacité.

Tout cela a changé avec l'essor de l'apprentissage machine. En jouant contre lui-même et en mettant à jour son réseau neuronal comme il l'a appris de son expérience, AlphaZero a découvert les principes des échecs par lui-même et est rapidement devenu le meilleur joueur jamais vu. Non seulement il aurait pu facilement vaincre tous les maîtres humains les plus forts - il n'a même pas pris la peine d'essayer - mais il a écrasé Stockfish, le champion du monde d'échecs par ordinateur en titre. Dans un match de cent parties contre un moteur vraiment formidable, AlphaZero a marqué vingt-huit victoires et soixante-douze nuls. Il n'a pas perdu un seul match.

Le plus troublant, c'est qu'AlphaZero semblait exprimer une perspicacité. Il a joué comme aucun ordinateur ne l'a jamais fait, intuitivement et magnifiquement, avec un style romantique et offensif. Il jouait aux parieurs et prenait des risques. Dans certains jeux, il paralysait Stockfish et jouait avec lui. Lors de son attaque dans le jeu 10, AlphaZero a replacé sa reine dans le coin du plateau de jeu de son propre côté, loin du roi de Stockfish, dans un endroit qui ne devrait normalement pas être occupé par une reine offensive.

Pourtant, cette retraite particulière était venimeuse : peu importe comment Stockfish répondait, il était voué à l'échec. C'était presque comme si AlphaZero attendait que Stockfish réalise, après des milliards de calculs brutaux, à quel point sa position était vraiment désespérée, pour que la bête puisse se détendre et mourir en paix. Les grands maîtres n'avaient jamais rien vu de tel. AlphaZero avait la finesse d'un virtuose et la puissance d'une machine. C'était la première fois que l'humanité voyait un nouveau type d'intelligence génial.


AlphaZero contre Stockfish

Lorsque AlphaZero a été dévoilé pour la première fois, certains observateurs se sont plaints que Stockfish avait été lobotomisé en ne lui donnant pas accès à son livre des ouvertures mémorisées. Cette fois-ci, même avec son livre, il a encore été écrasé. Et quand AlphaZero s'est handicapé en donnant dix fois plus de temps à Stockfish pour réfléchir, il a quand même détruit la brute.

Ce qui est révélateur, c'est qu'AlphaZero a gagné en pensant plus intelligemment, pas plus vite ; il n'a examiné que 60 000 positions par seconde, comparativement à 60 millions pour Stockfish. C'était plus sage de savoir à quoi penser et quoi ignorer. En découvrant les principes des échecs par lui-même, AlphaZero a développé un style de jeu qui "reflète la vérité" du jeu plutôt que "les priorités et les préjugés des programmeurs", a écrit M. Kasparov dans un commentaire accompagnant l'article Science.

La question est maintenant de savoir si l'apprentissage automatique peut aider les humains à découvrir des vérités similaires sur les choses qui nous tiennent vraiment à cœur : les grands problèmes non résolus de la science et de la médecine, comme le cancer et la conscience ; les énigmes du système immunitaire, les mystères du génome.

Les premiers signes sont encourageants. En août dernier, deux articles parus dans Nature Medicine ont exploré comment l'apprentissage automatique pouvait être appliqué au diagnostic médical. Dans l'un d'entre eux, des chercheurs de DeepMind se sont associés à des cliniciens du Moorfields Eye Hospital de Londres pour mettre au point un algorithme d'apprentissage profond qui pourrait classer un large éventail de pathologies de la rétine aussi précisément que le peuvent les experts humains. (L'ophtalmologie souffre d'une grave pénurie d'experts capables d'interpréter les millions de scanners ophtalmologiques effectués chaque année ; des assistants artificiellement intelligents pourraient énormément aider.)

Ce qui est frustrant à propos de l'apprentissage machine, cependant, c'est que les algorithmes ne peuvent pas articuler ce qu'ils pensent. Nous ne savons pas pourquoi ils fonctionnent, donc nous ne savons pas si on peut leur faire confiance. AlphaZero donne l'impression d'avoir découvert quelques principes importants sur les échecs, mais il ne peut pas partager cette compréhension avec nous. Pas encore, en tout cas. En tant qu'êtres humains, nous voulons plus que des réponses. Nous voulons de la perspicacité. Cela va être une source de tension dans nos interactions avec les ordinateurs à partir de maintenant.

En fait, en mathématiques, c'est déjà le cas depuis des années. Considérez le problème mathématique de longue date appelé le théorème de la carte en quadrichromie. Il propose que, sous certaines contraintes raisonnables, toute carte de pays contigus puisse toujours être colorée avec seulement quatre couleurs, de sorte que deux pays voisins ne soient pas colorés de la même façon.

Bien que le théorème des quatre couleurs a été prouvé en 1977 avec l'aide d'un ordinateur, aucun humain ne pouvait vérifier toutes les étapes de l'argument. Depuis lors, la preuve a été validée et simplifiée, mais il y a encore des parties qui impliquent un calcul de force brute, du genre de celui employé par les ancêtres informatiques d'AlphaZero qui jouent aux échecs. Ce développement a gêné de nombreux mathématiciens. Ils n'avaient pas besoin d'être rassurés sur le fait que le théorème des quatre couleurs était vrai ; ils le croyaient déjà. Ils voulaient comprendre pourquoi c'était vrai, et cette preuve ne les a pas aidés.


L'avènement de l'intelligence artificielle

Mais imaginez un jour, peut-être dans un avenir pas trop lointain, où AlphaZero aura évolué vers un algorithme de résolution de problèmes plus général ; appelez-le AlphaInfinity. Comme son ancêtre, il aurait une perspicacité suprême : il pourrait trouver de belles preuves, aussi élégantes que les parties d'échecs qu'AlphaZero jouait contre Stockfish. Et chaque preuve révélerait pourquoi un théorème était vrai ; AlphaInfinity ne se contenterait pas de vous matraquer pour que vous l'acceptiez avec un argument laide et difficile.

Pour les mathématiciens et les scientifiques humains, ce jour marquerait l'aube d'une nouvelle ère de compréhension. Mais ça ne durera peut-être pas. Alors que les machines deviennent de plus en plus rapides et que les humains restent en place avec leurs neurones fonctionnant à des échelles de temps de quelques millisecondes, un autre jour suivra où nous ne pourrons plus suivre. L'aube de la perspicacité humaine peut rapidement se transformer en crépuscule.

Supposons qu'il existe des modèles plus profonds à découvrir - dans la façon dont les gènes sont régulés ou dont le cancer progresse ; dans l'orchestration du système immunitaire ; dans la danse des particules subatomiques. Et supposons que ces schémas puissent être prédits, mais seulement par une intelligence bien supérieure à la nôtre. Si AlphaInfinity pouvait les identifier et les comprendre, cela nous semblerait être un oracle.

Nous nous asseyions à ses pieds et écoutions attentivement. Nous ne comprenions pas pourquoi l'oracle avait toujours raison, mais nous pouvions vérifier ses calculs et ses prédictions par rapport aux expériences et aux observations, et confirmer ses révélations. La science, qui signale l'effort humain, réduirait notre rôle à celui de spectateurs, dans l'émerveillement et la confusion.

Peut-être qu'un jour, notre manque de perspicacité ne nous dérangerait plus. Après tout, AlphaInfinity pourrait guérir toutes nos maladies, résoudre tous nos problèmes scientifiques et faire fonctionner tous nos autres trains intellectuels à temps. Nous nous sommes assez bien débrouillés sans trop de perspicacité pendant les quelque 300 000 premières années de notre existence en tant qu'Homo sapiens. Et nous ne manquerons pas de mémoire : nous nous souviendrons avec fierté de l'âge d'or de la perspicacité humaine, cet intermède glorieux, long de quelques milliers d'années, entre notre passé inqualifiable et notre incompréhensible futur.



Vidéo : Le phénomène AlphaZero contre Stockfish