It is the program of choice for anyone who loves the game and wants to know more about it. Start your personal success story with ChessBase and enjoy the game even more.
Par Matej Guid et Ivan Bratko ChessBase Magazine annual subscription plus EXTRA - original ChessBase USB stick with 128 GB * Depuis plus de 20 ans, le magazine ChessBase est l'une des principales revues internationales d'échecs. Le magazine bilingue (anglais/allemand) paraît tous les deux mois et, comme il s'agit d'un numéro combiné d'un magazine imprimé et d'un DVD, il offre le meilleur matériel d'entraînement possible pour les joueurs de club et les professionnels. Qu'est-ce que vous attendez ? Avec le magazine ChessBase, vous êtes programmé pour gagner ! Les avantages qu'il vous offre sont imbattables!
Université de Ljubljana, Faculté d'informatique et de sciences de l'information, Laboratoire d'intelligence artificielle, Ljubljana, Slovénie. Ce papier est basé sur un article des mêmes auteurs publié dans le ICGA Journal ; la référence complète est donnée ci-dessous. ci-dessous.
En 2006, nous avons effectué une comparaison informatique des champions du monde d'échecs. Nous avons analysé les coups joués lors de matchs du championnat du monde avec le programme d'échecs CRAFTY, dans le but d'évaluer objectivement un aspect de la force de jeu des joueurs d'échecs de différentes époques. Le critère de base pour la comparaison entre les joueurs était de savoir dans quelle mesure les coups d'un joueur s'écartent des coups de l'ordinateur. Plus précisément, nous avons considéré l'écart moyen entre les évaluations par l'ordinateur des coups joués par l'homme et les coups préférés par la machine. Nous avons également conçu une méthode pour évaluer la complexité d'une position, afin de prendre en compte les différents styles de jeu des joueurs et la difficulté des positions auxquelles ils étaient confrontés.
Les résultats ont surpris de nombreuses personnes. Par exemple, Capablanca est apparu comme le meilleur marqueur selon le critère principal de cette analyse. Une réserve concernant ces résultats a été émise: Crafty, dont la cote ne dépasse pas 2620, était-il suffisamment fort pour une comparaison aussi exigeante? Que se passerait-il si un programme d'échecs plus puissant était utilisé? Nous présentons ici certains résultats de deux autres études (Guid et al. 2008 ; Guid et Bratko 2011) qui sont pertinents pour répondre à ces questions. Les résultats, qui comprennent des analyses avec les programmes SHREDER, RYBKA 2 et RYBKA 3, peuvent être résumés comme suit:
Dans une répétition de notre analyse précédente des champions d'échecs, les résultats obtenus avec l'un des programmes les plus forts, RYBKA 3, étaient qualitativement très similaires aux résultats obtenus avec CRAFTY.
Le classement approximatif des joueurs selon les différents programmes est assez stable. Plus précisément, étant donné deux joueurs d'échecs, soit tous les programmes classent unanimement un joueur comme étant clairement plus fort que l'autre, soit tous les programmes évaluent leurs forces comme étant similaires.
Afin d'obtenir un classement raisonnable des joueurs selon le critère considéré, il n'est pas nécessaire d'utiliser un ordinateur qui soit plus fort que les joueurs eux-mêmes. Il est intéressant de noter que même les programmes considérablement plus faibles ont tendance à produire des classements similaires.
Le but de notre analyse informatique des coups individuels dans les matchs du championnat du monde d'échecs était d'évaluer aussi objectivement que possible un aspect de la force de jeu des joueurs d'échecs de différentes époques. Le programme d'échecs open-source CRAFTY a été utilisé. Parmi plusieurs critères considérés, le critère de base pour la comparaison entre les joueurs était l'écart moyen entre les évaluations par l'ordinateur des coups joués par les humains et les coups préférés par la machine.
Une analyse statistique ultérieure (2008) a démontré que, au moins pour les paires de joueurs dont les scores différaient significativement, il est peu probable que le classement relatif des champions selon le critère considéré changerait si (1) un programme d'échecs plus puissant était utilisé, ou (2) si le programme cherchait plus profondément, ou (3) si de plus grands ensembles de positions étaient disponibles pour l'analyse. Dans le présent article, nous vérifions plus avant les propositions (1) et (2) empiriquement en appliquant trois programmes d'échecs plus puissants que CRAFTY pour le même type d'analyse informatique des compétences des joueurs.
Nous avons également répété notre analyse précédente avec le programme CRAFTY des champions d'échecs mondiaux avec actuellement l'un des programmes d'échecs les plus forts, RYBKA 3, et avons obtenu des résultats qualitativement très similaires à ceux obtenus avec CRAFTY - cliquez si vous êtes trop curieux et voulez voir immédiatement les résultats de l'analyse informatique avec RYBKA 3!
Utiliser des programmes informatiques pour estimer les compétences des joueurs d'échecs peut sembler impossible, car il est bien connu que tant les évaluations que les décisions des programmes ont tendance à changer lorsque la profondeur de recherche augmente. De plus, différents programmes attribuent généralement des évaluations différentes à une position donnée, même en utilisant la même profondeur de recherche. Par conséquent, quel programme doit être le plus fiable en tant qu'estimateur: le plus fort en termes de force ou peut-être celui qui est le plus également injuste envers tous les joueurs qui font l'objet d'une évaluation?
|
Lasker-Capablanca, St. Petersburg 1914, position après le 12e coup des Blancs. Le tableau de droite montre les évaluations heuristiques sauvegardées obtenues par divers programmes d'échecs, en utilisant la recherche à 12 demi-coups.
Tous les problèmes mentionnés ci-dessus semblent être un obstacle sur la voie de l'établissement des méthodes basées sur la recherche heuristique en tant qu'estimateurs compétents des niveaux de compétence humaine, en particulier dans les jeux complexes comme les échecs.
Dans la présente recherche, nous fournissons une analyse des différences entre les programmes basés sur la recherche heuristique dans l'estimation de la compétence aux échecs, en utilisant une approche similaire à celle de nos études précédentes (2006-2008). Nous sommes particulièrement intéressés par l'analyse du comportement des différents programmes d'échecs, et dans quelle mesure les scores et les classements des joueurs sont préservés à différentes profondeurs de recherche. Puisque la force des programmes d'échecs augmente avec la profondeur de recherche, la préservation des classements à différentes profondeurs de recherche suggérerait donc non seulement que les mêmes classements auraient été obtenus en cherchant plus profondément, mais aussi que l'utilisation de programmes d'échecs plus forts n'affecterait probablement pas les résultats de manière significative.
Dans la suite, nous présentons certains de nos résultats issus des articles scientifiques suivants :
Le lecteur intéressé les liens vers les deux articles ci-dessous.
Pour éviter une possible mauvaise interprétation du travail présenté, il devrait être noté que ces articles ne sont pas concernés par la question de savoir si la mesure particulière de la force de jeu (déviation des coups du joueur par rapport aux coups préférés par l'ordinateur, en utilisant un échantillon suffisamment grand de positions pour l'analyse informatique) est un critère approprié pour comparer la capacité des joueurs d'échecs en général. Il ne s'agit que d'un critère parmi d'autres. Néanmoins, nous croyons que la conservation relativement bonne des classements à différents niveaux de recherche en utilisant divers programmes de différentes forces de compétition peut représenter une base solide sur le chemin de la découverte de méthodes de plus en plus valables pour garantir que les programmes informatiques basés sur la recherche heuristique constituent des estimateurs fiables des niveaux de compétence dans le jeu.
Plusieurs discussions sur notre article de 2006 ont eu lieu sur divers blogs et forums populaires sur Internet, et Chessbase a rapidement publié des réponses intéressantes de divers lecteurs du monde entier, y compris des scientifiques. Un commentaire fréquent des lecteurs pourrait être résumé comme suit : "Une étude très intéressante, mais elle a un défaut dans la mesure où le programme CRAFTY, avec un classement d'environ 2620 seulement, a été utilisé pour analyser les performances de joueurs plus forts que CRAFTY. Pour cette raison, les résultats ne peuvent pas être utiles." Certains lecteurs ont tout de même spéculé que le programme donnera une note plus élevée aux joueurs qui ont une force similaire à celle du programme lui-même.
Les deux principales objections des lecteurs à la méthodologie utilisée étaient : (1) le programme utilisé pour l'analyse était trop faible, et (2) la profondeur de recherche de 12 demi-coups effectuée par le programme était trop superficielle.
Nous avons abordé ces objections afin d'évaluer la fiabilité de CRAFTY (ou, par extrapolation, de tout autre programme d'échecs faillible) comme outil de comparaison des joueurs d'échecs, en utilisant la méthodologie suggérée. En particulier, nous étions intéressés par l'observation de la mesure dans laquelle les scores et les classements des joueurs sont préservés à différentes profondeurs de recherche. Nous avons d'abord observé les classements des champions de CRAFTY à des profondeurs de recherche plus faibles.
Dans chaque position, nous avons effectué des recherches à des profondeurs allant de 2 à 12 demi-coups étendues avec une recherche de quiescence pour assurer des évaluations statiques stables. Les évaluations sauvegardées de chacune de ces recherches ont été utilisées pour l'analyse. PV signifie variation principale.
Des recherches à différentes profondeurs ont été effectuées (y compris une recherche en quiescence pour obtenir des évaluations stables). Ensuite, les scores obtenus par le programme sont les différences moyennes entre les évaluations informatiques des choix de coups des joueurs et les choix de l'ordinateur à chaque profondeur de recherche particulière. Sur la base des scores des joueurs, des classements des joueurs sont obtenus de telle sorte qu'un score plus faible entraîne un meilleur classement. Des contraintes supplémentaires et d'autres détails sur la méthodologie utilisée sont décrits dans notre article du ICGA Journal (2008).
L'analyse informatique était basée sur l'évaluation des parties jouées par les champions d'échecs dans les matchs classiques du championnat du monde d'échecs entre 1886 (Steinitz-Zukertort) et 2006 (Kramnik-Topalov). Les quatorze champions suivants ont donc été inclus dans l'analyse : Steinitz, Lasker, Capablanca, Alekhine, Euwe, Botvinnik, Smyslov, Tal, Petrosian, Spassky, Fischer, Karpov, Kasparov et Kramnik.
Nos résultats montrent, de manière peut-être surprenante, qu'au moins pour les joueurs dont les scores diffèrent suffisamment des autres, le classement reste préservé, même à des profondeurs de recherche très faibles.
Les scores de CRAFTY (écarts moyens entre les évaluations des coups joués et les meilleurs coups évalués selon CRAFTY) de chaque champion du monde "classique" (1886-2006) à différentes profondeurs de recherche. Sont mis en évidence les scores de Capablanca (courbe inférieure), Kramnik, Euwe et Steinitz (courbe supérieure).
Certains champions dont les classements s'écartent significativement des autres ont été identifiés: Capablanca, Euwe et Steinitz. Leurs classements relatifs parmi tous les champions ont été préservés à chaque niveau de recherche. La stabilité de leur classement a été confirmée par l'analyse statistique des résultats et par le fait que Capablanca a obtenu le meilleur score dans 95% de toutes les combinaisons de sous-ensembles de profondeur dans 100 échantillons composés de 500 positions choisies au hasard. Comme nous l'avons fait dans notre étude, ce résultat doit être interprété à la lumière du style de jeu de Capablanca qui tendait vers des positions peu complexes.
Fat Fritz 2.0 est la dernière version du révolutionnaire Fat Fritz, basé sur les fameux algorthmes AlphaZero. Les analyses atteignent un niveau jamais atteint. Un must pour les joueurs de tous niveaux.
Toutes les positions pour l'analyse ont été prises à partir des matches classiques du championnat du monde d'échecs (1886-2006). Outre l'analyse des coups des trois joueurs, nous avons également choisi au hasard plus de 20'000 positions du reste des joueurs comme groupe de contrôle.
Les scores de Capablanca (courbe du bas), du groupe de contrôle, Euwe, et Steinitz (courbe du haut), obtenus sur un large sous-ensemble de parties provenant de matchs de champions d'échecs mondiaux, en utilisant SHREDDER.
Les scores de Capablanca (courbe inférieure), du groupe de contrôle, d'Euwe, et de Steinitz (courbe supérieure), obtenus sur un large sous-ensemble de parties provenant de matches de champions d'échecs mondiaux, en utilisant RYBKA 2.
Les scores de Capablanca (courbe inférieure), du groupe de contrôle, d'Euwe, et de Steinitz (courbe supérieure), obtenus sur un large sous-ensemble de parties provenant de matches de champions d'échecs mondiaux, en utilisant RYBKA 3.
Le classement relatif de Capablanca, Euwe, Steinitz, et des joueurs du groupe de contrôle est préservé à toutes les profondeurs en utilisant n'importe lequel des programmes à n'importe quel niveau de recherche. Ces résultats expérimentaux rejettent les spéculations possibles que l'utilisation de programmes d'échecs plus forts que CRAFTY pour l'analyse pourrait conduire à des résultats complètement différents, et que le résultat de Capablanca est simplement une conséquence de son style étant similaire à celui de CRAFTY. Nous considérons également ces résultats comme une autre confirmation que pour obtenir un classement raisonnable des joueurs, il n'est pas nécessaire d'utiliser un ordinateur qui est plus fort que les joueurs eux-mêmes.
Le duo parfait pour développer de nouvelles idées, obtenir des analyses précises et organiser un entraînement ciblé et continu!
Les scores de RYBKA (écarts moyens entre les évaluations des coups joués et les meilleurs coups évalués selon RYBKA 3) de chaque champion du monde "classique" (de 1886 à 2006) à différentes profondeurs de recherche. Sont mis en évidence les scores de Capablanca (courbe inférieure), Kramnik, Euwe et Steinitz (courbe supérieure). Sur la base des scores des joueurs, les classements des joueurs sont obtenus de telle sorte qu'un score plus faible entraîne un meilleur classement.
Voyons cela de plus près:
Une vue rapprochée: les scores des champions obtenus par le programme d'échecs RYBKA 3 à différentes profondeurs de recherche. Pour presque toutes les profondeurs, il s'avère que rang(Capablanca) < rang(Kramnik) < rang(Kasparov) < rang(Karpov) < rang(Petrosian) < rang(Botvinnik) < rang(Euwe) < rang(Steinitz).
Les résultats ressemblent beaucoup à ceux obtenus par CRAFTY (2008). Encore une fois, les classements restent les mêmes pour presque toutes les profondeurs : rang(Capablanca) < rang(Kramnik) < rang (Karpov, Kasparov) < rang(Petrosian) < rang(Botvinnik) < rang(Euwe) < rang(Steinitz). Il existe néanmoins quelques différences évidentes entre les résultats obtenus par les deux programmes. Premièrement, CRAFTY a mieux classé Karpov que Kasparov à toutes les profondeurs: c'est exactement le contraire pour RYBKA 3. Néanmoins, les scores de ces deux joueurs (et aussi de beaucoup d'autres) sont assez similaires les uns aux autres.
Deuxièmement, la performance de Fischer telle que vue par RYBKA 3 est significativement meilleure en comparaison avec les résultats obtenus par CRAFTY. Ce résultat est associé à la question suivante (jusqu'à présent sans réponse): le style de jeu d'un programme montre-t-il une préférence pour le style d'un joueur particulier? La comparaison des résultats de l'analyse informatique des champions obtenus par CRAFTY et RYBKA 3 suggère que le style de jeu d'un programme peut affecter les classements, mais seulement dans une mesure limitée.
Une question fréquente des lecteurs était liée à la signification des scores des joueurs obtenus par le programme. Une mauvaise interprétation typique de leur signification allait comme suit: "Pour chaque 8 coups en moyenne, CRAFTY s'attend à gagner un avantage d'un pion supplémentaire sur Kasparov". Nous tenons à souligner ici que les scores obtenus par le programme ne mesurent que les différences moyennes entre les choix de coups des joueurs et ceux de l'ordinateur. Cependant, comme le montre l'analyse, ces scores, qui sont relatifs à l'ordinateur utilisé, ont de bonnes chances de produire des classements sensés des joueurs.
Les résultats expérimentaux ne confirment pas seulement que les scores ne sont pas invariables pour le même programme à différentes profondeurs de recherche, les scores diffèrent également de manière significative lorsqu'on utilise différents programmes. Ceci est clairement visible dans le graphique suivant, où les scores moyens de tous les joueurs, obtenus sur le même grand sous-ensemble de parties provenant des matches du champion du monde d'échecs, sont montrés pour les trois programmes, et comparés aux scores moyens de tous les joueurs selon CRAFTY. Alors que les scores de SHREDDER sont très similaires à ceux de CRAFTY, les scores des deux RYBKAs diffèrent considérablement de ceux des deux autres programmes.
Comparaison des scores moyens de tous les joueurs (y compris ceux du groupe témoin), obtenus par CRAFTY, SHREDDER, RYBKA 2, et RYBKA 3.
Dans l'article (2011), nous avons fourni l'explication suivante concernant l'ampleur des scores par rapport à la profondeur de recherche. La tendance à la baisse des scores avec l'augmentation de la profondeur de recherche (typique pour les profondeurs de recherche les plus faibles) est une conséquence des choix de plus en plus judicieux du programme. Cependant, à des profondeurs de recherche plus élevées, le coût plus élevé de ne pas choisir le meilleur coup selon le programme peut même conduire à des scores plus élevés en raison de la propriété de monotonicité des fonctions d'évaluation heuristiques. C'est-à-dire que dans les positions gagnées, les évaluations des programmes ont tendance à augmenter de façon monotone avec la profondeur de recherche.
Notre approche de l'estimation des niveaux de compétence vise à évaluer la qualité du jeu indépendamment du score de la partie, et suppose l'utilisation d'estimateurs faillibles (par opposition aux estimateurs infaillibles tels que les tables d'échecs). Depuis notre article de 2006, plusieurs travaux scientifiques connexes et intéressants ont vu le jour. Haworth (2007) a défini un mappage de la compétence apparente du joueur dans un espace d'agent référent, en utilisant un agent stochastique et une méthode d'inférence bayésienne. Les résultats de l'analyse expérimentale de cette approche (Di Fatta, Haworth et Regan, 2009 ; Haworth, Regan et Di Fatta, 2010 ; Regan et Haworth, 2011) ont montré que les distributions de probabilité déduites des compétences apparentes sont capables de distinguer les performances des joueurs dans différentes plages Elo. Ces résultats plaident en faveur d'une possibilité d'estimer les compétences humaines sur la base d'une évaluation heuristique par ordinateur. Les références complètes de ces articles sont indiquées ci-dessous.
Ces deux approches de l'estimation des niveaux de compétence dans les jeux complexes ont quelque chose en commun, outre le fait qu'elles sont basées sur l'analyse informatique des actions des joueurs: elles supposent toutes deux (implicitement ou explicitement) que les différences moyennes dans les évaluations informatiques entre les coups du joueur et les coups de l'ordinateur constituent une base solide pour une évaluation comparative raisonnable des joueurs, lorsqu'une quantité suffisamment importante de données pour l'analyse est disponible. En d'autres termes, quelle que soit la manière dont cette mesure est affinée pour prendre en compte le contexte complet des décisions du joueur, ces différences moyennes seules ont de bonnes chances d'être des mesures de performance plutôt stables, même en utilisant différents programmes comme estimateurs des compétences des joueurs.
Une quantité remarquable de calculs pour une analyse informatique similaire des champions d'échecs a été réalisée par Charles Sullivan. Selon l'auteur, 24 heures par jour pendant 15 mois (de février 2007 à mai 2008), 12 fils de calcul (sur trois ordinateurs Intel Q6600 à quatre cœurs fonctionnant à 3,0 GHz) ont analysé les parties des champions du monde. Des carrières entières ont été analysées - en tout, 617 446 positions de 18 785 parties ont été traitées. Les résultats sont publiés sur Truechess.com. L'auteur considère que les statistiques de la "meilleure période de 10 ans" sont utiles pour déterminer quel est "le plus grand joueur d'échecs de tous les temps". Les classements qu'il a obtenus sont quelque peu différents des nôtres. Cependant, ces résultats ne peuvent pas être directement comparés parce que son analyse a inclus TOUTES les parties jouées, mais s'est limitée à la meilleure période de 10 ans. Il faut également noter que dans son analyse, la quantité de calcul par position analysée était limitée par le temps et non par la profondeur. Ainsi, les différences moyennes entre les choix des joueurs et les choix de l'ordinateur dans l'analyse de Sullivan ont été obtenues à différentes profondeurs de recherche et peuvent ne pas être directement comparables, en raison de la propriété de monotonicité des fonctions d'évaluation heuristiques (pour une explication détaillée, voir la thèse de doctorat de Matej Guid, chapitre 8.5.1). Nous recommandons fortement d'utiliser une profondeur de recherche fixe pour ce type d'analyse informatique des parties d'échecs.
Une des questions importantes (et toujours pas complètement résolue) est : Comment prendre en compte les différences entre les joueurs dans la difficulté moyenne des positions rencontrées dans leurs parties? En 2006, nous avons conçu une méthode basée sur la recherche heuristique pour évaluer la difficulté moyenne des positions utilisées pour estimer la performance des champions et nous avons présenté les résultats de l'application de cette méthode afin de comparer des joueurs d'échecs de différents styles de jeu. Ces résultats suggèrent que le score exceptionnel de Capablanca en termes de faibles différences moyennes dans les évaluations de l'ordinateur entre les coups du joueur et les coups de l'ordinateur devrait être interprété à la lumière de son style de jeu qui tendait vers des positions de faible complexité. Cependant, nous pensons que des travaux supplémentaires sur la question ci-dessus sont nécessaires.
Les auteursMatej Guid a obtenu son doctorat en informatique à l'Université de Ljubljana, en Slovénie. Ses recherches portent sur les jeux vidéo, les systèmes d'explication et de tutorat automatisés, la recherche heuristique et l'apprentissage automatique basé sur les arguments. Certains de ses travaux scientifiques, dont la thèse de doctorat intitulée Search and Knowledge for Human and Machine Problem Solving, sont disponibles sur la page Recherche de Matej. Les échecs sont l'un des passe-temps favoris de Matej depuis son enfance. Il a été champion junior de Slovénie à plusieurs reprises et détient le titre de maître FIDE. |
Ivan Bratko est professeur d'informatique à l'université de Ljubljana, en Slovénie. Il dirige le laboratoire d'intelligence artificielle de la faculté d'informatique et de sciences de l'information de l'université de Ljubljana. Il a mené des recherches sur l'apprentissage automatique, les systèmes à base de connaissances, la modélisation qualitative, la robotique intelligente, la programmation heuristique et les échecs informatiques (connaissez-vous le célèbre test Bratko-Kopec?). Le professeur Bratko a publié plus de 200 articles scientifiques et un certain nombre de livres, dont le best-seller Prolog Programming for Artificial Intelligence. Les échecs sont l'un de ses passe-temps favoris. |
Copyright Guid/Bratko/ChessBase
Master Class Vol.4: José Raúl Capablanca
Enfant prodige et entouré de légendes, José Raûl Capablanca, né en 1888 à la Havane, était, à l'apogée de sa carrière, quasiment imbattable, et il est encore considéré par beaucoup comme le plus grand talent d'échecs de tous les temps.
ChessBase Account Abonnement Premium annuel
Pour ne rien manquer des événements échiquéens et profiter des multiples applications développées par ChessBase, ouvrez un compte Premium annuel! Non seulement vous ne payez que dix mois au lieu de douze, mais vous recevez encore un treizième mois gratuit!