Affaire Niemann: Ce que révèlent les chiffres... et ce qu'ils ne révèlent pas!

Par Paul Kohler
27/10/2022 – Il y a le coup de foudre, comme chacun sait, et il y a, de façon un peu surprenante, les "statistiques du coup de foudre". De quoi s'agit-il? Dans l'affaire tristement célèbre que l'on appelle désormais "l'affaire Hans Niemann" (un titre que S.S. Van Dine aurait beaucoup apprécié, tout comme le mystère qui entoure l'affaire), ces statistiques ont attiré l'attention incontestée de toutes les parties concernées - et surtout celle des personnes non concernées. | Image: L'évolution du classement de Hans Niemann. | Adatpation d'un article d'Andrea Carta.

ChessBase 17 - Mega package - Edition 2024 ChessBase 17 - Mega package - Edition 2024

It is the program of choice for anyone who loves the game and wants to know more about it. Start your personal success story with ChessBase and enjoy the game even more.

Plus…

Jusqu'à présent, personne n'a jamais surpris Hans Niemann en train de tricher en présentiel. Ce n'est pas par manque de fantaisie de la part du public: après les "perles anales" mentionnées par Elon Musk, toutes sortes de dispositifs ont été suggérés, jusqu'à l'hilarante "transmission de signaux directement dans l'oreille", une technique qui nécessiterait un équipement laser complexe placé à proximité du joueur, sans parler du coût énorme d'un tel dispositif.

C'est pourquoi les statistiques ont été largement utilisées pour déterminer si Hans Niemann a réellement triché devant l'échiquier dans le passé (car Carlsen a si mal joué contre lui lors de la Coupe Sinquefield qu'il semble peu probable qu'une tricherie ait eu lieu dans cette circonstance). Dans un premier temps, le professeur Ken Regan, connu pour être le plus grand expert mondial en matière de détection de la tricherie, a étudié la question et n'a trouvé aucune raison de soupçonner Hans Niemann de tricher. Ses conclusions sont présentées dans une interview qu'il a accordée à Albert Silver le 20 septembre. Mais cela n'a pas mis fin à l'affaire.

L'idée générale, du moins pour les personnes convaincues que Hans Niemann est effectivement un tricheur compulsif, est que "l'outil de Ken Regan" est obsolète, car il ne "repose que sur les pertes de centipion" (différences entre les coups d'un joueur et les meilleurs coups des logiciels), et parce qu'il est bien connu dans le monde entier, permettant ainsi aux "tricheurs prudents" d'éviter la détection.

En fait, "l'outil de Ken Regan" est bien plus qu'une simple évaluation des pertes moyennes de centipion (alias ACPL), mais cela ne dérange pas les nouveaux experts, car de nouvelles statistiques et de nouveaux outils ont fait surface. Le plus connu est probablement celui décrit par "Gambit-man", un utilisateur de Chess.com, expert autoproclamé en la matière. Cet utilisateur a utilisé l'outil "Let's Check" fourni par ChessBase afin d'évaluer les parties jouées par Hans Niemann au cours des 3 dernières années, une période pendant laquelle il a joué - presque frénétiquement - plus de 400 parties. L'outil "Let's Check", comme l'explique Albert Silver, "vous donnera un résumé appelé "Corrélation Module/Partie" en haut, montrant le pourcentage de fois où les coups d'un joueur correspondent au premier choix d'un logiciel". Comme le FM Nate Solon l'a également expliqué dans un article publié sur son blog le 04 octobre, plus une partie est analysée au moyen d'un logiciel, plus la corrélation sera élevée, et augmentera peut-être aussi chaque fois qu'un nouveau logiciel sera utilisé. En outre, aucune comparaison ne pourra jamais être faite entre différentes parties (sans parler de différents joueurs) puisque différents logiciels sont impliqués dans les analyses. C'est pourquoi ChessBase dit que l'outil ne devrait pas être utilisé pour détecter les tricherie:

La corrélation n'est pas un signe de tricherie informatique, car les joueurs forts peuvent atteindre des valeurs élevées dans des parties tactiquement simples. Seules les valeurs faibles disent quelque chose, car elles sont suffisantes pour réfuter l'utilisation illégale d'ordinateurs dans un jeu.

Malgré cela, la streamer et FM Yosha Iglesias a publié une vidéo faisant la promotion des recherches de Gambit-Man et mettant en avant 10 parties avec une corrélation parfaite de 100 % (sans parler des 23 autres à 90 % ou plus). Selon Iglesias, aucun autre joueur au monde, pas même Carlsen, ne peut se vanter d'avoir autant de parties à 100%; de plus, la corrélation moyenne de Hans Niemann sur l'ensemble des tournois (65%) est comparable à celle des "super GM" (joueurs évalués à au moins 2700 points ELO), bien que Niemann n'ait jamais atteint le statut de super GM. Hikaru Nakamura a également relancé la vidéo et les résultats de Gambit-Man.

Mais il s'agit là de "statistiques à première vue". Même en écartant les fortes objections de Nate Solon, il n'est pas possible d'ignorer les conclusions d'Albert Silver en analysant les parties de la Sinquefield Cup avec l'outil "Let's Check", conclusions présentées dans l'article mentionné ci-dessus. Non seulement la corrélation de Hans Niemann dans la fameuse partie contre le champion du monde n'est qu'un "modeste 68%", mais le joueur ayant la meilleure corrélation à la Sinquefield Cup (3 parties à plus de 90% et 2 autres à plus de 80%) est Levon Aronian. Il est pourtant l'un des trois joueurs qui ont sous-performé à la Sinquefield Cup, et il semble actuellement traverser une crise et a perdu beaucoup de points lors des derniers tournois qu'il a disputés (Olympiade, Sinquefield Cup et maintenant US Championship) et est maintenant revenu à son classement de 2005.

Le fait qu'Aronian ait si bien performé - selon l'outil Let's Check - dans cinq parties (sur huit), alors que sa performance réelle était au mieux médiocre, devrait vous interpeller. Un autre joueur - Wesley So - a eu une partie parfaite avec une corrélation de 100%, mais cela s'est produit parce que seuls 8 coups (sur 28) ont été considérés comme valant la peine d'être analysés (les autres, étant de la pure théorie, ont été écartés par l'outil). Avec ceci à l'esprit, vérifions (pour de vrai) les 10 "parties à 100%" jouées par Hans Niemann, selon la base de données de Gambit-Man:

  • Open Mondial des Jeunes U16, 10/2019, 8e ronde (sur 11), contre le FM Miguel Angel Soto (2283), gagné en 27 coups.
  • Marshall GM Norm, 02/2020, 7e ronde (sur 9), contre le MI Christopher Woojin Yoo (2430), gagné en 22 coups.
  • CCCSA Fall Invitational, 10/2020, 6e ronde (sur 9): contre le MI Aleksandr Ostrovskiy (2427), gagné en 28 coups.
  • 7e Sunway Sitges, 12/2020, 6e ronde (sur 10): contre le GM Matthieu Cornette (2558), gagné en 36 coups.
  • 1er GM Mix Bassano, 03/2021, 5e ronde (sur 9), contre le MI Jesus Martin Duque (2454), gagné en 28 coups.
  • 14e Philadelphia International, 06/2021, 1e ronde (sur 9), contre Eddy Tian (2204), gagné en 31 coups.
  • US Junior Closed, 07/2021, 6e ronde (sur 9), contre le MI Ben Li (2376), gagné en 34 coups.
  • 2e Tras-Os-Montes, 08/2021, 7e ronde (sur 9), contre le FM Isak Storme (2398), gagné en 38 coups.
  • 4e Sharjah Masters, 09/2021, 2e ronde (sur 9), contre le GM Cristhian Camilo Rios (2466), gagné en 45 coups.
  • Kvika Reykjavik Open, 04/2022, 5e ronde (sur 9), contre le GM Steinn Gretarsson Hjorvar (2542), gagné en 37 coups.

Qu'y a-t-il derrière toutes ces parties "parfaites"? Une explication possible est, bien sûr, la tricherie. Mais il existe aussi d'autres explications. La plus évidente est la durée de ces parties: la moitié d'entre elles ont duré moins de 32 coups, et nous savons déjà - grâce à la partie de So à la Sinquefield Cup - que dans un tel cas, il ne reste que quelques coups non théoriques, ce qui rend l'occurrence d'une corrélation de 100% beaucoup plus probable. En outre, les analyses de la seule partie a duré plus de 40 coups - la victoire de 45 coups contre Rios - montrent qu'elle est tout sauf parfaite! Par exemple, Stockfish et le célèbre utilitaire Chess. com (dans l'image ci-dessous) signalent un grand nombre de coups qui ne peuvent en aucun cas être considérés comme "les meilleurs des logiciels"; on y décèle même certaines inexactitudes. Quels logiciels ont suggéré à l'outil Let's Check que cette partie était parfaite reste un mystère!

À ce stade, si la tricherie ne peut pas encore être écartée, son affirmation ne peut l'être pas non plus (ce qui a été souligné pour la première fois par Nate Solon). Mais par-dessus tout, de telles analyses suggèrent fortement que la façon dont l'outil Let's Check fonctionne est difficile à comprendre complètement, donc l'outil lui-même ne peut pas être considéré comme fiable, du moins pas pour la détection de la tricherie. Pourquoi ne pas simplement faire confiance à ChessBase lui-même, qui affirme clairement exactement cela?

Mais même si ces parties "parfaites" étaient une preuve de tricherie, quelle logique pourrait s'y cacher? Comme les parties "parfaites" sont sporadiques, il devrait y avoir des critères qui ont incité Hans Niemann à les sélectionner pour la tricherie: 

  1. On pourrait peut-être supposer que ces parties étaient les dernières du tournoi, afin qu'il puisse obtenir le meilleur classement possible, mais ce n'est pas le cas: aucune de ces parties n'a été jouée à la dernière ou à l'avant-dernière ronde.
  2. Ou peut-être pourrait-on imaginer que Hans Niemann ne trichait que contre les adversaires les plus forts, faisant confiance à ses propres compétences dans tous les autres cas: mais ce n'est pas vrai non plus, car sa meilleure victoire "parfaite" a eu lieu en 2020 contre le GM Matthieu Cornette (2558), alors que pendant toute l'année 2022 il a joué contre au moins 70 joueurs plus forts, sans atteindre une partie "parfaite" contre aucun d'entre eux.

Si le mystère des parties "parfaites" ne sera probablement pas résolu de sitôt, d'autres "statistiques à première vue" restent à discuter. Le 06 octobre, Chess.com a publié un rapport destiné à expliquer pourquoi Hans Niemann a été banni de leur site et de leurs tournois en ligne. Ce rapport tant attendu, tout en expliquant - voire en soulignant - que Niemann a beaucoup triché en ligne, admet également, tout comme Ken Regan l'avait fait auparavant, qu'il n'y a aucune preuve de sa tricherie "devant l'échiquier". Non satisfait de sa propre conclusion, Chess.com a ajouté quelques petites statistiques qui soulèvent néanmoins à nouveau de forts soupçons: à la page 12, il est montré qu'aucun autre joueur ne s'est autant amélioré que Niemann entre l'âge de 11 et 19 ans (une comparaison a été faite avec de nombreux autres jeunes joueurs célèbres), comme le montre l'image ci-dessous. Mais non seulement cette conclusion repose sur le mystérieux "Strength Score", un paramètre que seul Chess.com utilise, dont personne ne connaît les principes de fonctionnement, et dont le but principal est de détecter la tricherie en ligne, et non devant l'échiquier, mais c'est aussi un bon exemple de "pinaillage", car la même comparaison pourrait être faite en utilisant les classements ELO sur n'importe quelle autre durée de vie, avec des résultats complètement différents: par exemple, Hans Niemann n'a gagné aucun point ELO en 2019, à 16 ans, alors que Firouzja, même âge, même année, en a gagné 105. Keymer, même âge, année suivante, a gagné 64 points. Et ainsi de suite.

À la page 15, une autre statistique impressionnante est présentée: Hans Niemann a obtenu son titre de GM à l'âge de 17 ans, alors que tous les autres soi-disant "jeunes" (Firouzja, Keymer et bien d'autres) l'ont obtenu avant, certains même à l'âge de 12 ans (Gukesh). Encore une fois, il s'agit d'une sélection arbitraire: si la comparaison est faite, non pas avec les "jeunes", mais avec d'autres joueurs de force similaire (d'aujourd'hui), le résultat est complètement différent. Par exemple, Tomashevsky (2696 points ELO) et Wojtaszek (2693) ont tous deux remporté le titre à l'âge de 18 ans - plus tard que Niemann - et même un joueur plus jeune comme Alekseenko (2691) a remporté le titre à l'âge de 18 ans. Peut-être que Niemann ne deviendra pas aussi fort que Firouzja ou Keymer, mais pour l'instant il n'y a rien d'étrange à ce qu'il obtienne un titre de GM à l'âge de 17 ans.

La dernière "statistique à première vue" est apparue sur YouTube le 02 octobre, lorsque le streamer brésilien Rafael Leite a publié une vidéo avec le titre impressionnant "TOP URGENT ! De fortes PREUVES de tricherie ont été trouvées dans la controverse NIEMANN". Le jour suivant, une autre vidéo a suivi, intitulée "ÉNORME DÉCOUVERTE: Hans Niemann a une force de 2500". Le jour suivant, enfin, un nouvel article de sa part est apparu avec d'autres explications; sa conclusion: "J'ai découvert que le joueur d'échecs Hans Niemann a une force de 2500-2550, même en étant classé près de 2700", était immédiatement suivie de la "grande question: "Qu'est-ce qui peut bien expliquer qu'un joueur de force 2500 atteigne un classement de 2700?", une question dont la réponse est clairement suggérée: la triche! Un article de ChessBase a d'ailleurs repris ses conclusions.

Qu'en dire? Tout d'abord, Rafael Leite a constaté l'évidence: plus un joueur est fort, moins il fait d'erreurs. Il a ensuite analysé un grand nombre de parties (plusieurs milliers) dans l'espoir d'établir une corrélation entre l'ACPL (Average Centipawn Loss - ou "perte moyenne en % de ♙") moyen et le classement des joueurs et a fini par calculer le tableau suivant, qui tient même compte de la STCPL (Standard Deviation Centipawn Loss - ou "écart type de la perte en % de ♙"). Ce tableau est si impressionnant que vous devriez vous attendre à trouver un grand "42" quelque part à l'intérieur (malheureusement, plus nous nous approchons de la Réponse à l'Ultime Question de la Vie, de l'Univers et de Tout, plus il n'y a qu'un "41" à droite).

Tous les "suspects habituels" ont été vérifiés: les jeunes (Gukesh, Keymer, Praggnanandha, Erigaisi), ainsi que Carlsen et Caruana: pour chacun d'entre eux, l'ACPL déduit de leurs parties correspond à leur classement. Pour Niemann, c'est différent: son ACPL est "seulement" de 25, ce qui signifie que sa "vraie" force n'est que de 2550 points ELO (commodément arrondis à 2500), bien qu'il vienne d'atteindre la barre des 2700 (2699 juste avant le championnat américain). C'est la "forte preuve de tricherie" que Leite a trouvée le 02 octobre.

Mais est-ce vraiment le cas? La différence entre la "vraie" force de Niemann et son classement ELO peut être causée par beaucoup de choses, mais la tricherie ne peut pas être l'une d'entre elles, car elle implique de faire des "coups d'ordinateurs", quelque chose qui diminuerait évidemment l'ACPL.

La réponse à la "grande question": "Qu'est-ce qui peut expliquer qu'un joueur de force 2500 atteigne une cote de 2700?" n'est pourtant pas difficile à trouver. Nous devons garder à l'esprit la façon dont le système ELO fonctionne: le classement n'est pas une valeur fixe, immuable, mais peut varier beaucoup en fonction de la condition du joueur, même après avoir atteint la pleine maturité. L'ELO de Caruana, par exemple, au cours des dix dernières années, a fluctué entre 2763 et 2844, restant la plupart du temps entre 2810 et 2820 (probablement sa "vraie" force).

Il n'y a donc, de prime abord, rien d'étrange en soi dans une différence (même importante) entre le classement ELO et la force "réelle". Bien sûr, une différence de 150 points peut sembler excessive, mais il existe un problème bien connu, dans le système ELO, qui peut en être la raison. Disons, par exemple, que le ELO d'un joueur est de 2000 points aujourd'hui, et que ce joueur prend sa retraite, étudie beaucoup et finit par revenir, ayant amélioré sa force "réelle" à 2200 ELO. S'il participe à un tournoi contre des adversaires classés, en moyenne, à 2000 points, son score attendu sera de 4½ (en supposant qu'il joue les 9 parties habituelles); mais comme il sera probablement performant à 2200, son score sera de 7, avec un gain de 50 points Elo. Après le tournoi, son classement ELO sera de 2050, ce qui est encore loin de sa "vraie" force, et il aura besoin de nombreux autres tournois pour finalement atteindre 2200. C'est pourquoi le fameux facteur K=40 a été introduit pour les jeunes joueurs (jusqu'à 2300 ELO) et 20 pour tous les autres jusqu'à 2400 ELO (et de seulement 10 pour les joueurs forts, qui sont vraisemblablement proches de leur "vraie" force). Un facteur K élevé stimule l'ascension des jeunes joueurs, réduisant l'effet du problème mentionné ci-dessus. Cependant, tout le monde sait que ce n'est pas suffisant, et que les jeunes joueurs forts sont généralement sous-estimés (même si ce n'est pas de beaucoup).

Revenons maintenant au tableau de Gambit-Man, en essayant de calculer le classement ELO moyen des adversaires de Niemann. Pour simplifier les choses, les huit premiers tournois peuvent être laissés de côté (Niemann n'a pas très bien joué, perdant de nombreux points ELO, et certains liens vers les parties sont manquants), ainsi que les derniers (Sinquefield Cup et US Championships), lorsque les allégations de tricherie ont pu perturber sa concentration (et celle de ses adversaires). Il reste 42 tournois, représentant 369 parties. Divisons ces 42 tournois en 3 groupes égaux et voyons ce que l'on attendait de Niemann :

  • Premier groupe, depuis le 103e championnat du club d'échecs de Marshall (11/2019) au 1e week-end de printemps de Bassano (03/2021): 118 parties, l'ELO moyen des adversaires était de 2391. L'ELO de Niemann se situait habituellement entre 2460 et 2480, il devait donc obtenir un score d'environ 61%, or il a obtenu 68,22% (+67 =27 -24).
  • Deuxième groupe, depuis le premier GM Mix Bassano (03/2021) jusqu'à la première ligue serbe (09/2021): 128 parties, l'ELO moyen des adversaires était de 2423. L'ELO de Niemann a varié de 2520 à 2630, donc on s'attendait à ce qu'il obtienne environ 70%, or il a obtenu 74,22% (+77 =36 -15).
  • Troisième groupe, depuis le 4e Sharjah Masters (09/2021) jusqu'à la Super League turque (08/2022): 123 parties, l'ELO moyen des adversaires était de 2560. L'ELO de Niemann a varié de 2630 à 2690, donc on s'attendait à ce qu'il marque environ 64%, or il a marqué 66,26% +59 =45 -19).

En d'autres termes, Niemann a constamment surperformé au cours des 3 dernières années, gagnant beaucoup de points jusqu'à atteindre la barrière des 2700. Sa progression depuis 11/2019 jusqu'à 8/2022 peut être consultée sur le site de Fide:

 

Revenons maintenant à la "grande question": "Qu'est-ce qui peut expliquer qu'un joueur de force 2500 atteigne un classement de 2700?". La réponse, comme nous le savons déjà, ne peut pas être "la triche". Au lieu de cela, il est maintenant évident qu'au cours des trois dernières années, Niemann a été constamment sous-estimé, parce qu'il était - et est toujours - un jeune joueur qui s'améliore rapidement, et son facteur K, valant toujours 10 (sa cote ELO était déjà supérieure à 2400 en novembre 2019), n'était pas assez élevé pour éviter le problème qui a été expliqué précédemment.

Au cours des trois dernières années, la force "réelle" de Niemann est probablement passée de 2500 à 2700, réduisant lentement l'écart par rapport à son évaluation ELO, comme l'indique la différence entre sa performance attendue et sa performance réelle, qui diminue avec le temps. Aujourd'hui, l'écart est probablement devenu nul, et Niemann pourrait vraiment valoir 2700 points Elo; mais sa force "réelle" moyenne sur ces trois années a probablement été de 2600, ce qui n'est pas très éloigné des 2550 estimés par Rafael Leite selon son ACPL. De plus, Nate Solon fait le constat suivant: 

La chose qui m'a frappé en regardant les parties de Niemann est son agressivité. La plupart des grands maîtres aiment éviter les risques lorsque c'est possible. Niemann semble plus disposé à amener le jeu en eaux troubles, et surtout à sacrifier du matériel.

D'autres experts ont même comparé le style de jeu de Niemann à celui de Tal. Quoi qu'il en soit, un style aussi risqué est bien sûr sujet à des imprécisions et des erreurs et, même lorsqu'il est couronné de succès - comme c'est clairement le cas pour Niemann - il augmenterait en tout cas l'ACPL du joueur. Nous avons donc maintenant la réponse à la "grande question": Niemann a gagné beaucoup de points ELO parce qu'au cours des trois dernières années, il est devenu un meilleur joueur et que sa force "réelle", à l'heure actuelle, est de 2700 pour de vrai, ce qui correspond à son classement ELO. La différence entre sa "vraie" force moyenne passée, 2600, et les 2550 estimés par Rafael Leite est due à son style de jeu risqué.

En fin de compte, nous avons constaté que les "statistiques à première vue" semblent être des preuves solides que Hans Niemann a triché, et beaucoup triché. Mais à y regarder de plus près, toutes les statistiques montrent plutôt une image typique d'un jeune joueur en pleine ascension, sans aucune preuve de tricherie. Ken Regan avait raison.

Cela signifie-t-il que Hans Niemann n'a jamais triché devant l'échiquier? C'est encore difficile à dire. On ne peut pas ignorer l'opinion des grands joueurs, ni celle des commentateurs experts comme Alejandro Ramirez. Mais il est extrêmement improbable que les statistiques seules fournissent un jour des preuves en la matière, et à moins qu'un Philo Vance ne parvienne un jour à déduire sa méthode et à le piéger "sur place", le mystère ne sera jamais résolu. Les échecs, déjà diminués en raison de la domination écrasante des logiciels, sont sur le point de perdre complètement leur charisme. L'hystérie se répand rapidement: déjà, les gens ne sont pas autorisés à assister en personne à des tournois importants, et la diffusion en direct disparaît rapidement. Le "bon vieux temps" reviendra-t-il un jour ?

Liens


Après plus de vingt ans passés dans l'organisation du Festival international d'échecs de Bienne (Suisse), Paul Kohler en est maintenant le secrétaire général et le directeur du tournoi fermé des Grands Maîtres (GMT). Depuis septembre 2016, vous pouviez lire ses posts quotidiens et ses tweets pour ChessBase dans la langue de Molière. Dorénavant, c'est sur le portail francophone que vous pouvez lire ses articles.

Commenter

Règles pour les commentaires

 
 

Pas encore enregistré? S'inscrire