Les méthodes de classement

ts-leodagan · Septembre 6, 2007, 11:16

Trop fouillis pour moi, je trouve bizarrement le graphique trop abscons.

Je préfère Bayes parce qu'on reste dans une échelle 1 à 5 qui s'avère plus parlante pour un usager de TT.

nekotarie · Septembre 6, 2007, 11:44

TS Lï¿½odagan dit:Trop fouillis pour moi, je trouve bizarrement le graphique trop abscons.
Je prï¿½fï¿½re Bayes parce qu'on reste dans une ï¿½chelle 1 ï¿½ 5 qui s'avï¿½re plus parlante pour un usager de TT.

Oui je sais le graphe est dÃ©gueulasse, fais en 10 minutes avec excel . Mais imprimÃ© en A0 Ã§a rendra bien !

Sinon pas de polÃ©mique sur les classements prÃ©fÃ©rÃ©s, je voulais juste souligner que les deux moyennes rÃ©pondent Ã la mÃªme volontÃ© de prendre en compte le nombre d'avis en plus de la moyenne brute, et que pour peu qu'on les paramÃ¨tre bien, on peut leur faire dire la mÃªme chose.

tt-f98ccf3da4cf0609a0fc81f02b09ec0f · Septembre 6, 2007, 3:42

nekotarie dit:Sinon pas de polÃ©mique sur les classements prÃ©fÃ©rÃ©s, je voulais juste souligner que les deux moyennes rÃ©pondent Ã la mÃªme volontÃ© de prendre en compte le nombre d'avis en plus de la moyenne brute, et que pour peu qu'on les paramÃ¨tre bien, on peut leur faire dire la mÃªme chose.

C'est effectivement la volonté de corriger la moyenne brute pour éviter qu'un jeu avec seulement quelques notes et une note parfaite se retrouve en tête du classement qui motive les deux approches. Mais je ne crois pas qu'avec un changement de paramètre de Finkel, tu puisses arriver à un classement similaire à celui de Bayes.

Ce que l'on remarque pour les jeux en haut de classement lorsqu'on calcule leur moyenne glissante - c'est-à-dire une moyenne qui est recalculée à chaque fois que l'on ajoute une note - à partir de la trentième note ou à peu près, elle descent peu à peu. C'est comme si le premier public d'un jeu était celui ciblé, enthousiaste, et donne une excellente moyenne à un jeu. Ensuite attirés par les bons commentaires, d'autres joueurs l'essaient, l'aiment moins et le notent, baissant ainsi la moyenne. Ce que j'aime de la moyenne bayesienne c'est qu'elle nous donne des mois à l'avance ce que la moyenne brute aura l'air lorsqu'il y aura plus de notes.

Par exemple, le 5 novembre 2005, Caylus avait à peine 31 notes. Sa moyenne brute était de 4,77 alors que sa moyenne bayesienne était de 4,52. Le 3 août 2007, la moyenne brute de ses 267 notes était de 4,58 soit tout près de ce que la moyenne bayesienne nous donnait il y a deux ans.

mattintheweb · Septembre 6, 2007, 5:58

Moi je suis pas un fan de classements, je les consulte quasi jamais, mais les graphiques, je les trouve bien pensés ; effectivement, la réalisation est pas optimale, mais je trouve qu'on réussit bien à voir les nuances entre moyenne et nombre d'avis...

nekotarie · Septembre 6, 2007, 6:31

Ok alors je me lance le dÃ©fi suivant.

Je prends 3 jeux aux profils d'avis trÃ¨s diffÃ©rents :

Yinsh
Tigre&Euphrate
Les loups-garous

Et j'essaye de fabriquer des 3 classements Bayes, 3 Finkel et 3 "modulation par le nombre d'avis" qui les donnent Ã chaque fois chacun leur tour 1er du classement.

tt-a591c296c9ef0a4de07abd2cc4aafd9e · Septembre 6, 2007, 10:24

Et sinon, ça intéresse quelqu'un mon classement par "paires classées" (ou méthode de Condorcet, ou encore de la Ligue de Football), donc ni Finkel, ni Bayes ni même moyenne d'ailleurs, dit "des Maîtres Pouics" ?

[edit]Explication rapide : http://vion.free.fr/toptt/index.php/200 ... classement

nekotarie · Septembre 7, 2007, 9:40

nekotarie dit:Ok alors je me lance le dÃ©fi suivant.

Défi relevé !

En mettant des paramètres Finkel, Bayes ou modulation par le nombre d'avis qui augmentent progressivement, on fait passer qui on veut au devant du classement :

-soit les jeux de niche à moyenne brute très élevées et peu d'avis (comme Yinsh)
-soit les jeux de compromis comme T&E
-soit les jeux beaucoup notés comme LoupsGarous

Je reste donc sur mon opinion que la question n'est pas tant de savoir quelle méthode est la meilleure que d'ajuster correctement le paramètre.

L'ajustement du paramètre gouverne dans toutes les méthodes l'importance qu'on donne au nombre d'avis, et il est clair que chacun de nous aura sa préférence à ce sujet, suivant son profil de joueur.

grolapinos · Septembre 7, 2007, 10:46

Merci nekotarie pour cette brillante démonstration de la stérilité totale des controverses sur les méthodes de classement. Voire de l'intérêt très relatif des classements en question. Il ne pouvait pas y en avoir de plus probante.

fadest · Septembre 7, 2007, 10:49

Et de toutes manières, tout le monde sait que le meilleur jeu, c'est Factory Fun

tt-a591c296c9ef0a4de07abd2cc4aafd9e · Septembre 7, 2007, 10:59

Attention quand même pour Bayes : mettre 1000 votes "artificiels" quand il n'y en a que 80 de "vrais" n'a pas beaucoup de sens. De fait, ce nombre de votes "artificiels" correspond aussi au nombre minimal de votes pour apparaître dans le classement. Donc si tu mets 238 en paramètre, seuls les LG apparaîtront.

Bon, sans vouloir radoter, dire que ces classements ont un intérêt "tout relatif", c'est sans doute vrai, mais l'intérêt est strictement le même que celui d'un TT d'or, d'un SDJ, d'un DSP, d'un As d'Or ou de tout autre prix dans lequel un vote quelconque intervient, que ce soit celui du public ou d'un jury. Ou même d'ailleurs de toute élection, y compris en politique, et les présidentielles de 2002 en furent un brillant exemple (ainsi que toute la polémique sur les sondages, sur les partis centristes et extrémistes, etc).

Dans tous les cas, on essaie d'établir un consensus de manière mathématique à partir de données chiffrées imprécises et incomplètes (je rappelle qu'un vote "à la française" consiste à mettre 5/5 à un candidat et 0/5 à tous les autres, ce qui peut sembler un poil aberrant). Il y a un prix nobel d'économie qui a prouvé qu'il était mathématiquement impossible de trouver une "bonne" méthode pour y parvenir, donc on fait avec les moyens du bord.

Bayes n'est pas la panacée, je le fais parce que j'aime bien jouer avec les chiffres, que j'aime les statistiques, que je suis un geek, et que c'est très proche de mon domaine de recherche scientifique (pour info, tout ça, c'est de l'IA). Les "paires classées", utilisées pour élire le prix du BGG mais aussi pour les élections politiques en Irlande (mais ça je ne le savais pas quand j'ai mis en place ce classement) sont une autre approche, qui a l'avantage de ne plus s'intéresser aux notes proprement dites, mais simplement sur le fait qu'une même personne préfère un jeu qu'elle a noté 5/5 qu'un autre qu'elle a noté 4/5.

nekotarie · Septembre 7, 2007, 3:32

Pour achever les considérations techniques :

Si on place tous les jeux dans le diagramme "moyenne brute/nombre d'avis", faire un classement prenant en compte ces deux paramètres correspond à tracer des lignes de niveau dans ce diagramme, un peu comme les lignes de niveau sur une carte donnant les altitudes.

Deux jeux auront la même note par la méthode "trucmuche" si ils sont sur la même ligne de niveau.

Par exemple dans la méthode "moyenne brute", les lignes de niveau sont tout simplement les lignes horizontales.

Dans la méthode "modulation par le nombre d'avis", ce sont des droites de pente négative.

Dans Bayes et Finkel, ce sont des courbes plus ou moins creusées (voir dessin) suivant la valeur du paramètre. En gros, plus les courbes sont creusées, plus on donne d'importance au fait d'être un bon compromis moyenne/nombre d'avis.

Voici un diagramme des formes des courbes. 2 jeux situés sur la même ligne de niveau auront la même note par telle ou telle méthode.

Pour faire mon petit jeu avec Yinsh, LG et E&T, j'ai joué sur le paramètre pour creuser plus ou moins les courbes et obtenir le résultat désiré.

nekotarie · Septembre 7, 2007, 3:42

scand1sk dit:
Attention quand même pour Bayes : mettre 1000 votes "artificiels" quand il n'y en a que 80 de "vrais" n'a pas beaucoup de sens. De fait, ce nombre de votes "artificiels" correspond aussi au nombre minimal de votes pour apparaître dans le classement.

Oui j'y ai pensé mais la correspondance (# de vote artificiels)=(# mini de vote) ne parait pas indispensable. Y-a-t-il une raison théorique à celà ?
Intuitivement le nombre de votes artificiels devrait même plutôt être le nombre typique moyen de votes exprimés sur les jeux qu'on classe. Donc si 15 est le nombre minimal pour être dans le classement, avec tes datas ça donne 60 comme nombre moyen de votes exprimés.

scand1sk dit:
Dans tous les cas, on essaie d'établir un consensus de manière mathématique à partir de données chiffrées imprécises et incomplètes

C'est un peu pour ça que je défend la carte bidimensionnelle plutot que le classement unidimensionnel !

scand1sk dit:
Bayes n'est pas la panacée, je le fais parce que j'aime bien jouer avec les chiffres, que j'aime les statistiques, que je suis un geek, et que c'est très proche de mon domaine de recherche scientifique (pour info, tout ça, c'est de l'IA).

Bah j'avoue, moi aussi j'ai un faible pour Bayes d'un point de vue théorique

. D'ailleurs puisque c'est ton jardin, est-ce que tu sais comment on démontre la formule ?

Intuitivement un truc genre maximisation sur x de la probabilité postérieure d'avoir la note x sachant les votes exprimés. Du coup je vois pas trop comment on introduit le paramètre magique ?

Et puis du coup ça suppose que les votes exprimés doivent être tirés uniformément dans les votes possibles, non ? ce qui est hautement non-vérifié dans TT où les joueurs légers ne vont pas évaluer Roads&Boats.

monsieur-phal · Septembre 7, 2007, 3:46

Cher Monsieur nekotarie,

nekotarie dit: ce qui est hautement non-vérifié dans TT où les joueurs légers ne vont pas évaluer Roads&Boats.

c'est compensé par le fait que les joueurs lourd vont massacrer les jeux léger non ?

Bien à vous de cordialement

Monsieur Phal

grolapinos · Septembre 7, 2007, 4:11

scand1sk dit:Bon, sans vouloir radoter, dire que ces classements ont un intérêt "tout relatif", c'est sans doute vrai, mais l'intérêt est strictement le même que celui d'un TT d'or, d'un SDJ, d'un DSP, d'un As d'Or ou de tout autre prix dans lequel un vote quelconque intervient, que ce soit celui du public ou d'un jury.

On est bien d'accord. "tout relatif" signifie pour moi que

1) chacun est libre d'y accorder de l'importance ou non

2) chacun cherchera à trouver la méthode de classement qui correspond le mieux à ses propres goûts.

La subjectivité du choix du classement n'atténue pas celle des notes : elle l'accentue.

tt-a591c296c9ef0a4de07abd2cc4aafd9e · Septembre 7, 2007, 4:44

nekotarie dit:Bah j'avoue, moi aussi j'ai un faible pour Bayes d'un point de vue théorique . D'ailleurs puisque c'est ton jardin, est-ce que tu sais comment on démontre la formule ?
Intuitivement un truc genre maximisation sur x de la probabilité postérieure d'avoir la note x sachant les votes exprimés. Du coup je vois pas trop comment on introduit le paramètre magique ?

Je ne pense pas que Bayes "se démontre". D'ailleurs en général sur les méthodes de choix social, le principe est de proposer une méthode, puis pour "chaque critère de validité" d'une méthode de choix social reconnue, on démontre si la méthode valide tel ou tel critère.

Par exemple, le critère de Condorcet veut que si un candidat est majoritairement préféré à tous les autres pris deux à deux (comme dans un tournoi, donc), alors il doit remporter le vote.
Un autre critère voudrait que quand on vote positivement pour un candidat, il ait plus de chances de remporter le vote.

Par exemple, les deux méthodes, Finkel et Bayes, ne vérifient pas ce critère. Si je prends deux jeux A et B, A a une moyenne brute de 3 et 9 avis, B a 3.01 et 10 avis. J'ai déjà mis 5/5 à B. Si je mets maintenant 4/5 à A, il risque de passer devant B au classement, alors que je l'aime moins que l'autre ! Je vais alors avoir tendance à "plomber" A avec une note sous-cotée. On voit ainsi régulièrement apparaître sur BGG des 1/10 destinés à "contrer l'effet de mode"...

Le problème ici avec les votes sur TricTrac, BGG ou autres, c'est que tous les joueurs ne s'expriment pas sur l'ensemble des candidats (des jeux), parce que personne n'a tout testé. Finkel et Bayes cherchent à prendre en compte le nombre d'avis pour limiter l'écart du à la forte hétérogénéité existant entre les votes sur les jeux.

Le principal défaut de la méthode Finkel, c'est que si un jeu a une moyenne positive (supérieure à 3), alors sa côte va tendre vers l'infini si le nombre d'avis tend vers l'infini. Si la moyenne est négative, la côte va tendre négativement vers l'infini. À terme si le nombre d'avis devient trop élevé, la note donnée n'a plus d'influence sur la côte du jeu, mais seulement une appréciation liée au nombre d'avis (positifs) sur le jeu. Une sorte d'applaudimètre, donc. Or, on peut justement supposer que le nombre d'avis va avoir tendance à tendre vers l'infini avec le temps, surtout si le jeu est très "populaire", éventuellement dans le mauvais sens du terme.

C'est ce genre de comportement "non pertinent" que les différentes méthodes de vote cherchent à gommer. Le "top Condorcet", par exemple, ne souffre pas de ces deux défauts.

tt-f98ccf3da4cf0609a0fc81f02b09ec0f · Septembre 10, 2007, 5:02

Merci pour ta démonstration Nekotarie, tu as dû faire beaucoup de travail pour cela. Cela illustre qu’on peut modifier le paramètre de Finkel pour que celui-ci ne joue plus aucun rôle ou presque, au point qu’uniquement la moyenne brute déterminera le classement. Un peu comme si on faisait une moyenne de Bayes avec 1 ou 2 avis fictif au lieu d’en avoir 10 ou 15.

Lorsque tu utilises Finkel10000 tu ne fais qu’ajouter 0,01 à la moyenne brute de Yinsh, 0,04 à la moyenne brute de Tigre et Euphrate et 0,05 à la moyenne brute des Loups-Garous. Si bien que le classement est le même que si tu avais utilisé celui de la moyenne brute.

Pour les trois jeux que tu as choisis, cela donne le même classement que Bayes15. Cependant, tu remarqueras que pour Bayes15 l’ajustement à la moyenne est plus significatif : l’ajustement pour Yinsh est de 0,15 enlevé à la moyenne brute, pour Tigre et Euphrate 0,09 est enlevé à la moyenne et pour les Loups-Garous c’est 0,02. Ce qui me fait douter qu’un classement de Bayes15 serait le même que Finkel10000 si tu prenais disons les 100 jeux avec les meilleurs moyennes ayant plus de 15 avis, au lieu d’en choisir seulement trois.

nekotarie · Septembre 10, 2007, 9:43

Non pas tant de travail que ça

Oui c'est clair qu'avec un paramètre bayes ou finkel très faible, on tend vers le classement moyenne brute, inversement avec un paramètre très fort, on tend vers le classement privilégiant le nombre d'avis !

Ce qu'il faut retenir à mon avis c'est que bayes ou finkel (ou modulation par avis) ne sont que trois méthodes pour essayer de noter un compromis entre moyenne brute et nombre d'avis.

Avant, je faisais des classements moyenne brute avec X avis au minimum, maintenant, je regarde ma carte bidimensionelle pour voir les jeux auquels il faudrait peut être que je m'intéresse.

Par contre je n'arrive toujours pas à démontrer Bayes, sauf à conclure que le paramètre vaut nécessairement 1...

grolapinos · Septembre 10, 2007, 10:25

Qu'entends-tu par "démontrer" ?

nekotarie · Septembre 11, 2007, 7:02

grolapinos dit:Qu'entends-tu par "démontrer" ?

"Définir" serait peut être plus exact.

Il me semble cette formule puisse avoir une justification mathématique, associée à un sens mathématique précis, assorti d'hypothèses.

Si tu m'autorise à rentrer dans les aspects techniques...:

On imagine que chaque jeu possède une note "objective" X qui correspond à la moyenne des votes qu'il recevrait si tout le monde votait (par "tout le monde", tu entends soit l'ensemble de la population, des joueurs, des TTiens, etc.)

Maintenant on ne connait pas cette note X, on ne connait que des votes V1, V2, ...,Vn (je note ça V pour raccourcir).

On prend donc un jeu. On connait V, on cherche X. Pour chaque X possible (de 1 à 5), on peut se demander la probabilité qu'il soit le bon X, sachant qu'il a reçu les votes V. En proba conditionnelle on note ça P(X|V) qui se lit "proba de X sachant V". Ensuite on décide que le X qu'on va estimer être le bon sera celui ayant la probabilité la plus élevée. Intuitivement par exemple si les V sont tous des 1/5, la proba que X soit 4.8/5 va être assez faible.

Donc on cherche le X qui maximise P(X|V).

C'est là que l'ami Bayes intervient ! Bayes a dit

P(X|V)=P(V|X)*P(X)/P(V) (amen)

Je passe les détails, on peut attaquer notre calcul de maximisation de P(X|V) avec cette formule.

En faisant ça et quelques hypothèses, je trouve la moyenne bayésienne mais avec un paramètre qui vaut forcément 1.

Bon j'arrête

grolapinos · Septembre 11, 2007, 4:26

La suite en message privé, ça nous évitera de faire des maths sur le forum