À propos du test du Khi carré
IL existe plusieurs applications ou pages Internet permettant de caculer un khi carré et tester l'hypothèse d'indépendance entre deux phénomènes. Malheureusement, le calcul automatique n'envisage pas les conditions de validité d'un tel test. Cette page tente d'expliquer la problématique et propose un outil pour réaliser ce test dans de bonnes conditions.
En cours au 2020.10.12
Imaginons que vous doutiez d'un dé à jouer, qui à votre avis favorise un nombre plutôt qu'un autre. Vous le lancez un nombre déterminé de fois (ici, 60) et vous notez à chaque fois le résultat.
Valeurs: | 1 | 2 | 3 | 4 | 5 | 6 | Tot. |
---|---|---|---|---|---|---|---|
Occurrences: | 15 | 11 | 8 | 11 | 7 | 8 | 60 |
Le test du Khi carré permet de tester si la différence entre les résultats d'une expérience avec ce que l'on attend du hasard reste dans des proportions acceptables.
A priori, un dé à six faces sort chaque chiffre un sixième des fois où il est jeté:
Valeurs: | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
Occurrences: | 10 | 10 | 10 | 10 | 10 | 10 |
C'est à ce tableau théorique que nous allons comparer chaque case des effectifs réels, c'est-à-dire issus d'une expérience. Chaque effectif réel sera soustrait de l'effectif théorique, cette différence étant élevée au carré et divisée par l'effectif théorique: (Réel - Théorique)^² / Théorique.
Valeurs: | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
Occurrences: | 5*5 10 | 1*1 10 | 2*2 10 | 1*1 10 | 3*3 10 | 2*2 10 |
Valeurs: | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
Occurrences: | 2,5 | 0,1 | 0,4 | 0,1 | 0,9 | 0,4 |
L'addition de ces six valeurs donne 4,4, qui représente un écart entre les données de l'expérience et ce que la théorie prédit. On fait l'hypothèse nulle d'indépendance (H0): les dés ne sont pas truqués. Plus le résultat du calcul du khi carré est grand, et plus l'expérience contredit le fait que les dés se comportent normalement. La confrontation fait intervenir deux paramètres: le degré de liberté et la marge d'erreur tolérable du test.
Si l'on appelle n le nombre de cas possibles (les faces du dé), le degré de liberté est de n - 1.
La marge d'erreur, appelée α, est à choisir a priori. Dans les sciences humaines, on choisit volontiers 0,05 (5%). Une plus grande certitude serait 0,001 (1 ‰), mais le résultat obtenu risque de ne pas permettre de rejeter l'hypothèse nulle.
Il suffit alors de consulter le tableau suivant: si le résultat du calcul est supérieur au nombre inscrit à la ligne du degré de liberté et à la marge d'erreur choisie, on peut rejeter l'hypothèse nulle: l'écart est trop grand entre les effectifs réels et théoriques, et le dé ne s'est pas comporté de façon naturelle.
En l'occurrence, 4,4 étant plus petit que 11,07 (5 degrés de liberté, marge d'erreur de 5%), on ne peut remettre en cause l'équilibrage du dé.
° liberté | α=0,100 | α=0,050 | α=0,025 | α=0,020 | α=0,010 | α=0,005 | α=0,002 | α=0,001 |
---|---|---|---|---|---|---|---|---|
1 | 2,71 | 3,84 | 5,02 | 5,41 | 6,64 | 7,88 | 9,55 | 10,83 |
2 | 4,61 | 5,99 | 7,38 | 7,82 | 9,21 | 10,60 | 12,43 | 13,82 |
3 | 6,25 | 7,82 | 9,35 | 9,84 | 11,35 | 12,84 | 14,80 | 16,27 |
4 | 7,78 | 9,49 | 11,14 | 11,67 | 13,28 | 14,86 | 16,92 | 18,47 |
5 | 9,24 | 11,07 | 12,83 | 13,39 | 15,09 | 16,75 | 18,91 | 20,52 |
6 | 10,65 | 12,59 | 14,45 | 15,03 | 16,81 | 18,55 | 20,79 | 22,46 |
7 | 12,02 | 14,07 | 16,01 | 16,62 | 18,48 | 20,28 | 22,60 | 24,32 |
8 | 13,36 | 15,51 | 17,54 | 18,17 | 20,09 | 21,96 | 24,35 | 26,12 |
9 | 14,68 | 16,92 | 19,02 | 19,68 | 21,67 | 23,59 | 26,06 | 27,88 |
10 | 15,99 | 18,31 | 20,48 | 21,16 | 23,21 | 25,19 | 27,72 | 29,59 |
11 | 17,28 | 19,68 | 21,92 | 22,62 | 24,73 | 26,76 | 29,35 | 31,26 |
12 | 18,55 | 21,03 | 23,34 | 24,05 | 26,22 | 28,30 | 30,96 | 32,91 |
13 | 19,81 | 22,36 | 24,74 | 25,47 | 27,69 | 29,82 | 32,54 | 34,53 |
14 | 21,06 | 23,69 | 26,12 | 26,87 | 29,14 | 31,32 | 34,09 | 36,12 |
15 | 22,31 | 25,00 | 27,49 | 28,26 | 30,58 | 32,80 | 35,63 | 37,70 |
16 | 23,54 | 26,30 | 28,85 | 29,63 | 32,00 | 34,27 | 37,15 | 39,25 |
17 | 24,77 | 27,59 | 30,19 | 31,00 | 33,41 | 35,72 | 38,65 | 40,79 |
18 | 25,99 | 28,87 | 31,53 | 32,35 | 34,81 | 37,16 | 40,14 | 42,31 |
19 | 27,20 | 30,14 | 32,85 | 33,69 | 36,19 | 38,58 | 41,61 | 43,82 |
20 | 28,41 | 31,41 | 34,17 | 35,02 | 37,57 | 40,00 | 43,07 | 45,32 |
21 | 29,62 | 32,67 | 35,48 | 36,34 | 38,93 | 41,40 | 44,52 | 46,80 |
22 | 30,81 | 33,92 | 36,78 | 37,66 | 40,29 | 42,80 | 45,96 | 48,27 |
23 | 32,01 | 35,17 | 38,08 | 39,00 | 41,64 | 44,18 | 47,39 | 49,73 |
24 | 33,20 | 36,42 | 39,36 | 40,27 | 42,98 | 45,56 | 48,81 | 51,18 |
Tableaux bidimensionnels
Les tableaux bidimensionnels rendent compte d'observations où deux variables sont croisées.
Effectifs | – 35 | 35-50 | 50 + |
---|---|---|---|
Fumeur | 3 | 11 | 5 |
Non-Fum. | 7 | 4 | 9 |
Un exemple rendra les choses plus claires. Supposons que l'on dispose des résultats d'une enquête croisant l'âge et l'habitude de fumer et que l'on s'interroge la dépendance entre l'âge et la consommation de tabac. Les âges, assez disparates, sont regroupés en trois classes: en dessous de 35 ans, de 35 à 50, et au delà de 50.
Les effectifs réels
Effectifs | Col1 | Col2 | Col3 | |
---|---|---|---|---|
Ligne1 | 3 | 11 | 5 | 19 |
Ligne2 | 7 | 4 | 9 | 20 |
10 | 15 | 14 | 39 |
Ce premier tableau s'appelle le tableau des effectifs réels, Nous disposons de plusieurs nombres et de leurs sommes selon les rangées et selon les colonnes. Il y a 19 fumeurs pour 20 non fumeurs, et les trois classes d'âges comptent successivement 10, 15 et 14 individus, pour un total de 39 individus.
La première condition pour que le test soit considéré comme valable est que le nombre total des individus soit d'au moins 30.
Les effectifs théoriques
La seconde étape est d'imaginer un tableau d'effectifs théoriques compte tenu des proportions de fumeur dans chacune des classes d'âges. Il suffit pour cela de croiser les totaux, la première cellule étant Col1 × Ligne1 / Total, soit 10 × 19 / 39, soit 4,87 (arrondi).
Théor. | Col1 | Col2 | Col3 | |
---|---|---|---|---|
Ligne1 | 4,87 | 7,31 | 6,82 | 19 |
Ligne2 | 5,13 | 7,69 | 7,18 | 20 |
10 | 15 | 14 | 39 |
Ce second tableau, dont il n'est (quasi) jamais question dans les applications ou pages Internet calculant le khi carré est pourtant important: il suffit qu'une des cellules ait un effectif théorique inférieur à l'unité pour rendre le test caduc. Par ailleurs, ce tableau doit comporter moins de 20% des cellules affichant moins de 5. Dans notre cas, seule la cellule en haut à gauche est dans le cas, soit une sur six (=16,67%), elle ne pose donc pas de problème.
Les distances entre effectifs réels et théoriques
On calcule ensuite pour chaque cellule la différence au carré entre chaque effectif réel et chaque effectif théorique, divisé par l'effectif théorique: (Reel - Theor)² / Theor.
Distances | Col1 | Col2 | Col3 |
---|---|---|---|
Ligne1 | 0,72 | 1,87 | 0,49 |
Ligne2 | 0,68 | 1,77 | 0,46 |
La somme des cellules du tableau est le nombre recherché, 5,99 en l'occurrence. Ce chiffre sera à comparer avec une abaque selon le degré de confiance et le nombre de cellules.
Degré de liberté et de confiance
Le degré de confiance est le pourcentage de certitude. On décide a priori (pour 95%, α=0.05 ; pour 99%, α=0.01…)
Le nombre de rangées et de colonnes détermine le degré de liberté, qui s'obtient en multipliant le nombre de colonnes diminué de 1 par le nombre de lignes diminué de 1: dans notre cas: (3-1)(2-1)=2.
L'hypothèse d'indépendance, appelée hypothèse 0 (ho), sera invalidée si le nombre obtenu est supérieur au nombre déterminé par la ligne du degré de liberté et la colonne de l'erreur admissible α.
Pour un degré de liberté de 2, en se contentant d'une probabilité d'erreur admissible de 0,05, l'hypothèse zéro est rejetée de justesse: il y a donc forte suspicion de relation entre l'âge et la consommation de tabac. Pour une plus grande certitude, on aurait pu décider d'une moins grande probabilité d'erreur admissible, mais on n'aurait dans ce cas pas pu rejeter l'hypothèse d'indépendance.
α = probabilité d'erreur admissible | |||||||||
---|---|---|---|---|---|---|---|---|---|
°lib | 0,100 | 0,050 | 0,025 | 0,020 | 0,010 | 0,005 | 0,002 | 0,001 | |
1 | 2,71 | 3,84 | 5,02 | 5,41 | 6,64 | 7,88 | 9,55 | 10,83 | |
2 | 4,61 | 5,99 | 7,38 | 7,82 | 9,21 | 10,60 | 12,43 | 13,82 | |
3 | 6,25 | 7,82 | 9,35 | 9,84 | 11,35 | 12,84 | 14,80 | 16,27 | |
4 | 7,78 | 9,49 | 11,14 | 11,67 | 13,28 | 14,86 | 16,92 | 18,47 | |
5 | 9,24 | 11,07 | 12,83 | 13,39 | 15,09 | 16,75 | 18,91 | 20,52 | |
6 | 10,65 | 12,59 | 14,45 | 15,03 | 16,81 | 18,55 | 20,79 | 22,46 | |
7 | 12,02 | 14,07 | 16,01 | 16,62 | 18,48 | 20,28 | 22,60 | 24,32 | |
8 | 13,36 | 15,51 | 17,54 | 18,17 | 20,09 | 21,96 | 24,35 | 26,12 | |
9 | 14,68 | 16,92 | 19,02 | 19,68 | 21,67 | 23,59 | 26,06 | 27,88 | |
10 | 15,99 | 18,31 | 20,48 | 21,16 | 23,21 | 25,19 | 27,72 | 29,59 | |
11 | 17,28 | 19,68 | 21,92 | 22,62 | 24,73 | 26,76 | 29,35 | 31,26 | |
12 | 18,55 | 21,03 | 23,34 | 24,05 | 26,22 | 28,30 | 30,96 | 32,91 | |
13 | 19,81 | 22,36 | 24,74 | 25,47 | 27,69 | 29,82 | 32,54 | 34,53 | |
14 | 21,06 | 23,69 | 26,12 | 26,87 | 29,14 | 31,32 | 34,09 | 36,12 | |
15 | 22,31 | 25,00 | 27,49 | 28,26 | 30,58 | 32,80 | 35,63 | 37,70 | |
16 | 23,54 | 26,30 | 28,85 | 29,63 | 32,00 | 34,27 | 37,15 | 39,25 |
Outil disponible
Voici une feuille de calcul permettant de calculer un khi carré et de rejeter l'hypothèse d'indépendance pour une distribution sous forme de tableau allant jusqu'à 15 × 12. L'attention est attirée sur trois conditions de validité.
- khicarre15x12.ods (LibreOffice)
- khicarre15x12.xlsx (Microsoft)
Version sur une rangée (nouveau au 2020.10.12):
- khicarre1rangee.ods (LibreOffice)
- khicarre1range.xlsx (Microsoft)