À propos du test du Khi carré

IL existe plusieurs applications ou pages Internet permettant de caculer un khi carré et tester l'hypothèse d'indépendance entre deux phénomènes. Malheureusement, le calcul automatique n'envisage pas les conditions de validité d'un tel test. Cette page tente d'expliquer la problématique et propose un outil pour réaliser ce test dans de bonnes conditions.

En cours au 2020.10.12

Imaginons que vous doutiez d'un dé à jouer, qui à votre avis favorise un nombre plutôt qu'un autre. Vous le lancez un nombre déterminé de fois (ici, 60) et vous notez à chaque fois le résultat.

Valeurs:123456Tot.
Occurrences:15118117860

Le test du Khi carré permet de tester si la différence entre les résultats d'une expérience avec ce que l'on attend du hasard reste dans des proportions acceptables.

A priori, un dé à six faces sort chaque chiffre un sixième des fois où il est jeté:

Valeurs:123456
Occurrences:101010101010

C'est à ce tableau théorique que nous allons comparer chaque case des effectifs réels, c'est-à-dire issus d'une expérience. Chaque effectif réel sera soustrait de l'effectif théorique, cette différence étant élevée au carré et divisée par l'effectif théorique: (Réel - Théorique)^² / Théorique.

Valeurs:123456
Occurrences:5*5
10 
1*1
10 
2*2
10 
1*1
10 
3*3
10 
2*2
10 

 

Valeurs:123456
Occurrences:2,50,10,40,10,90,4

L'addition de ces six valeurs donne 4,4, qui représente un écart entre les données de l'expérience et ce que la théorie prédit. On fait l'hypothèse nulle d'indépendance (H0): les dés ne sont pas truqués. Plus le résultat du calcul du khi carré est grand, et plus l'expérience contredit le fait que les dés se comportent normalement. La confrontation fait intervenir deux paramètres: le degré de liberté et la marge d'erreur tolérable du test.

Si l'on appelle n le nombre de cas possibles (les faces du dé), le degré de liberté est de n - 1.

La marge d'erreur, appelée α, est à choisir a priori. Dans les sciences humaines, on choisit volontiers 0,05 (5%). Une plus grande certitude serait 0,001 (1 ‰), mais le résultat obtenu risque de ne pas permettre de rejeter l'hypothèse nulle.

Il suffit alors de consulter le tableau suivant: si le résultat du calcul est supérieur au nombre inscrit à la ligne du degré de liberté et à la marge d'erreur choisie, on peut rejeter l'hypothèse nulle: l'écart est trop grand entre les effectifs réels et théoriques, et le dé ne s'est pas comporté de façon naturelle.

En l'occurrence, 4,4 étant plus petit que 11,07 (5 degrés de liberté, marge d'erreur de 5%), on ne peut remettre en cause l'équilibrage du dé.

° libertéα=0,100α=0,050α=0,025α=0,020α=0,010α=0,005α=0,002α=0,001
12,713,845,025,416,647,889,5510,83
24,615,997,387,829,2110,6012,4313,82
36,257,829,359,8411,3512,8414,8016,27
47,789,4911,1411,6713,2814,8616,9218,47
59,2411,0712,8313,3915,0916,7518,9120,52
610,6512,5914,4515,0316,8118,5520,7922,46
712,0214,0716,0116,6218,4820,2822,6024,32
813,3615,5117,5418,1720,0921,9624,3526,12
914,6816,9219,0219,6821,6723,5926,0627,88
1015,9918,3120,4821,1623,2125,1927,7229,59
1117,2819,6821,9222,6224,7326,7629,3531,26
1218,5521,0323,3424,0526,2228,3030,9632,91
1319,8122,3624,7425,4727,6929,8232,5434,53
1421,0623,6926,1226,8729,1431,3234,0936,12
1522,3125,0027,4928,2630,5832,8035,6337,70
1623,5426,3028,8529,6332,0034,2737,1539,25
1724,7727,5930,1931,0033,4135,7238,6540,79
1825,9928,8731,5332,3534,8137,1640,1442,31
1927,2030,1432,8533,6936,1938,5841,6143,82
2028,4131,4134,1735,0237,5740,0043,0745,32
2129,6232,6735,4836,3438,9341,4044,5246,80
2230,8133,9236,7837,6640,2942,8045,9648,27
2332,0135,1738,0839,0041,6444,1847,3949,73
2433,2036,4239,3640,2742,9845,5648,8151,18

Tableaux bidimensionnels

Les tableaux bidimensionnels rendent compte d'observations où deux variables sont croisées.

Effectifs – 3535-5050 +
Fumeur3115
Non-Fum.749

Un exemple rendra les choses plus claires. Supposons que l'on dispose des résultats d'une enquête croisant l'âge et l'habitude de fumer et que l'on s'interroge la dépendance entre l'âge et la consommation de tabac. Les âges, assez disparates, sont regroupés en trois classes: en dessous de 35 ans, de 35 à 50, et au delà de 50.

Les effectifs réels

Effectifs Col1Col2Col3
Ligne1311519
Ligne274920
10151439

Ce premier tableau s'appelle le tableau des effectifs réels, Nous disposons de plusieurs nombres et de leurs sommes selon les rangées et selon les colonnes. Il y a 19 fumeurs pour 20 non fumeurs, et les trois classes d'âges comptent successivement 10, 15 et 14 individus, pour un total de 39 individus.

La première condition pour que le test soit considéré comme valable est que le nombre total des individus soit d'au moins 30.

Les effectifs théoriques

La seconde étape est d'imaginer un tableau d'effectifs théoriques compte tenu des proportions de fumeur dans chacune des classes d'âges. Il suffit pour cela de croiser les totaux, la première cellule étant Col1 × Ligne1 / Total, soit 10 × 19 / 39, soit 4,87 (arrondi).

Théor. Col1Col2Col3
Ligne14,877,316,8219
Ligne25,137,697,1820
10151439

Ce second tableau, dont il n'est (quasi) jamais question dans les applications ou pages Internet calculant le khi carré est pourtant important: il suffit qu'une des cellules ait un effectif théorique inférieur à l'unité pour rendre le test caduc. Par ailleurs, ce tableau doit comporter moins de 20% des cellules affichant moins de 5. Dans notre cas, seule la cellule en haut à gauche est dans le cas, soit une sur six (=16,67%), elle ne pose donc pas de problème.

Les distances entre effectifs réels et théoriques

On calcule ensuite pour chaque cellule la différence au carré entre chaque effectif réel et chaque effectif théorique, divisé par l'effectif théorique: (Reel - Theor)² / Theor.

DistancesCol1Col2Col3
Ligne10,721,870,49
Ligne20,681,770,46

La somme des cellules du tableau est le nombre recherché, 5,99 en l'occurrence. Ce chiffre sera à comparer avec une abaque selon le degré de confiance et le nombre de cellules.

Degré de liberté et de confiance

Le degré de confiance est le pourcentage de certitude. On décide a priori (pour 95%, α=0.05 ; pour 99%, α=0.01...)

Le nombre de rangées et de colonnes détermine le degré de liberté, qui s'obtient en multipliant le nombre de colonnes diminué de 1 par le nombre de lignes diminué de 1: dans notre cas: (3-1)(2-1)=2.

L'hypothèse d'indépendance, appelée hypothèse 0 (ho), sera invalidée si le nombre obtenu est supérieur au nombre déterminé par la ligne du degré de liberté et la colonne de l'erreur admissible α.

Pour un degré de liberté de 2, en se contentant d'une probabilité d'erreur admissible de 0,05, l'hypothèse zéro est rejetée de justesse: il y a donc forte suspicion de relation entre l'âge et la consommation de tabac. Pour une plus grande certitude, on aurait pu décider d'une moins grande probabilité d'erreur admissible, mais on n'aurait dans ce cas pas pu rejeter l'hypothèse d'indépendance.

α = probabilité d'erreur admissible
°lib0,1000,0500,0250,0200,0100,0050,0020,001
12,713,845,025,416,647,889,5510,83
24,615,997,387,829,2110,6012,4313,82
36,257,829,359,8411,3512,8414,8016,27
47,789,4911,1411,6713,2814,8616,9218,47
59,2411,0712,8313,3915,0916,7518,9120,52
610,6512,5914,4515,0316,8118,5520,7922,46
712,0214,0716,0116,6218,4820,2822,6024,32
813,3615,5117,5418,1720,0921,9624,3526,12
914,6816,9219,0219,6821,6723,5926,0627,88
1015,9918,3120,4821,1623,2125,1927,7229,59
1117,2819,6821,9222,6224,7326,7629,3531,26
1218,5521,0323,3424,0526,2228,3030,9632,91
1319,8122,3624,7425,4727,6929,8232,5434,53
1421,0623,6926,1226,8729,1431,3234,0936,12
1522,3125,0027,4928,2630,5832,8035,6337,70
1623,5426,3028,8529,6332,0034,2737,1539,25

Outil disponible

Voici une feuille de calcul permettant de calculer un khi carré et de rejeter l'hypothèse d'indépendance pour une distribution sous forme de tableau allant jusqu'à 15 × 12. L'attention est attirée sur trois conditions de validité.

Version sur une rangée (nouveau au 2020.10.12):