À propos du test du Khi carré

I

L existe plusieurs applications ou pages Internet permettant de caculer un khi carré et tester l'hypothèse d'indépendance entre deux phénomènes. Malheureusement, le calcul automatique n'envisage pas les conditions de validité d'un tel test. Cette page tente d'expliquer la problématique et propose un outil pour réaliser ce test dans de bonnes conditions.

Rédaction en cours 2019.12.09

Effectifs – 3535-5050 +
Fumeur3115
Non-Fum.749

Un exemple rendra les choses plus claires. Supposons que l'on dispose des résultats d'une enquête croisant l'âge et l'habitude de fumer et que l'on s'interroge la dépendance entre l'âge et la consommation de tabac. Les âges, assez disparates, sont regroupés en trois classes: en dessous de 35 ans, de 35 à 50, et au delà de 50.

Les effectifs réels

Effectifs Col1Col2Col3
Ligne1311519
Ligne274920
10151439

Ce premier tableau s'appelle le tableau des effectifs réels, Nous disposons de plusieurs nombres et de leurs sommes selon les rangées et selon les colonnes. Il y a 19 fumeurs pour 20 non fumeurs, et les trois classes d'âges comptent successivement 10, 15 et 14 individus, pour un total de 39 individus.

La première condition pour que le test soit considéré comme valable est que le total des individus soit d'au moins 30.

Les effectifs théoriques

La seconde étape est d'imaginer un tableau d'effectifs théoriques compte tenu des proportions de fumeur dans chacune des classes d'âges. Il suffit pour cela de croiser les totaux, la première cellule étant Col1 × Ligne1 / Total, soit 10 × 19 / 39, soit 4,87 (arrondi).

Théor. Col1Col2Col3
Ligne14,877,316,8219
Ligne25,137,697,1820
10151439

Ce second tableau, dont il n'est (quasi) jamais question dans les applications ou pages Internet calculant le khi carré est pourtant important: il suffit qu'une des cellules ait un effectif théorique inférieur à l'unité rendre le test caduc. Par ailleurs, ce tableau doit comporter moins de 20% des cellules affichant moins de 5. Dans notre cas, seule la cellule en haut à gauche est dans le cas, soit une sur six (=16,67%), elle ne pose donc pas de problème.

Les distances entre effectifs réels et théoriques

On calcule ensuite pour chaque cellule la différence au carré entre chaque effectif réel et chaque effectif théorique, divisé par l'effectif théorique: (Eff - Theor)² / Theor.

DistancesCol1Col2Col3
Ligne10,721,870,49
Ligne20,681,770,46

La somme des cellules du tableau est le nombre recherché, 5,99 en l'occurrence. Ce chiffre sera à comparer avec une abaque selon le degré de confiance et le nombre de cellules.

Degré de liberté et de confiance

Le degré de confiance est le pourcentage de certitude. On décide a priori (pour 95%, α=0.05 ; pour 99%, α=0.01...)

Le nombre de rangées et de colonnes détermine le degré de liberté, qui s'obtient en multipliant le nombre de colonnes diminué de 1 par le nombre de lignes diminué de 1: dans notre cas: (3-1)(2-1)=2.

L'hypothèse d'indépendance, appelée hypothèse 0 (ho), sera invalidée si le nombre obtenu est supérieur au nombre déterminé par la ligne du degré de liberté et la colonne de l'erreur admissible α.

Pour un degré de liberté de 2, en se contentant d'une probabilité d'erreur admissible de 0,05, l'hypothèse zéro est rejetée de justesse: il y a donc forte suspicion de relation entre l'âge et la consommation de tabac. Pour une plus grande certitude, on aurait pu décider d'une moins grande probabilité d'erreur admissible, mais on n'aurait dans ce cas pas pu rejeter l'hypothèse d'indépendance.

α = probabilité d'erreur admissible
°lib0,1000,0500,0250,0200,0100,0050,0020,001
12,713,845,025,416,647,889,5510,83
24,615,997,387,829,2110,6012,4313,82
36,257,829,359,8411,3512,8414,8016,27
47,789,4911,1411,6713,2814,8616,9218,47
59,2411,0712,8313,3915,0916,7518,9120,52
610,6512,5914,4515,0316,8118,5520,7922,46
712,0214,0716,0116,6218,4820,2822,6024,32
813,3615,5117,5418,1720,0921,9624,3526,12
914,6816,9219,0219,6821,6723,5926,0627,88
1015,9918,3120,4821,1623,2125,1927,7229,59
1117,2819,6821,9222,6224,7326,7629,3531,26
1218,5521,0323,3424,0526,2228,3030,9632,91
1319,8122,3624,7425,4727,6929,8232,5434,53
1421,0623,6926,1226,8729,1431,3234,0936,12
1522,3125,0027,4928,2630,5832,8035,6337,70
1623,5426,3028,8529,6332,0034,2737,1539,25

Outil disponible

Voici une feuille de calcul permettant de calculer un khi carré et de rejeter l'hypothèse d'indépendance pour une distribution sous forme de tableau allant jusqu'à 15 × 12. L'attention est attirée sur les trois conditions de validité.