Tests de QI : l’étendue des scores

Cette page aborde un aspect technique des tests de QI : l’étendue couverte par les scores et les conséquences de la façon dont les scores se combinent.
Pour une introduction au fonctionnement des scores de QI, voir cette page.

L’étendue théorique des notes

Un test de QI de la famille des échelles de Wechsler est composé d’exercices, appelés subtests. Les scores des subtests vont de 1 à 19, avec une moyenne de 10 et un écart-type de 3 : ils permettent donc de distinguer 19 niveaux seulement, et de couvrir de -3 à +3 écarts-types. Le nombre restreint de niveaux s’explique par la nécessité de limiter le temps nécessaire à la passation, donc le nombre d’items que l’on peut présenter.

Les scores de subtests sont ensuite regroupées en notes dites composites (indices, QIT, IAG). Ces notes bénéficient d’une granularité plus fine. Pour le QIT et l’IAG, les scores s’étalent de -4 à +4 écarts-types, avec 121 niveaux, soit des notes allant de 40 à 160.

Ci-dessous sont reprises les caractéristiques des notes dans la WAIS-IV :

Type de note Moyenne (m) Ecart-type (σ) m + 2 × σ Min-Max
Subtest 10 3 16 1-19
Indice (regroupe 2 ou 3 subtests) 100 15 130 50-150
QIT (10 subtests), IAG (6 subtests) 100 15 130 40-160

Le plus grand étalement possible des notes, pour les indices par rapport aux subtests, puis pour le QIT et l’IAG par rapport aux indices, s’explique par le fait que ces notes sont le reflet d’une rareté d’obtention. Or, il est plus rare d’obtenir un score élevé à plusieurs subtests simultanément qu’à un seul des subtests composant un indice. Le calcul d’un indice étant basé sur la somme des scores des 2 ou 3 subtests qui le composent, il est donc possible d’atteindre, pour les indices, des degrés de rareté plus élevés que pour un subtest seul. De même, le QIT étant basé sur la somme des scores des 10 subtests principaux, il peut atteindre des degrés de rareté encore plus extrêmes : 4 écarts-types, contre 3 pour les subtests.

Un QI supérieur aux indices ?

Lorsque les scores à un test de QI sont éloignés de la moyenne, on observe un phénomène qui peut dérouter : les notes composites (indices, QI), sont alors plus extrêmes que les scores des subtests. On peut ainsi obtenir un QIT supérieur aux indices, ou un indice supérieur à 130, alors que les subtests ne sont pas supérieurs à 16.

Ce phénomène découle du fait que les notes composites ne sont pas de simples moyennes des éléments qui les composent. Pour les obtenir, on somme les notes des subtests correspondants, puis on convertit le total obtenu en fonction de la rareté de son obtention dans la population.

En conséquence, le phénomène, expliqué ci-dessus, du plus important des degrés de rareté atteint quand on combine de bonnes notes à plusieurs subtests, explique aussi pourquoi il est possible d’avoir un indice à 130 (2 écarts-types) alors qu’aucun subtest n’atteint 2 écarts-types (16). Pour prendre une image sportive, le gagnant du triathlon n’est pas forcément le meilleur dans chaque discipline, mais il est très bon partout, donc le meilleur au total, quand on regroupe les disciplines ensemble.

De fait, dans la WAIS-IV, un QIT de 130 correspond à une moyenne aux subtests de 14,1.
Un QIT à 145 (3 écarts-types) correspond à une moyenne de 16,1.

Moyenne aux subtests ICV IRP IMT IVT QIT
14 124 124 123 123 129
15 129 130 128 129 136
16 135 136 134 134 144

L’effet plafond

L’effet plafond est le fait qu’un test ne permet pas de distinguer les sujets les uns des autres au-dessus d’une certaine performance. Lorsqu’une personne atteint le score maximal, on ne peut en effet pas savoir si la personne a atteint sa limite ou si elle aurait pu répondre à des items plus difficiles encore.

Dans la WAIS-IV, l’effet plafond n’est a priori pas problématique pour la détection du haut potentiel intellectuel, car on le situe à 2 écarts-types au-dessus de la moyenne. Or, les subtests évaluent jusqu’à 3 écarts-types et le QIT 4 écarts-types. L’effet plafond peut toutefois faire baisser les scores composites des personnes qui plafonnent à un ou des subtests, car elles ne reçoivent alors pas les points supplémentaires qui devraient correspondre à leurs capacités. Le total des scores s’en trouve alors sous-estimé.

Par ailleurs, dans la WAIS-IV, alors que les scores des subtests vont en théorie jusqu’à 19, il est possible, alors que l’on a réussi tous les items d’un subtest, d’obtenir un score inférieur à 19. Pourquoi ?

La WAIS-IV permet, avec un seul test, d’évaluer l’efficience de personnes de 16 à 80 ans. Or, l’efficience de certaines fonctions cognitives varie avec l’âge. Par exemple, amélioration jusque vers 20-30 ans, puis déclin. Cette variation est compensée, dans la notation, par le fait que chaque individu est comparé à un échantillon d’individus de la même tranche d’âge (11 tranches en tout).

Mais, de ce fait, certains subtests deviennent trop faciles pour les tranches d’âge les plus performantes : trop de monde réussit tous les items, et les notes supérieures ne peuvent donc pas être attribuées. Pour pouvoir discriminer plus finement les performances élevées, il faudrait que les concepteurs du test ajoutent des items difficiles. En attendant cette éventualité, des limites sont présentes.

Le tableau ci-dessous indique, pour chaque tranche d’âge et en cas de plafond uniquement, la note maximale possible, ainsi que la note avec une erreur (entre parenthèses).

Âge 16-17 18-19 20-24 25-29 30-34 35-44 45-54 55-64 65-69 70-74 75-79
Cubes 18 18 18 18
Matrices 18 (16) 18 (16) 17 (16) 17 (15) 17 (15) 17 (15) 17 (15) 18 (16) 19 (17) 19 (18) 19 (18)
Arithmétique 18 (17) 17 (16) 16 (15) 16 (15) 17 (15) 17 (16) 17 (16) 17 (16) 18 (16) 18 (17)
Puzzles visuels 18 (17) 17 (16) 17 (16) 17 (16) 17 (16) 18 (17)
Informations 18 (18)
Séquence lettres-chiffres 18 (17) 18 (17)
Balances 18 (17) 18 (17) 17 (16) 18 (17)
Compréhension 18 (17)
Complètement d’images 18 (17)