Savoir lire les résultats d'un test de QI

Sommaire

Les résultats d’un test de QI comme la WAIS-IV ou le WISC-V se composent de différentes notes, ainsi que des observations du praticien. J’explique ici le fonctionnement des notes, car il est différent de celui des notes scolaires auxquelles nous sommes habitués.

L’essentiel

Un test de QI comme la WAIS-IV ou le WISC-V se compose d’exercices variés, appelés subtests, regroupés en grands domaines de compétences. Les résultats chiffrés comportent :

un score par subtest, allant de 1 à 19, avec un moyenne à 10 ;
une note de synthèse par domaine de compétences, appelée indice, allant de 50 à 150 dans la WAIS-IV, de 45 à 155 dans le WISC-V, avec une moyenne de 100 ;
des évaluations plus globales, comme le Quotient Intellectuel Total (QIT, souvent abrégé QI) et l’Indice d’Aptitude Générale (IAG), qui vont de 40 à 160, avec une moyenne de 100.

Ces scores ne sont pas, comme les notes scolaires, des indicateurs d’un nombre de réponses justes ou fausses.
Ils indiquent où se situe la performance de l’individu par rapport à celle des français du même âge.
Ainsi, une note moyenne (10 pour les subtests, 100 pour les notes plus globales) signifie que la personne a fait mieux que 50% des français de son âge, qu’elle présente une performance normale. Obtenir 12 à un subtest signifie avoir fait aussi bien ou mieux que 75% des personnes du même âge. Ce pourcentage de personnes qui ont une note inférieure ou égale à celle obtenue est appelé rang percentile et constitue une façon plus parlante de situer la performance que les scores.
Dans la population, la plupart des personnes obtiennent des notes proches de la moyenne, comme le montre la courbe de répartition des scores en haut du graphe de résultats. Quand on s’éloigne de la moyenne, le nombre de personnes présentant de telles performances diminue rapidement. Seuls 2.3% des personnes obtiennent un QI de 130 ou plus, limite à partir de laquelle on utilise généralement le qualificatif de haut potentiel intellectuel.

Comme tout test, les tests de QI présentent une précision limitée, et les scores sont une estimation et non des mesures rigoureusement exactes. L’intervalle de confiance à 95%, qui entoure les indices et le QI, indique dans quel intervalle la compétence mesurée a de grandes chances de se trouver, compte-tenu de l’imprécision de l’outil¹. Dans le graphe ci-dessus, cet intervalle est représenté par les barres horizontales autour des notes.

Une conséquence de cette imprécision est qu’il n’est pas possible d’interpréter tout écart entre des scores comme résultant d’une réelle différence de compétences. Pour cela, l’écart doit être suffisamment grand. Il est alors qualifié d’écart significatif, terme statistique qui ne préjuge pas de son importance clinique. Pour savoir si un écart mérite de plus amples investigations, on se réfère à sa rareté dans la population (en général <5%) et à l’observation de particularités cognitives ou de difficultés associées. Pour plus d’informations sur les écarts entre scores, voir cette page.

Parmi les subtests, certains sont optionnels (subtests dits complémentaires dans la WAIS-IV, secondaires dans le WISC-V) et ne sont donc administrés qu’en cas de besoin d’informations supplémentaires ou de problème avec un subtest principal. Ces subtests (entre parenthèses dans le graphe) n’interviennent pas dans le calcul des indices ou du QIT, sauf s’il a été décidé de remplacer un subtest principal problématique par un subtest complémentaire. Dans ce cas, le compte-rendu explique la raison de cette substitution. Dans la WAIS-IV, un total de deux substitutions est autorisé. Dans le WISC-V, une seule substitution est autorisée, et uniquement pour le calcul du QIT.

A quoi correspondent les différents scores ?

Les résultats chiffrés d’un test de QI comportent plusieurs niveaux :

Les scores des subtests, qui indiquent la performance atteinte sur chaque exercice.
Les indices, qui correspondent aux regroupements des subtests en grandes familles. Chaque indice évalue la performance dans un domaine de compétences donné. Dans la WAIS-IV, ils sont au nombre de quatre : Indice de Compréhension Verbale (ICV), Indice de Raisonnement Perceptif (IRP), Indice de Mémoire de Travail (IMT) et Indice de Vitesse de Traitement (IVT). Les notes des 2 ou 3 subtests principaux de chaque groupe sont additionnées, puis ces sommes sont converties vers une échelle commune, allant de 50 à 150. Dans le WISC-V, les indices sont au nombre de cinq, le raisonnement perceptif ayant été scindé en Indice de Raisonnement Fluide (IRF) et Indice Visuospatial (IVS). L’échelle est un peu plus étendue, allant de 45 à 155.
Le Quotient Intellectuel Total (QIT) estime l’efficience cognitive globale. Dans la WAIS-IV, il est obtenu en additionnant les scores des dix subtests principaux puis en convertissant cette somme vers la même échelle que les indices (le résultat peut varier de 40 à 160). Dans le WISC-V, seuls sept des dix subtests principaux servent de base au calcul du QIT. Le QIT constitue un résumé à grosses mailles du niveau atteint par le sujet, surtout si les scores sous-jacents ne présentent pas trop de différences entre eux. Il constitue un bon prédicteur de la réussite des apprentissages et de la performance professionnelle (il n’explique néanmoins que 25% de la variabilité inter-individuelle dans ces domaines). Il n’est cependant pas très informatif quant aux compétences de la personne, puisqu’on perd dans ce résumé les informations plus fines des indices et des scores de subtests.
Un autre indice synthétique, l’Indice d’Aptitude Générale (IAG), est calculé, dans la WAIS-IV, à partir de la somme des six subtests principaux de compréhension verbale (ICV) et raisonnement perceptif (IRP), qui sont les plus corrélés au facteur général d’intelligence. Il ne prend donc pas en compte la mémoire de travail (IMT) et la vitesse de traitement (IVT), qui adressent des processus plus élémentaires du traitement de l’information. Dans le WISC-V, cet indice est calculé à partir de cinq subtests principaux : les deux de la compréhension verbale (ICV), les deux du raisonnement fluide (IRF), et un subtest visuospatial (Cubes). L’IAG a été introduit pour permettre une estimation du niveau intellectuel de personnes présentant des problèmes neuropsychologiques (déficit d’attention, traumatisme crânien, démence…). En effet, en cas de déficit neuropsychologique, les performances en mémoire de travail et en vitesse de traitement ont plus de chances d’être affaiblies que celles en compréhension verbale et en raisonnement perceptif. Une estimation basée uniquement sur ces deux derniers domaines permet donc une estimation du niveau de la personne indépendamment de ses difficultés en mémoire ou vitesse.
Plus généralement, chez l’adulte, l’IAG présente un intérêt quand des écarts importants entre ICV-IRP d’une part et IMT-IVT d’autre part rendent le QIT peu représentatif.
Enfin, le WISC-V a introduit la possibilité de calculer d’autres indices de synthèse : l’Indice Compétence Cognitive (ICC) est le complément de l’IAG car il résume les compétences en mémoire et vitesse ; l’Indice Non Verbal (INV) résume les compétences ne faisant pas appel au langage ; on trouve aussi un Indice Raisonnement Quantitatif (IRQ) et un Indice Mémoire de Travail Auditive (IMTA). Le calcul de certains de ces indices nécessite l’administration de subtests secondaires.

Quelle est l’échelle de mesure ?

Comme indiqué ci-dessus, les scores d’un test de QI ne sont pas, comme les notes scolaires, des indicateurs du nombre de réponses justes ou fausses. Ils sont des indicateurs de la position de l’individu, en termes de performances, par rapport à une population de référence (par exemple, la population française). Il est important de bien comprendre ce principe pour lire les scores correctement.

Pour les subtests, lors du passage des notes dites brutes (nombre de réponses correctes) aux notes dites standard, la performance du sujet est rapportée, via une table d’étalonnage, à celle d’un échantillon de personnes de la même tranche d’âge (car les performances varient au cours de la vie). La note ainsi obtenue, comprise entre 1 et 19, représente alors la position de l’individu par rapport à la population de référence.

Ce principe de positionnement par rapport à la population est valable à tous les niveaux. Indices et QIT ne sont donc pas de simples moyennes des éléments qui les composent. Pour les obtenir, on somme les notes standards des subtests correspondants, puis on convertit le total obtenu en indice, selon la rareté de son obtention dans la population.

La façon la plus réaliste de présenter les résultats du test serait donc de donner, pour chaque subtest, chaque indice et pour le QIT, la position de l’individu via le pourcentage de personnes obtenant une note inférieure ou égale. C’est ce qu’on appelle le rang percentile.

Cependant, l’habitude est plutôt de traduire le rang en un score ou note, plus facile à retenir. Mais chaque score correspond toujours à une position au sein de la population. Par exemple, un QIT de 100 correspond au rang percentile de 50% : 50% des personnes obtiennent moins que cette note, 50% plus. Un QIT de 130 correspond au rang percentile de 97,7% : 97,7% des personnes obtiennent moins que cette note, et 2,3% plus.

Pour savoir à quoi correspondent les scores, il faut connaître la façon dont se répartissent les performances au sein d’une population. En effet, la répartition n’est pas uniforme, mais suit une distribution dite Gaussienne : la majorité des individus présente des performances proches, et les performances bien distinctes sont nettement plus rares. Ce phénomène, courant dans la nature (on le retrouve par exemple pour la taille ou le poids), est la conséquence du fait que de multiples facteurs indépendants influencent les performances cognitives². Les échelles de Wechsler ont donc été conçues, via le choix des items et la cotation des réponses, pour reproduire cette distribution naturelle.

Distribution des scores dans les échelles de Wechsler

Deux paramètres définissent ce type de répartition :

La moyenne, qui correspond à une position centrale (elle est ici confondue avec la médiane) : 50% des personnes obtiennent moins que cette note, 50% plus (ceux qui obtiennent le score visé sont répartis des deux côtés). Contrairement aux habitudes scolaires où 10/20 est une note peu satisfaisante, ici la moyenne correspond à un niveau normal, comparable à celui la majorité de la population. Les échelles de Wechsler n’utilisent pas les mêmes échelles de notation pour les subtests et les indices : la moyenne pour les scores de subtests est de 10 ; celle pour les indices et le QI est de 100.
L’étalement de la courbe, autrement dit le pourcentage de personnes groupées autour de la moyenne. Pour ce second aspect, le paramètre de référence s’appelle l’écart-type. 68% de la population obtient un score situé à moins de ± 1 écart-type de la moyenne. Cette zone est dite de “normalité” : toute note située dans cette zone ne s’écarte pas notablement de la moyenne. Le haut potentiel intellectuel est traditionnellement positionnée à 2 écarts-types au-dessus de la moyenne, car cela correspond à une raréfaction importante : seuls 2,3% de la population (1 personne sur 44) obtient une note aussi élevée (≥ 2 écarts-types), et seulement 1,94% (1 personne sur 52) obtient une note strictement supérieure à 2 écarts-types. L’écart type pour les scores de subtests est de 3 (2 écarts-types au-dessus de la moyenne = 16). L’écart-type pour les indices et le QIT est de 15 (2 écarts-types au-dessus de la moyenne = 130). Les échelles de Wechsler françaises ne permettent pas de mesure au-delà de 3 écarts types pour les subtests (donc la note maximale est de 19), et au-delà de 4 écarts-type pour le QIT (QI maximal de 160).

Pour en savoir plus sur l’étendue des notes et les effets plafond, voir cette page.

Quelle est la précision des résultats ?

Les notes obtenues peuvent être influencées par de multiples facteurs indépendants des capacités cognitives du sujet : circonstances (niveau de bruit, luminosité…), état du sujet (fatigue, anxiété…), comportement et éventuelles erreurs de l’examinateur, etc. Parfois, ces facteurs vont favoriser le sujet (e.g. réponse à une question de connaissance entendue récemment), parfois ils vont impacter négativement sa note. Les résultats obtenus lors d’une passation ne sont donc qu’une estimation parmi d’autres possibles des performances du sujet.

Pour avoir une idée de l’ampleur possible des variations de mesure, on construit statistiquement un intervalle de confiance autour de la note obtenue au test. La signification exacte de l’intervalle de confiance est peu parlante et source de confusion, donc on la simplifie souvent en disant que c’est la zone dans laquelle le score pourrait varier, selon les circonstances. Ainsi, un intervalle de confiance à 95% indique que, si 100 doubles du sujet dans des univers parallèles passaient le test dans des circonstances légèrement différentes, 95 d’entre eux obtiendraient une note dans l’intervalle calculé. Pour être plus correct, il faudrait dire que 95% des intervalles de confiance obtenus par les doubles du sujet contiennent sa note “vraie”, celle (inconnue) censée refléter “parfaitement” sa performance.

Pour le QIT, la taille de l’intervalle de confiance à 95% est de 9 à 10 points pour la WAIS-IV, et de 12 à 13 points pour le WISC-V (intervalle moyen à travers les âges, on peut aussi calculer un intervalle ajusté pour l’âge du jeune). Par exemple, pour un QIT de 100, l’intervalle de confiance à 95% est de [95-105] pour la WAIS-IV, et de [94-106] pour le WISC-V. Le QIT du WISC-V est moins précis car il repose sur 7 subtests au lieu de 10. Il existe aussi un gain de précision avec l’âge.

L’incertitude de mesure oblige à rester prudent lorsque des valeurs seuil sont utilisées comme critère diagnostique, comme par exemple le QIT de 130 pour le haut potentiel intellectuel.

Ceci explique pourquoi certains, tout en retenant un seuil de 130, choisissent de parler de haut potentiel intellectuel dès 125 ou 126 de QIT : l’intervalle de confiance à 95% d’un QIT de 125 dans le WISC-V est [118-130], et celui d’un QIT de 126 dans la WAIS-IV est [120-130], donc ces intervalles incluent le seuil de 130. Inversement, un QIT de 130 est associé à un intervalle de confiance à 95% de [122-135] dans le WISC-V, et [124-134] dans la WAIS-IV : la compétence “vraie” a une probabilité non négligeable d’être inférieure à 130. Ceci invite à relativiser le sens accordé à un seuil précis, et à éviter une approche catégorielle des performances cognitives. Une vision continue, qui prend en compte le caractère un peu approximatif et variable des mesures, sera plus juste.

Au passage, on remarque que l’intervalle de confiance n’est pas toujours centré sur le QIT mesuré³. Pour un QIT nettement supérieur à 100, il englobe plus de notes inférieures que de notes supérieures : on a, en moyenne, plus de chances d’avoir surestimé le QIT que de l’avoir sous-estimé. Pour un QIT nettement inférieur à 100, ce sera l’inverse.

Au-delà de l’erreur de mesure associée aux circonstances, les scores obtenus sont influencés par l’état du sujet : une personne en dépression, non motivée ou en inhibition intellectuelle par exemple, obtiendra des scores moindres que si elle n’est pas en dépression, est motivée à faire de son mieux, ou a une activité intellectuelle normale. De tels changements d’état psychique peuvent avoir un effet important sur les résultats et sortir de l’intervalle de confiance de la première mesure. Ils sont alors interprétables comme reflétant des modifications cognitives.

Tout ceci souligne la nécessité de relativiser l’importance que l’on peut accorder aux résultats : ils ne sont qu’une estimation, imparfaite, de la performance dont a été capable le sujet ce jour-là. Ainsi, dire d’une personne « elle a un QI de 120 » est un abus de langage qui pourrait laisser penser qu’il s’agit là d’une mesure précise et fixe, un peu comme la taille adulte. En pratique, l’estimation est approximative et varie en fonction des circonstances et de l’état du sujet. Si le QI présente généralement une certaine stabilité au cours de la vie⁴, il peut tout de même, pour une personne donnée, varier notablement d’une évaluation à l’autre.

Le travail du praticien consiste à proposer des hypothèses d’interprétation qui prennent en compte tous les facteurs susceptibles d’influencer les résultats.

En réalité, c’est un peu plus compliqué, mais cette formulation permet de comprendre l’idée importante : la mesure est approximative.
pour une explication statistique, se renseigner sur le théorème central limite
L’intervalle de confiance est centré sur la note “vraie” estimée, qui tient compte de la régression vers la moyenne liée à la fidélité imparfaite de la mesure.
Deary, I. J. (2014). The Stability of Intelligence From Childhood to Old Age. Current Directions in Psychological Science, 23(4), 239‑245. https://doi.org/10.1177/0963721414536905

Ghislaine Labouret

PSYCHOLOGUE SPÉCIALISÉE EN TESTS COGNITIFS – PARIS 8^e

Savoir lire les résultats d’un test de QI

L’essentiel

A quoi correspondent les différents scores ?

Quelle est l’échelle de mesure ?

Quelle est la précision des résultats ?