Savoir lire les résultats d’un test de QI

Les résultats d’un test de QI comme la WAIS-IV  ou le WISC-V se composent de différentes notes, ainsi que des observations du praticien pendant la passation. J’explique ici le fonctionnement des notes, car il est différent de celui des notes scolaires auxquelles nous sommes habitués.

L’essentiel

Un test de QI comme la WAIS-IV se compose d’exercices variés, appelés subtests, regroupés en grands domaines de compétences. Les résultats comportent les scores obtenus aux différents subtests, une note par domaine de compétences (appelée indice), et une estimation de la capacité générale, appelée Quotient Intellectuel Total (QIT). Les différents scores n’utilisent pas la même échelle : les subtests sont notés de 1 à 19 (moyenne de 10), les indices et le QIT ont une moyenne de 100.

Ces scores ne sont pas, comme les notes scolaires, des indicateurs d’un nombre de réponses justes ou fausses. Ils indiquent la position de l’individu, en termes de performances, par rapport aux français du même âge. C’est pourquoi ils se traduisent en rang percentile, c’est-à-dire le pourcentage de personnes ayant obtenu une note inférieure ou égale à celle du sujet. Obtenir une note proche de la moyenne (10 pour les subtests, 100 pour les notes plus globales) signifie que les performances sont normales, proches de celles de la majorité des personnes du même âge. Quand on s’éloigne de la moyenne, le nombre de personnes présentant de telles performances diminue.

Par ailleurs, les notes obtenues ne sont que des estimations des capacités du sujet à un moment donné, dans des circonstances données. Afin mieux se rendre compte de la précision de cette estimation, on calcule autour des notes un intervalle de confiance, qui a de grandes chances de contenir la note “vraie”.

Ci-dessous un exemple de résultats chiffrés tels qu’ils sont présentés dans mes comptes-rendus. Sont rapportés les scores obtenus pour :

  • les subtests (ronds, échelle de 1 à 191), ceux entre parenthèses étant optionnels ;
  • les notes composites qui en découlent, pour chaque domaine de compétence (noms en majuscules, barres horizontales, échelle de 40 à 160). Les barres horizontales représentent les intervalles de confiance à 95%.

Le rang indique le pourcentage de personnes du même âge qui obtiennent un score inférieur ou égal à celui du sujet. La répartition des performances dans la population est indiquée par la courbe bleue.

Les subtests complémentaires n’interviennent pas dans le calcul des indices ou du QIT, sauf s’il a été décidé de remplacer un subtest principal problématique par un subtest complémentaire. Dans ce cas, le compte-rendu explique la raison de cette substitution. Un total de deux substitutions est autorisé.

A quoi correspondent les différents scores ?

Les résultats chiffrés d’une WAIS-IV comportent plusieurs niveaux :

  • Les scores des subtests, qui indiquent la performance atteinte sur chaque exercice.
  • Les indices, qui correspondent aux regroupements des subtests en 4 grandes familles : Indice de Compréhension Verbale (ICV), Indice de Raisonnement Perceptif (IRP), Indice de Mémoire de Travail (IMT) et Indice de Vitesse de Traitement (IVT). Les notes des 2 ou 3 subtests principaux de chaque groupe sont additionnées, puis ces sommes sont converties vers une échelle commune, allant de 50 à 150. Chaque indice évalue la performance dans le domaine de compétences correspondant.
  • Le Quotient Intellectuel Total (QIT) estime l’efficience cognitive globale. Il est obtenu en additionnant les scores des dix subtests principaux puis en convertissant cette somme vers la même échelle que les indices (le résultat peut varier de 40 à 160). Le QIT constitue un résumé à grosses mailles du niveau atteint par le sujet, surtout si les scores sous-jacents ne présentent pas trop de différences entre eux. Il constitue un bon prédicteur de la réussite des apprentissages et de la performance professionnelle (il n’explique néanmoins que 25% de la variabilité inter-individuelle dans ces domaines). Il n’est cependant pas très informatif quant aux compétences de la personne, puisqu’on perd dans ce résumé les informations plus fines des indices et des scores de subtests.
  • Un autre indice synthétique, l’Indice d’Aptitude Générale (IAG), est calculé à partir de la somme des six subtests principaux de compréhension verbale (ICV) et raisonnement perceptif (IRP), qui sont les plus corrélés au facteur général d’intelligence. Il ne prend donc pas en compte la mémoire de travail (IMT) et la vitesse de traitement (IVT), qui adressent des processus plus élémentaires du traitement de l’information. L’IAG a été introduit pour permettre une estimation du niveau intellectuel de personnes présentant des problèmes neuropsychologiques (déficit d’attention, traumatisme crânien, démence…). En effet, en cas de déficit neuropsychologique, les performances en mémoire de travail et en vitesse de traitement ont plus de chances d’être affaiblies que celles en compréhension verbale et en raisonnement perceptif. Une estimation basée uniquement sur ces deux derniers domaines permet donc une estimation du niveau de la personne indépendamment de ses difficultés en mémoire ou vitesse.
    Plus généralement, l’IAG présente un intérêt quand des écarts importants entre ICV-IRP d’une part et IMT-IVT d’autre part rendent le QIT peu représentatif.

Quelle est l’échelle de mesure ?

Comme indiqué ci-dessus, les scores d’un test de QI ne sont pas, comme les notes scolaires, des indicateurs du nombre de réponses justes ou fausses. Ils sont des indicateurs de la position de l’individu, en termes de performances, par rapport à une population de référence (par exemple, la population française). Il est important de bien comprendre ce principe pour lire les scores correctement.

Pour les subtests, lors du passage des notes dites brutes (nombre de réponses correctes) aux notes dites standard, la performance du sujet est rapportée, via une table d’étalonnage, à celle d’un échantillon de personnes de la même tranche d’âge (car les performances varient au cours de la vie). La note ainsi obtenue, dite note standard et comprise entre 1 et 19, représente alors la position de l’individu par rapport à la population de référence.

Ce principe de positionnement par rapport à la population est valable à tous les niveaux. Indices et QIT ne sont donc pas de simples moyennes des éléments qui les composent. Pour les obtenir, on somme les notes standards des subtests correspondants, puis on convertit le total obtenu en indice, selon la rareté de son obtention dans la population.

La façon la plus réaliste de présenter les résultats du test serait donc de donner, pour chaque subtest, chaque indice et pour le QIT, la position de l’individu via le pourcentage de personnes obtenant une note inférieure ou égale. C’est ce qu’on appelle le rang percentile.

Cependant, l’habitude est plutôt de traduire le rang en un score ou note, plus facile à retenir. Mais chaque score correspond toujours à une position au sein de la population. Par exemple, un QIT de 100 correspond au rang percentile de 50% : 50% des personnes obtiennent moins que cette note, 50% plus. Un QIT de 130 correspond au rang percentile de 97,7% : 97,7% des personnes obtiennent moins que cette note, et 2,3% plus.

Pour savoir à quoi correspondent les scores, il faut connaître la façon dont se répartissent les performances au sein d’une population. En effet, la répartition n’est pas uniforme, mais suit une distribution dite Gaussienne : la majorité des individus présente des performances proches, et les performances bien distinctes sont nettement plus rares. Ce phénomène, courant dans la nature (on le retrouve par exemple pour la taille ou le poids), est la conséquence du fait que de multiples facteurs indépendants influencent les performances cognitives2. Les échelles de Wechsler ont donc été conçues, via le choix des items et la cotation des réponses, pour reproduire cette distribution naturelle.

Distribution des scores dans les échelles de Wechsler

Deux paramètres définissent ce type de répartition :

  • La moyenne, qui correspond à une position centrale (elle est ici confondue avec la médiane) : 50% des personnes obtiennent moins que cette note, 50% plus (ceux qui obtiennent le score visé sont répartis des deux côtés). Contrairement aux habitudes scolaires où 10/20 est une note peu satisfaisante, ici la moyenne correspond à un niveau normal, comparable à celui la majorité de la population. Les échelles de Wechsler n’utilisent pas les mêmes échelles de notation pour les subtests et les indices : la moyenne pour les scores de subtests est de 10 ; celle pour les indices et le QI est de 100.
  • L’étalement de la courbe, autrement dit le pourcentage de personnes groupées autour de la moyenne. Pour ce second aspect, le paramètre de référence s’appelle l’écart-type. 68% de la population obtient un score situé à moins de ± 1 écart-type de la moyenne. Cette zone est dite de “normalité” : toute note située dans cette zone ne s’écarte pas notablement de la moyenne. Le haut potentiel intellectuel est traditionnellement positionnée à 2 écarts-types au-dessus de la moyenne, car cela correspond à une raréfaction importante : seuls 2,3% de la population (1 personne sur 44) obtient une note aussi élevée (≥ 2 écarts-types), et seulement 1,94% (1 personne sur 52) obtient une note strictement supérieure à 2 écarts-types. L’écart type pour les scores de subtests est de 3 (2 écarts-types au-dessus de la moyenne = 16). L’écart-type pour les indices et le QIT est de 15 (2 écarts-types au-dessus de la moyenne = 130). Les échelles de Wechsler françaises ne permettent pas de mesure au-delà de 3 écarts types pour les subtests (donc la note maximale est de 19), et au-delà de 4 écarts-type pour le QIT (QI maximal de 160).

Quelle est la précision des résultats ?

Les notes obtenues lors d’une passation peuvent être influencées par de multiples facteurs indépendants des capacités cognitives du sujet : circonstances de passation (niveau de bruit, luminosité…), état du sujet (fatigue, anxiété…), etc. Parfois, ces facteurs vont favoriser le sujet (e.g. réponse à une question de connaissance entendue récemment), parfois ils vont impacter négativement sa note. Les résultats obtenus lors d’une passation ne sont donc qu’une estimation parmi d’autres possibles des performances du sujet.

Pour avoir une idée de l’ampleur possible des variations de mesure, on construit statistiquement un intervalle de confiance autour de la note obtenue au test. Ainsi, un intervalle de confiance à 95% indique que, si 100 doubles du sujet dans des univers parallèles passaient le test dans des circonstances légèrement différentes, 95 d’entre eux obtiendraient une note dans l’intervalle calculé. Pour le QIT, l’intervalle de confiance à 95% est de l’ordre de ±5 points.

L’incertitude de mesure oblige à rester prudent lorsque des valeurs seuil sont utilisées comme critère diagnostique, comme par exemple le QIT de 130 pour le haut potentiel intellectuel. Ceci explique pourquoi certains, tout en retenant un seuil de 130, choisissent de parler de haut potentiel intellectuel dès 126 de QI : l’intervalle de confiance à 95% pour ce QIT est 120-130, donc il inclut le seuil de 130.

Par ailleurs, au-delà de l’erreur de mesure associée aux circonstances de passation, les scores obtenus sont influencés par l’état du sujet : une personne en dépression, non motivée ou en inhibition intellectuelle par exemple, obtiendra des scores moindres que si elle n’est pas en dépression, est motivée à faire de son mieux, ou a une activité intellectuelle normale. De tels changements d’état psychique peuvent avoir un effet important sur les résultats et sortir de l’intervalle de confiance de la première mesure. Ils sont alors interprétables comme reflétant des modifications cognitives.

Tout ceci souligne la nécessiter de relativiser l’importance que l’on peut accorder aux résultats d’une passation : ils ne sont qu’une estimation, imparfaite, de la performance dont a été capable le sujet ce jour-là. Ainsi, dire d’une personne « elle a un QI de 120 » est un abus de langage qui pourrait laisser penser qu’il s’agit là d’une mesure précise et fixe, un peu comme la taille adulte. En pratique, l’estimation est approximative et varie en fonction des circonstances et de l’état du sujet. Si le QI présente généralement une certaine stabilité au cours de la vie, il peut tout de même, pour une personne donnée, varier notablement d’une évaluation à l’autre.

Le travail du praticien consiste à proposer des hypothèses d’interprétation qui prennent en compte tous les facteurs susceptibles d’influencer les résultats.


  1. Pour certains subtests et certaines tranches d’âge, il n’est cependant pas possible d’atteindre la note maximale de 19 (subtest trop facile à cet âge).
  2. pour une explication statistique, se renseigner sur le théorème central limite