Tests de QI : les écarts entre scores

Cette page aborde un aspect technique des tests de QI : les écarts que l’on peut observer entre les scores obtenus aux différents exercices, la fréquence de ces écarts, et la pertinence des notes de synthèse en présence d’écarts notables.

Si vous avez passé un test de QI et que votre compte-rendu ne détaille pas les écarts entre vos scores ou ne précise pas votre QI, je peux calculer et analyser ces informations pour vous.
Si vous êtes un psychologue souhaitant améliorer sa compréhension de l’analyse des écarts entre scores, je peux vous aider.

Rappel sur les scores de QI

Pour une introduction plus complète au fonctionnement des scores de QI, voir cette page.

Un test de QI se compose d’exercices variés, appelés subtests, regroupés en grands domaines de compétences. Dans le cas de la WAIS-IV, par exemple, les résultats chiffrés comportent :

  • un score par subtest ;
  • une note de synthèse par domaine de compétences, appelée indice ;
  • des évaluations plus globales, le Quotient Intellectuel total (QIT) et l’indice d’aptitude générale (IAG).

Voici un exemple de résultats :

Exemple de scores de QI

Exemple de scores obtenus à un test de QI (WAIS-IV)

Ces résultats peuvent soulever plusieurs questions : Pourquoi cette personne présente-t-elle des scores aussi variables selon les subtests ? Pourquoi un tel écart entre son score le plus bas (10) et son score le plus haut (16) ? Face à de tels écarts, est-il pertinent de calculer des notes de synthèse comme les indices ou le QI ?

Pourquoi des écarts entre les scores ?

La présence de différences entre les scores obtenus à différents exercices ne devrait a priori surprendre personne. Chacun de nous a déjà pu constater qu’il n’avait pas la même facilité à accomplir tout type de tâche. Nous sommes plus ou moins à l’aise dans différents domaines d’activités, nous avons des points forts et des points faibles. Les tests de QI sont volontairement constitués d’un échantillon de tâches variées, qui font appel à différentes compétences, relativement indépendantes les unes des autres. Il est donc tout à fait normal que les scores obtenus dans les différents exercices ne soient pas uniformes.

Il ne faut pas oublier aussi que les scores peuvent varier selon des facteurs interférents comme l’état de fatigue, la chance, une étourderie, une consigne mal comprise, un manque d’effort… Cela peut conduire à des scores différents entre deux exercices, alors que les performances seraient identiques en l’absence de ces perturbations. Cette imprécision de la mesure a pour conséquence que toute différence observée n’est pas attribuable de façon certaine à une différence de compétence.

Des scores abaissés sur certains exercices peuvent aussi résulter difficultés sensorielles ou motrices : problème de vue non ou mal corrigé, défaut d’audition, gêne graphomotrice, etc.

Enfin, les écarts peuvent parfois résulter de troubles cognitifs, qui vont soit affecter certaines compétences spécifiques (par exemple, les troubles “dys”), soit causer une variabilité notable des performances au fil de la passation (par exemple, trouble déficit de l’attention/hyperactivité – TDAH). Ce type de trouble peut conduire à des différences de scores très marquées, avec notamment des scores en zone faible dans certains exercices. Mais ils peuvent aussi avoir des conséquences moins nettes, notamment lorsque la personne possède un bon niveau. Les tests de QI ne sont pas conçus pour diagnostiquer de tels troubles. Les indices repérés lors de la passation d’un test de QI doivent donc être confrontés au vécu de la personne, son histoire scolaire, ses difficultés du quotidien, etc, afin de décider si une enquête plus approfondie est à envisager.

Tailles d’écarts courantes et moins fréquentes

Parmi les causes d’écarts listées ci-dessus, comment distinguer les écarts dus à l’imprécision de la mesure, ceux dus aux différences normales de performances, et ceux dus à un possible trouble ?

Pour cela, on se base essentiellement sur la taille des différences. Une partie des écarts observés entre les scores découle du caractère imprécis et imparfait des mesures. Pour pouvoir attribuer un écart à une réelle différence de compétences, il faut donc que celui-ci soit suffisamment grand. Un tel écart est qualifié de “significatif”. Ce terme statistique indique qu’un écart de cette taille a peu de chances de se produire lorsque les performances “vraies” (i.e. sans erreur de mesure) sont identiques. Il ne préjuge pas de l’importance clinique de l’écart. En effet, un certain degré de variabilité est normal dans la population saine : la majorité des variations correspond simplement à de plus ou moins grandes facilités pour certains domaines plutôt que d’autres, parfois amplifiées par un investissement supérieur dans un domaine préféré. Pour savoir si un écart mérite de plus amples investigations, on se réfère à sa rareté dans la population (généralement moins de 5%, parfois 10%) et à la présence de particularités ou de difficultés cognitives rapportées ou observées. À noter qu’un écart rare n’est pas forcément synonyme de trouble, surtout lorsqu’il est causé par un ou des scores très élevés.

Au final, on peut classer les écarts observés comme suit :

  • Écarts non significatifs : ils sont de taille trop faible pour pouvoir être attribués avec certitude à une différence de compétences, et peuvent découler de l’erreur de mesure. Dans la WAIS-IV et dans le WISC-V, selon les paires de subtests, des écarts de 2 à 3 points ne sont pas significatifs (voire 4 points pour Barrage dans la WAIS-IV).
  • Écarts significatifs, fréquents dans la population : ils représentent une différence de compétences réelle, mais une différence de cet ordre est banale, fréquente dans la population saine. Par exemple, dans la WAIS-IV, un écart de 4 points entre Symboles et Code est significatif, mais présent chez 18,3% des personnes.
  • Écarts significatifs, peu fréquents voire rares dans la population : ils représentent une différence inhabituelle, qui peut mériter de chercher une explication. Par exemple, un écart de 7 points entre Arithmétique et Mémoire des chiffres n’est présent que chez 3% de la population dans la WAIS-IV.

A noter qu’il n’existe pas de seuil officiel permettant de qualifier un écart de rare, donc ce qualificatif est laissé à l’appréciation du praticien. Par ailleurs, les pourcentages dépendent de si l’on considère le pourcentage de personnes qui ont un écart de cette taille en valeur absolue (chiffres des exemples ci-dessus), ou un écart de même taille dans le même sens (par exemple, Mémoire des chiffres supérieur de 7 points à Arithmétique n’est présent que chez 1,9% des personnes).

Ci-dessus, nous avons donné des exemples de comparaison de scores deux à deux. Il est parfois plus pertinent de regarder comment chaque score s’écarte de la moyenne de plusieurs scores : écart entre un indice et la moyenne des indices ; écart entre un subtest et la moyenne des subtests d’un indice, la moyenne des subtests du QI, ou la moyenne des subtests principaux. Parmi tous les scores disponibles, de nombreuses comparaisons sont donc possibles. Elles se font essentiellement à deux niveaux : le degré d’homogénéité de chaque indice, en s’intéressant aux écarts entre les subtests d’un indice, et le degré d’homogénéité global du profil, en s’intéressant aux écarts entre indices ou entre tous les subtests.

Ci-dessous quelques points de repères sur des tailles d’écart plus ou moins courantes dans la population générale. Ces valeurs concernent la différence entre le score maximal et le score minimal, sur les subtests ou les indices. Elles ont été calculées dans les échantillons d’étalonnage de la version française des tests1.

Scores comparés Subtests principaux Indices
Test WAIS-IV WISC-V WAIS-IV WISC-V
Écart moyen entre note maximal et minimale 6,9 6,9 21,7 24,2
Écart médian (50% des personnes) 7 7 20 23
Écart présent chez 10% des personnes 11 11 37 39
Écart présent chez 5% des personnes 12 12 40 43

Dans le graphe de scores en haut de cette page, la personne a obtenu son meilleur score d’indice à la WAIS-IV en compréhension verbale (126), et le moins bon en vitesse de traitement (105). Son écart maximal entre indices est donc de 21 points, ce qui est proche de la moyenne (21,7) et de la médiane (20) : un écart de cette taille est très courant.

Que valent les notes de synthèse en cas d’écarts ?

À partir des scores des différents subtests d’un test de QI, le psychologue calcule différentes notes de synthèse : les indices se calculent à partir de 2 ou 3 subtests se rapportant au même domaine de compétence, le QI se calcule à partir de 10 subtests (WAIS-IV) ou 7 subtests (WISC-V). Ces notes visent à estimer des compétences communes à plusieurs exercices, comme la vitesse de traitement pour les exercices demandant d’effectuer rapidement une tâche simple et répétitive. Le QI évalue quant à lui un facteur général d’intelligence. Il fait sens en raison du constat que les performances sur l’ensemble des exercices sont reliées : les personnes qui réussissent bien certains exercices réussissent généralement bien les autres, et réciproquement pour ceux qui réussissent moins bien. Il semble donc exister un élément central, appelé facteur g, qui influence l’ensemble des performances cognitives.

On lit souvent qu’au-delà d’un certain nombre de points d’écarts entre les subtests qui le composent, un indice n’est pas calculable, ou encore qu’il est non valide, ou non interprétable. Qu’au-delà d’une certaine taille d’écart entre les indices, le QI n’est lui aussi plus calculable, qu’il est non valide ou non interprétable. Le profil est alors qualifié d’hétérogène. Qu’en est-il ?

Ces affirmations soulèvent plusieurs questions : Que signifient exactement non calculable, non valide, non interprétable ou hétérogène ici ? Quels sont les tailles d’écarts, les seuils, qui conduisent à ces qualificatifs, et sur quoi sont-ils fondés ?

Non calculable

Par construction, les scores de synthèse (indices, QI), sont toujours calculables.
Lorsqu’un psychologue ne fournit pas un score, en le qualifiant parfois de non calculable, il veut en fait éviter qu’il ne soit considéré comme résumant bien les compétences, par des personnes mal informées. Nous revenons ci-dessous sur cette idée de “bon ou mauvais résumé”.

Non valide

Le terme “valide” peut recouvrir plusieurs choses :

  • En psychométrie (technique des tests), la validité recouvre différentes propriétés globales des scores, notamment la validité prédictive (est-ce que le score prédit bien d’autres choses, comme la réussite scolaire ?), et la validité de construit (est-ce que la variable latente que cherche à évaluer ce score est moins bien estimée ?). Sur ces deux aspects, la recherche apporte des arguments en faveur d’une conservation de la validité des scores composites en présence d’écarts notables 2,3.
  • En pratique clinique, l’objectif est de conseiller un individu particulier. On s’intéresse donc surtout au caractère informatif du score pour l’individu. En l’occurrence, constitue-t-il un bon résumé du domaine évalué, reflète-t-il bien ses performances dans ce domaine ? Dans cette situation, un score de synthèse qui masquerait des écarts notables entre les scores sous-jacents risquerait de donner une image partielle voire faussée de la situation. En ce sens, il ne constituerait pas un bon résumé. Parler de résumé plus ou moins bon et informatif me semble alors plus explicite et plus juste que de qualifier le score de valide ou non valide. En effet, le score de synthèse contient toujours de l’information, celle d’un niveau moyen, et ne perd pas brusquement tout sens à partir d’un certain seuil de différence.

À partir du moment où l’on comprend qu’un scores de synthèse devient juste progressivement un moins bon résumé quand les écarts augmentent, on réalise qu’il n’y a pas de raison de fixer un seuil exact au-delà duquel on le qualifierait brusquement de non valide. Il semble plus approprié de communiquer sur un degré de contraste, basé à la fois sur la taille et sur la rareté des écarts.

Non interprétable

Le caractère “interprétable” ou non d’un score est étroitement lié à cette notion de “bon résumé”.
Quand un score constitue un bon résumé, il est représentatif des performances dans le domaine, et le psychologue peut se baser sur ce score pour son analyse et pour son retour sur les compétences de la personne.
Quand un score de synthèse n’est pas un bon résumé, on ne peut plus se contenter d’une présentation et d’interprétations basées sur ce seul score. Il devient nécessaire de descendre au niveau inférieur, de commenter les scores sous-jacents.

Par ailleurs, la présence d’écarts importants ne rend pas les résultats du test dans son ensemble non interprétables. Au contraire, cela indique qu’il existe des différences notables de performance selon les exercices, qui méritent une recherche d’explication. Plus il y a de différences, plus le travail d’interprétation est conséquent.

Hétérogène

Le terme “hétérogène” est quant à lui souvent utilisé pour signaler la présence d’écarts significatifs entre les scores sous-jacents. Par exemple, beaucoup de psychologues qualifient un indice d’hétérogène dès qu’il existe une différence statistiquement significative entre les subtests. Hétérogène signifie alors simplement “non homogène”, présence d’une différence non attribuable à l’erreur de mesure. Cependant, les différences significatives sont très courantes dans la population, et généralement sans importance au plan clinique. En conséquence, un qualificatif “hétérogène” basé sur un seuil de significativité des écarts (de l’ordre de 3-4 points entre les subtests, 10-15 points entre les indices), n’a pas grande utilité. De plus, il concernera la grande majorité de la population. Il serait donc plus utile de réserver le terme “hétérogène” à des écarts plus importants, donc plus rares, et de parler de degré d’hétérogénéité plutôt que d’utiliser un qualificatif binaire, homogène versus hétérogène.

Quelques repères chiffrés : dans le WISC-V français4, seuls 38,9% des sujets ont un QI “homogène” (aucune note ne s’écarte significativement de la moyenne des subtests constituant le QI). Ce n’est qu’à partir de trois notes s’écartant significativement de la moyenne que les profils deviennent plus rares (7%). Au niveau des indices, seuls 30,5% des sujets ont des indices tous “homogènes” (pas de différence significative entre les subtests). Enfin, seuls 34,8% des sujets n’ont aucun écart significatif entre leurs indices.

Un exemple de profil de scores

Reprenons maintenant notre exemple de profil de scores du début de cette page, et regardons les écarts :

Exemple de scores de QI

Exemple de scores obtenus à un test de QI (WAIS-IV)

Différences au sein des indices

Pour l’indice de compréhension verbale et l’indice de raisonnement perceptif, aucun subtest ne s’écarte significativement de la moyenne des subtests. Pour l’indice de vitesse de traitement, la différence entre Symboles et Code n’est pas significative. Ces trois indices sont donc homogènes, et constituent de bons résumés des performances dans chaque domaine.

Pour l’indice de mémoire de travail, Mémoire des Chiffres est 5 points au-dessus d’Arithmétique, ce qui constitue une différence significative et assez peu fréquente, sans être rare (5,6% des personnes ont une différence de cette taille ou plus, en faveur de Mémoire des Chiffres ; dans l’autre sens, le taux est de 6,5%). L’indice de mémoire de travail calculé (120) ne constitue donc pas un très bon résumé des performances dans ce domaine, car masquant cette différence. Il est plus utile de s’intéresser aux scores de subtest qu’à l’indice.

Différences entre les indices

Globalement, l’écart entre les indices est de 21 points (126-105), ce qui est courant dans la population (médiane à 20).

Regardons plus en détail les différences deux à deux :

Tableau de différences entre indices

Fréquence des différences entre indices

Les pourcentages donnés dans ce tableau indiquent combien de personnes obtiennent une différence de cette taille ou plus, dans le même sens que le sujet. Par exemple ici, 11,5% des personnes obtiennent un indice de compréhension verbale supérieur d’au moins 21 points à l’indice de vitesse de traitement. Si l’on regarde uniquement parmi les personnes obtenant un QI≥120, ce pourcentage monte à 25,6%.

Sur les six comparaisons possibles, trois sont non significatives, c’est-à-dire qu’on ne peut pas considérer que le sujet possède des compétences différences entre ces domaines. Les trois autres sont significatives, donc attribuables à des différences de compétences. Ces différences restent toutes de taille courante dans la population, puisque présentes chez plus de 10% des personnes.

À noter toutefois que le caractère peu représentatif de l’indice de mémoire de travail rend les comparaisons avec cet indice également peu utiles.

Différences entre les subtests

Globalement, l’écart entre les subtests principaux, qui servent à calculer le QI, est de 6 points (16-10). Ceci est courant dans la population (médiane à 7).

Regardons plus en détail les différences entre chaque subtest et la moyenne des subtests :

Tableau des écarts des subtests principaux à la moyenne

Fréquence des écarts des subtests à la moyenne

Les pourcentages donnés dans ce tableau indiquent combien de personnes obtiennent une différence de cette taille ou plus, en valeur absolue (donc dans le même sens que le sujet ou en sens inverse). Par exemple ici, entre 15% et 25% des personnes obtiennent un score de Mémoire des Chiffres supérieur ou inférieur d’au moins 3,1 points à la moyenne des subtests.

Sur les dix comparaisons possibles, une seule est significative, Mémoire des Chiffres, c’est-à-dire que l’on peut considérer que le sujet possède un niveau différent de sa moyenne personnelle sur cette tâche. La personne possède un point fort relatif sur cette tâche. Une différence de cette taille est courante dans la population, puisque présentes chez plus de 15% des personnes.

Bilan

Au final, le profil des scores de cette personne présente un degré de contraste de faible ampleur, globalement courant dans la population. Seul le caractère supérieur du score à Mémoire des Chiffres ressort un peu, et seul l’indice de mémoire de travail ne constitue pas un bon résumé de ses compétences.
Il peut être intéressant de regarder de plus près le détail des performances en Arithmétique, notamment pour voir si le score moindre ne résulterait pas d’une moindre aisance avec le calcul, sans difficulté de mémorisation. Voir aussi si des stratégies de mémorisation particulièrement efficaces ont été utilisées en Mémoire des Chiffres, ou si cette personne possède un entraînement particulier sur ce type de tâche. L’évaluation de la mémoire de travail peut aussi être complétée par un exercice de mémoire complémentaire.

Si vous souhaitez vous aussi connaître la rareté des écarts entre vos scores à un test de QI, je peux calculer et analyser ces informations pour vous.

En résumé

Au final, il est important de retenir quelques points :

  • La présence de différences entre les scores d’un test de QI est courante dans la population et normale. Elle découle du fait que les exercices qui constituent le test ont été sélectionnés pour mesurer des compétences différentes, relativement indépendantes entre elles.
  • L’interprétation des différences dépend de leur taille (la différence est-elle assez grande pour ne pas refléter uniquement l’erreur de mesure), de leur rareté dans la population (la rareté étant utilisée comme indice d’un possible trouble), de leur sens (pic de compétence ou zone de faiblesse) et de leur mise en relation avec d’autres observations (autres tests, difficultés rapportées…).
  • La présence d’écarts importants ne rend pas les résultats du test non valides ou non interprétables. Au contraire, elle indique qu’il existe des différences notables de performance selon les exercices, qui méritent une recherche d’explication. Plus il y a de différences, plus le travail d’interprétation est important.
  • Il n’existe pas de seuil fixe et consensuel permettant de qualifier un profil d’homogène ou d’hétérogène, mais une continuité en matière de degré d’hétérogénéité, à différents niveaux (QI, indices) et avec différentes comparaisons (écarts entre scores, écarts à la moyenne). Le terme “hétérogène” reste cependant souvent utilisé pour indiquer la simple présence de différences statistiquement significative entre les scores constitutifs d’une note de synthèse.
  • Les scores de synthèse (indices, QI) sont toujours calculables. Dans certains usages, notamment en recherche sur des groupes, ces scores peuvent rester utiles et valides même en présence d’écarts importants. Au niveau clinique, pour un individu donné, un score de synthèse perd progressivement de son intérêt quand les scores sous-jacents sont trop contrastés, car il masque ces différences. Il ne constitue alors pas un bon résumé, et il est plus utile de s’intéresser aux scores sous-jacents.

Vidéo complémentaire

Vidéo de réponse à des questions de professionnels sur les écarts entre scores et les profils de scores, à l’occasion de la sortie du livre “Psychologie du haut potentiel” :

Références

  1. Labouret, G., & Grégoire, J. (2018). La dispersion intra-individuelle et le profil des scores dans les QI élevés. Approche neuropsychologique des apprentissages chez l’enfant, 154, 271‑279.
  2. Daniel, M. H. (2007). “Scatter” and the Construct Validity of FSIQ : Comment on Fiorello et al. (2007). Applied Neuropsychology, 14(4), 291-295. https://doi.org/10.1080/09084280701719401
    Schneider, W. J. (2011, juillet 15). Do Large Subtest Score Differences Invalidate Composite Scores ? Consulté à l’adresse https://assessingpsyche.wordpress.com/2011/07/15/do-large-subtest-score-differences-invalidate-composite-scores/
    Schneider, W. J., & Roman, Z. (2017). Fine-Tuning Cross-Battery Assessment Procedures: After Follow-Up Testing, Use All Valid Scores, Cohesive or Not. Journal of Psychoeducational Assessment, 0734282917722861. https://doi.org/10.1177/0734282917722861
  3. Freberg, M. E., Vandiver, B. J., Watkins, M. W., & Canivez, G. L. (2008). Significant Factor Score Variability and the Validity of the WISC-III Full Scale IQ in Predicting Later Academic Achievement. Applied Neuropsychology, 15(2), 131-139. https://doi.org/10.1080/09084280802084010
    Rowe, E. W., Kingsley, J. M., & Thompson, D. F. (2010). Predictive ability of the General Ability Index (GAI) versus the Full Scale IQ among gifted referrals. School Psychology Quarterly, 25(2), 119-128. https://doi.org/10.1037/a0020148
    Watkins, M. W., Glutting, J. J., & Lei, P.-W. (2007). Validity of the Full-Scale IQ When There Is Significant Variability Among WISC-III and WISC-IV Factor Scores. Applied Neuropsychology, 14(1), 13-20. https://doi.org/10.1080/09084280701280353
  4. Grégoire, J. (2019). L’examen clinique de l’intelligence de l’enfant : Fondements et pratique du WISC-V. Mardaga.