Recruter, c’est prendre une décision à fort enjeu avec une information incomplète. Pourtant, toutes les méthodes de sélection ne se valent pas et la recherche scientifique permet aujourd’hui de les comparer objectivement.
Pendant plus de vingt-cinq ans, la méta-analyse de Schmidt & Hunter (1998) a fait autorité. En 2022, Sackett et al. ont remis en cause ses conclusions sur un point méthodologique majeur. Puis en 2025, de nouvelles méta-analyses sont venues affiner le tableau, notamment sur l’entretien structuré et l’essor de l’IA dans le recrutement. Cet article synthétise l’état de la science à ce jour, avec ses certitudes, ses révisions et ses zones encore débattues.
Ce que signifie « validité prédictive » et ce qu’elle ne signifie pas
Tout au long de cet article, vous verrez des scores notés r = 0,xx. Voici ce qu’il faut en retenir.
Le r est un coefficient de corrélation compris entre 0 et 1. Il mesure le lien entre le score obtenu lors de la sélection et la performance réelle du candidat une fois en poste. Plus r est proche de 1, plus le lien est fort.
Mais attention : r n’est pas un taux de bonnes décisions. La bonne lecture passe par le calcul de r², qui indique la part de la performance future que la méthode permet d’expliquer. Avec r = 0,42 par exemple, on n’explique qu’environ 18 % de la variance de la performance, ce qui est déjà respectable dans les sciences humaines, mais signifie aussi que plus de 80 % de la performance future reste imprévisible, quelle que soit la méthode utilisée.
Ces 80 % résiduels sont liés à des facteurs que personne ne peut mesurer à l’avance : qualité du management, dynamique d’équipe, contexte économique, motivation post-embauche.
À retenir : le recrutement est un pari éclairé, pas une science exacte. Les meilleures méthodes réduisent l’incertitude, elles ne l’éliminent pas.
Une science en mouvement : trois générations de références
Pour comprendre les chiffres qui suivent, il faut connaître les trois jalons de la recherche et les équipes qui les ont produits.
Schmidt & Hunter (1998) ont synthétisé 85 ans de travaux et établi un classement des méthodes qui a orienté les pratiques RH mondiales pendant un quart de siècle. Frank Schmidt (1944–2021) était professeur émérite à l’Université d’Iowa, pionnier de la méta-analyse en psychologie du travail, dont les travaux ont été cités plus de 76 000 fois par d’autres chercheurs, un indice d’influence exceptionnel dans les sciences sociales. Il a reçu la médaille d’or de l’American Psychological Foundation pour l’ensemble de sa carrière. Son co-auteur John Hunter, professeur à Michigan State University, est décédé en 2002 après une collaboration de trente ans avec Schmidt. Leur méta-analyse de 1998 reste, à ce jour, l’une des plus citées de toute l’histoire de la psychologie du travail.
Sackett, Zhang, Berry & Lievens (2022) ont identifié un défaut méthodologique majeur dans ces travaux : les corrections statistiques appliquées pour tenir compte de la restriction de plage (range restriction) avaient été systématiquement surestimées. Résultat : la validité de nombreuses méthodes avait été gonflée de 0,19 à 0,21 points selon les cas. Ce que l’auteur principal décrit lui-même comme « le papier le plus important de ma carrière » a renversé la hiérarchie des méthodes : l’entretien structuré détrône les tests cognitifs au sommet du classement. Paul Sackett est professeur de psychologie à l’Université du Minnesota et l’un des chercheurs les plus cités au monde dans son domaine, avec près de 38 000 citations à son actif. Il a notamment reçu le Dunnette Prize de la Society for Industrial and Organizational Psychology, la plus haute distinction de sa discipline. Son co-auteur Filip Lievens est Lee Kong Chian Professor of Human Resources à la Singapore Management University, classé parmi le top 1 % mondial des chercheurs en management, et l’un des experts mondiaux reconnus sur les tests de jugement situationnel et les assessment centers.
Wingate et al. (2025), dans le International Journal of Selection and Assessment, apportent une méta-analyse ciblée sur l’entretien qui vient consolider et affiner les estimations de Sackett et al., en distinguant pour la première fois la validité par dimensions de performance (tâches vs comportements contextuels).
Les méthodes passées au crible
1. L’entretien structuré : le prédicteur le plus robuste
L’entretien est la méthode la plus utilisée dans le monde. Mais tout dépend de sa structure.
- Entretien non structuré (questions libres, improvisation) : r = 0,38 selon Schmidt & Hunter (1998), révisé à 0,19–0,20 par Sackett et al. (2022) et Wingate et al. (2025). Cette chute confirme la faiblesse intrinsèque de cette approche, fortement exposée aux biais cognitifs : effet de halo, similarité avec le recruteur, poids excessif des premières impressions.
- Entretien structuré (questions standardisées, grille de notation prédéfinie) : r = 0,51 selon Schmidt & Hunter (1998), r ≈ 0,42 selon Wingate et al. (2025). Il reste le prédicteur individuel le plus solide disponible. Fait notable : c’est la seule méthode dont la position relative s’est améliorée dans les révisions successives.
Un point de vigilance mis en lumière par Sackett et al. : la variabilité entre études est très élevée pour l’entretien structuré. Un entretien structuré bien conçu, avec des questions ancrées dans l’analyse de poste et des critères de notation explicites, peut être excellent. Mal conçu, il perd une grande partie de son avantage.
Sur le format : les études de Blacksmith et al. (2016) montrent que la visioconférence produit des évaluations comparables au présentiel pour les entretiens structurés. Le téléphone reste inférieur, les signaux non verbaux jouant un rôle complémentaire.
Recommandation : standardiser les questions, former les intervieweurs, utiliser une grille de notation commune. La structure prime sur le support.
2. Les tests cognitifs : valides, mais plus dominants
Les tests d’intelligence générale (facteur g) étaient, selon Schmidt & Hunter (1998), les meilleurs prédicteurs disponibles (r = 0,51). Sackett et al. (2022) ramènent cette estimation à environ r = 0,31 une révision de presque 40 %.
Ils restent des outils valides, notamment pour les postes à haute complexité cognitive, et conservent l’avantage d’être standardisés et reproductibles. Mais leur statut de « prédicteur roi » est aujourd’hui scientifiquement dépassé.
Limites importantes :
- Certains tests présentent un adverse impact (différences de score selon l’origine), un enjeu légal et éthique croissant, notamment dans le cadre des réglementations européennes sur la non-discrimination
- Leur validité reposait en partie sur des données vieilles de plus de 50 ans, à une époque où la définition même de la « performance au travail » était différente
Recommandation : ne pas les abandonner, mais ne plus les traiter comme l’outil central. Les combiner avec un entretien structuré reste la stratégie la plus robuste.
3. Les mises en situation : l’atout des méthodes contextualisées
L’un des enseignements les plus importants de Sackett et al. (2023) : les méthodes ancrées dans le contexte réel du poste résistent mieux à la révision statistique que les mesures générales de traits psychologiques.
- Work samples (épreuves reproduisant directement les tâches du poste) : r = 0,54 selon Schmidt & Hunter, révisé à la baisse par Sackett et al. mais toujours parmi les plus solides, car elles évaluent la compétence en acte et non les déclarations d’intention.
- Assessment centers (combinant jeux de rôle, études de cas, simulations) : r = 0,37 à 0,45 selon les études. Une étude de 2025 (Shakeri & Lievens, International Journal of Selection and Assessment) propose la première comparaison directe entre assessment centers et SJT sur les mêmes dimensions de performance. Les résultats nuancent l’avantage supposé des assessment centers sur les postes managériaux et suggèrent que les SJT bien conçus peuvent être compétitifs à moindre coût.
- Tests de jugement situationnel (SJT) : absents de Schmidt & Hunter (1998), intégrés par Sackett et al. (2022). Validité modérée mais pertinente pour les postes à fort contenu comportemental. Leur valeur ajoutée (incremental validity) reste limitée lorsque tests cognitifs et personnalité sont déjà dans l’équation. Concrètement, un SJT présente au candidat une série de situations professionnelles réalistes — par écrit, en vidéo, ou via des simulations interactives — et lui demande de choisir parmi plusieurs réponses possibles. Les réponses sont scorées en comparant les choix du candidat à ceux d’experts du poste ou à des données empiriques de performance.
Recommandation : pour les postes techniques ou managériaux, une mise en situation bien construite apporte une validité que les tests généraux ne peuvent reproduire. À fort volume de candidatures, les SJT représentent un bon compromis coût-validité.
4. Les tests de personnalité : utiles, mais à condition de bien les choisir
Les tests basés sur le modèle des Big Five sont les plus validés scientifiquement.
- La conscienciosité est le trait le plus prédictif : r = 0,31 selon Schmidt & Hunter, révisé à r ≈ 0,20 par Sackett et al. (2022). Encore valide, mais plus modeste qu’on ne le pensait
- Sackett et al. soulignent un point pratique : formuler les questions en contexte professionnel (« comment vous comportez-vous au travail » plutôt qu’« en général ») augmente la validité des mesures de personnalité d’environ un tiers
En revanche, le MBTI (Myers-Briggs) n’a pas démontré de validité prédictive satisfaisante dans la littérature. Populaire en entreprise, il reste déconseillé pour toute décision de sélection.
Recommandation : privilégier les tests Big Five certifiés (NEO PI-R, 16PF) avec des questions contextualisées au travail. Éviter le MBTI pour le recrutement.
5. L’IA dans le recrutement : potentiel réel, risques sous-estimés
C’est le sujet qui a le plus évolué depuis 2024. L’IA est désormais présente à toutes les étapes du recrutement dans une majorité d’organisations, mais son bilan scientifique est contrasté.
Ce qui fonctionne : l’IA appliquée à l’administration et à la notation d’entretiens structurés, transcription, scoring automatisé sur grille prédéfinie, peut améliorer la cohérence et réduire certains biais humains. Elle permet également de gérer des volumes importants de candidatures avec une meilleure traçabilité.
Ce qui ne fonctionne pas : l’analyse automatisée de vidéos sur la base d’expressions faciales, de la prosodie vocale ou de micro-expressions est la catégorie ayant la base de preuves la plus faible parmi les outils d’IA en recrutement. Les recherches de 2025 montrent que ces systèmes produisent des disparités significatives selon les groupes démographiques, ce que les chercheurs en équité algorithmique qualifient de discrimination par proxy.
Le risque systémique : si les données d’entraînement reflètent des décisions de recrutement historiquement biaisées, l’algorithme apprendra à reproduire ces biais à grande échelle et à leur conférer une apparence d’objectivité scientifique. Des législations commencent à encadrer ce risque (NYC Local Law 144, réglementation européenne en cours).
Recommandation : l’IA est un outil de structuration et d’administration, pas un prédicteur autonome. Toute décision de recrutement assistée par IA doit rester auditable, fondée sur des critères liés au poste, et soumise à une supervision humaine qualifiée.
6. La graphologie : le cas le plus documenté d’une méthode sans validité
La graphologie mérite une section à part entière, non pas parce qu’elle est efficace, mais parce qu’elle constitue l’exemple le mieux étudié d’un outil massivement utilisé en dépit d’un consensus scientifique négatif quasi-total.
Ce qu’est la graphologie
La graphologie est l’analyse de l’écriture manuscrite pour en déduire des traits de personnalité, des capacités professionnelles, ou un potentiel de performance. Elle postule que des caractéristiques comme la taille des lettres, la pression du trait, l’inclinaison ou l’espacement révèlent la structure psychologique profonde d’un individu. Certains cabinets affirment analyser jusqu’à 400 caractéristiques distinctes de l’écriture.
Ce que dit la science
Le verdict est rare dans sa clarté. La méta-analyse de Neter et Ben-Shakhar (1989), portant sur 17 études et impliquant 63 graphologues professionnels, 51 non-graphologues et plus de 1 200 échantillons d’écriture, aboutit à une conclusion sans appel : les graphologues ne font pas mieux que des personnes sans formation en graphologie pour prédire la performance au travail.
Plus révélateur encore : lorsque les textes soumis aux graphologues étaient neutres, c’est-à-dire identiques pour tous les candidats et sans contenu biographique, ni les graphologues ni les non-graphologues n’obtenaient de validité prédictive mesurable. En revanche, lorsque les textes étaient autobiographiques (lettres de motivation manuscrites), les deux groupes obtenaient une modeste validité, r entre 0,13 et 0,20. Ce résultat est décisif : il montre que ce qui prédit légèrement la performance, c’est le contenu écrit du texte, pas l’analyse graphologique elle-même.
La validité prédictive de la graphologie pure est estimée à r ≈ 0,02 dans les études les plus rigoureuses, statistiquement indiscernable de zéro. Schmidt & Hunter (1998) la classaient déjà en bas du tableau, avant même les révisions de Sackett et al.
L’International Graphonomic Society, la société savante du domaine, a publié une prise de position officielle selon laquelle les preuves disponibles ne permettent pas de soutenir l’utilisation de la graphologie dans les décisions de sélection du personnel, et que cette pratique peut s’avérer préjudiciable aux individus comme aux organisations.
Pourquoi cette méthode persiste-t-elle malgré tout ?
C’est là que la psychologie cognitive apporte une réponse intéressante. Des travaux de King et Koehler (2000) ont identifié le mécanisme de la corrélation illusoire : les mots utilisés par les graphologues pour décrire des caractéristiques d’écriture (une écriture « large », « rigide », « débordante ») sont sémantiquement proches de traits de personnalité (extraverti, obsessionnel, émotif). Cette proximité verbale crée une impression de lien logique là où il n’en existe aucun statistiquement. En d’autres termes, la graphologie semble fonctionner parce que son vocabulaire évoque intuitivement la personnalité, pas parce qu’elle la prédit réellement.
Le paradoxe français
La France occupe une place particulière dans ce débat. Alors que la graphologie est quasi-absente des pratiques de recrutement aux États-Unis et au Royaume-Uni, certaines estimations indiquent qu’elle aurait été utilisée par une part significative des entreprises européennes, notamment françaises, comme outil complémentaire de sélection. Cette persistance s’explique davantage par des traditions culturelles et des croyances professionnelles héritées que par une quelconque justification empirique.
Avis factuel : la graphologie est la méthode de sélection pour laquelle le consensus scientifique est le plus univoque. Aucune étude rigoureuse n’a démontré de validité prédictive significative. Son utilisation dans un processus de recrutement professionnel n’est pas défendable sur des bases scientifiques, et peut exposer les organisations à des risques de décisions arbitraires non traçables. Si elle est utilisée, c’est exclusivement pour des raisons culturelles ou d’habitude, pas d’efficacité.
7. Les vérifications de références et le diplôme
- Vérification de références : r ≈ 0,26, fortement dépendante de la qualité des informateurs et de la structure des questions posées. Utile pour détecter des incohérences factuelles, limitée pour prédire la performance future.
- Niveau de formation : r = 0,10 seulement. Le chiffre qui surprend le plus les recruteurs, qu’il faut prendre avec beaucoup de recul, et qui mérite qu’on s’y arrête.
La question légitime est la suivante : comment un diplômé de l’École Polytechnique ou du MIT peut-il n’apporter qu’une information marginalement supérieure à celle d’un diplômé d’une école ordinaire, si l’on s’en tient à ce coefficient ? La réponse tient à ce que mesure réellement le r dans ce contexte.
Le piège de l’agrégation de données (Le « Grand Tout »)
La recherche scientifique, pour sortir un score global de r = 0,10, mélange tous les métiers, tous les niveaux et tous les secteurs.
- Dans une méta-analyse, on met dans le même panier un ingénieur en aéronautique, un chirurgien, un commercial, un manager, un agent d’accueil…
- Pour des métiers hautement techniques, scientifiques ou réglementés, le diplôme n’est pas négociable. Si vous recrutez un actuaire ou un expert SAP, le diplôme (ou la certification) est un prérequis absolu. La corrélation dans ce segment spécifique est bien plus élevée.
- Mais comme la méta-analyse agrège cela avec des milliers de postes où le niveau d’études n’a parfois aucun lien avec la performance, le chiffre s’effondre globalement à 0,10.
Le phénomène de « Restriction de Plage » (Range Restriction)
C’est le point technique le plus crucial. Plus vous montez en gamme sur les postes, plus les candidats se ressemblent académiquement. Si vous ouvrez un poste de direction et que vous ne recevez (ou ne sélectionnez) que des profils Bac+5 issus du top 10 des écoles ou universités :
- La variable « niveau d’études » devient une ligne droite (ils ont tous le même niveau).
- Statistiquement, une variable qui ne varie pas ne peut pas expliquer la variance d’une autre (la performance).
Tableau comparatif : évolution des estimations de 1998 à 2025
| Méthode | Schmidt & Hunter (1998) | Sackett et al. (2022) | Wingate et al. / 2025 | Performance expliquée (r² — dernière estimation) |
|---|---|---|---|---|
| Entretien structuré | 0,51 | ~0,42* | 0,42 | ~18 % |
| Work sample | 0,54 | ~0,33 | — | ~11 % |
| Test cognitif (GMA) | 0,51 | ~0,31 | — | ~10 % |
| Assessment center | 0,37–0,45 | ~0,30–0,38 | — | ~9–14 % |
| Conscienciosité (Big Five) | 0,31 | ~0,20 | — | ~4 % |
| Entretien non structuré | 0,38 | ~0,20 | 0,19 | ~4 % |
| Vérification de références | 0,26 | ~0,20 | — | ~4 % |
| Graphologie | ~0,02 | ~0,02 | — | ~0 % |
* L’entretien structuré est le seul prédicteur dont la position relative s’améliore dans chaque révision successive.
Sources : Schmidt & Hunter (1998), Psychological Bulletin ; Sackett, Zhang, Berry & Lievens (2022), Journal of Applied Psychology ; Sackett et al. (2023), Industrial and Organizational Psychology ; Wingate et al. (2025), International Journal of Selection and Assessment.
Note de lecture : la colonne « Performance expliquée » indique la part de la réussite future que la méthode permet d’anticiper en moyenne. Le reste dépend de facteurs hors du contrôle du recruteur.
Ce que cela change pour les recruteurs
1. L’entretien structuré est votre meilleur investissement et la science le confirme à chaque révision. Standardiser les questions, former les intervieweurs, utiliser une grille de notation : ce sont ces détails opérationnels qui font la différence.
2. Ne surestimez plus les tests cognitifs. Ils restent valides, mais leur domination était statistiquement gonflée. Les méthodes contextualisées au poste leur tiennent aujourd’hui la dragée haute.
3. Sur l’IA, exigez des preuves. L’IA en recrutement est un marché qui avance plus vite que la recherche. Avant d’adopter un outil, demandez sa validation scientifique indépendante, ses résultats d’audit biais, et la transparence sur ses données d’entraînement.
4. Méfiez-vous des outils populaires sans validation. Le MBTI, la graphologie (r ≈ 0,02), et les entretiens non structurés restent très répandus. La popularité d’une méthode n’est pas un indicateur de sa validité.
5. La combinaison reste la stratégie optimale. Aucun outil seul n’explique plus de 18 % de la performance future. Croiser un entretien structuré avec une mise en situation ciblée demeure le duo le plus robuste disponible.
Conclusion
La science du recrutement avance et c’est une bonne nouvelle pour les praticiens. Chaque révision affine notre compréhension de ce qui fonctionne réellement, et invite à l’humilité sur les certitudes héritées.
En 2026, le message est clair : l’entretien structuré de qualité reste l’outil central. L’IA peut accompagner le processus, à condition d’être utilisée pour ce qu’elle sait faire, structurer, administrer, tracer, et non comme un oracle prédictif autonome. Et quelle que soit la méthode choisie, le recrutement restera toujours un pari éclairé, jamais une certitude.
Références principales :
Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology. Psychological Bulletin, 124(2), 262–274.
Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040–2068.
Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2023). Revisiting the design of selection systems in light of new findings regarding the validity of widely used predictors. Industrial and Organizational Psychology, 16(3), 283–300.
Wingate, T. G., et al. (2025). Evaluating interview criterion-related validity for distinct constructs: A meta-analysis. International Journal of Selection and Assessment, 33, e12494.
Shakeri, I., & Lievens, F. (2025). A head-to-head comparison of situational judgment tests and assessment centers for measuring and predicting the same performance dimensions. International Journal of Selection and Assessment, 33(1).
Barrick, M. R., & Mount, M. K. (1991). The Big Five personality dimensions and job performance. Personnel Psychology, 44(1), 1–26.
Blacksmith, N., Willford, J. C., & Behrend, T. S. (2016). Technology in the employment interview. Personnel Assessment and Decisions, 2(1).
Neter, E., & Ben-Shakhar, G. (1989). The predictive validity of graphological inferences: A meta-analytic approach. Personality and Individual Differences, 10(7), 737–745.
King, R. N., & Koehler, D. J. (2000). Illusory correlations in graphological inference. Journal of Experimental Psychology: Applied, 6(4), 336–348.
Sheard, L. (2025). Algorithm-facilitated discrimination: a socio-legal study of the use by employers of artificial intelligence hiring systems. Journal of Law and Society.
Note de transparence : ce texte est le fruit d’une collaboration entre l’expertise métier de l’auteur et la puissance de synthèse de Claude et Gemini.





