
Hiring-Teams lieben ihr Interview-Rubric. Wenige wissen, ob es tatsächlich vorhersagt, wer Erfolg hat. Die ehrliche Antwort für die meisten Teams: tut es nicht. Branchen-Benchmarks setzen die Korrelation zwischen unstrukturierten Interview-Scores und Job-Performance bei r = 0,20 — kaum über Zufall.
Strukturiertes KI-Interview-Scoring ist eine andere Kategorie. Über unsere 2.400-Hires-Benchmark-Kohorte mit verifizierten 6-Monats-Performance-Reviews beträgt die Pearson-Korrelation 0,74. Das ist starke prädiktive Validität — vergleichbar mit kognitiven Fähigkeitstests, dem Goldstandard in der I/O-Psychologie.
Zur Interview-Zeit bewertet die KI jeden Kandidaten pro Kompetenz: Kommunikation, technische Tiefe, Problemlösung, Motivation, Culture Fit (konfigurierbar). Hiring-Entscheidung und Angebotsbedingungen werden protokolliert.
Drei Monate später bewertet der Manager die reale Performance des neuen Hires. Sechs Monate später nochmal. Das System matcht diese Bewertungen mit den ursprünglichen KI-Scores und führt eine Korrelation pro Kompetenz durch. Starke Korrelationen bedeuten, dass das Signal real war; schwache bedeuten, dass dieser Teil des Rubrics nicht prädiktiv ist — streichen.
Der globale Benchmark r = 0,74 ist der Startpunkt. Per-Customer-Fine-Tuning, nach etwa 50 geschlossenen Hires pro Rollenfamilie, hebt die prädiktive Genauigkeit auf den spezifischen Rollen dieses Teams um weitere 12–18 %.
Drei oder vier Hiring-Zyklen später ist das Modell auf Ihre Latte kalibriert — es weiß, wie ein «großartiger Backend-Engineer» bei Ihrem Unternehmen konkret aussieht. Neue Kandidaten werden gegen diese Kalibrierung bewertet. Recruiting hört auf, Intuition zu sein, und wird ein messbares System.

