forschungslinie methodenforschung und -entwicklung Automated Scoring und Data Mining. Mit der computerbasierten Tes- tung sind nicht nur vielfältige Aufgabentypen und Antwortformate mög- lich, sondern auch ganz neue Möglichkeiten der automatisierten Kodie- rung von Antworten. In der COMET-Gruppe wird dies beispielsweise genutzt, um Rapid Guessing Behavior aufzudecken. Die automatische Kodierung geschlossener Aufgaben (Multiple-Choice-Antwortformat) ist Grundlage des Multi-stage Testing im Nationalen Bildungspanel. In den kommenden Jahren sollen Anstrengungen unternommen werden, auch umfangreiche offene Antworten automatisch zu kodieren. Seit eini- ger Zeit wird vor allem im Bereich des Natural Language Processing (NLP) daran gearbeitet, solche Aufgaben, beispielsweise argumentative Texte, automatisch hinsichtlich ihrer Güte zu kodieren (Automated Essay Evalua- tion, AEE). Voraussetzung für AEE ist das Generieren von großen Text- korpora, d. h. große Stichproben von Schülerinnen und Schülern müs- sen entsprechende umfangreichere Texte geschrieben haben. Beim AEE werden grundlegende, maschinell gut erfassbare Merkmale dieser Texte durch NLP elektronisch ausgewertet. Wichtige Kategorien, sogenannte Macro-Features, die dabei erfasst werden, sind Grammatik, Sprachge- brauch, Sprachmechanik, Stil, Organisation und Textaufbau. Zusätzlich werden noch Textqualitäten (Positive Features) wie Gebrauch von Prono- mina und Wortkollokationen sowie Maße der lexikalischen Komplexität erfasst. Je nach Umfang einer offenen Aufgabe können mehrere hundert Text Features kodiert werden. Sämtliche Textmerkmale können dann mithilfe von Techniken des Maschinenlernens mit den Bewertungen von menschlichen Kodiererinnen und Kodierern (MK) in Beziehung gesetzt werden und erhalten Vorhersagegewichte für die Werte der MK-Urteile. Typischerweise wird die Vorschrift, mit der die Text-Features die MK-Ur- teile vorhersagen, an einer Teilstichprobe der Texte ermittelt und an einer anderen Teilstichprobe validiert. Die Validierungsanalysen zeigen in der Regel, dass die automatisch generierten Urteile von ihrer psychometri- schen Güte denen sehr gut geschulter MK entsprechen, d. h. ein gut trai- nierter Computer wertet einen offenen Text genauso reliabel und valide aus wie menschliche Expertinnen und Experten. Ein anderer methodischer Weg, um offene, am Computer generierte Ant- worten zu bewerten, besteht im Keystroke Logging. Dabei wird das Tipp- verhalten von Probandinnen und Probanden aufgezeichnet und zu den 64 M e t h o d e n