M ET H O D E N F O R S C H U N G U N D M AS C H I N E L LE S LE R N E N letzten Jahren bspw. in zwei Nachwuchsgruppen am IPN NLP-Verfahren genutzt, um Texte von Lernenden aus dem Englisch- und Naturwissenschaftsunterricht automa- tisch auszuwerten. In den kommenden Jahren sollen Anstrengungen unternommen werden, die Ent- wicklung von Verfahren für die automatische Verarbeitung von unterschiedlichen Arten offener Antworten weiter voranzutreiben. Ein wichtiges Teilgebiet dabei ist die Freitextbewertung, bei welcher Antworten von Lernenden automatisch hinsichtlich ihrer Güte kodiert werden. Dabei werden die Texte entweder hinsichtlich ihrer kon- zeptuellen Korrektheit analysiert (Automated Content Scoring, ACS) oder hinsichtlich verschiedener Aspekte von sprachlicher und inhaltlicher Korrektheit (Automated Essay Evaluation, AEE). Voraussetzung für sowohl ACS als auch AEE sind große, menschlich annotierte Textkorpora. In vielen Fällen müssen die Korpora zunächst generiert wer- den, das heißt, große Stichproben von Schülerinnen und Schülern müssen entspre- chende Texte schreiben. Spezifisch dafür qualifizierte Personen (menschliche Kodie- rerinnen und Kodierer, MK) müssen diese Texte annotieren, das heißt, sie mit den richtigen Bezeichnungen versehen, und so einen sogenannten Gold-Standard für die relevanten Bewertungskriterien erstellen. Die annotierten Daten können dann als Trai- ningsdaten im Machine-Learning-Prozess dienen. Für das Training kommen verschiedene Arten von Maschinellen Lernverfahren zum Einsatz. Im klassischen Feature Engineering werden grundlegende, maschinell gut erfassbare Merkmale der Texte durch NLP elektronisch ausgewertet. Solche Merk- male können zum Beispiel den Gebrauch von bestimmten lexikalischen Einheiten (n-gramme), die Häufigkeit bestimmter sprachlicher Konstruktionen (Nebensätze, Passiv etc.), das Vorkommen von Grammatik- und Rechtschreibfehlern, Maße lexika- lischer Komplexität, Kohärenz etc. erfassen. Je nach Umfang einer offenen Aufgabe können mehrere hundert Textmerkmale (Text Features) maschinell kodiert werden. Alternativ können neuronale Netze verwendet werden, geeignete Merkmalsreprä- sentationen automatisch zu finden. Dazu werden vortrainierte Sprachmodelle, soge- nannte Transformer-Modelle, verwendet, die auf großen Mengen generischer Texte grundsätzliche Regelmäßigkeiten einer Sprache gelernt haben. Auch generative große Sprachmodelle (Generative Large Language Models) kommen zum Einsatz. Diese Klasse von Modellen bietet zusätzlich zur Encodierung menschlicher Sprache auch die Mög- lichkeit der Decodierung, also natürlichsprachlichen Output, der bspw. als formatives Feedback genutzt werden kann. Neben der Erschließung von neuen Datenquellen soll in den nächsten Jahren beforscht werden, wie sich die verschiedenen Modellvarianten (feature-basiert, neuronal, LLM und ACS vs. AEE) in Bezug auf ihren Ressourcenhunger (menschliche Annotationen, aber auch Laufzeit) verhalten. Dabei spielt insbesondere der Transfer von Model- len auf neue Anwendungskontexte eine wichtige Rolle. Dieser Domänentransfer ist aktuell noch unzureichend beforscht, aber funktioniert bspw. im Bereich Essay Scoring bereits deutlich besser als im Content Scoring. Darüber hinaus sollen auch Erklärbarkeit und potenzielle Biases der Modelle untersucht werden, zum Beispiel 60