15.03.2026

Freitextaufgaben fair bewerten: Best Practices mit KI-Unterstützung

Freitextaufgaben gelten zu Recht als der Goldstandard, wenn es um die Überprüfung komplexer Kompetenzen geht. Sie erlauben Lernenden, Argumentationsketten aufzubauen, Transferwissen zu zeigen und echte Urteilskraft zu beweisen. Doch für Lehrpersonen sind sie oft ein zweischneidiges Schwert: Der pädagogische Mehrwert wird durch einen immensen Korrekturaufwand erkauft.

Wer heute digitale Lösungen evaluiert, steht vor einer entscheidenden Frage: Wie lässt sich die Effizienz moderner Technologie nutzen, ohne die Fairness und die pädagogische Hoheit aufzugeben?

Die Antwort liegt nicht in der blinden Automatisierung, sondern in einem intelligenten Hybrid-Modell. In diesem Artikel analysieren wir, wie KI-gestützte Bewertungssysteme die digitale Prüfung transformieren – von einer Belastungsprobe zu einem effizienten, didaktisch wertvollen Prozess.

Das Hybrid-Modell: Der Mensch entscheidet, die KI arbeitet zu

Die grösste Sorge vieler Pädagogen ist der Kontrollverlust. „Versteht" eine KI wirklich, was mein Schüler meint? Die technologische Realität bei fortgeschrittenen Plattformen wie elob sieht anders aus als die gängigen Mythen. Wir sprechen hier nicht von einer „Black Box", die willkürlich Noten würfelt, sondern von semantischer Analyse, die auf Ihren Kriterien basiert.

Forschungen zeigen, dass KI-Systeme heute in der Lage sind, Musterlösungen und Bewertungskriterien (Rubrics) so präzise anzuwenden, dass die Übereinstimmung mit menschlichen Bewertungen (gemessen z. B. durch Cohens Kappa) oft höher liegt als die Übereinstimmung zwischen zwei menschlichen Korrektoren.

Der Schlüssel zum Erfolg liegt im Prozessdesign:

  • Lehrkraft definiert: Sie legen die Musterlösung und die Bepunktungskriterien fest.
  • KI schlägt vor: Das System analysiert die Antwort und macht einen Bewertungsvorschlag inkl. Feedback.
  • Lehrkraft validiert: Sie überstimmen, ergänzen oder bestätigen den Vorschlag.

Dadurch wandelt sich Ihre Rolle vom reinen „Punkte-Zähler" zum Qualitätsmanager der Bewertung.

Aus der Praxis: Über 50 % Zeitersparnis bei voller Kontrolle

Theorie ist gut, aber im hektischen Schulalltag zählt nur das Ergebnis. Roland Wirth, Rektor der Kaderschule Zürich, hat die Einführung der KI-Korrektur in elob intensiv begleitet. Seine Erfahrung bringt den Balanceakt zwischen Effizienz und Didaktik auf den Punkt:

„Ich kann auf elob die KI-Unterstützung genau so einstellen, wie ich sie will. Sie vergibt die Punkte nach meinen Vorgaben und macht, wenn gewünscht, individuelle Rückmeldungen. Ich spare mit der Freitext-Vorkorrektur über 50 % an Zeit ein. Trotz dem KI-Hilfsmittel fühle ich mich gleich nahe an den Lernenden wie früher beim Papier-Freitext. Damit werden meine didaktischen Ambitionen voll erfüllt."

— Roland Wirth, Rektor Kaderschule Zürich

Die Technologie schafft Freiraum für das Wesentliche – die individuelle Förderung der Lernenden. Anstatt Stunden mit der Suche nach Schlüsselwörtern zu verbringen, investieren Lehrkräfte ihre Zeit in das Feintuning des Feedbacks.

Bewertungsgerechtigkeit: Wie KI den „Halo-Effekt" eliminiert

Ein oft unterschätzter Vorteil der KI-Unterstützung ist die Objektivierung. Jeder Pädagoge kennt das Phänomen: Die 30. Prüfung, die man spät abends korrigiert, wird oft strenger oder milder bewertet als die erste. Auch Handschriften oder Sympathien (der sogenannte Halo-Effekt) können unbewusst die Note beeinflussen.

Eine KI wird nicht müde. Sie bewertet Arbeit Nr. 100 nach exakt denselben Kriterien wie Arbeit Nr. 1.

  • Standardisierung: Die KI wendet Ihre Bewertungsmatrix konsequent auf alle Arbeiten an.
  • Transparenz: Da die KI begründen kann, warum Punkte vergeben oder abgezogen wurden (z. B. durch Highlighting fehlender Aspekte), steigt die Nachvollziehbarkeit für die Lernenden.
  • Chancengleichheit: Sprachliche Defizite können – je nach Einstellung – isoliert betrachtet werden, sodass das fachliche Wissen im Vordergrund steht.

Datensicherheit und Hosting: Transparent erklärt

Bei der Evaluation von Prüfungstools ist die Frage nach dem Datenschutz nicht verhandelbar. Insbesondere bei der Verarbeitung von Schülerantworten durch KI-Modelle müssen Schulen wissen, wo ihre Daten liegen und welche Technologie im Einsatz ist.

Bei elob setzen wir auf volle Transparenz:

  • Schweizer Hosting: Die elob-Plattform und alle prüfungsrelevanten Daten werden auf Servern in der Schweiz gehostet. Sie verlassen den schweizerischen Rechtsraum nicht.
  • KI-Modell: Mistral aus Frankreich: Für die KI-gestützte Freitextkorrektur nutzt elob das Sprachmodell Mistral – ein leistungsstarkes, europäisches KI-Modell aus Frankreich. Damit bleibt die Datenverarbeitung innerhalb des europäischen Rechtsraums, was DSGVO-Konformität gewährleistet.
  • Keine Nutzung für KI-Training: Die Schülerantworten werden nicht zum Training öffentlicher KI-Modelle verwendet. Die Verarbeitung erfolgt in einem geschlossenen Rahmen.

Mehr zu den Datenschutzmassnahmen für Schulen erfahren Sie auf unserer Seite für Schulen und Schulleitungen.

Best Practices Checkliste für die Einführung

Wenn Sie die Einführung von KI-Bewertungshilfen planen, empfehlen wir folgende Schritte für einen reibungslosen Start:

1. Präzise Musterlösungen erstellen Die Qualität des KI-Outputs steht und fällt mit der Qualität Ihres Inputs. Formulieren Sie Musterlösungen klar und definieren Sie Schlüsselbegriffe, die in der Antwort enthalten sein müssen. Je besser die Ausgangsbasis, desto akkurater die KI.

2. Den „Human-in-the-Loop" beibehalten Kommunizieren Sie intern klar: Die KI korrigiert nicht autonom. Sie ist ein Assistenzsystem. Die Lehrperson trägt die finale Verantwortung für die Note – das ist rechtlich und pädagogisch notwendig.

3. Feedback-Tiefe nutzen Nutzen Sie die gewonnene Zeit, um das von der KI generierte Feedback zu personalisieren. Ein Kommentar wie „Hier fehlt der Bezug zum Gesetzestext, siehe Art. OR …" ist wertvoller als ein blosses „falsch".

FAQ: Häufige Fragen zur KI-gestützten Bewertung

Kann die KI komplexe Zusammenhänge in Wirtschaft und Recht verstehen? Ja, moderne NLP-Modelle (Natural Language Processing) erfassen semantische Zusammenhänge. Sie erkennen, ob ein Argument logisch schlüssig ist, auch wenn der Wortlaut von der Musterlösung abweicht. Bei elob ist das eingesetzte Modell (Mistral) auf diese Anforderungen ausgerichtet.

Was passiert, wenn die KI Fehler macht? Genau hier greift das Hybrid-Modell. Da die Lehrperson die Vorschläge sieht und bestätigt, werden KI-Fehler vor der Notengebung abgefangen. In der Praxis lernen Lehrkräfte schnell, wo sie genauer hinschauen müssen.

Werden meine Schülerdaten zum Training der KI verwendet? Nein. Die Datenverarbeitung erfolgt in einem geschlossenen Rahmen und ist strikt vom Training öffentlicher KI-Modelle getrennt. elob nutzt das europäische Sprachmodell Mistral – alle Daten bleiben innerhalb des europäischen Rechtsraums.

Lohnt sich der Aufwand für die Einrichtung? Der Initialaufwand amortisiert sich oft schon beim ersten Durchgang. Die Zeitersparnis von über 50 % bei der Korrektur, wie von Roland Wirth bestätigt, macht das System hochrentabel für die Ressourcen der Lehrerschaft.

Fazit: Vertrauen durch Kontrolle – und Transparenz

Die Integration von KI in die Bewertung von Freitextaufgaben ist kein Schritt hin zur Entmenschlichung der Bildung, sondern eine notwendige Evolution, um Lehrkräfte zu entlasten und Fairness zu garantieren. Wenn Systeme transparent arbeiten – und dazu gehört auch die offene Kommunikation über eingesetzte Technologien wie Mistral –, sicher gehostet werden und die Lehrperson fest im Fahrersitz lassen, werden didaktische Ambitionen nicht nur erfüllt, sondern skalierbar gemacht.

Möchten Sie selbst erleben, wie sich der Korrekturaufwand halbieren lässt, ohne die Qualität zu senken? Testen Sie das elob-Prüfungstool kostenlos und überzeugen Sie sich im eigenen Unterricht.

Weiterführende Artikel:

Roland Wirth

Projektleiter und Autor VWL-Lehrmittel

mehr Artikel von Roland Wirth