Named Entity Recognition mit Stanford NER lehren

Eckdaten des Lehrmoduls

  • Thema der Sitzung: Referenzierung von Figuren in Prosatexten des fin-de-siècle-Jahres 1899
  • Lernziele: Kenntnisse über die Methode der Named Entity Recognition, sicherer Umgang mit StanfordNER, kritische Bewertung der Methode, Einsichten in die Ausgestaltung von Figurenbezeichnungen im fin de siècle
  • Phasen: Vorstellung und Diskussion der Methode, Demonstration der Toolfunktionen, Gruppenarbeit, Gruppenpräsentation, Abschlussdiskussion
  • Sozialform(en): Vortrag, Gruppenarbeit, Diskussion
  • Medien/Materialien: Alle Lernenden müssen einen Laptop, den StanfordNER heruntergeladen und ein Mal ausgetestet haben; Lehrende benötigen einen Laptop und einen Beamer. In diesem Lehrmodul werden Materialien für bis zu 30 Lernende bereit gestellt.
  • Dauer des Lehrmoduls: 2 x 90 Minuten
  • Schwierigkeitsgrad des Tools: leicht

Bausteine

  • Verlaufsraster des Lehrmoduls
    Aus welchen Phasen setzt sich das Lehrmodul zusammen? Dem Verlaufsplan entnehmen Sie Inhalte und Schwerpunkte.
  • Anwendungsbeispiel
    Anhand welcher Texte unterrichten Sie Named Entity Recognition? Leiten Sie die Studierenden dazu an, Figurenreferenzen in der Literatur des fin de siècle automatisch zu annotieren.
  • Verlauf der Unterrichtseinheit(en)
    Wie sieht die konkrete Ausgestaltung der Phasen aus und welche Arbeitsschritte werden vorgenommen? Erfahren Sie, wie die Unterrichtseinheit strukturiert ist und welche Beispielaufgaben Sie Ihren Studierenden stellen können.
  • Lösungen zu den Beispielaufgaben
    Hat die Lerngruppe die Beispielaufgaben richtig gelöst? Hier finden Sie Antworten.

Verlaufraster des Lehrmoduls

Phase  Impulse des/der Lehrenden Erwartete Aktivität der Lernenden Sozialform Medien / Materialien
Vorab und Einstieg
(etwa 10 Minuten)
Was ist Named Entity Recognition? In welchen Disziplinen ist die Methode verankert? An welche literaturwissenschaftlichen Traditionen lässt sich damit anknüpfen? Fragen zum vorab gelesenen Methodeneintrag → Named Entity Recognition und zur → Video-Fallstudie, Formulieren erster eigener Ideen, wozu die Methode eingesetzt werden kann. Diskussion im Plenum Beamer, Laptop
Problematisierung
(etwa 10 Minuten)
Welche Kategorien werden mit Named Entity Recognition erkannt? Inwiefern sind diese literaturwissenschaftlich relevant? Wie ist das Verhältnis zwischen Text und generierten Daten? Beteiligung an der Diskussion; Rückbezug auf Methodeneinträge Diskussion im Plenum Beamer, Laptop
Erarbeitung
(ca. 70 Minuten)
Vorstellung der Toolfunktionen; bei Bedarf Einzelbetreuung der Studierenden Hands-on Named Entity Recognition im Plenum und in Einzelarbeit Lehrvortrag und Gruppenarbeit Beamer, Laptop, StanfordNER, Korpus, Trainingsdaten
Sicherung
(ca. 60 Minuten)
Moderation der Zusammenführung von Arbeitsergebnissen Sammeln von Beobachtungen Diskussion im Plenum Beamer, Laptop
Reflexion & Transfer
(ca. 30 Minuten)
Diskussion von Schwierigkeiten; Impulse für Transfer geben Ergebnisse und Schwierigkeiten diskutieren Diskussion im Plenum Beamer, Laptops
Download des Verlaufsrasters als PDF-Datei
 

1. Anwendungsbeispiel

In zwei Seminarsitzungen lehren Sie die Studierenden die Methode der → Named Entity Recognition anzuwenden, kritisch zu hinterfragen und durch eigene Modelle für literaturwissenschaftliche Anwendungsfälle zu adaptieren. Sie übertragen damit eine ursprünglich computerlinguistische Methode auf die Literaturwissenschaften. Die Studierenden lernen eine einfach zu beherrschende Machine-Learning-Technik und werden dadurch nicht nur literaturwissenschaftlich geschult, sondern auch für aktuelle gesellschaftlich relevante technische Entwicklungen sensibilisiert. Der Gegenstand bleibt aber nah am eigenen fachlichen Interesse, denn die Studierenden betrachten eine zentrale literaturwissenschaftliche Kategorie – die Figur – und deren Darstellung in einem Korpus aus Erzähltexten des ausgehenden 19. Jahrhunderts, genauer des Jahres 1899.

2. Verlauf der Unterrichtseinheiten

2.1 Vorarbeiten

Die Studierenden sollten zur Vorbereitung auf die Sitzung den Methodeneintrag → Named Entity Recognition und den Tooleintrag → StanfordNER gelesen haben. Sie sollten die Videofallstudie „Konstellationen bei Goethe und Plenzdorf” angeschaut haben. Außerdem sollten sie mit Hilfe des → Tutorial-Videos StanfordNER und das dazugehörige deutsche Sprachmodell heruntergeladen und bestenfalls ausprobiert haben. Dazu gehört auch, dass im Bedarfsfall die neueste Version von Java und auf Mac-Betriebssystemen das Hilfsprogramm XQuartz installiert wird. Bitten Sie Ihre Studierenden, Ihnen vorab die dabei auftretenden Fehler mitzuteilen, damit Sie sich auf die Lösung technischer Probleme vorbereiten können. Textgrundlage ist ein Teilkorpus des Prosa-Korpus d-prose (Gius, Guhr und Adelmann 2021). Aus den insgesamt rund 60 Texten in d-prose, die aus dem Jahr 1899 stammen, haben wir für Sie ein Teilkorpus, ein Trainingskorpus und einen Testtext erstellt. Das Trainingskorpus ist in einzelne Abschnitte unterteilt, die die Studierenden für das Machine-Learning-Training einzeln annotieren können. Sowohl das in den Fallstudien betrachtete Teilkorpus [hier herunterladen] als auch die Abschnitte des Trainingkorpus [hier herunterladen] und den Testtext [hier herunterladen] sollten Sie den Studierenden vorab zur Verfügung stellen.

Die Korpora sind so aufgebaut, dass sich Trainingskorpus, Teilkorpus und Testtext nicht überschneiden. Die Beispielannotation im Testtext zeigt, wie die Kategorie „Figur” hier annotiert werden könnte. Im Diskussionsteil der Einheit können weitere Figurenkonzepte diskutiert werden. Auch bei Nachfragen zur Annotation sollte immer wieder darauf hingewiesen werden, dass während der Sitzung nur einer von mehreren möglichen Annotationsstandards angewendet wird. Es geht hier nicht darum, einen generischen Goldstandard zu erfüllen, sondern ein Modell zu trainieren, das für eine bestimmte eigene Forschungsfrage optimiert ist.

Sollten Sie mit anderen Textdaten arbeiten wollen, so finden Sie weitere Prosatexte in d-prose, im → Deutschen Textarchiv oder bei → Textgrid. Auch für Dramentexte kann Named Entity Recognition Gewinn bringend eingesetzt werden. Möchten Sie sich dieser Gattung zuwenden, so finden Sie in → DraCor eine gute Quelle. Um Trainingskorpus und Testtext so aufzubereiten, dass StanfordNER die Daten verarbeiten kann, folgen Sie der Anleitung in diesem → Anleitungsvideo.

Als Einstieg in die Sitzung bietet sich eine kurze methodische Einführung an, für die Sie diese Beispielfolien [hier herunterladen] nutzen können. Grundsätzlich kann dieses Lehrmodul sowohl für Präsenzlehre als auch für virtuelle Ersatzformate genutzt werden. Da Sie in einem virtuellen Raum nicht an die Computer der Lernenden herantreten und auftretende Fehler gemeinsam beheben können und da die Lernenden häufig nur mit einem einzigen Bildschirm arbeiten können, also zwischen Videokonferenzraum und Interface des Tools wechseln müssen, ist es ratsam die Einheit in kleinere Schritte aufzuteilen. Im Folgenden finden Sie darum auch immer Angaben, wo Sie unterbrechen und eine Pause einfügen sollten, in der die Kameras ausgeschaltet werden können, Sie aber für einzelne Rückfragen zur Verfügung stehen.

2.2. Einstieg und Problematisierung

Eröffnen Sie die Einheit zur Named Entity Recognition (NER) mit einem kurzen Impulsvortrag zu den Grundlagen der Methode. NER ist ein Verfahren zur automatischen Erkennung bestimmter, vorher klar definierter Einheiten wie z.B. Namen von Personen, Orten oder Organisationen. Die Forschung zu diesem Verfahren hat gezeigt, dass Implementierungen des maschinellen Lernens die besten Ergebnisse zeigen. Ebenfalls häufig werden Wortlisten-Abgleiche durchgeführt, die allerdings weniger effektiv sind. Beim maschinellen Lernen ermittelt ein Programm anhand einer Reihe von Beispielen Muster vorher festgelegter Worteigenheiten. Dazu gehören Besonderheiten des Kontext wie z.B. häufig vor einem Ausdruck stehende Wörter oder Eigenschaften des Wortes selbst wie z.B. Groß- und Kleinschreibung. Eine dritte Art der Umsetzung von Named Entity Recognition besteht darin, dass eigene (also nicht vom Computer im Lernprozess generierte) grammatikartige Regeln für die Kategorien entwickelt und in den Algorithmus implementiert werden. Mischformen, die z.B. maschinelles Lernen mit einem Listenabgleich kombinieren, sind ebenfalls möglich. Versuchen Sie die Lernenden einerseits dafür zu sensibilisieren, in wie vielen alltäglich gebrauchten Programmen und Applikationen ähnliche Logiken wirken und andererseits zu zeigen, wie Sie selbst die Methode für ihr Studium oder ihre Forschung nutzen können.

Regen Sie nach der methodischen Einführung eine kurze Reflexion zur Verknüpfung der Methode mit eigenen Projekten an. Fragen Sie die Lernenden, ob sie selbst Anwendungen kennen, in denen maschinelles Lernen eine Rolle spielt. Fragen Sie dann, inwiefern sie durch automatische Annotation bei eigenen Projekten unterstützt werden können. Wenn es keine zurückliegenden oder gegenwärtigen Projekte gibt, an denen die Teilnehmenden arbeiten, fragen Sie nach Ideen für zukünftige Projekte. Geben Sie Rückmeldung, ob die Ideen realistisch sind oder nicht. Dabei können Sie folgende Regel anwenden: je klarer die Kategorie definiert ist und je eindeutiger sie auf eine bestimmte Wortgruppe passt, desto höher die Wahrscheinlichkeit, dass sie für einen Computer erlernbar ist. Je ungenauer eine Kategorie und je vielfältiger eine Wortgruppe, zu der sie passt, desto schlechter werden die Ergebnisse einer automatischen Annotation sein.

Ziel der Einstiegsphase ist, dass die Lernenden ein Grundverständnis der Methode entwickeln. Sie sollen versuchen, eigene Anforderungen für eine automatische Annotation zu formulieren. Dabei soll der Horizont erst einmal eröffnet werden und kreative Ideen entwickelt. Was konkret mittels NER umsetzbar ist, soll die nächste Phase zeigen.

2.3. Erarbeitung

StanforNER muss nicht installiert werden, sondern kann direkt aus dem von der StanfordNER-Webseite heruntergeladenen Ordner gestartet werden. Zeigen Sie auf Ihrem Rechner, wie Sie den heruntergeladenen Ordner öffnen und zum Tool navigieren. Sie finden im heruntergeladenen Ordner mehrere .JAR-Dateien, die das Tool in optimierter Form für unterschiedliche Betriebssysteme enthalten. Bitten Sie die Lernenden, eine der Dateien per Doppelklick zu öffnen. Führen Sie das Lehrmodul in Präsenz durch, so können Sie nun an jeden Computer herantreten, um sicher zu stellen, dass das Tool sich bei jedem korrekt öffnen lässt. Lehren Sie in einer virtuellen Konferenzumgebung, so machen Sie hier 10 Minuten Pause, in denen die Lernenden ihre Kameras ausschalten können und die gezeigten Schritte in Ruhe nachvollziehen können. Stehen Sie in dieser Zeit selbst für Rückfragen zur Verfügung und assistieren sie einzelnen Teilnehmenden im Bedarfsfall.

Zeigen Sie nun, wie Sie aus dem heruntergeladenen Ordner mit den deutschen Sprachmodellen das NER-Modell ins Tool laden, indem Sie zuerst auf die Schaltfläche „load Classifier” und dann im sich öffnenden Drop-Down-Menü auf „load CRF from file” klicken. Nun können Sie aus Ihrer Ordner-Struktur das NER-Modell für die deutsche Sprache auswählen. Es sollten sich nach kurzer Zeit am rechten Rand des User Interfaces von StanfordNER die Kategorien „Person”, „Ort” und „Organisation” zeigen. Führen Sie nun vor wie Sie auf ähnliche Weise einen Text laden. Klicken Sie auf die Schaltfläche „File” und dann im sich öffnenden Drop-Down-Menü auf „Open file”. Wählen Sie aus Ihrer Ordnerstruktur einen Text aus dem hier bereitgestellten Kernkorpus. Klicken Sie dann auf die Schaltfläche „Run NER”. Machen Sie erneut eine Pause und assistieren Sie den Lernenden einzeln dabei, diese Schritte selbst auszuführen. Lehren Sie in einer virtuellen Umgebung, so machen Sie eine 10-15-minütige Kamera-Pause, in der die Lernenden zum Interface des Tools zurückkehren und sich auf die Bedienung konzentrieren können. Ermöglichen Sie in der Zeit einzelnen, ihren Bildschirm mit Ihnen zu teilen, damit Sie assistieren können.

Ins Plenum zurück gekehrt, besprechen Sie gemeinsam

Aufgabe 1: Was fällt Ihnen bei Betrachtung der automatischen Annotation auf? Was erkennt das Tool in dieser vortrainierten Weise gut? Was entgeht dem Programm? Können Sie, anknüpfend an die vorbereitend gelesenen Materialien, erklären, warum bestimmte Wörter korrekt annotiert werden und andere nicht?

Beginnen Sie nun zunächst gemeinsam mit der Annotation eines eigenen Trainingskorpus. Teilen Sie dafür jedem Lernenden eine der hier als Trainingsdaten bereitgestellten Tabellen zu. Führen Sie beispielhaft die Annotation des Anfangs einer weiteren Tabelle vor. Annotieren Sie alle Referenzen auf Figuren, indem Sie in der zweiten Spalte hinter einer Figurenreferenz das „O” (das hier für die Kategorie „other” steht und bei der Vorbereitung der Trainingsdaten von Stanford NER automatisch so annotiert wird) durch „Figur” ersetzen. Legen Sie dabei im Plenum fest, wie Sie mit Zweifelsfällen umgehen wollen (z.B. ob Personalpronomen mit annotiert werden sollen oder nicht, ob Sie nur Namen oder auch Bezeichnungen wie „Bruder” oder „Witwe” annotieren wollen). In der verbleibenden Zeit dieser Sitzung können die Lernenden anfangen, die ihnen zusortierte Tabelle zu annotieren. Währenddessen können weitere Zweifelsfälle besprochen werden, die sich im Laufe der Annotation zeigen. Die Annotation der Tabelle ist als Vorbereitung der zweiten Sitzung zu Ende zu führen. Nutzen Sie dieses Lehrmodul im Seminarkontext, so haben die Studierenden in der Regel nun eine Woche Zeit, an der Annotation der Trainingsdaten zu arbeiten. Bieten Sie ein Blockseminar oder einen Workshop an, so sollten Sie an dieser Stelle eine längere Pause einplanen. In der Regel können Tabellen von ca. 4.000 Tokens Umfang wie die hier bereitgestellten in ungefähr 60-90 Minuten vollständig annotiert werden. Im Optimalfall geben Sie also Workshop- oder Blockseminarteilnehmenden mindestens 120 Minuten Zeit, damit sie nach der Annotationsaufgabe noch eine Bildschirmpause von 30 Minuten machen können. Wenn ihr Zeitrahmen das nicht zulässt, so geben Sie eine Zeit zum Annotieren vor und arbeiten Sie dann mit dem weiter, was die Lernenden geschafft haben. Verzichten Sie im virtuellen Lehrformat auf keinen Fall auf eine angemessene Pause, da der zweite Teil des Lehrmoduls deutlich mehr Konzentration erfordert als der erste. Nutzen Sie selbst diese Zeit um so viel wie möglich vom Testtext nach den von Ihnen mit den Studierenden erarbeiteten Richtlinien zu annotieren. Der hier zur Verfügung gestellte Testtext beinhaltet einen Ausschnitt von 10.000 Tokens aus Ganghofers Gotteslehen. Um Ihre Annotation zu beschleunigen und zu vereinfachen, haben wir den Testausschnitt mit einem unserer Classifier vorannotiert. Sie müssen die Annotation also lediglich ergänzen und korrigieren. Bitten Sie die Lernenden Ihnen die Tabellen nach Abschluss der Annotationsphase direkt zuzuschicken (ggf. mit einem Hinweis darauf, wie viel annotiert wurde). Kopieren Sie alle annotierten Daten in ein Tabellendokument, das Sie im TSV-Format speichern und vor dem zweiten Teil des Moduls allen Lernenden zur Verfügung stellen.

Beginnen Sie den zweiten Teil des Moduls mit einem kurzen Erfahrungsaustausch. Ist den Lernenden die Annotation leicht gefallen? Worüber sind sie gestolpert? In der Regel fallen einem eine Reihe von Kleinigkeiten auf, wenn man zum ersten Mal mit der Aufbereitung eines Trainingskorpus für Machine Learning konfrontiert wird. Dazu gehört ein intuitiver Beginn der Annotation bis zum Auftauchen eines ersten Zweifelsfalls. Je nach Art der Mehrdeutigkeit, die in einem Ausdruck stecken kann, ist es möglich, dass dieser eine Fall die ganze bisherige Annotationsweise in Frage stellt. In jedem Fall setzt ein Reflexionsprozess ein, der sich an relativ kleinen, unauffälligen Phänomenen aufhängt. Es sind diese kleinen Erfahrungen mit Zweifelsfällen, die häufig ein Umdenken in Bezug auf die Methodik bewirken. Die Lernenden erkennen, mit welcher Sorgfalt in der Aufbereitung von Daten bewusst Interpretationsentscheidungen getroffen werden. Dabei wirkt die einzelne Annotation häufig unbedeutend. Es ist wichtig, dass Sie diese Erfahrung, die den Studierenden mitunter selbst etwas unangenehm als Erkenntnis von etwas eigentlich Offensichtlichem vorkommt, nicht nivellieren oder abwerten. Genau hier beginnt der Weg zum erfahrungsbasierten Verständnis der Vor- und Nachteile der vermittelten Methode.

Bitten Sie die Lernenden nun, die Tabelle mit den Trainingsdaten im selben Ordner wie den StanfordNER abzulegen. Sie haben nun einen lernfähigen Algorithmus und annotierte Beispieldaten, aus denen dieser lernen kann. Was Sie noch brauchen, ist ein Dokument, in dem einerseits festgehalten wird, anhand welcher Wort- und Kontextmerkmale das Tool lernen soll (die sogenannten Features), einen Hinweis darauf, in welchem Dokument die Trainingsdaten abgelegt sind und eine Angabe, unter welchem Namen der aus dem Training resultierende Classifier gespeichert werden soll. All diese Informationen können Sie für das Tool in einer Datei ablegen, die Properties-Datei genannt wird. Um eine solche zu erstellen, bitten Sie die Lernenden, einen Texteditor (TextEdit, Notepad, BBEdit oder Visual Studio Code, nicht Word oder OpenOffice oder andere Programme, die mehr als Reintextverarbeitung anbieten) zu öffnen. Lassen Sie sie folgende Zeilen in ihr Dokument kopieren:

trainFile = training-data.tsv
serializeTo = ner-model.ser.gz
map = word=0,answer=1

useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
maxNGramLeng=6
usePrev=true
useNext=true
useSequences=true
usePrevSequences=true
maxLeft=1
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC
useDisjunctive=true

Bitten Sie sie „training-data” durch den Namen der Trainingsdatei und „ner-modell” durch den Namen zu ersetzen, den das eigene NER-Modell haben soll, z.B. FigurenClassifier. Anschließend muss die Datei im selben Ordner wie der StanfordNER abgelegt werden. Die Datei-Endung muss PROP lauten (z.B. figuren.prop).

Zeigen Sie den Lernenden nun zunächst auf Ihrem Computer, wie sie die Kommandozeile öffnen und zum Ordner navigieren können, in dem die Daten liegen. Gehen Sie dann zu den einzelnen Lernenden hin und assistieren Sie dabei. Im digitalen Raum ist es hier etwas schwierig individuell zu helfen, da die Commandline bei unterschiedlichen Betriebssystemen auch unterschiedlich zu erreichen ist. Geben Sie den Teilnehmenden wieder eine 10-minütige Kamera-Pause und bieten Sie einzeln Hilfe an, indem Sie das Screen-Sharing nutzen. Allgemein gilt: Die Commandline erreichen Sie unter Windows, indem Sie unten links auf das Windows-Symbol klicken und dann in die Suchleiste „cmd” eingeben. Unter Mac heißt die Commandline „Terminal” und kann bei den „Dienstprogrammen” gefunden werden.

Bei Lernenden ohne technische Vorkenntnisse bietet es sich nun an, Schritt für Schritt mit dem cd-Command zum Ordner mit dem StanfordNER zu navigieren. Bei einer Präsenzveranstaltung können die Studierenden parallel auf Ihren eigenen Laptops navigieren, brauchen dabei aber zum Teil etwas Assistenz. Bei einer virtuellen Veranstaltung gehen Sie wie gehabt vor. Zeigen Sie zunächst den Ablauf ein Mal ganz auf Ihrem Bildschirm. Machen Sie dann eine 10-minütige Pause, in der Sie einzelnen Teilnehmenden helfen.

Sind alle über die Commandline im richtigen Ordner angekommen, bitten Sie sie folgende Zeile Code zu kopieren und bei sich einzufügen:

java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop figuren.prop

(Ändern Sie gegebenenfalls den Dateinamen der PROP-Datei). Mit der Bestätigung „enter” beginnt der Algorithmus zu lernen. Dabei können Fehler auftreten. Gängige Fehler sind:

  • argument array differs – in einer Zeile der Tabelle sind weniger Spalten ausgefüllt als ausgefüllt sein müssten. In der Regel fehlt in einer Zeile eine Annotation. Diesen Fehler können Sie beheben, indem sie in einem Tabellenprogramm nach leeren Zellen suchen und sie z.B. durch „O” ersetzen. Da Sie alle mit demselben Tabellendokument arbeiten, wird der Fehler bei allen auftreten. Die Fehlerbehebung müssen also auch alle durchführen. Lehren Sie virtuell geben Sie dafür wieder eine Kamera-Pause von 10 Minuten.
  • No such file or directory – Sie haben einen Tippfehler in der Properties-Datei. Wahrscheinlich stimmt der Name der Trainingsdatei nicht ganz (z.B. Groß- statt Kleinschreibung).

Das gemeinsame Beheben von Fehlern ist ein wichtiger Schritt im Erlernen der Methodik des maschinellen Lernens. Es zeigt, wie präzise hier gearbeitet werden muss. Wir empfehlen darum, nicht von vornherein solche Fehler bei Ihrer Vorbereitung „heimlich” auszumerzen, sondern Sie in der Lehre passieren zu lassen, um dann gemeinsam mit den Lernenden daran zu arbeiten.

Aufgabe 2 ist also: Sorgen Sie dafür, dass der Prozess des maschinellen Lernens korrekt ausgelöst und durchgeführt wird.

Während sich im Kommandozeilen-Fenster zeigt, wie das Tool arbeitet, können Sie noch etwas zur Iterativität des Lernprozesses erklären. Ziehen Sie eine Parallele zu den eigenen Erfahrungen der Studierenden beim manuellen Annotieren.

Aufgabe 3: Diskutieren Sie im Plenum Gemeinsamkeiten und Unterschiede des menschlichen und des maschinellen Lernens. Wie haben Sie die Annotation der Kategorie Figur erlernt? Wie versucht das Programm gerade diese Kategorie zu erlernen?

Ist der Classifier fertig trainiert, so bitten Sie die Lernenden wieder den StanfordNER zu öffnen. Laden Sie wieder denselben Text aus dem Kernkorpus wie in der ersten Sitzung. Laden Sie statt des vortrainierten NER-Classifiers für die deutsche Sprache das eigene NER-Modell. Klicken Sie auf „Run NER”.

2.4. Sicherung

Fragen Sie die Teilnehmenden nun nach Beobachtungen der automatischen Annotation dieses neuen Classifiers. Was wird gut annotiert? Wo wurde fehlerhaft annotiert? Welche Art von Fehlern gibt es? Erwähnen Sie die Unterscheidung von true und false positives und negatives. Bitten Sie die Lernenden diese automatische Annotation mit der in der ersten Sitzung durchgeführten zu vergleichen. Lassen Sie sie am Ende die annotierte Textdatei über „File > save tagged file as” abspeichern.

2.5. Transfer & Reflexion

Öffnen Sie nun die Diskussion für weitere Erfahrungen und Beobachtungen. Welche Aspekte der Methode hat die Lernenden überrascht? Durch welche Eigenheiten von NER fühlten sie sich in ihren Vorannahmen bestätigt? Kehren Sie zurück zu den Ergebnissen des Brainstormings im ersten Teil des Lehrmoduls. Halten die Lernenden ihre Projektideen immer noch für den Einsatz von NER geeignet? Haben sie neue Ideen? Wird die Methode für ihren zukünftigen Studien- oder Forschungsprozess nützlich sein?

3. Lösungen zu den Beispielaufgaben

In diesem Lehrmodul gibt es nur offene Reflexionsfragen, zu denen es keine eindeutigen Lösungen gibt. Entwickeln Sie stattdessen gemeinsam mit den Lernenden eine Reflexion der Methode.