Annotation
Die manuelle oder automatische Hinzufügung von Zusatzinformationen zu einem Text. Bereits eine Kursivierung oder Fettung können in einem weiten Begriffsgebrauch als Annotationen bezeichnet werden.
API
API steht für Application Programming Interface und bezeichnet eine Programmierschnittstelle. Sie ermöglicht es, Teile (z. B. einzelne Funktionen) eines Programms ohne großen Aufwand in andere Anwendungen zu integrieren.
Browser
Meint i. d. R. Webbrowser. Computerprogramm, mit dem das Anschauen, Navigieren auf und Interagieren mit Webseiten möglich wird. Am häufigsten genutzt sind Chrome, Firefox, Safari oder der Internet Explorer.
Browsersuchfunktion
Um in einem Browser-Fenster nach Inhalten zu suchen, klicken Sie auf Ihrem Mac „cmd” + „F” und auf Ihrem Windows PC „Strg” + „F”. In das sich öffnende Suchfenster tragen Sie Ihren Suchbegriff ein und die jeweils geöffnete Seite wird darauf hin durchsucht.
Case Insensitivity
Als Gegenbegriff zu Case Sensitivity bezeichnet der Begriff die Nicht-Berücksichtigung von Groß- und Kleinschreibung bei der elektronischen Datenverarbeitung. Versalien und Minuskeln werden nicht als unterschiedlich angesehen.
Case Sensitivity
Meint i.d.R. die Berücksichtigung von Groß- und Kleinschreibung von Textelementen bei der Datenverarbeitung. Dies ist unter anderem bei der Einstellung von Such- und Analysekriterien bei Tools für die digitale Textanalyse von Bedeutung.
Close Reading
Sorgfältige Lektüre und Interpretation eines einzelnen oder weniger Texte. In der digitalen Literaturwissenschaft verbunden mit der manuellen Annotation textueller Phänomene (vgl. auch Distant Reading).
Commandline
Auch Kommandozeile, Konsole, Terminal oder Eingabeaufforderung genannt. Programme ohne grafische Benutzeroberfläche (GUI) werden i. d. R. durch Texteingabe in die Commandline gesteuert. Um die Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd” + „space”, geben „Terminal” ein und doppelklicken auf das Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R”, geben „cmd.exe” ein und klicken Enter.
CRF-Modell
Modell für einen Conditional-Random-Fields-Algorithmus. CRF-Algorithmen sind der Kern kontextsensitiver, auf maschinellem Lernen beruhender Programme. Ein CRF-Modell ist das Ergebnis eines Trainingsprozesses, bei dem manuell annotierte Beispiele nach Mustern ausgewertet werden, sodass diese dann als Regeln für die automatische Erkennung bestimmter Kategorien in dem Programm an unbekannten Texten angewandt werden können.
CSV
CSV steht für Comma Separated Values. Dateiformat in Tabellenform mit dem Kürzel .csv
. In der Datei sind Werte durch Kommata getrennt; in Programmen wie Excel können sie als Tabelle angezeigt werden.
Data Mining
Data Mining gehört zu dem Fachbereich Information Retrieval und meint die Anwendung von Methoden und Algorithmen, die darauf abzielt, innerhalb großer Datensätze Trends und gegenseitige Verbindungen zu erkennen. Textbasierte Formen des Data Minings sind u. a. Text Mining, Web Mining und Opinion Mining.
Default
Das oder der Default (engl. Voreinstellung), auch Default Modus oder Default Mode, bezeichnet die standardmäßig festgelegten Einstellungen eines Tools oder Programms, auf die Nutzer*innen bei der ersten Verwendung treffen. Per Default festgelegte Parameter lassen sich i. d. R. manuell umstellen.
Distant Reading
Als Gegenbegriff zu Close Reading ursprünglich von Franco Moretti (2000) geprägt. Distant Reading analysiert (häufig große Mengen an) Textdaten, ohne dass man den Text oder die Texte selbst liest. Meist stehen hier quantitative Analysen im Vordergrund, es lassen sich jedoch auch qualitative Metadaten quantitativ vergleichen.
Domänenadaption
Anpassung einer in einem Fachgebiet entwickelten digitalen Methode an ein anderes Fachgebiet.
Double-Keying
Variante des Keying, bei der zwei Personen den Inhalt eines Dokumentes abtippen. Anschließend sucht ein Computerprogramm nach Differenzen. Die so gefundenen Tippfehler werden von einer dritten Person korrigiert. So entstehen nahezu fehlerfreie Textdigitalisate.
Feature
Einzelfunktion eines Tools. Kann sowohl eine komplexe Funktion wie die Visualisierung eines Textes als Wordcloud bezeichnen als auch eine kleinere Funktionseinheit wie den Abgleich einzelner Spracheigenschaften (Properties) mit annotierten Beispieltexten.
GUI
GUI steht für Graphical User Interface und bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um somit bspw. den Umgang mit der Commandline zu umgehen.
HTML
HTML steht für Hypertext Markup Language und bezeichnet das Format für Texte auf Webseiten. Zusätzliche Informationen in spitzen Klammern (<Information>) geben dem Browser die Struktur und Online-Darstellung des Textes vor, sind auf den Webseiten selbst jedoch unsichtbar.
HTR
HTR steht für Handwritten Text Recognition und bezeichnet die automatische Erkennung von Handschriften und Umformung in einen elektronischen Text. Die Automatisierung beruht auf einem Machine Learning. Zur automatischen Texterkennung vgl. auch OCR.
Information Retrieval
Computergestützte Suche nach komplexen Informationen; Teilbereich der Informationswissenschaft, Informatik und Computerlinguistik.
IP-Adresse
Über die Vernetzung von Computern wird ein Internetprotokoll (IP) erstellt, auf dem basierend jedem Endgerät eine individuelle Adresse zugeordnet wird, um den Datentransport zwischen Sendern und Empfängern zu ermöglichen. Die IP gehört zu den personenbezogenen Daten, da über sie auf Ihre Identität geschlossen werden kann.
Keying
In den Bibliotheks- und Textwissenschaften das manuelle Erfassen eines Textes (d. h. das „Abtippen”) im Zuge seiner Digitalisierung. Vgl. Double-Keying
Kollokation
Gemeinsames Vorkommen von Wörtern in einem vordefinierten Textabschnitt. Über Kollokationsabfragen kann z. B. herausgefunden werden, dass ein Wort X in einem Umkreis von 10 Wörtern vor oder nach einem anderen Wort Y vorkommt.
Korpus
Das Korpus, Plural die Korpora. Eine Sammlung von Texten, typischerweise nach Autor*in, Textsorte oder Epoche organisiert.
KWIC
KWIC steht für Keyword in Context. Eine Visualisierung, die ein ausgewähltes Wort eines Textes oder einer Textsammlung als Liste in seinen diversen Kontexten (= Umgebungswörtern) zeigt. Die Größe der Kontexte kann individuell festgelegt werden.
LDA
LDA steht für Latent Dirichlet Allocation. Bei der LDA werden auf Grundlage eines Wahrscheinlichkeitsmodells Wortgruppen aus Textdokumenten erstellt. Wortreihenfolgen und Satzzusammenhänge spielen dabei keine Rolle.
Lemmatisieren
Häufig als Teil des Preprocessings angewendete Methode, bei der Wortbildungsformen wie Flexionsformen oder Zusammensetzungen ihren Grundformen zugeordnet werden.
Machine Learning
Ein Computer erkennt und trainiert auf Grundlage möglichst vieler (Text-)Daten die (häufig sehr komplexen) Muster bestimmter Phänomene und ist anschließend in der Lage, diese Muster in anderen als den Trainingsdaten wieder zu finden.
Markup Language
Computergestützte Auszeichnungssprache. Auch HTML ist eine solche Markup Language. Mit der Digitalisierung oder digitalen Erstellung von Annotationen werden auch diese zu Markup.
Metadaten
Daten, die andere Daten beschreiben. Unterschieden werden administrative (z. B. Zugriffsrechte), deskriptive (z. B. Textsorte), strukturelle (z. B. Absätze oder Kapitel) und technische (z. B. digitale Auflösung) Metadaten. Auch Annotationen bzw. Markup sind Metadaten, da sie Daten/Informationen sind, die den eigentlichen Textdaten hinzugefügt werden.
N-Gramm
In der Linguistik eine Sequenz von N Einheiten in einem Text. Es gibt Bigramme, Trigramme etc. Der Satz „Marie erforscht Literatur digital” hat bspw. drei Bigramme: „Marie erforscht”, „erforscht Literatur” und „Literatur digital”.
NLP
NLP steht für Natural Language Processing. Im Deutschen auch als maschinelle Sprachverarbeitung bezeichnet. Meint die Bemühungen, Computern beizubringen, natürlichsprachliche Äußerungen korrekt zu verarbeiten und zu analysieren (z. B. Lemmatisierung, Wortartenerkennung etc.). In der digitalen Literaturwissenschaft häufig als Routinen des Preprocessing eingesetzt.
OCR
OCR steht für Optical Character Recognition. Bezeichnet die automatische Texterkennung von gedruckten Texten, d. h. ein Computer „liest” einen gescannten Text und verwandelt diese Bilddatei in einen elektronischen Text.
OPAC
OPAC steht für Online Public Access Catalogue und bezeichnet die online zugänglichen Bibliothekskataloge.
Open Access
Open Access bezeichnet den freien Zugang zu wissenschaftlichen Informationen.
Opinion Mining
Automatische Auswertung von Texten hinsichtlich der hierin enthaltenen positiven oder negativen Haltungen; Synonym verwendet für → Sentiment Analysis; Besondere Form des Text Minings.
PCA
PCA steht für Principal Component Analysis. Die Hauptkomponentenanalyse ist ein komplexes statistisches Verfahren zur Reduktion und Veranschaulichung umfangreicher Datensätze.
PDF steht für Portable Document Format. Format, das eine Datei auf jedem Gerät und in jedem Programm gleich anzeigt. PDF-Dateien können Bilddateien (z. B. Scans von Texten) oder computerlesbarer Text sein. Ein lesbares PDF ist entweder ein OCRter Scan oder ein am Computer erstellter Text.
POS
POS steht für Part of Speech, d. h. Wortart. Ein POS-Tagging ist die automatische Erfassung und Kennzeichnung von Wortarten.
Preprocessing
Für viele digitale Methoden müssen die zu analysierenden Texte vorab „bereinigt” werden. Für statistische Zwecke werden Texte bspw. häufig in gleich große Segmente unterteilt (chunking), Großbuchstaben werden in Kleinbuchstaben verwandelt oder Wörter werden lemmatisiert.
Property
Auch Eigenschaft, Komponente oder Attribut. In der automatischen Annotation dienen konkrete Worteigenschaften wie Groß- und Kleinschreibung zur Klassifizierung von Wörtern oder Phrasen. Zu jeder Eigenschaft, die untersucht werden soll, wird ein entsprechendes Feature in ein Tool integriert, welches spezifische Properties anhand von Beispielen untersucht. In der → manuellen digitalen Annotation können sich Properties nicht nur auf Wörter, sondern auch auf Annotationen und damit auf ganze Textpassagen beziehen.
Query
Eine computergestützte Abfrage zur Analyse eines Textes in einer bestimmten Form (häufig mithilfe regulärer Ausdrücke). Alle möglichen Queries bilden zusammen die Query Language eines Tools.
Reguläre Ausdrücke
In Programmier- und Abfragesprachen (Queries) verwendete standardisierte Zeichenketten (auch Regular Expressions oder RegEx genannt). Dieselbe Zeichenkette kann in unterschiedlichen Programmier- und Abfragesprachen (z. B. in Word, → CATMA, Python, R usw.) für unterschiedliche Problemlösungen verwendet werden.
Reintext-Version
Version eines digitalen Textes oder einer Tabelle, in der keinerlei Formatierungen (Kursivierung, Metadatenauszeichnung etc.) enthalten sind. Reintext-Formate sind TXT, RTF und CSV.
SBW
SBW steht für Sentiment Bearing Word (Sentimentwort) und bezeichnet ein Lexem, das eine Stimmung, eine Bewertung, ein Gefühl, eine Einstellung oder auch eine Emotion zum Ausdruck bringt. Für SBWs werden semantische Orientierung und Stärke in Form des Sentimentwerts festgelegt. SBWs werden in Sentimentlexika gesammelt und als Grundlage für lexikonbasierte → Sentimentanalysen verwendet.
Scalable Reading
Die Kombination aus Distant Reading- und Close Reading-Methoden angewandt auf einen Untersuchungsgegenstand.
Sentimentwert
Der Sentimentwert (synonym verwendet: Sentimentgehalt) eines Wortes drückt meistens in einer Skala von –1 (maximal negativ; bspw. „schädlich”: –0,9269) bis +1 (maximal positiv, bspw. „Freude”: 0,6502) die Polarität von SBWs aus. Der Wert wird bei der Generierung von Sentimentlexika für jedes enthaltene Wort errechnet und auf vier Nachkommastellen gerundet.
Sentimentwörterbuch
Wörterbuch, das ausschließlich Lexeme enthält, die Träger von Sentiments, also Empfindungen, sind. Sentimentlexika fungieren als wichtige Ressource für lexikonbasierte → Sentimentanalysen, bei denen ein Wortabgleich zwischen Primärtext und Wörterbuch stattfindet.
Server
Kann Hardware, Software oder eine Kombination aus diesen sein. Ein Server führt einen spezifischen Service für andere Programme aus, mit denen er über ein Netzwerk verbunden ist.
Small Multiples
Small Multiples sind eine Form der Visualisierung, bei der viele (und darum klein dargestellte) Grafiken nebeneinander stehen. So können bestimmte Phänomene wie z.B. die Verteilung von Figurennennungen im Textverlauf in mehreren Texten visualisiert und dann vergleichend analysiert werden.
Stoppwortliste
Als Stoppwörter bezeichnet man diejenigen Wörter, die bei einer digitalen Textanalyse jeweils unberücksichtigt bleiben sollen. Oft sind das Funktionswörter, die aufgrund ihrer grammatisch bedingten Häufigkeit die Auswertungsergebnisse verzerren würden. Stoppwortlisten dienen der Kommunikation dieser Stoppwörter an das jeweilige Tool.
SVG
SVG steht für Scalable Vector Graphics und ist ein Dateiformat, das Bilddateien bezeichnet, die als Vektorgrafik größenunabhängig reproduziert werden können. Bei SVG-Dateien wird im Gegensatz zu anderen Bildgrafiken somit die Auflösung der Abbildung beim Vergrößern nicht schlechter.
Tagset
Die Taxonomie, anhand derer Annotationen erstellt werden. Ein Tagset beinhaltet immer mehrere Tags und ggf. auch Subtags. Ähnlich der Type/Token-Differenz in der Linguistik sind Tags deskriptive Kategorien, wohingegen Annotationen die einzelnen Vorkommnisse dieser Kategorien im Text sind.
TEI
TEI steht für Text Encoding Initiative. Das Kollektiv entwickelt Standards für die digitale Repräsentation von Texten, also beispielsweise eine bestimmte semantische Struktur für XML-Dateien (wie die Kennzeichnung von Überschriften, Absätzen, Kapiteln etc.). Der sog. TEI-Header enthält die deskriptiven Metadaten eines Textes.
Text Mining
Der Prozess, computergestützt und automatisch Informationen aus Texten oder Textsammlungen zu extrahieren.
Type/Token
Begriff aus der Linguistik. Während Type jeden in einem Text oder einer Textsammlung vorkommenden Wort-Typ bezeichnet (z.B. „Katzengold”), bezeichnet Token jedes Vorkommnis dieses Typs (d. h. bspw. drei Mal „Katzengold” in Goethes Wanderjahren).
Unicode/UTF-8
Begriff aus der elektronischen Datenverarbeitung. Für die Kodierung unterschiedlicher Inhalte wird auf unterschiedliche Schlüssel – Zeichenkodierungen – zurückgegriffen. UTF-8 ist die international standardisierte Kodierungsform elektronischer Zeichen und kann von den meisten Digital-Humanities-Tools verarbeitet werden.
Upload-Wizard
Assistent beim Hochladen von Texten in eine Webanwendung. Der Upload-Wizard führt Sie meist Schritt für Schritt durch den Prozess der Auswahl und Beschreibung von Dateien.
URI
URI steht für Uniform Resource Identifier. URIs werden zur einheitlichen Identifikation von Online-Ressourcen wie Webseiten verwendet. Eine URL ist eine URI.
Web Mining
Extraktion von Informationen aus dem Internet; Teilbereich des Data Minings.
Wiki
Eine Webseite mit Informationen zu ausgewählten Themen, die i. d. R. von mehreren Nutzer*innen zusammengestellt werden. Zu jedem Eintrag in einem Wiki gibt es eine Diskussionsseite, die auch frühere Versionen des Eintrags anzeigt.
Wildcard
Als Wildcard bezeichnet man in der Informatik Platzhalter für beliebige Zeichen oder Zeichenketten.
Wordcloud
Eine Visualisierung von Worthäufigkeiten in einem Text oder einer Textsammlung. Häufige Wörter werden i. d. R. größer dargestellt als weniger häufige Wörter. Die horizontale/vertikale Ausrichtung und die Farbe von Wörtern hat meistens keinen semantischen Mehrwert.
XML
XML steht für Extensible Markup Language. Eine Form von Markup Language, die sowohl computer- als auch menschenlesbar und hochgradig anpassbar ist. Zusatzinformationen werden i. d. R. in einer anderen Farbe als der eigentliche (schwarz gedruckte) Text dargestellt. Eine standardisierte Form von XML ist TEI-XML.
ZIP
ZIP steht für eine Datei (zip = engl. Reißverschluss), in der mehrere Einzeldateien komprimiert zusammengefasst sind. ZIP-Dateien werden beim Öffnen entweder automatisch entpackt oder lassen sich per Rechtsklick extrahieren.