Digitale Literaturwissenschaft - eine Außensicht aus der Perspektive des Informatikers
A critical view of literary studies in the humanities from an information science perspective (pdf)
2016-12-01
Einleitung
Die Informationstechnologie verändert die Produktion von Literatur, die Form der entstehenden Literatur und das Lesen; ebenfalls beeinflusst Informationstechnologie die Arbeitsweisen der Literaturwissenschaft. Nicht nur, dass literarische Texte elektronisch erfasst, übertragen und bearbeitet werden und dass literaturwissenschaftliche Arbeiten mit dem Computer statt von Hand oder mit der Schreibmaschine geschrieben werden, sondern besonders weil die Informationstechnologie das Potential hat neue Arbeitsweisen und neue Erkenntnismethoden in die Literaturwissenschaft einzuführen.
Es scheint, dass die Anwendung der Informationstechnologie sowohl
- den Gegenstand der literaturwissenschaftlichen Untersuchung verändert; für einen als Korpus beschriebene Textsammlung sind kategorische Urteile („immer", „nie") möglich.
als auch
- die Methode beeinflusst; algorithmische Interpretation beruht auf einer definierten Sammlung von Sprach- und Sachwissen und ist so nachvollziehbar.
Gegenstand einer digitalen Literaturwissenschaft
Viele literaturwissenschaftliche Arbeiten beschäftigen sich mit einem literarischen Text oder einer unscharf bezeichneten Textmenge (z.B. „Der Europäische Roman des 19. Jahrhunderts"). Mittels Informationstechnologie werden digitale literarische Korpora zusammengestellt. Texte, die nach bestimmten Kriterien ausgewählt sind, werden in einer algorithmisch verarbeitbaren Form aufbereitet und als Korpus bereitgestellt(Biber and Breiteneder 2012). Der Aufwand größere Korpora zu schaffen ist beträchtlich, verteilt sich aber durch die mehrfache Verwendung durch verschiedene Wissenschaftler und für unterschiedliche Forschungsarbeiten. Der Urheberschutz und unterschiedliche Interpretationen des Verhältnisses von Urheberrecht und Freiheit der Wissenschaft zueinander, schränken manchmal den Zugang erheblich ein (Lessig 1999). Aufbereitete Texte sind oft bereits nach einem bestimmten Standard (z.B. TEI (Jannidis 2009) „ausgezeichnet", das heißt, dass auch Seiteneinteilung, Lesarten oder Differenzen zwischen Ausgaben etc. kodiert sind.
Liegt einer literaturwissenschaftlichen Arbeit ein Textkorpus zugrunde, so wird zumindest der algorithmisch bestimmte Teil der Arbeit wiederholbar. Andere Forscher können im Prinzip nachprüfen, ob sie mit dem gleichen Korpus und den gleichen Methoden gleiche Ergebnisse erhalten; wesentlicher ist aber die Möglichkeit, zu prüfen, wie sich die Ergebnisse verändern, wenn der Korpus erweitert, eingeschränkt oder ein ganz anderer Korpus mit den gleichen Methoden evaluiert wird. Literaturwissenschaftliche Forschungsergebnisse sind dann schärfer umrissen, auf bestimmte Sammlungen von literarischen Werke bezogen und mit anderen Ergebnissen vergleichbar. Die Interpretation der algorithmisch gewonnenen Ergebnisse bleibt, wie bisher, dem Wissenschaftler vorbehalten.
Die Verwendung von Korpora bringt auch einen methodischen Gewinn: es ist, mit Bezug auf einen fixierten Korpus möglich, Aussagen der Form „in diesem Korpus gibt es keinen Fall, dass ..." oder „in diesem Korpus ist immer der Fall, dass .." zu machen. Solche kategorischen Urteile waren bisher nur in Bezug auf kleine, überblickbare Textmengen möglich - mit der Festlegung eines Korpus und der algorithmischen Untersuchung der darin enthaltenen Texte sind sie auch bezüglich großer Textsammlungen möglich.
Methodik einer digitalen Literaturwissenschaft
Die Interpretation eines literarischen Textes entsteht beim Lesen durch die Verbindung der Zeichen im Text mit dem Wissen des Lesers. Ähnlich wie der Gegenstand für die digitale Untersuchung als Korpus festgelegt wird, muss das Wissen, das die Interpretation erlaubt, beschrieben werden. Zu diesem Wissen gehört die Kenntnis der verwendeten Sprache, aber auch Allgemeinwissen und schließlich Spezialwissen, die für das vertiefte Verständnis notwendig sind. Eine digitale Literaturanalyse muss nicht nur den Gegenstand der Untersuchung, d.h. den Korpus der untersuchten Texte, sondern auch das für die Analyse verwendete Wissen und die verwendeten logischen Regeln bezeichnen.
Eine digitale Analyse eines natürlich-sprachlichen Textes zerfällt in
verschiedene Phasen; in einem ersten Schritt erfolgt meist die
Verarbeitung der Sprach mit den Mitteln der Computerlinguistik (z.B.
Stanford CoreNLPhttps://stanfordnlp.github.io/CoreNLP/
, für verschiedene Sprachen verfügbar (Manning et al. 2014);
der Text wird dabei in Wörter aufgelöst, diese auf Wortstämme reduziert
und die grammatischen Konstruktionen analysiert, Referenzen und Verweise
im Text kodiert und Eigennamen erkannt. Das dabei eingesetzte Wissen
kann vereinfachend aber nachvollziehbar mit dem Verweis auf das
verwendete Programm (bzw. auf das Programm und dem für das Training
verwendete Korpus) erfolgen.
Je nach Fragestellung kann die Verbindung des Textes mit anderem
Wissen anschließen; beispielsweise eine Analyse des Raumbezuges durch
Verbindung von Ortsbezeichnungen mit geographischem Wissen oder der
Beziehungen der Personen durch Verbindung mit historischem Wissen oder
Bibel- und Mythologiekenntnisse. Es kann mit Werkzeugen der
Computerlinguistik auch nach anderssprachigen Einschüben gesucht und
diese analysiert werden; digitale Methoden können solche Hinweise
systematisch und für mehr Sprachen als ein einzelner Leser beherrschen
kann, sichtbar machenBeispielsweise sind in Gedichten Celans zumindest
russische (rot), französische (neige) und japanische (i-i-e) Wörter
auffindbar.
.
Die Untersuchung der Handlungen nach narratologischen Schemata wie
von Propp initiiert (Propp, Meletinskij, and Wendt
1972), und zu computational narratologyhttp://www.lhn.uni-hamburg.de
zu entwickeln, benötigt Generalisierungen, die Linguisten
in taxonomisch organisierten Wortlisten bereitstellen (wordnet [http://wordnet.princeton.edu/]
(Fellbaum 1998) u.ä).
Entscheidend ist, dass das bei einer algorithmischen Interpretation
angewandte Wissen und die verwendeten logischen Schlussregeln
nachvollziehbar beschrieben werden. Praktisch kann das Wissen durch die
Angabe der bei der Analyse eingesetzten Werkzeuge beschrieben werden,
also z.B. die verschiedenen Analysen die Datenbanken (z.B. dbpedia[http://dbpedia.org/]
- eine logisch strukturierte Form großer Teile des Inhaltes von Wikipedia als RDF kodiert), Taxonomien und Schlussregeln (z.B. OWL (McGuinness, Van Harmelen, et al. 2004). Damit ist deren Einfluss auf die Analyse dokumentiert, überprüfbar und einer Kritik zugänglich.
Die technische Verarbeitung wird erleichtert, wenn die Verarbeitung in Schritte unterteilt wird und die Ein- und Ausgaben in standardisierten Formaten erfolgen. Für die sprachliche Analyse werden Treebanks (mit leicht unterschiedlichen Kodierungen) verwendet, wobei auch bereits sprachunabhängige Lösungen vorgeschlagen wurdenVanderwende, Menezes, and Quirk (2015), die für die Komparatistik wahrscheinlich besonders fruchtbar sindIvanovic and Frank (2016). Das für die literaturwissenschaftliche Analyse heranzuziehende Sachwissen ist zu einem großen Teil im Semantic Web Hitzler et al. (2008) bereits in in RDF Form(Manola et al. 2004) vorhanden; es könnte nützlich sein, Korpora ebenfalls in RDF Form zu kodieren um die Verbindung mit dem Semantic Web zu vereinfachen(Ivanovic and Frank 2015b).
Coda
Durch eine konsequente Beschreibung von Gegenstand - als Korpus der maschinellen Verarbeitung zugänglich - und dem darauf bezogenen Sachwissen - in Form von Programmen und Semantic Web - , das für die Analyse verwendet wird, ist es möglich, Interpretationen algorithmisch zu überprüfen und zu objektivieren.
Die digitale Form von Texten (und ähnlichen Materialien) erlaubt den Einsatz von algorithmischen Verarbeitungen; dies verändert Literaturwissenschaft insofern, als Hypothesen überprüfbar werden. Nötig dazu ist die Beschreibung des Gegenstandes in Form der im Korpus eingeschlossenen Texte und ein Modell des Lesens und des dabei eingebrachten Sachwissens. Es kann dann entschieden werden, ob eine Interpretation eines Textes mit dem angegebenen Wissen möglich ist, welche Interpretationen aus einem limitierten Wissen resultieren (z.B. fehlende Fremdsprachkenntnisse), oder welches Sachwissen notwendig für eine bestimmte Interpretation ist.
Eine „automatische" Interpretation liegt zwar in weiter Ferne, aber der Wissenschaftler könnte, durch eine automatische Produktion aller möglicher Assoziationen (taxonomisches und Faktenwissen) und deren Gruppierung auf vielleicht sonst übersehene Hypothesen zur Interpretation hingewiesen werden, die dann kritisch beurteilt werden müssen.