Shallow discourse parsing for German

Shallow Discourse Parsing für Deutsch

  • While the last few decades have seen impressive improvements in several areas in Natural Language Processing, asking a computer to make sense of the discourse of utterances in a text remains challenging. There are several different theories that aim to describe and analyse the coherent structure that a well-written text inhibits. These theories have varying degrees of applicability and feasibility for practical use. Presumably the most data-driven of these theories is the paradigm that comes with the Penn Discourse TreeBank, a corpus annotated for discourse relations containing over 1 million words. Any language other than English however, can be considered a low-resource language when it comes to discourse processing. This dissertation is about shallow discourse parsing (discourse parsing following the paradigm of the Penn Discourse TreeBank) for German. The limited availability of annotated data for German means the potential of modern, deep-learning based methods relying on such data is also limited. This dissertation exploresWhile the last few decades have seen impressive improvements in several areas in Natural Language Processing, asking a computer to make sense of the discourse of utterances in a text remains challenging. There are several different theories that aim to describe and analyse the coherent structure that a well-written text inhibits. These theories have varying degrees of applicability and feasibility for practical use. Presumably the most data-driven of these theories is the paradigm that comes with the Penn Discourse TreeBank, a corpus annotated for discourse relations containing over 1 million words. Any language other than English however, can be considered a low-resource language when it comes to discourse processing. This dissertation is about shallow discourse parsing (discourse parsing following the paradigm of the Penn Discourse TreeBank) for German. The limited availability of annotated data for German means the potential of modern, deep-learning based methods relying on such data is also limited. This dissertation explores to what extent machine-learning and more recent deep-learning based methods can be combined with traditional, linguistic feature engineering to improve performance for the discourse parsing task. A pivotal role is played by connective lexicons that exhaustively list the discourse connectives of a particular language along with some of their core properties. To facilitate training and evaluation of the methods proposed in this dissertation, an existing corpus (the Potsdam Commentary Corpus) has been extended and additional data has been annotated from scratch. The approach to end-to-end shallow discourse parsing for German adopts a pipeline architecture and either presents the first results or improves over state-of-the-art for German for the individual sub-tasks of the discourse parsing task, which are, in processing order, connective identification, argument extraction and sense classification. The end-to-end shallow discourse parser for German that has been developed for the purpose of this dissertation is open-source and available online. In the course of writing this dissertation, work has been carried out on several connective lexicons in different languages. Due to their central role and demonstrated usefulness for the methods proposed in this dissertation, strategies are discussed for creating or further developing such lexicons for a particular language, as well as suggestions on how to further increase their usefulness for shallow discourse parsing.show moreshow less
  • Obwohl in den letzten Jahrzehnten beeindruckende Verbesserungen in verschiedenen Bereichen der natürlichen Sprachverarbeitung erzielt wurden, bleibt es für einen Computer eine Herausforderung, den Diskurs und Kontext von einem Text zu verstehen. Es gibt mehrere Theorien, die versuchen, die Struktur zu beschreiben und zu analysieren, die einem gut geschriebenen Text zugrunde liegt. Diese Theorien haben einen unterschiedlichen Grad an Anwendbarkeit und Machbarkeit für den praktischen Einsatz. Die vermutlich datengetriebenste dieser Theorien ist das Paradigma, das mit der Penn Discourse TreeBank einhergeht, einem für Diskursrelationen annotierten Korpus mit über 1 Million Wörtern. Jede andere Sprache als Englisch kann jedoch als ressourcenarme Sprache betrachtet werden, wenn es um die Diskursverarbeitung geht. In dieser Dissertation geht es uam "Shallow Discourse Parsing" (Diskursparsing nach dem Paradigma der Penn Discourse TreeBank) für Deutsch. Die begrenzte Verfügbarkeit von annotierten Daten für Deutsch bedeutet auch, dass dasObwohl in den letzten Jahrzehnten beeindruckende Verbesserungen in verschiedenen Bereichen der natürlichen Sprachverarbeitung erzielt wurden, bleibt es für einen Computer eine Herausforderung, den Diskurs und Kontext von einem Text zu verstehen. Es gibt mehrere Theorien, die versuchen, die Struktur zu beschreiben und zu analysieren, die einem gut geschriebenen Text zugrunde liegt. Diese Theorien haben einen unterschiedlichen Grad an Anwendbarkeit und Machbarkeit für den praktischen Einsatz. Die vermutlich datengetriebenste dieser Theorien ist das Paradigma, das mit der Penn Discourse TreeBank einhergeht, einem für Diskursrelationen annotierten Korpus mit über 1 Million Wörtern. Jede andere Sprache als Englisch kann jedoch als ressourcenarme Sprache betrachtet werden, wenn es um die Diskursverarbeitung geht. In dieser Dissertation geht es uam "Shallow Discourse Parsing" (Diskursparsing nach dem Paradigma der Penn Discourse TreeBank) für Deutsch. Die begrenzte Verfügbarkeit von annotierten Daten für Deutsch bedeutet auch, dass das Potenzial moderner, Deep-Learning-basierter Methoden, die auf solchen Daten aufbauen, begrenzt ist. In dieser Dissertation wird untersucht, inwieweit maschinelles Lernen und Deep-Learning-basierte Methoden mit traditionellem, linguistischem Feature-Engineering kombiniert werden können, um die Leistung bei der Diskurs-Parsing-Aufgabe zu verbessern. Eine zentrale Rolle spielen dabei Lexika, die die Diskurskonnektive einer bestimmten Sprache mit einigen ihrer Kerneigenschaften vollständig auflisten. Um das Training und die Evaluierung der in dieser Dissertation vorgeschlagenen Methoden zu ermöglichen, wurde ein bestehender Korpus (der Potsdamer Kommentarkorpus) erweitert und zusätzliche Daten von Grund auf annotiert. Der Ansatz für "end-to-end" Diskurs-Parsing für Deutsch verwendet eine Pipeline-Architektur und präsentiert entweder die ersten Ergebnisse oder verbessert den Stand der Technik für Deutsch für die einzelnen Teilaufgaben der Diskurs-Parsing-Aufgabe, die in der Verarbeitungsreihenfolge Konnektoridentifikation, Argumentextraktion und Relationen-klassifikation sind. Der für diese Dissertation entwickelte Diskursparser für Deutsch ist Open-Source und online verfügbar. Im Zuge der Erstellung dieser Dissertation wurden mehrere Lexika mit Konnektoren für verschiedenen Sprachen bearbeitet. Aufgrund ihrer zentralen Rolle und nachgewiesenen Nützlichkeit für die in dieser Arbeit vorgeschlagenen Methoden werden Strategien zur Erstellung oder Weiterentwicklung solcher Lexika für eine bestimmte Sprache sowie Vorschläge zur weiteren Steigerung ihrer Nützlichkeit für das "Shallow Discourse Parsing" diskutiert.show moreshow less

Download full text files

  • SHA-512:1d77d1591dbea5bcdc813e78a2b6d4e343e1eaa12fbaf96de9300459bad24e3c49f3a026ffb18c536b54115304906d841555d6bc366f03b49dbbe863d6b6d226

Export metadata

Metadaten
Author details:Peter BourgonjeORCiD
URN:urn:nbn:de:kobv:517-opus4-506632
DOI:https://doi.org/10.25932/publishup-50663
Supervisor(s):Manfred Stede
Publication type:Doctoral Thesis
Language:English
Publication year:2021
Publishing institution:Universität Potsdam
Granting institution:Universität Potsdam
Date of final exam:2021/04/16
Release date:2021/05/19
Tag:Daten-annotation; Diskurs-parsing; Konnektoren; Textstruktur; end-to-end diskurs-parsing
NLP pipelines; Shallow Discourse Parsing; connectives; data annotation; discourse parsing; end-to-end discourse parsing; text structure
Number of pages:vii, 140
RVK - Regensburg classification:ST 306, ES 900
Organizational units:Humanwissenschaftliche Fakultät / Strukturbereich Kognitionswissenschaften / Department Linguistik / Foundations of Computational Linguistics
DDC classification:4 Sprache / 41 Linguistik / 410 Linguistik
License (German):License LogoUrheberrechtsschutz
Einverstanden ✔
Diese Webseite verwendet technisch erforderliche Session-Cookies. Durch die weitere Nutzung der Webseite stimmen Sie diesem zu. Unsere Datenschutzerklärung finden Sie hier.