TY - THES A1 - Grishina, Yulia T1 - Assessing the applicability of annotation projection methods for coreference relations T1 - Analyse der Qualität von Annotationsprojektionsmethoden für Koreferenzrelationen N2 - The main goal of this thesis is to explore the feasibility of using cross-lingual annotation projection as a method of alleviating the task of manual coreference annotation. To reach our goal, we build a first trilingual parallel coreference corpus that encompasses multiple genres. For the annotation of the corpus, we develop common coreference annotation guidelines that are applicable to three languages (English, German, Russian) and include a novel domain-independent typology of bridging relations as well as state-of-the-art near-identity categories. Thereafter, we design and perform several annotation projection experiments. In the first experiment, we implement a direct projection method with only one source language. Our results indicate that, already in a knowledge-lean scenario, our projection approach is superior to the most closely related work of Postolache et al. (2006). Since the quality of the resulting annotations is to a high degree dependent on the word alignment, we demonstrate how using limited syntactic information helps to further improve mention extraction on the target side. As a next step, in our second experiment, we show how exploiting two source languages helps to improve the quality of target annotations for both language pairs by concatenating annotations projected from two source languages. Finally, we assess the projection quality in a fully automatic scenario (using automatically produced source annotations), and propose a pilot experiment on manual projection of bridging pairs. For each of the experiments, we carry out an in-depth error analysis, and we conclude that noisy word alignments, translation divergences and morphological and syntactic differences between languages are responsible for projection errors. We systematically compare and evaluate our projection methods, and we investigate the errors both qualitatively and quantitatively in order to identify problematic cases. Finally, we discuss the applicability of our method to coreference annotations and propose several avenues of future research. N2 - Ziel dieser Dissertation ist, die Durchführbarkeit von crosslingualer Annotationsprojektion als Methode zur Erleichterung der manuellen Koreferenzannotation zu erproben. Um dieses Ziel zu erreichen, wird das erste dreisprachige parallele Koreferenzkorpus gebaut, das mehrere Textsorten umfasst. Für die Korpusannotation werden gemeinsame Annotationsrichtlinien entwickelt, die auf drei Sprachen anwendbar sind (Englisch, Deutsch, Russisch) und eine neue domänenunabhängige Typologie von indirekten Wiederaufnahmen und sogenannten Near-Identity-Kategorien enthalten. Danach werden mehrere Projektionsexperimente entworfen und durchgeführt. Im ersten Experiment wird eine direkte Projektionsmethode mit nur einer Ausgangs\-sprache implementiert. Die Ergebnisse zeigen, dass bereits in einem wissensarmen Szenario der vorgeschlagene Projektionsansatz die Resultate der verwandten Arbeit von Postolache et al. (2006) übertrifft. Da die Qualität der resultierenden Annotationen in hohem Maße von der Wortalignierung abhängig ist, zeigen wir, wie die Verwendung begrenzter syntaktischer Informationen weiterhilft, die Extraktion von referierenden Ausdrücken auf der Zielseite zu verbessern. Im nächsten Schritt, dem zweiten Experiment, demonstrieren wir, wie die Nutzung von zwei Ausgangssprachen zur weiteren Verbesserung der Qualität der Zielannotationen für beide Sprachpaare beiträgt, indem die Annotationen aus zwei Quellsprachen kombiniert werden. Schließlich wird die Projektionsqualität noch in einem vollautomatischen Szenario ausgewertet (mit automatisch erstellten Quellannotationen), und ein Pilotversuch zur manuellen Projektion von Paaren indirekter Wiederaufnahmen vorgestellt. Für jedes Experiment wird eine detaillierte Fehleranalyse durchgeführt. Daraus schließen wir, dass fehlerhafte Wortalignierungen, Übersetzungsdivergenzen und morphologische sowie syntaktische Unterschiede zwischen den Sprachen für die Projektionsfehler verantwortlich sind. Hierzu werden die Projektionsmethoden systematisch verglichen und ausgewertet, und die Fehler sowohl qualitativ als auch quantitativ untersucht, um problematische Fälle zu identifizieren. Zum Schluss wird die Anwendbarkeit unserer Methode für Koreferenzannotationen diskutiert, und es werden Ansatzpunkte für weitere Forschung vorgeschlagen. KW - annotation KW - annotation projection KW - bridging KW - near-identity KW - coreference resolution KW - multilingual coreference KW - coreference corpus KW - Annotation KW - Annotationsprojektion KW - Koreferenz KW - indirekte Wiederaufnahmen KW - Near-identity KW - Koreferenzauflösung KW - multilinguale Koreferenz KW - Koreferenzkorpus Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-425378 ER - TY - THES A1 - Spreyer, Kathrin T1 - Does it have to be trees? : Data-driven dependency parsing with incomplete and noisy training data T1 - Müssen es denn Bäume sein? Daten-gesteuertes Dependenzparsing mit unvollständigen und verrauschten Trainingsdaten N2 - We present a novel approach to training data-driven dependency parsers on incomplete annotations. Our parsers are simple modifications of two well-known dependency parsers, the transition-based Malt parser and the graph-based MST parser. While previous work on parsing with incomplete data has typically couched the task in frameworks of unsupervised or semi-supervised machine learning, we essentially treat it as a supervised problem. In particular, we propose what we call agnostic parsers which hide all fragmentation in the training data from their supervised components. We present experimental results with training data that was obtained by means of annotation projection. Annotation projection is a resource-lean technique which allows us to transfer annotations from one language to another within a parallel corpus. However, the output tends to be noisy and incomplete due to cross-lingual non-parallelism and error-prone word alignments. This makes the projected annotations a suitable test bed for our fragment parsers. Our results show that (i) dependency parsers trained on large amounts of projected annotations achieve higher accuracy than the direct projections, and that (ii) our agnostic fragment parsers perform roughly on a par with the original parsers which are trained only on strictly filtered, complete trees. Finally, (iii) when our fragment parsers are trained on artificially fragmented but otherwise gold standard dependencies, the performance loss is moderate even with up to 50% of all edges removed. N2 - Wir präsentieren eine neuartige Herangehensweise an das Trainieren von daten-gesteuerten Dependenzparsern auf unvollständigen Annotationen. Unsere Parser sind einfache Varianten von zwei bekannten Dependenzparsern, nämlich des transitions-basierten Malt-Parsers sowie des graph-basierten MST-Parsers. Während frühere Arbeiten zum Parsing mit unvollständigen Daten die Aufgabe meist in Frameworks für unüberwachtes oder schwach überwachtes maschinelles Lernen gebettet haben, behandeln wir sie im Wesentlichen mit überwachten Lernverfahren. Insbesondere schlagen wir "agnostische" Parser vor, die jegliche Fragmentierung der Trainingsdaten vor ihren daten-gesteuerten Lernkomponenten verbergen. Wir stellen Versuchsergebnisse mit Trainingsdaten vor, die mithilfe von Annotationsprojektion gewonnen wurden. Annotationsprojektion ist ein Verfahren, das es uns erlaubt, innerhalb eines Parallelkorpus Annotationen von einer Sprache auf eine andere zu übertragen. Bedingt durch begrenzten crosslingualen Parallelismus und fehleranfällige Wortalinierung ist die Ausgabe des Projektionsschrittes jedoch üblicherweise verrauscht und unvollständig. Gerade dies macht projizierte Annotationen zu einer angemessenen Testumgebung für unsere fragment-fähigen Parser. Unsere Ergebnisse belegen, dass (i) Dependenzparser, die auf großen Mengen von projizierten Annotationen trainiert wurden, größere Genauigkeit erzielen als die zugrundeliegenden direkten Projektionen, und dass (ii) die Genauigkeit unserer agnostischen, fragment-fähigen Parser der Genauigkeit der Originalparser (trainiert auf streng gefilterten, komplett projizierten Bäumen) annähernd gleichgestellt ist. Schließlich zeigen wir mit künstlich fragmentierten Gold-Standard-Daten, dass (iii) der Verlust an Genauigkeit selbst dann bescheiden bleibt, wenn bis zu 50% aller Kanten in den Trainingsdaten fehlen. KW - Dependenzparsing KW - partielle Annotationen KW - schwach überwachte Lernverfahren KW - Annotationsprojektion KW - Parallelkorpora KW - dependency parsing KW - partial annotations KW - weakly supervised learning techniques KW - annotation projection KW - parallel corpora Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-57498 ER -