TY - THES A1 - Zolotarenko, Olha T1 - Visualization approaches for coherence relations T1 - Visualisierungsansätze zur Kohärenzrelationen N2 - Die hier vorliegende Arbeit stellt einen Versuch dar, den Visualisierungsansätzen in dem Feld der annotierten Diskursrelationen nahezukommen und durch Vergleich verschiedener Programmierwerkzeuge eine anforderungsnahe Lösung zu finden. Als Gegenstand der Forschung wurden Kohärenzrelationen ausgewählt, welche eine Reihe an Eigenschaften aufweisen, die für viele Visualisierungsmethoden herausfordernd sein können. Die Arbeit stellt fünf verschiedene Visualisierungsmöglichkeiten sowohl von der Anwendungs- als auch von der Entwicklungsperspektive vor. Die zunächst getesteten einfachen HTML-Ansätze sowie das Softwarepaket displaCy zeigen das unzureichende Niveau für die Visualisierungszwecke dieser Arbeit. Die alternative Implementierung mit D3 würde die Voraussetzungen zwar optimal erfüllen, sprengt aber deutlich den Rahmen des Projektes. Die gewählte Hauptmethode wurde als Single-Web-Anwendung konzipiert und verwendet das Annotationstool brat, welches die meisten definierten Voraussetzungen für die Repräsentation der Kohärenzrelationen erfüllt. Die Anwendung stellt die im Text annotierten Kohärenzrelationen graphisch dar und bietet eine Filterfunktion für verschiedene Relationstypen an. N2 - This thesis aims to investigate the visualization approaches in the field of annotated discourse relations and to find a solution that meets the requirements best by comparing different programming tools. The subject of this research are coherence relations, which have several properties that can be challenging for many visualization methods. The thesis presents five different visualization options from both the application and the development perspective. The initially tested simple HTML approaches as well as the software package displaCy show the insufficient level for the visualization purposes of this work. The alternative implementation with D3 would optimally meet the requirements but goes beyond the scope of the project. The main method chosen in this thesis was implemented as a single web application and uses the brat annotation tool, which fulfills most of the defined requirements for the representation of the coherence relations. The application graphically displays the coherence relations annotated in the text and offers a filter function for different relation types. KW - visualization KW - discourse parsing KW - computational linguistics KW - brat KW - web application KW - coherence relations KW - brat KW - Kohärenzrelationen KW - Computerlinguistik KW - Diskursparsing KW - Visualisierung KW - Web-Anwendung Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-516997 ER - TY - THES A1 - Sidarenka, Uladzimir T1 - Sentiment analysis of German Twitter T1 - Sentimentanalyse des deutschen Twitters N2 - The immense popularity of online communication services in the last decade has not only upended our lives (with news spreading like wildfire on the Web, presidents announcing their decisions on Twitter, and the outcome of political elections being determined on Facebook) but also dramatically increased the amount of data exchanged on these platforms. Therefore, if we wish to understand the needs of modern society better and want to protect it from new threats, we urgently need more robust, higher-quality natural language processing (NLP) applications that can recognize such necessities and menaces automatically, by analyzing uncensored texts. Unfortunately, most NLP programs today have been created for standard language, as we know it from newspapers, or, in the best case, adapted to the specifics of English social media. This thesis reduces the existing deficit by entering the new frontier of German online communication and addressing one of its most prolific forms—users’ conversations on Twitter. In particular, it explores the ways and means by how people express their opinions on this service, examines current approaches to automatic mining of these feelings, and proposes novel methods, which outperform state-of-the-art techniques. For this purpose, I introduce a new corpus of German tweets that have been manually annotated with sentiments, their targets and holders, as well as lexical polarity items and their contextual modifiers. Using these data, I explore four major areas of sentiment research: (i) generation of sentiment lexicons, (ii) fine-grained opinion mining, (iii) message-level polarity classification, and (iv) discourse-aware sentiment analysis. In the first task, I compare three popular groups of lexicon generation methods: dictionary-, corpus-, and word-embedding–based ones, finding that dictionary-based systems generally yield better polarity lists than the last two groups. Apart from this, I propose a linear projection algorithm, whose results surpass many existing automatically-generated lexicons. Afterwords, in the second task, I examine two common approaches to automatic prediction of sentiment spans, their sources, and targets: conditional random fields (CRFs) and recurrent neural networks, obtaining higher scores with the former model and improving these results even further by redefining the structure of CRF graphs. When dealing with message-level polarity classification, I juxtapose three major sentiment paradigms: lexicon-, machine-learning–, and deep-learning–based systems, and try to unite the first and last of these method groups by introducing a bidirectional neural network with lexicon-based attention. Finally, in order to make the new classifier aware of microblogs' discourse structure, I let it separately analyze the elementary discourse units of each tweet and infer the overall polarity of a message from the scores of its EDUs with the help of two new approaches: latent-marginalized CRFs and Recursive Dirichlet Process. N2 - Die enorme Popularität von Online-Kommunikationsdiensten in den letzten Jahrzehnten hat nicht unser Leben massiv geändert (sodass Nachrichten sich wie Fegefeuer übers Internet ausbreiten, Präsidenten ihre Entscheidungen auf Twitter ankündigen, und Ergebnisse politischer Wahlen auf Facebook entschieden werden) sondern auch zu einem dramatischen Anstieg der Datenmenge geführt, die über solche Plattformen ausgetauscht werden. Deswegen braucht man heutzutage dringend zuverlässige, qualitätvolle NLP-Programme, um neue gesellschaftliche Bedürfnisse und Risiken in unzensierten Nutzernachrichten automatisch erkennen und abschätzen zu können. Leider sind die meisten modernen NLP-Anwendungen entweder auf die Analyse der Standardsprache (wie wir sie aus Zeitungstexten kennen) ausgerichtet oder im besten Fall an die Spezifika englischer Social Media angepasst. Diese Dissertation reduziert den bestehenden Rückstand, indem sie das "Neuland" der deutschen Online-Kommunikation betritt und sich einer seiner produktivsten Formen zuwendet—den User-Diskussionen auf Twitter. Diese Arbeit erforscht insbesondere die Art und Weise, wie Leute ihre Meinungen auf diesem Online-Service äußern, analysiert existierende Verfahren zur automatischen Erkennung ihrer Gefühle und schlägt neue Verfahren vor, die viele heutige State-of-the-Art-Systeme übertreffen. Zu diesem Zweck stelle ich ein neues Korpus deutscher Tweets vor, die manuell von zwei menschlichen Experten mit Sentimenten (polaren Meinungen), ihren Quellen (sources) und Zielen (targets) sowie lexikalischen polaren Termen und deren kontextuellen Modifizierern annotiert wurden. Mithilfe dieser Daten untersuche ich vier große Teilgebiete der Sentimentanalyse: (i) automatische Generierung von Sentiment-Lexika, (ii) aspekt-basiertes Opinion-Mining, (iii) Klassifizierung der Polarität von ganzen Nachrichten und (iv) diskurs-bewusste Sentimentanalyse. In der ersten Aufgabe vergleiche ich drei populäre Gruppen von Lexikongenerierungsmethoden: wörterbuch-, corpus- und word-embedding-basierte Verfahren, und komme zu dem Schluss, dass wörterbuch-basierte Ansätze generell bessere Polaritätslexika liefern als die letzten zwei Gruppen. Abgesehen davon, schlage ich einen neuen Linearprojektionsalgorithmus vor, dessen Resultate deutlich besser als viele automatisch generierte Polaritätslisten sind. Weiterhin, in der zweiten Aufgabe, untersuche ich zwei gängige Herangehensweisen an die automatische Erkennung der Textspannen von Sentimenten, Sources und Targets: Conditional Random Fields (CRFs) und rekurrente neuronale Netzwerke. Ich erziele bessere Ergebnisse mit der ersten Methode und verbessere diese Werte noch weiter durch alternative Topologien der CRF-Graphen. Bei der Analyse der Nachrichtenpolarität stelle ich drei große Sentiment-Paradigmen gegenüber: lexikon-, Machine-Learning–, und Deep-Learning–basierte Systeme, und versuche die erste und die letzte dieser Gruppen in einem Verfahren zu vereinigen, indem ich eine neue neuronale Netzwerkarchitektur vorschlage: bidirektionales rekurrentes Netzwerk mit lexikon-basierter Attention (LBA). Im letzten Kapitel unternehme ich einen Versuch, die Prädiktion der Gesamtpolarität von Tweets über die Diskursstruktur der Nachrichten zu informieren. Zu diesem Zweck wende ich den vorgeschlagenen LBA-Klassifikator separat auf jede einzelne elementare Diskurs-Einheit (EDU) eines Microblogs an und induziere die allgemeine semantische Ausrichtung dieser Nachricht mithilfe von zwei neuen Methoden: latenten marginalisierten CRFs und rekursivem Dirichlet-Prozess. KW - sentiment analysis KW - opinion mining KW - social media KW - Twitter KW - natural language processing KW - discourse analysis KW - NLP KW - computational linguistics KW - machine learning KW - Sentimentanalyse KW - Computerlinguistik KW - Meinungsforschung Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-437422 ER - TY - THES A1 - Jurish, Bryan T1 - Finite-state canonicalization techniques for historical German T1 - Endliche Techniken zur Kanonikalisierung historischen deutschen Textes N2 - This work addresses issues in the automatic preprocessing of historical German input text for use by conventional natural language processing techniques. Conventional techniques cannot adequately account for historical input text due to conventional tools' reliance on a fixed application-specific lexicon keyed by contemporary orthographic surface form on the one hand, and the lack of consistent orthographic conventions in historical input text on the other. Historical spelling variation is treated here as an error-correction problem or "canonicalization" task: an attempt to automatically assign each (historical) input word a unique extant canonical cognate, thus allowing direct application-specific processing (tagging, parsing, etc.) of the returned canonical forms without need for any additional application-specific modifications. In the course of the work, various methods for automatic canonicalization are investigated and empirically evaluated, including conflation by phonetic identity, conflation by lemma instantiation heuristics, canonicalization by weighted finite-state rewrite cascade, and token-wise disambiguation by a dynamic Hidden Markov Model. N2 - Diese Arbeit behandelt Themen der automatischen Vorverarbeitung historischen deutschen Textes für die Weiterverarbeitung durch konventionelle computerlinguistische Techniken. Konventionelle Techniken können historischen Text wegen des hohen Grads an graphematischer Variation in solchem Text ohne eine solche Vorverarbeitung nicht zufriedenstellend behandeln. Variation in der historischen Rechtschreibung wird hier als Fehlerkorrekturproblem oder "Kanonikalisierungsaufgabe" behandelt: ein Versuch, jedem (historischen) Eingabewort eine eindeutige extante Äquivalente zuzuordnen; so können konventionelle Techniken ohne weitere Modifikation direkt auf den gelieferten kanonischen Formen arbeiten. Verschiedene Methoden zur automatischen Kanonikalisierung werden im Rahmen dieser Arbeit untersucht, unter anderem Konflation durch phonetische Identität, Konflation durch Lemma-Instanziierungsheuristiken, Kanonikalisierung durch eine Kaskade gewichteter endlicher Transduktoren, und Disambiguiierung von Konflationskandidaten durch ein dynamisches Hidden Markov Modell. KW - Computerlinguistik KW - Orthographie KW - historischer Text KW - Rechtschreibkorrektur KW - computational linguistics KW - orthography KW - historical text KW - spelling correction Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-55789 ER - TY - CHAP ED - Hanneforth, Thomas ED - Würzner, Kay-Michael T1 - Finite-state methods and natural language processing : 6th International Workshop, FSMNLP 2007 Potsdam, Germany, september 14 - 16 ; revised papers N2 - Proceedings with the revised papers of the FSMNLP (Finite-state Methods and Natural Language Processing) 2007 Workshop in Potsdam N2 - Tagungsband mit den Beiträgen der FSMNLP (Finite-state Methods and Natural Language Processing) 2007 in Potsdam KW - Computerlinguistik KW - Automatentheorie KW - Endliche Automaten KW - Sprachverarbeitung KW - computational linguistics KW - automata theory KW - finite-state automata KW - natural language processing Y1 - 2008 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-23812 SN - 978-3-940793-57-7 PB - Universitätsverlag Potsdam CY - Potsdam ER -