TY - THES A1 - Zuo, Zhe T1 - From unstructured to structured: Context-based named entity mining from text T1 - Von unstrukturiert zu strukturiert: Kontextbasierte Gewinnung benannter Entitäten von Text N2 - With recent advances in the area of information extraction, automatically extracting structured information from a vast amount of unstructured textual data becomes an important task, which is infeasible for humans to capture all information manually. Named entities (e.g., persons, organizations, and locations), which are crucial components in texts, are usually the subjects of structured information from textual documents. Therefore, the task of named entity mining receives much attention. It consists of three major subtasks, which are named entity recognition, named entity linking, and relation extraction. These three tasks build up an entire pipeline of a named entity mining system, where each of them has its challenges and can be employed for further applications. As a fundamental task in the natural language processing domain, studies on named entity recognition have a long history, and many existing approaches produce reliable results. The task is aiming to extract mentions of named entities in text and identify their types. Named entity linking recently received much attention with the development of knowledge bases that contain rich information about entities. The goal is to disambiguate mentions of named entities and to link them to the corresponding entries in a knowledge base. Relation extraction, as the final step of named entity mining, is a highly challenging task, which is to extract semantic relations between named entities, e.g., the ownership relation between two companies. In this thesis, we review the state-of-the-art of named entity mining domain in detail, including valuable features, techniques, evaluation methodologies, and so on. Furthermore, we present two of our approaches that focus on the named entity linking and relation extraction tasks separately. To solve the named entity linking task, we propose the entity linking technique, BEL, which operates on a textual range of relevant terms and aggregates decisions from an ensemble of simple classifiers. Each of the classifiers operates on a randomly sampled subset of the above range. In extensive experiments on hand-labeled and benchmark datasets, our approach outperformed state-of-the-art entity linking techniques, both in terms of quality and efficiency. For the task of relation extraction, we focus on extracting a specific group of difficult relation types, business relations between companies. These relations can be used to gain valuable insight into the interactions between companies and perform complex analytics, such as predicting risk or valuating companies. Our semi-supervised strategy can extract business relations between companies based on only a few user-provided seed company pairs. By doing so, we also provide a solution for the problem of determining the direction of asymmetric relations, such as the ownership_of relation. We improve the reliability of the extraction process by using a holistic pattern identification method, which classifies the generated extraction patterns. Our experiments show that we can accurately and reliably extract new entity pairs occurring in the target relation by using as few as five labeled seed pairs. N2 - Mit den jüngsten Fortschritten in den Gebieten der Informationsextraktion wird die automatisierte Extrahierung strukturierter Informationen aus einer unüberschaubaren Menge unstrukturierter Textdaten eine wichtige Aufgabe, deren manuelle Ausführung unzumutbar ist. Benannte Entitäten, (z.B. Personen, Organisationen oder Orte), essentielle Bestandteile in Texten, sind normalerweise der Gegenstand strukturierter Informationen aus Textdokumenten. Daher erhält die Aufgabe der Gewinnung benannter Entitäten viel Aufmerksamkeit. Sie besteht aus drei groen Unteraufgaben, nämlich Erkennung benannter Entitäten, Verbindung benannter Entitäten und Extraktion von Beziehungen. Diese drei Aufgaben zusammen sind der Grundprozess eines Systems zur Gewinnung benannter Entitäten, wobei jede ihre eigene Herausforderung hat und für weitere Anwendungen eingesetzt werden kann. Als ein fundamentaler Aspekt in der Verarbeitung natürlicher Sprache haben Studien zur Erkennung benannter Entitäten eine lange Geschichte, und viele bestehenden Ansätze erbringen verlässliche Ergebnisse. Die Aufgabe zielt darauf ab, Nennungen benannter Entitäten zu extrahieren und ihre Typen zu bestimmen. Verbindung benannter Entitäten hat in letzter Zeit durch die Entwicklung von Wissensdatenbanken, welche reiche Informationen über Entitäten enthalten, viel Aufmerksamkeit erhalten. Das Ziel ist es, Nennungen benannter Entitäten zu unterscheiden und diese mit dazugehörigen Einträgen in einer Wissensdatenbank zu verknüpfen. Der letzte Schritt der Gewinnung benannter Entitäten, die Extraktion von Beziehungen, ist eine stark anspruchsvolle Aufgabe, nämlich die Extraktion semantischer Beziehungen zwischen Entitäten, z.B. die Eigentümerschaft zwischen zwei Firmen. In dieser Doktorarbeit arbeiten wir den aktuellen Stand der Wissenschaft in den Domäne der Gewinnung benannter Entitäten auf, unter anderem wertvolle Eigenschaften und Evaluationsmethoden. Darüberhinaus präsentieren wir zwei Ansätze von uns, die jeweils ihren Fokus auf die Verbindung benannter Entitäten sowie der Aufgaben der Extraktion von Beziehungen legen. Um die Aufgabe der Verbindung benannter Entitäten zu lösen schlagen wir hier die Verbindungstechnik BEL vor, welche auf einer textuellen Bandbreite relevanter Begriffe agiert und Entscheidungen einer Kombination von einfacher Klassifizierer aggregiert. Jeder dieser Klassifizierer arbeitet auf einer zufällig ausgewählten Teilmenge der obigen Bandbreite. In umfangreichen Experimenten mit handannotierten sowie Vergleichsdatensätzen hat unser Ansatz andere Lösungen zur Verbindung benannter Entitäten, die auf dem Stand der aktuellen Technik beruhen, sowie in Bezug auf Qualität als auch Effizienz geschlagen. Für die Aufgabe der Extraktion von Beziehungen fokussieren wir uns auf eine bestimmte Gruppe schwieriger Beziehungstypen, nämlich die Geschäftsbeziehungen zwischen Firmen. Diese Beziehungen können benutzt werden, um wertvolle Erkenntnisse in das Zusammenspiel von Firmen zu gelangen und komplexe Analysen ausführen, beispielsweise die Risikovorhersage oder Bewertung von Firmen. Unsere teilbeaufsichtigte Strategie kann Geschäftsbeziehungen zwischen Firmen anhand nur weniger nutzergegebener Startwerte von Firmenpaaren extrahieren. Dadurch bieten wir auch eine Lösung für das Problem der Richtungserkennung asymmetrischer Beziehungen, beispielsweise der Eigentumsbeziehung. Wir verbessern die Verlässlichkeit des Extraktionsprozesses, indem wir holistische Musteridentifikationsmethoden verwenden, welche die erstellten Extraktionsmuster klassifizieren. Unsere Experimente zeigen, dass wir neue Entitätenpaare akkurat und verlässlich in der Zielbeziehung mit bereits fünf bezeichneten Startpaaren extrahieren können. KW - named entity mining KW - information extraction KW - natural language processing KW - Gewinnung benannter Entitäten KW - Informationsextraktion KW - maschinelle Verarbeitung natürlicher Sprache Y1 - 2017 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-412576 ER - TY - THES A1 - Sidarenka, Uladzimir T1 - Sentiment analysis of German Twitter T1 - Sentimentanalyse des deutschen Twitters N2 - The immense popularity of online communication services in the last decade has not only upended our lives (with news spreading like wildfire on the Web, presidents announcing their decisions on Twitter, and the outcome of political elections being determined on Facebook) but also dramatically increased the amount of data exchanged on these platforms. Therefore, if we wish to understand the needs of modern society better and want to protect it from new threats, we urgently need more robust, higher-quality natural language processing (NLP) applications that can recognize such necessities and menaces automatically, by analyzing uncensored texts. Unfortunately, most NLP programs today have been created for standard language, as we know it from newspapers, or, in the best case, adapted to the specifics of English social media. This thesis reduces the existing deficit by entering the new frontier of German online communication and addressing one of its most prolific forms—users’ conversations on Twitter. In particular, it explores the ways and means by how people express their opinions on this service, examines current approaches to automatic mining of these feelings, and proposes novel methods, which outperform state-of-the-art techniques. For this purpose, I introduce a new corpus of German tweets that have been manually annotated with sentiments, their targets and holders, as well as lexical polarity items and their contextual modifiers. Using these data, I explore four major areas of sentiment research: (i) generation of sentiment lexicons, (ii) fine-grained opinion mining, (iii) message-level polarity classification, and (iv) discourse-aware sentiment analysis. In the first task, I compare three popular groups of lexicon generation methods: dictionary-, corpus-, and word-embedding–based ones, finding that dictionary-based systems generally yield better polarity lists than the last two groups. Apart from this, I propose a linear projection algorithm, whose results surpass many existing automatically-generated lexicons. Afterwords, in the second task, I examine two common approaches to automatic prediction of sentiment spans, their sources, and targets: conditional random fields (CRFs) and recurrent neural networks, obtaining higher scores with the former model and improving these results even further by redefining the structure of CRF graphs. When dealing with message-level polarity classification, I juxtapose three major sentiment paradigms: lexicon-, machine-learning–, and deep-learning–based systems, and try to unite the first and last of these method groups by introducing a bidirectional neural network with lexicon-based attention. Finally, in order to make the new classifier aware of microblogs' discourse structure, I let it separately analyze the elementary discourse units of each tweet and infer the overall polarity of a message from the scores of its EDUs with the help of two new approaches: latent-marginalized CRFs and Recursive Dirichlet Process. N2 - Die enorme Popularität von Online-Kommunikationsdiensten in den letzten Jahrzehnten hat nicht unser Leben massiv geändert (sodass Nachrichten sich wie Fegefeuer übers Internet ausbreiten, Präsidenten ihre Entscheidungen auf Twitter ankündigen, und Ergebnisse politischer Wahlen auf Facebook entschieden werden) sondern auch zu einem dramatischen Anstieg der Datenmenge geführt, die über solche Plattformen ausgetauscht werden. Deswegen braucht man heutzutage dringend zuverlässige, qualitätvolle NLP-Programme, um neue gesellschaftliche Bedürfnisse und Risiken in unzensierten Nutzernachrichten automatisch erkennen und abschätzen zu können. Leider sind die meisten modernen NLP-Anwendungen entweder auf die Analyse der Standardsprache (wie wir sie aus Zeitungstexten kennen) ausgerichtet oder im besten Fall an die Spezifika englischer Social Media angepasst. Diese Dissertation reduziert den bestehenden Rückstand, indem sie das "Neuland" der deutschen Online-Kommunikation betritt und sich einer seiner produktivsten Formen zuwendet—den User-Diskussionen auf Twitter. Diese Arbeit erforscht insbesondere die Art und Weise, wie Leute ihre Meinungen auf diesem Online-Service äußern, analysiert existierende Verfahren zur automatischen Erkennung ihrer Gefühle und schlägt neue Verfahren vor, die viele heutige State-of-the-Art-Systeme übertreffen. Zu diesem Zweck stelle ich ein neues Korpus deutscher Tweets vor, die manuell von zwei menschlichen Experten mit Sentimenten (polaren Meinungen), ihren Quellen (sources) und Zielen (targets) sowie lexikalischen polaren Termen und deren kontextuellen Modifizierern annotiert wurden. Mithilfe dieser Daten untersuche ich vier große Teilgebiete der Sentimentanalyse: (i) automatische Generierung von Sentiment-Lexika, (ii) aspekt-basiertes Opinion-Mining, (iii) Klassifizierung der Polarität von ganzen Nachrichten und (iv) diskurs-bewusste Sentimentanalyse. In der ersten Aufgabe vergleiche ich drei populäre Gruppen von Lexikongenerierungsmethoden: wörterbuch-, corpus- und word-embedding-basierte Verfahren, und komme zu dem Schluss, dass wörterbuch-basierte Ansätze generell bessere Polaritätslexika liefern als die letzten zwei Gruppen. Abgesehen davon, schlage ich einen neuen Linearprojektionsalgorithmus vor, dessen Resultate deutlich besser als viele automatisch generierte Polaritätslisten sind. Weiterhin, in der zweiten Aufgabe, untersuche ich zwei gängige Herangehensweisen an die automatische Erkennung der Textspannen von Sentimenten, Sources und Targets: Conditional Random Fields (CRFs) und rekurrente neuronale Netzwerke. Ich erziele bessere Ergebnisse mit der ersten Methode und verbessere diese Werte noch weiter durch alternative Topologien der CRF-Graphen. Bei der Analyse der Nachrichtenpolarität stelle ich drei große Sentiment-Paradigmen gegenüber: lexikon-, Machine-Learning–, und Deep-Learning–basierte Systeme, und versuche die erste und die letzte dieser Gruppen in einem Verfahren zu vereinigen, indem ich eine neue neuronale Netzwerkarchitektur vorschlage: bidirektionales rekurrentes Netzwerk mit lexikon-basierter Attention (LBA). Im letzten Kapitel unternehme ich einen Versuch, die Prädiktion der Gesamtpolarität von Tweets über die Diskursstruktur der Nachrichten zu informieren. Zu diesem Zweck wende ich den vorgeschlagenen LBA-Klassifikator separat auf jede einzelne elementare Diskurs-Einheit (EDU) eines Microblogs an und induziere die allgemeine semantische Ausrichtung dieser Nachricht mithilfe von zwei neuen Methoden: latenten marginalisierten CRFs und rekursivem Dirichlet-Prozess. KW - sentiment analysis KW - opinion mining KW - social media KW - Twitter KW - natural language processing KW - discourse analysis KW - NLP KW - computational linguistics KW - machine learning KW - Sentimentanalyse KW - Computerlinguistik KW - Meinungsforschung Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-437422 ER - TY - THES A1 - Chujfi-La-Roche, Salim T1 - Human Cognition and natural Language Processing in the Digitally Mediated Environment N2 - Organizations continue to assemble and rely upon teams of remote workers as an essential element of their business strategy; however, knowledge processing is particular difficult in such isolated, largely digitally mediated settings. The great challenge for a knowledge-based organization lies not in how individuals should interact using technology but in how to achieve effective cooperation and knowledge exchange. Currently more attention has been paid to technology and the difficulties machines have processing natural language and less to studies of the human aspect—the influence of our own individual cognitive abilities and preferences on the processing of information when interacting online. This thesis draws on four scientific domains involved in the process of interpreting and processing massive, unstructured data—knowledge management, linguistics, cognitive science, and artificial intelligence—to build a model that offers a reliable way to address the ambiguous nature of language and improve workers’ digitally mediated interactions. Human communication can be discouragingly imprecise and is characterized by a strong linguistic ambiguity; this represents an enormous challenge for the computer analysis of natural language. In this thesis, I propose and develop a new data interpretation layer for the processing of natural language based on the human cognitive preferences of the conversants themselves. Such a semantic analysis merges information derived both from the content and from the associated social and individual contexts, as well as the social dynamics that emerge online. At the same time, assessment taxonomies are used to analyze online comportment at the individual and community level in order to successfully identify characteristics leading to greater effectiveness of communication. Measurement patterns for identifying effective methods of individual interaction with regard to individual cognitive and learning preferences are also evaluated; a novel Cyber-Cognitive Identity (CCI)—a perceptual profile of an individual’s cognitive and learning styles—is proposed. Accommodation of such cognitive preferences can greatly facilitate knowledge management in the geographically dispersed and collaborative digital environment. Use of the CCI is proposed for cognitively labeled Latent Dirichlet Allocation (CLLDA), a novel method for automatically labeling and clustering knowledge that does not rely solely on probabilistic methods, but rather on a fusion of machine learning algorithms and the cognitive identities of the associated individuals interacting in a digitally mediated environment. Advantages include: a greater perspicuity of dynamic and meaningful cognitive rules leading to greater tagging accuracy and a higher content portability at the sentence, document, and corpus level with respect to digital communication. N2 - Zunehmend bauen Organisationen Telearbeit als zentrales Element ihrer Geschäftsstrategie auf. Allerdings führt die Wissensverarbeitung in solchen digital vermittelnden -weitegehend aber nicht interaktiv strukturierten- Kontexten zu Schwierigkeiten. Dabei liegt die wesentliche Herausforderung für wissensbasierte Organisationen nicht in der Frage, wie Individuen mithilfe von Technologien zusammenarbeiten sollten, sondern darin, wie effektiv die Zusammenarbeit und ein effektiver Wissensaustausch zu erreichen sind. Gegenwärtige Untersuchungen fokussieren weit mehr auf Technologien selbst als auf den menschlichen Voraussetzungen von kognitiven Fähigkeiten und Präferenzen bei der online basierten Zusammenarbeit. Genauso ist der Umstand noch nicht hinreichend berücksichtigt worden, dass Natural Language Processing (NLP) den generellen Begleiterscheinungen von Sprache wie Missverständnissen und Mehrdeutigkeiten unterworfen ist. Diese Arbeit setzt auf vier wissenschaftlichen Feldern auf, die in der Verarbeitung und Interpretation von großen, teils unstrukturierten Datenmengen wesentlich sind: Wissensmanagement, Kognitionswissenschaft, Linguistik und Künstliche Intelligenz. Auf dieser breiten Grundlage wird ein Modell angeboten, das auf verlässliche Art, den nicht-deterministischen Charakter von Sprache betont und vor diesem Hintergrund Verbesserungspotentiale digital gestützter Zusammenarbeit aufzeigt. Menschliche Kommunikation kann entmutigend unpräzise sein und ist von linguistischer Mehrdeutigkeit geprägt. Dies bildet eine wesentliche Herausforderung für die computertechnische Analyse natürlicher Sprache. In dieser Arbeit entwickle ich unter Berücksichtigung kognitiver Präferenzen von Gesprächspartnern den Vorschlag für einen neuen Interpretationsansatz von Daten. Im Rahmen dieser semantischen Analyse werden Informationen zusammengeführt, die sowohl den zu vermittelnden Inhalt als auch die damit verbundenen sozialen und individuellen Kontexte, sowie die Gruppendynamik im Online-Umfeld einbeziehen. Gleichzeitig werden Bewertungstaxonomien verwendet, um das Online-Verhalten sowohl auf individueller wie gruppendynamischer Ebene zu analysieren, um darin Merkmale für eine größere Effektivität der Kommunikation zu identifizieren. Es werden Muster zur Identifizierung und Messung wirksamer Methoden der Interaktion in Hinblick auf individuelle kognitive und lernpsychologische Präferenzen bewertet. Hierzu wird der Begriff einer Cyber-Cognitive Identity (CCI) vorgeschlagen, der unterschiedliche Wahrnehmungsprofile kognitiver und lernpsychologischer Stile verschiedener Individuen beschreibt. Die Bezugnahme auf solche kognitiven Präferenzen kann das Wissensmanagement in geografisch verteilten, kollaborativen digitalen Umgebungen erheblich erleichtern und damit das Wissensaustausch verbessern. Cognitive Labeled Latent Dirichlet Allocation (CLLDA) wird als generatives Wahrscheinlichkeitsmodell für die automatische Kennzeichnung und Clusterbildung von CCI-gewonnenen Profilen verwendet. Dabei dominieren methodologisch die Kognitionstypen gegenüber den Wahrscheinlichkeitsaspekten. Mit der Einführung und Weiterverarbeitung des CCI-Begriffs wird der bisherige Forschungsstand um ein fundiertes Verfahrensmodell erweitert, das eine Grundlage für sich potentiell anschließende Forschungsarbeiten und praktische Anwendungen bietet. KW - cognitive science KW - natural language processing KW - knowledge management KW - thinking styles KW - artificial intelligence KW - Kognitionswissenschaft KW - Verarbeitung natürlicher Sprache KW - Wissensmanagement KW - Denkstile KW - künstliche Intelligenz Y1 - 2020 ER -