@phdthesis{Brauer2010, author = {Brauer, Falk}, title = {Extraktion und Identifikation von Entit{\"a}ten in Textdaten im Umfeld der Enterprise Search}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-51409}, school = {Universit{\"a}t Potsdam}, year = {2010}, abstract = {Die automatische Informationsextraktion (IE) aus unstrukturierten Texten erm{\"o}glicht v{\"o}llig neue Wege, auf relevante Informationen zuzugreifen und deren Inhalte zu analysieren, die weit {\"u}ber bisherige Verfahren zur Stichwort-basierten Dokumentsuche hinausgehen. Die Entwicklung von Programmen zur Extraktion von maschinenlesbaren Daten aus Texten erfordert jedoch nach wie vor die Entwicklung von dom{\"a}nenspezifischen Extraktionsprogrammen. Insbesondere im Bereich der Enterprise Search (der Informationssuche im Unternehmensumfeld), in dem eine große Menge von heterogenen Dokumenttypen existiert, ist es oft notwendig ad-hoc Programm-module zur Extraktion von gesch{\"a}ftsrelevanten Entit{\"a}ten zu entwickeln, die mit generischen Modulen in monolithischen IE-Systemen kombiniert werden. Dieser Umstand ist insbesondere kritisch, da potentiell f{\"u}r jeden einzelnen Anwendungsfall ein von Grund auf neues IE-System entwickelt werden muss. Die vorliegende Dissertation untersucht die effiziente Entwicklung und Ausf{\"u}hrung von IE-Systemen im Kontext der Enterprise Search und effektive Methoden zur Ausnutzung bekannter strukturierter Daten im Unternehmenskontext f{\"u}r die Extraktion und Identifikation von gesch{\"a}ftsrelevanten Entit{\"a}ten in Doku-menten. Grundlage der Arbeit ist eine neuartige Plattform zur Komposition von IE-Systemen auf Basis der Beschreibung des Datenflusses zwischen generischen und anwendungsspezifischen IE-Modulen. Die Plattform unterst{\"u}tzt insbesondere die Entwicklung und Wiederverwendung von generischen IE-Modulen und zeichnet sich durch eine h{\"o}here Flexibilit{\"a}t und Ausdrucksm{\"a}chtigkeit im Vergleich zu vorherigen Methoden aus. Ein in der Dissertation entwickeltes Verfahren zur Dokumentverarbeitung interpretiert den Daten-austausch zwischen IE-Modulen als Datenstr{\"o}me und erm{\"o}glicht damit eine weitgehende Parallelisierung von einzelnen Modulen. Die autonome Ausf{\"u}hrung der Module f{\"u}hrt zu einer wesentlichen Beschleu-nigung der Verarbeitung von Einzeldokumenten und verbesserten Antwortzeiten, z. B. f{\"u}r Extraktions-dienste. Bisherige Ans{\"a}tze untersuchen lediglich die Steigerung des durchschnittlichen Dokumenten-durchsatzes durch verteilte Ausf{\"u}hrung von Instanzen eines IE-Systems. Die Informationsextraktion im Kontext der Enterprise Search unterscheidet sich z. B. von der Extraktion aus dem World Wide Web dadurch, dass in der Regel strukturierte Referenzdaten z. B. in Form von Unternehmensdatenbanken oder Terminologien zur Verf{\"u}gung stehen, die oft auch die Beziehungen von Entit{\"a}ten beschreiben. Entit{\"a}ten im Unternehmensumfeld haben weiterhin bestimmte Charakteristiken: Eine Klasse von relevanten Entit{\"a}ten folgt bestimmten Bildungsvorschriften, die nicht immer bekannt sind, auf die aber mit Hilfe von bekannten Beispielentit{\"a}ten geschlossen werden kann, so dass unbekannte Entit{\"a}ten extrahiert werden k{\"o}nnen. Die Bezeichner der anderen Klasse von Entit{\"a}ten haben eher umschreibenden Charakter. Die korrespondierenden Umschreibungen in Texten k{\"o}nnen variieren, wodurch eine Identifikation derartiger Entit{\"a}ten oft erschwert wird. Zur effizienteren Entwicklung von IE-Systemen wird in der Dissertation ein Verfahren untersucht, das alleine anhand von Beispielentit{\"a}ten effektive Regul{\"a}re Ausdr{\"u}cke zur Extraktion von unbekannten Entit{\"a}ten erlernt und damit den manuellen Aufwand in derartigen Anwendungsf{\"a}llen minimiert. Verschiedene Generalisierungs- und Spezialisierungsheuristiken erkennen Muster auf verschiedenen Abstraktionsebenen und schaffen dadurch einen Ausgleich zwischen Genauigkeit und Vollst{\"a}ndigkeit bei der Extraktion. Bekannte Regellernverfahren im Bereich der Informationsextraktion unterst{\"u}tzen die beschriebenen Problemstellungen nicht, sondern ben{\"o}tigen einen (annotierten) Dokumentenkorpus. Eine Methode zur Identifikation von Entit{\"a}ten, die durch Graph-strukturierte Referenzdaten vordefiniert sind, wird als dritter Schwerpunkt untersucht. Es werden Verfahren konzipiert, welche {\"u}ber einen exakten Zeichenkettenvergleich zwischen Text und Referenzdatensatz hinausgehen und Teil{\"u}bereinstimmungen und Beziehungen zwischen Entit{\"a}ten zur Identifikation und Disambiguierung heranziehen. Das in der Arbeit vorgestellte Verfahren ist bisherigen Ans{\"a}tzen hinsichtlich der Genauigkeit und Vollst{\"a}ndigkeit bei der Identifikation {\"u}berlegen.}, language = {de} } @article{HeinrichBalanzateguiBensetal.2018, author = {Heinrich, Ingo and Balanzategui, Daniel and Bens, Oliver and Blasch, Gerald and Blume, Theresa and Boettcher, Falk and Borg, Erik and Brademann, Brian and Brauer, Achim and Conrad, Christopher and Dietze, Elisabeth and Dr{\"a}ger, Nadine and Fiener, Peter and Gerke, Horst H. and G{\"u}ntner, Andreas and Heine, Iris and Helle, Gerhard and Herbrich, Marcus and Harfenmeister, Katharina and Heussner, Karl-Uwe and Hohmann, Christian and Itzerott, Sibylle and Jurasinski, Gerald and Kaiser, Knut and Kappler, Christoph and Koebsch, Franziska and Liebner, Susanne and Lischeid, Gunnar and Merz, Bruno and Missling, Klaus Dieter and Morgner, Markus and Pinkerneil, Sylvia and Plessen, Birgit and Raab, Thomas and Ruhtz, Thomas and Sachs, Torsten and Sommer, Michael and Spengler, Daniel and Stender, Vivien and St{\"u}ve, Peter and Wilken, Florian}, title = {Interdisciplinary Geo-ecological Research across Time Scales in the Northeast German Lowland Observatory (TERENO-NE)}, series = {Vadose zone journal}, volume = {17}, journal = {Vadose zone journal}, number = {1}, publisher = {Soil Science Society of America}, address = {Madison}, issn = {1539-1663}, doi = {10.2136/vzj2018.06.0116}, pages = {25}, year = {2018}, abstract = {The Northeast German Lowland Observatory (TERENO-NE) was established to investigate the regional impact of climate and land use change. TERENO-NE focuses on the Northeast German lowlands, for which a high vulnerability has been determined due to increasing temperatures and decreasing amounts of precipitation projected for the coming decades. To facilitate in-depth evaluations of the effects of climate and land use changes and to separate the effects of natural and anthropogenic drivers in the region, six sites were chosen for comprehensive monitoring. In addition, at selected sites, geoarchives were used to substantially extend the instrumental records back in time. It is this combination of diverse disciplines working across different time scales that makes the observatory TERENO-NE a unique observation platform. We provide information about the general characteristics of the observatory and its six monitoring sites and present examples of interdisciplinary research activities at some of these sites. We also illustrate how monitoring improves process understanding, how remote sensing techniques are fine-tuned by the most comprehensive ground-truthing site DEMMIN, how soil erosion dynamics have evolved, how greenhouse gas monitoring of rewetted peatlands can reveal unexpected mechanisms, and how proxy data provides a long-term perspective of current ongoing changes.}, language = {en} }