@phdthesis{Gruetze2018, author = {Gr{\"u}tze, Toni}, title = {Adding value to text with user-generated content}, school = {Universit{\"a}t Potsdam}, pages = {ii, 114}, year = {2018}, abstract = {In recent years, the ever-growing amount of documents on the Web as well as in closed systems for private or business contexts led to a considerable increase of valuable textual information about topics, events, and entities. It is a truism that the majority of information (i.e., business-relevant data) is only available in unstructured textual form. The text mining research field comprises various practice areas that have the common goal of harvesting high-quality information from textual data. These information help addressing users' information needs. In this thesis, we utilize the knowledge represented in user-generated content (UGC) originating from various social media services to improve text mining results. These social media platforms provide a plethora of information with varying focuses. In many cases, an essential feature of such platforms is to share relevant content with a peer group. Thus, the data exchanged in these communities tend to be focused on the interests of the user base. The popularity of social media services is growing continuously and the inherent knowledge is available to be utilized. We show that this knowledge can be used for three different tasks. Initially, we demonstrate that when searching persons with ambiguous names, the information from Wikipedia can be bootstrapped to group web search results according to the individuals occurring in the documents. We introduce two models and different means to handle persons missing in the UGC source. We show that the proposed approaches outperform traditional algorithms for search result clustering. Secondly, we discuss how the categorization of texts according to continuously changing community-generated folksonomies helps users to identify new information related to their interests. We specifically target temporal changes in the UGC and show how they influence the quality of different tag recommendation approaches. Finally, we introduce an algorithm to attempt the entity linking problem, a necessity for harvesting entity knowledge from large text collections. The goal is the linkage of mentions within the documents with their real-world entities. A major focus lies on the efficient derivation of coherent links. For each of the contributions, we provide a wide range of experiments on various text corpora as well as different sources of UGC. The evaluation shows the added value that the usage of these sources provides and confirms the appropriateness of leveraging user-generated content to serve different information needs.}, language = {en} } @phdthesis{Huebner2007, author = {H{\"u}bner, Sebastian Valentin}, title = {Wissensbasierte Modellierung von Audio-Signal-Klassifikatoren : zur Bioakustik von Tursiops truncatus. - 2., {\"u}berarb. Aufl.}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-16631}, school = {Universit{\"a}t Potsdam}, year = {2007}, abstract = {Die vorliegende Arbeit befasst sich mit der wissensbasierten Modellierung von Audio-Signal-Klassifikatoren (ASK) f{\"u}r die Bioakustik. Sie behandelt ein interdisziplin{\"a}res Problem, das viele Facetten umfasst. Zu diesen geh{\"o}ren artspezifische bioakustische Fragen, mathematisch-algorithmische Details und Probleme der Repr{\"a}sentation von Expertenwissen. Es wird eine universelle praktisch anwendbare Methode zur wissensbasierten Modellierung bioakustischer ASK dargestellt und evaluiert. Das Problem der Modellierung von ASK wird dabei durchg{\"a}ngig aus KDD-Perspektive (Knowledge Discovery in Databases) betrachtet. Der grundlegende Ansatz besteht darin, mit Hilfe von modifizierten KDD-Methoden und Data-Mining-Verfahren die Modellierung von ASK wesentlich zu erleichtern. Das etablierte KDD-Paradigma wird mit Hilfe eines detaillierten formalen Modells auf den Bereich der Modellierung von ASK {\"u}bertragen. Neunzehn elementare KDD-Verfahren bilden die Grundlage eines umfassenden Systems zur wissensbasierten Modellierung von ASK. Methode und Algorithmen werden evaluiert, indem eine sehr umfangreiche Sammlung akustischer Signale des Großen T{\"u}mmlers mit ihrer Hilfe untersucht wird. Die Sammlung wurde speziell f{\"u}r diese Arbeit in Eilat (Israel) angefertigt. Insgesamt werden auf Grundlage dieses Audiomaterials vier empirische Einzelstudien durchgef{\"u}hrt: - Auf der Basis von oszillographischen und spektrographischen Darstellungen wird ein ph{\"a}nomenologisches Klassifikationssystem f{\"u}r die vielf{\"a}ltigen Laute des Großen T{\"u}mmlers dargestellt. - Mit Hilfe eines Korpus halbsynthetischer Audiodaten werden verschiedene grundlegende Verfahren zur Modellierung und Anwendung von ASK in Hinblick auf ihre Genauigkeit und Robustheit untersucht. - Mit einem speziell entwickelten Clustering-Verfahren werden mehrere Tausend nat{\"u}rliche Pfifflaute des Großen T{\"u}mmlers untersucht. Die Ergebnisse werden visualisiert und diskutiert. - Durch maschinelles mustererkennungsbasiertes akustisches Monitoring wird die Emissionsdynamik verschiedener Lauttypen im Verlaufe von vier Wochen untersucht. Etwa 2.5 Millionen Klicklaute werden im Anschluss auf ihre spektralen Charakteristika hin untersucht. Die beschriebene Methode und die dargestellten Algorithmen sind in vielf{\"a}ltiger Hinsicht erweiterbar, ohne dass an ihrer grundlegenden Architektur etwas ge{\"a}ndert werden muss. Sie lassen sich leicht in dem gesamten Gebiet der Bioakustik einsetzen. Hiermit besitzen sie auch f{\"u}r angrenzende Disziplinen ein hohes Potential, denn exaktes Wissen {\"u}ber die akustischen Kommunikations- und Sonarsysteme der Tiere wird in der theoretischen Biologie, in den Kognitionswissenschaften, aber auch im praktischen Naturschutz, in Zukunft eine wichtige Rolle spielen.}, language = {de} } @phdthesis{Jamil2010, author = {Jamil, Abdlhamed}, title = {Fernerkundung und GIS zur Erfassung, Modellierung und Visualisierung orientalischer Stadtstrukturen : das Beispiel Sanaa (Jemen)}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-50200}, school = {Universit{\"a}t Potsdam}, year = {2010}, abstract = {Gegenstand dieser Arbeit ist die Konzeption, Entwicklung und exemplarische Implementierung eines generischen Verfahrens zur Erfassung, Verarbeitung, Auswertung und kartographischen Visualisierung urbaner Strukturen im altweltlichen Trockeng{\"u}rtel mittels hochaufl{\"o}sender operationeller Fernerkundungsdaten. Das Verfahren wird am Beispiel der jemenitischen Hauptstadt Sanaa einer Vertreterin des Typus der Orientalischen Stadt angewandt und evaluiert. Das zu entwickelnde Verfahren soll auf Standardverfahren und Systemen der raumbezogenen Informationsverarbeitung basieren und in seinen wesentlichen Prozessschritten automatisiert werden k{\"o}nnen. Daten von hochaufl{\"o}senden operationellen Fernerkundungssystemen (wie z.B. QuickBird, Ikonos u. a.) erlauben die Erkennung und Kartierung urbaner Objekte, wie Geb{\"a}ude, Straßen und sogar Autos. Die mit ihnen erstellten Karten und den daraus gewonnenen Informationen k{\"o}nnen zur Erfassung von Urbanisierungsprozessen (Stadt- und Bev{\"o}lkerungswachstum) herangezogen werden. Sie werden auch zur Generierung von 3D-Stadtmodellen genutzt. Diese dienen z.B. der Visualisierung f{\"u}r touristische Anwendungen, f{\"u}r die Stadtplanung, f{\"u}r L{\"a}rmanalysen oder f{\"u}r die Standortplanung von Mobilfunkantennen. Bei dem in dieser Arbeit erzeugten 3D-Visualisierung wurden jedoch keine Geb{\"a}udedetails erfasst. Entscheidend war vielmehr die Wiedergabe der Siedlungsstruktur, die im Vorhandensein und in der Anordnung der Geb{\"a}ude liegt. In dieser Arbeit wurden Daten des Satellitensensors Quickbird von 2005 verwendet. Sie zeigen einen Ausschnitt der Stadt Sanaa in Jemen. Die Fernerkundungsdaten wurden durch andere Daten, u.a. auch Gel{\"a}ndedaten, erg{\"a}nzt und verifiziert. Das ausgearbeitete Verfahren besteht aus der Klassifikation der Satellitenbild-aufnahme, die u.a. pixelbezogen und f{\"u}r jede Klasse einzeln (pixelbezogene Klassifikation auf Klassenebene) durchgef{\"u}hrt wurde. Zus{\"a}tzlich fand eine visuelle Interpretation der Satellitenbildaufnahme statt, bei der einzelne Fl{\"a}chen und die Straßen digitalisiert und die Objekte mit Symbolen gekennzeichnet wurden. Die aus beiden Verfahren erstellten Stadtkarten wurden zu einer fusioniert. Durch die Kombination der Ergebnisse werden die Vorteile beider Karten in einer vereint und ihre jeweiligen Schw{\"a}chen beseitigt bzw. minimiert. Die digitale Erfassung der Konturlinien auf der Orthophotomap von Sanaa erlaubte die Erstellung eines Digitalen Gel{\"a}ndemodells, das der dreidimensionalen Darstellung des Altstadtbereichs von Sanaa diente. Die 3D-Visualisierung wurde sowohl von den pixelbezogenen Klassifikationsergebnissen auf Klassenebene als auch von der digitalen Erfassung der Objekte erstellt. Die Ergebnisse beider Visualisierungen wurden im Anschluss in einer Stadtkarte vereint. Bei allen Klassifikationsverfahren wurden die asphaltierten Straßen, die Vegetation und einzeln stehende Geb{\"a}ude sehr gut erfasst. Die Klassifikation der Altstadt gestaltete sich aufgrund der dort f{\"u}r die Klassifikation herrschenden ung{\"u}nstigen Bedingungen am problematischsten. Die insgesamt besten Ergebnisse mit den h{\"o}chsten Genauigkeitswerten wurden bei der pixelbezogenen Klassifikation auf Klassenebene erzielt. Dadurch, dass jede Klasse einzeln klassifiziert wurde, konnte die zu einer Klasse geh{\"o}rende Fl{\"a}che besser erfasst und nachbearbeitet werden. Die Datenmenge wurde reduziert, die Bearbeitungszeit somit k{\"u}rzer und die Speicherkapazit{\"a}t geringer. Die Auswertung bzw. visuelle Validierung der pixel-bezogenen Klassifikationsergebnisse auf Klassenebene mit dem Originalsatelliten-bild gestaltete sich einfacher und erfolgte genauer als bei den anderen durch-gef{\"u}hrten Klassifikationsverfahren. Außerdem war es durch die alleinige Erfassung der Klasse Geb{\"a}ude m{\"o}glich, eine 3D-Visualisierung zu erzeugen. Bei einem Vergleich der erstellten Stadtkarten ergibt sich, dass die durch die visuelle Interpretation erstellte Karte mehr Informationen enth{\"a}lt. Die von den pixelbezogenen Klassifikationsergebnissen auf Klassenebene erstellte Karte ist aber weniger arbeits- und zeitaufwendig zu erzeugen. Zudem arbeitet sie die Struktur einer orientalischen Stadt mit den wesentlichen Merkmalen besser heraus. Durch die auf Basis der 2D-Stadtkarten erstellte 3D-Visualisierung wird ein anderer r{\"a}umlicher Eindruck vermittelt und bestimmte Elemente einer orientalischen Stadt deutlich gemacht. Dazu z{\"a}hlen die sich in der Altstadt befindenden Sackgassen und die ehemalige Stadtmauer. Auch die f{\"u}r Sanaa typischen Hochh{\"a}user werden in der 3D-Visualisierung erkannt. Insgesamt wurde in der Arbeit ein generisches Verfahren entwickelt, dass mit geringen Modifikationen auch auf andere st{\"a}dtische R{\"a}ume des Typus orientalische Stadt angewendet werden kann.}, language = {de} } @phdthesis{Prasse2016, author = {Prasse, Paul}, title = {Pattern recognition for computer security}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus4-100251}, school = {Universit{\"a}t Potsdam}, pages = {VI, 75}, year = {2016}, abstract = {Computer Security deals with the detection and mitigation of threats to computer networks, data, and computing hardware. This thesis addresses the following two computer security problems: email spam campaign and malware detection. Email spam campaigns can easily be generated using popular dissemination tools by specifying simple grammars that serve as message templates. A grammar is disseminated to nodes of a bot net, the nodes create messages by instantiating the grammar at random. Email spam campaigns can encompass huge data volumes and therefore pose a threat to the stability of the infrastructure of email service providers that have to store them. Malware -software that serves a malicious purpose- is affecting web servers, client computers via active content, and client computers through executable files. Without the help of malware detection systems it would be easy for malware creators to collect sensitive information or to infiltrate computers. The detection of threats -such as email-spam messages, phishing messages, or malware- is an adversarial and therefore intrinsically difficult problem. Threats vary greatly and evolve over time. The detection of threats based on manually-designed rules is therefore difficult and requires a constant engineering effort. Machine-learning is a research area that revolves around the analysis of data and the discovery of patterns that describe aspects of the data. Discriminative learning methods extract prediction models from data that are optimized to predict a target attribute as accurately as possible. Machine-learning methods hold the promise of automatically identifying patterns that robustly and accurately detect threats. This thesis focuses on the design and analysis of discriminative learning methods for the two computer-security problems under investigation: email-campaign and malware detection. The first part of this thesis addresses email-campaign detection. We focus on regular expressions as a syntactic framework, because regular expressions are intuitively comprehensible by security engineers and administrators, and they can be applied as a detection mechanism in an extremely efficient manner. In this setting, a prediction model is provided with exemplary messages from an email-spam campaign. The prediction model has to generate a regular expression that reveals the syntactic pattern that underlies the entire campaign, and that a security engineers finds comprehensible and feels confident enough to use the expression to blacklist further messages at the email server. We model this problem as two-stage learning problem with structured input and output spaces which can be solved using standard cutting plane methods. Therefore we develop an appropriate loss function, and derive a decoder for the resulting optimization problem. The second part of this thesis deals with the problem of predicting whether a given JavaScript or PHP file is malicious or benign. Recent malware analysis techniques use static or dynamic features, or both. In fully dynamic analysis, the software or script is executed and observed for malicious behavior in a sandbox environment. By contrast, static analysis is based on features that can be extracted directly from the program file. In order to bypass static detection mechanisms, code obfuscation techniques are used to spread a malicious program file in many different syntactic variants. Deobfuscating the code before applying a static classifier can be subjected to mostly static code analysis and can overcome the problem of obfuscated malicious code, but on the other hand increases the computational costs of malware detection by an order of magnitude. In this thesis we present a cascaded architecture in which a classifier first performs a static analysis of the original code and -based on the outcome of this first classification step- the code may be deobfuscated and classified again. We explore several types of features including token \$n\$-grams, orthogonal sparse bigrams, subroutine-hashings, and syntax-tree features and study the robustness of detection methods and feature types against the evolution of malware over time. The developed tool scans very large file collections quickly and accurately. Each model is evaluated on real-world data and compared to reference methods. Our approach of inferring regular expressions to filter emails belonging to an email spam campaigns leads to models with a high true-positive rate at a very low false-positive rate that is an order of magnitude lower than that of a commercial content-based filter. Our presented system -REx-SVMshort- is being used by a commercial email service provider and complements content-based and IP-address based filtering. Our cascaded malware detection system is evaluated on a high-quality data set of almost 400,000 conspicuous PHP files and a collection of more than 1,00,000 JavaScript files. From our case study we can conclude that our system can quickly and accurately process large data collections at a low false-positive rate.}, language = {en} } @book{Richter2010, author = {Richter, Angelika}, title = {Klassifikationen von Computerspielen}, publisher = {Universit{\"a}tsverlag Potsdam}, address = {Potsdam}, isbn = {978-3-86956-076-2}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-43901}, publisher = {Universit{\"a}t Potsdam}, pages = {145}, year = {2010}, abstract = {Klassifikationen von Computerspielen widmet sich den Begriffen, mit denen Computerspiele zu Klassifikationszwecken versehen werden. Eine repr{\"a}sentative Auswahl an derartigen Klassifikationsmodellen, die die Arbeiten von Designern, Journalisten, P{\"a}dagogen, Laien und expliziten Computerspielforschern abdeckt, wird vorgestellt und hinsichtlich ihrer Anwendbarkeit zur eindeutigen Bestimmung konkreter Spiele bewertet. Dabei zeigen sich zwei grundlegend verschiedene Herangehensweisen an die Problematik: „Kategorisierungen" stellen feste Kategorien auf, in die einzelne Spiel eindeutig einsortiert werden sollen, w{\"a}hrend „Typologien" die einzelnen Elemente von Spielen untersuchen und klassifizieren. Beide Ans{\"a}tze werden analysiert und ihre jeweiligen Vor- und Nachteile aufgezeigt. Da offensichtlich wird, dass die Klassifikation von Computerspielen in bedeutendem Maße vom jeweiligen zugrunde liegenden Verst{\"a}ndnis davon, was ein „Computerspiel" sei, abh{\"a}ngt, ist der Untersuchung der Klassifikationsmodelle eine Betrachtung dieser problematischen Begriffsdefinition vorangestellt, die beispielhaft an vier ausgew{\"a}hlten Aspekten durchgef{\"u}hrt wird.}, language = {de} } @phdthesis{Veh2019, author = {Veh, Georg}, title = {Outburst floods from moraine-dammed lakes in the Himalayas}, doi = {10.25932/publishup-43607}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus4-436071}, school = {Universit{\"a}t Potsdam}, pages = {124}, year = {2019}, abstract = {The Himalayas are a region that is most dependent, but also frequently prone to hazards from changing meltwater resources. This mountain belt hosts the highest mountain peaks on earth, has the largest reserve of ice outside the polar regions, and is home to a rapidly growing population in recent decades. One source of hazard has attracted scientific research in particular in the past two decades: glacial lake outburst floods (GLOFs) occurred rarely, but mostly with fatal and catastrophic consequences for downstream communities and infrastructure. Such GLOFs can suddenly release several million cubic meters of water from naturally impounded meltwater lakes. Glacial lakes have grown in number and size by ongoing glacial mass losses in the Himalayas. Theory holds that enhanced meltwater production may increase GLOF frequency, but has never been tested so far. The key challenge to test this notion are the high altitudes of >4000 m, at which lakes occur, making field work impractical. Moreover, flood waves can attenuate rapidly in mountain channels downstream, so that many GLOFs have likely gone unnoticed in past decades. Our knowledge on GLOFs is hence likely biased towards larger, destructive cases, which challenges a detailed quantification of their frequency and their response to atmospheric warming. Robustly quantifying the magnitude and frequency of GLOFs is essential for risk assessment and management along mountain rivers, not least to implement their return periods in building design codes. Motivated by this limited knowledge of GLOF frequency and hazard, I developed an algorithm that efficiently detects GLOFs from satellite images. In essence, this algorithm classifies land cover in 30 years (~1988-2017) of continuously recorded Landsat images over the Himalayas, and calculates likelihoods for rapidly shrinking water bodies in the stack of land cover images. I visually assessed such detected tell-tale sites for sediment fans in the river channel downstream, a second key diagnostic of GLOFs. Rigorous tests and validation with known cases from roughly 10\% of the Himalayas suggested that this algorithm is robust against frequent image noise, and hence capable to identify previously unknown GLOFs. Extending the search radius to the entire Himalayan mountain range revealed some 22 newly detected GLOFs. I thus more than doubled the existing GLOF count from 16 previously known cases since 1988, and found a dominant cluster of GLOFs in the Central and Eastern Himalayas (Bhutan and Eastern Nepal), compared to the rarer affected ranges in the North. Yet, the total of 38 GLOFs showed no change in the annual frequency, so that the activity of GLOFs per unit glacial lake area has decreased in the past 30 years. I discussed possible drivers for this finding, but left a further attribution to distinct GLOF-triggering mechanisms open to future research. This updated GLOF frequency was the key input for assessing GLOF hazard for the entire Himalayan mountain belt and several subregions. I used standard definitions in flood hydrology, describing hazard as the annual exceedance probability of a given flood peak discharge [m3 s-1] or larger at the breach location. I coupled the empirical frequency of GLOFs per region to simulations of physically plausible peak discharges from all existing ~5,000 lakes in the Himalayas. Using an extreme-value model, I could hence calculate flood return periods. I found that the contemporary 100-year GLOF discharge (the flood level that is reached or exceeded on average once in 100 years) is 20,600+2,200/-2,300 m3 s-1 for the entire Himalayas. Given the spatial and temporal distribution of historic GLOFs, contemporary GLOF hazard is highest in the Eastern Himalayas, and lower for regions with rarer GLOF abundance. I also calculated GLOF hazard for some 9,500 overdeepenings, which could expose and fill with water, if all Himalayan glaciers have melted eventually. Assuming that the current GLOF rate remains unchanged, the 100-year GLOF discharge could double (41,700+5,500/-4,700 m3 s-1), while the regional GLOF hazard may increase largest in the Karakoram. To conclude, these three stages-from GLOF detection, to analysing their frequency and estimating regional GLOF hazard-provide a framework for modern GLOF hazard assessment. Given the rapidly growing population, infrastructure, and hydropower projects in the Himalayas, this thesis assists in quantifying the purely climate-driven contribution to hazard and risk from GLOFs.}, language = {en} }