TY - THES A1 - Grütze, Toni T1 - Adding value to text with user-generated content N2 - In recent years, the ever-growing amount of documents on the Web as well as in closed systems for private or business contexts led to a considerable increase of valuable textual information about topics, events, and entities. It is a truism that the majority of information (i.e., business-relevant data) is only available in unstructured textual form. The text mining research field comprises various practice areas that have the common goal of harvesting high-quality information from textual data. These information help addressing users' information needs. In this thesis, we utilize the knowledge represented in user-generated content (UGC) originating from various social media services to improve text mining results. These social media platforms provide a plethora of information with varying focuses. In many cases, an essential feature of such platforms is to share relevant content with a peer group. Thus, the data exchanged in these communities tend to be focused on the interests of the user base. The popularity of social media services is growing continuously and the inherent knowledge is available to be utilized. We show that this knowledge can be used for three different tasks. Initially, we demonstrate that when searching persons with ambiguous names, the information from Wikipedia can be bootstrapped to group web search results according to the individuals occurring in the documents. We introduce two models and different means to handle persons missing in the UGC source. We show that the proposed approaches outperform traditional algorithms for search result clustering. Secondly, we discuss how the categorization of texts according to continuously changing community-generated folksonomies helps users to identify new information related to their interests. We specifically target temporal changes in the UGC and show how they influence the quality of different tag recommendation approaches. Finally, we introduce an algorithm to attempt the entity linking problem, a necessity for harvesting entity knowledge from large text collections. The goal is the linkage of mentions within the documents with their real-world entities. A major focus lies on the efficient derivation of coherent links. For each of the contributions, we provide a wide range of experiments on various text corpora as well as different sources of UGC. The evaluation shows the added value that the usage of these sources provides and confirms the appropriateness of leveraging user-generated content to serve different information needs. N2 - Die steigende Zahl an Dokumenten, welche in den letzten Jahren im Web sowie in geschlossenen Systemen aus dem privaten oder geschäftlichen Umfeld erstellt wurden, führte zu einem erheblichen Zuwachs an wertvollen Informationen über verschiedenste Themen, Ereignisse, Organisationen und Personen. Die meisten Informationen liegen lediglich in unstrukturierter, textueller Form vor. Das Forschungsgebiet des "Text Mining" befasst sich mit dem schwierigen Problem, hochwertige Informationen in strukturierter Form aus Texten zu gewinnen. Diese Informationen können dazu eingesetzt werden, Nutzern dabei zu helfen, ihren Informationsbedarf zu stillen. In dieser Arbeit nutzen wir Wissen, welches in nutzergenerierten Inhalten verborgen ist und aus unterschiedlichsten sozialen Medien stammt, um Text Mining Ergebnisse zu verbessern. Soziale Medien bieten eine Fülle an Informationen mit verschiedenen Schwerpunkten. Eine wesentliche Funktion solcher Medien ist es, den Nutzern zu ermöglichen, Inhalte mit ihrer Interessensgruppe zu teilen. Somit sind die ausgetauschten Daten in diesen Diensten häufig auf die Interessen der Nutzerbasis ausgerichtet. Die Popularität sozialer Medien wächst stetig und führt dazu, dass immer mehr inhärentes Wissen verfügbar wird. Dieses Wissen kann unter anderem für drei verschiedene Aufgabenstellungen genutzt werden. Zunächst zeigen wir, dass Informationen aus Wikipedia hilfreich sind, um Ergebnisse von Personensuchen im Web nach den in ihnen diskutierten Personen aufzuteilen. Dazu führen wir zwei Modelle zur Gruppierung der Ergebnisse und verschiedene Methoden zum Umgang mit fehlenden Wikipedia Einträgen ein, und zeigen, dass die entwickelten Ansätze traditionelle Methoden zur Gruppierung von Suchergebnissen übertreffen. Des Weiteren diskutieren wir, wie die Klassifizierung von Texten auf Basis von "Folksonomien" Nutzern dabei helfen kann, neue Informationen zu identifizieren, die ihren Interessen entsprechen. Wir konzentrieren uns insbesondere auf temporäre Änderungen in den nutzergenerierten Inhalten, um zu zeigen, wie stark ihr Einfluss auf die Qualität verschiedener "Tag"-Empfehlungsmethoden ist. Zu guter Letzt führen wir einen Algorithmus ein, der es ermöglicht, Nennungen von Echtweltinstanzen in Texten zu disambiguieren und mit ihren Repräsentationen in einer Wissensdatenbank zu verknüpfen. Das Hauptaugenmerk liegt dabei auf der effizienten Erkennung von kohärenten Verknüpfungen. Wir stellen für jeden Teil der Arbeit eine große Vielfalt an Experimenten auf diversen Textkorpora und unterschiedlichen Quellen von nutzergenerierten Inhalten an. Damit heben wir das Potential hervor, das die Nutzung jener Quellen bietet, um die unterschiedlichen Informationsbedürfnisse abzudecken. T2 - Mehrwert für Texte mittels nutzergenerierter Inhalte KW - nutzergenerierte Inhalte KW - text mining KW - Klassifikation KW - Clusteranalyse KW - Entitätsverknüpfung KW - user-generated content KW - text mining KW - classification KW - clustering KW - entity linking Y1 - 2018 ER - TY - THES A1 - Hübner, Sebastian Valentin T1 - Wissensbasierte Modellierung von Audio-Signal-Klassifikatoren : zur Bioakustik von Tursiops truncatus. - 2., überarb. Aufl. T1 - Knowledge based engineering of audio-signal-classifiers : to the bioacoustics of Tursiops truncatus. - 2., überarb. Aufl. N2 - Die vorliegende Arbeit befasst sich mit der wissensbasierten Modellierung von Audio-Signal-Klassifikatoren (ASK) für die Bioakustik. Sie behandelt ein interdisziplinäres Problem, das viele Facetten umfasst. Zu diesen gehören artspezifische bioakustische Fragen, mathematisch-algorithmische Details und Probleme der Repräsentation von Expertenwissen. Es wird eine universelle praktisch anwendbare Methode zur wissensbasierten Modellierung bioakustischer ASK dargestellt und evaluiert. Das Problem der Modellierung von ASK wird dabei durchgängig aus KDD-Perspektive (Knowledge Discovery in Databases) betrachtet. Der grundlegende Ansatz besteht darin, mit Hilfe von modifizierten KDD-Methoden und Data-Mining-Verfahren die Modellierung von ASK wesentlich zu erleichtern. Das etablierte KDD-Paradigma wird mit Hilfe eines detaillierten formalen Modells auf den Bereich der Modellierung von ASK übertragen. Neunzehn elementare KDD-Verfahren bilden die Grundlage eines umfassenden Systems zur wissensbasierten Modellierung von ASK. Methode und Algorithmen werden evaluiert, indem eine sehr umfangreiche Sammlung akustischer Signale des Großen Tümmlers mit ihrer Hilfe untersucht wird. Die Sammlung wurde speziell für diese Arbeit in Eilat (Israel) angefertigt. Insgesamt werden auf Grundlage dieses Audiomaterials vier empirische Einzelstudien durchgeführt: - Auf der Basis von oszillographischen und spektrographischen Darstellungen wird ein phänomenologisches Klassifikationssystem für die vielfältigen Laute des Großen Tümmlers dargestellt. - Mit Hilfe eines Korpus halbsynthetischer Audiodaten werden verschiedene grundlegende Verfahren zur Modellierung und Anwendung von ASK in Hinblick auf ihre Genauigkeit und Robustheit untersucht. - Mit einem speziell entwickelten Clustering-Verfahren werden mehrere Tausend natürliche Pfifflaute des Großen Tümmlers untersucht. Die Ergebnisse werden visualisiert und diskutiert. - Durch maschinelles mustererkennungsbasiertes akustisches Monitoring wird die Emissionsdynamik verschiedener Lauttypen im Verlaufe von vier Wochen untersucht. Etwa 2.5 Millionen Klicklaute werden im Anschluss auf ihre spektralen Charakteristika hin untersucht. Die beschriebene Methode und die dargestellten Algorithmen sind in vielfältiger Hinsicht erweiterbar, ohne dass an ihrer grundlegenden Architektur etwas geändert werden muss. Sie lassen sich leicht in dem gesamten Gebiet der Bioakustik einsetzen. Hiermit besitzen sie auch für angrenzende Disziplinen ein hohes Potential, denn exaktes Wissen über die akustischen Kommunikations- und Sonarsysteme der Tiere wird in der theoretischen Biologie, in den Kognitionswissenschaften, aber auch im praktischen Naturschutz, in Zukunft eine wichtige Rolle spielen. N2 - The present thesis is dedicated to the problem of knowledge-based modeling of audio-signal-classifiers in the bioacoustics domain. It deals with an interdisciplinary problem that has many facets. To these belong questions of knowledge representation, bioacoustics and algorithmical issues. The main purpose of the work is to provide and evaluate a scientific method in which all these facets are taken into consideration. In addition, a number of algorithms, which implement all important steps of this method, are described. The problem of modeling audio-signal-classifiers is regarded from the KDD-perspective (Knowledge-Discovery in Databases). The fundamental idea is to use modified KDD- and Data-Mining-algorithms to facilitate the modeling of audio-signal-classifiers. A detailed mathematical formalism is presented and the KDD-paradigm is adopted to the problem of modeling audio-signal-classifiers. 19 new KDD-procedures form a comprehensive system for knowledge-based audio-signal-classifier design. An extensive collection of acoustic signals of the bottlenose-dolphin was recorded in Eilat (Israel). It forms the basis of four empirical studies: A phenomenological classification of acoustic phenomena, an experimental evaluation of accuracy and precision of classifiers, a cluster analysis of whistle sounds and a monitoring study to examine the nature of click sounds. Both, method and algorithms can be adopted to other branches in bioacoustics without changing their fundamental architecture. KW - Bioakustik KW - Monitoring KW - Klassifikation KW - Delphine KW - Mustererkennung KW - Bioacoustics KW - Monitoring KW - Classification KW - Dolphins KW - Pattern Recognition Y1 - 2007 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-16631 ER - TY - THES A1 - Jamil, Abdlhamed T1 - Fernerkundung und GIS zur Erfassung, Modellierung und Visualisierung orientalischer Stadtstrukturen : das Beispiel Sanaa (Jemen) T1 - Acquisition, modelling and visualisation of oriental city structures with remote sensing and GIS : the case of Sanaa (Yemen) N2 - Gegenstand dieser Arbeit ist die Konzeption, Entwicklung und exemplarische Implementierung eines generischen Verfahrens zur Erfassung, Verarbeitung, Auswertung und kartographischen Visualisierung urbaner Strukturen im altweltlichen Trockengürtel mittels hochauflösender operationeller Fernerkundungsdaten. Das Verfahren wird am Beispiel der jemenitischen Hauptstadt Sanaa einer Vertreterin des Typus der Orientalischen Stadt angewandt und evaluiert. Das zu entwickelnde Verfahren soll auf Standardverfahren und Systemen der raumbezogenen Informationsverarbeitung basieren und in seinen wesentlichen Prozessschritten automatisiert werden können. Daten von hochauflösenden operationellen Fernerkundungssystemen (wie z.B. QuickBird, Ikonos u. a.) erlauben die Erkennung und Kartierung urbaner Objekte, wie Gebäude, Straßen und sogar Autos. Die mit ihnen erstellten Karten und den daraus gewonnenen Informationen können zur Erfassung von Urbanisierungsprozessen (Stadt- und Bevölkerungswachstum) herangezogen werden. Sie werden auch zur Generierung von 3D-Stadtmodellen genutzt. Diese dienen z.B. der Visualisierung für touristische Anwendungen, für die Stadtplanung, für Lärmanalysen oder für die Standortplanung von Mobilfunkantennen. Bei dem in dieser Arbeit erzeugten 3D-Visualisierung wurden jedoch keine Gebäudedetails erfasst. Entscheidend war vielmehr die Wiedergabe der Siedlungsstruktur, die im Vorhandensein und in der Anordnung der Gebäude liegt. In dieser Arbeit wurden Daten des Satellitensensors Quickbird von 2005 verwendet. Sie zeigen einen Ausschnitt der Stadt Sanaa in Jemen. Die Fernerkundungsdaten wurden durch andere Daten, u.a. auch Geländedaten, ergänzt und verifiziert. Das ausgearbeitete Verfahren besteht aus der Klassifikation der Satellitenbild-aufnahme, die u.a. pixelbezogen und für jede Klasse einzeln (pixelbezogene Klassifikation auf Klassenebene) durchgeführt wurde. Zusätzlich fand eine visuelle Interpretation der Satellitenbildaufnahme statt, bei der einzelne Flächen und die Straßen digitalisiert und die Objekte mit Symbolen gekennzeichnet wurden. Die aus beiden Verfahren erstellten Stadtkarten wurden zu einer fusioniert. Durch die Kombination der Ergebnisse werden die Vorteile beider Karten in einer vereint und ihre jeweiligen Schwächen beseitigt bzw. minimiert. Die digitale Erfassung der Konturlinien auf der Orthophotomap von Sanaa erlaubte die Erstellung eines Digitalen Geländemodells, das der dreidimensionalen Darstellung des Altstadtbereichs von Sanaa diente. Die 3D-Visualisierung wurde sowohl von den pixelbezogenen Klassifikationsergebnissen auf Klassenebene als auch von der digitalen Erfassung der Objekte erstellt. Die Ergebnisse beider Visualisierungen wurden im Anschluss in einer Stadtkarte vereint. Bei allen Klassifikationsverfahren wurden die asphaltierten Straßen, die Vegetation und einzeln stehende Gebäude sehr gut erfasst. Die Klassifikation der Altstadt gestaltete sich aufgrund der dort für die Klassifikation herrschenden ungünstigen Bedingungen am problematischsten. Die insgesamt besten Ergebnisse mit den höchsten Genauigkeitswerten wurden bei der pixelbezogenen Klassifikation auf Klassenebene erzielt. Dadurch, dass jede Klasse einzeln klassifiziert wurde, konnte die zu einer Klasse gehörende Fläche besser erfasst und nachbearbeitet werden. Die Datenmenge wurde reduziert, die Bearbeitungszeit somit kürzer und die Speicherkapazität geringer. Die Auswertung bzw. visuelle Validierung der pixel-bezogenen Klassifikationsergebnisse auf Klassenebene mit dem Originalsatelliten-bild gestaltete sich einfacher und erfolgte genauer als bei den anderen durch-geführten Klassifikationsverfahren. Außerdem war es durch die alleinige Erfassung der Klasse Gebäude möglich, eine 3D-Visualisierung zu erzeugen. Bei einem Vergleich der erstellten Stadtkarten ergibt sich, dass die durch die visuelle Interpretation erstellte Karte mehr Informationen enthält. Die von den pixelbezogenen Klassifikationsergebnissen auf Klassenebene erstellte Karte ist aber weniger arbeits- und zeitaufwendig zu erzeugen. Zudem arbeitet sie die Struktur einer orientalischen Stadt mit den wesentlichen Merkmalen besser heraus. Durch die auf Basis der 2D-Stadtkarten erstellte 3D-Visualisierung wird ein anderer räumlicher Eindruck vermittelt und bestimmte Elemente einer orientalischen Stadt deutlich gemacht. Dazu zählen die sich in der Altstadt befindenden Sackgassen und die ehemalige Stadtmauer. Auch die für Sanaa typischen Hochhäuser werden in der 3D-Visualisierung erkannt. Insgesamt wurde in der Arbeit ein generisches Verfahren entwickelt, dass mit geringen Modifikationen auch auf andere städtische Räume des Typus orientalische Stadt angewendet werden kann. N2 - This study aims at the development and implementation of a generic procedure for the acquisition, processing, analysis and cartographic visualisation of urban space in arid zone cities based on operational remote sensing imagery. As a proof of concept the Yemeni capital Sanaa has been selected as a use case. The workflow developed is based on standard procedures and systems of spatial information processing and allows for subsequent automation oft its essential processes. Today, high-resolution remote sensing data from operational satellite systems (such as QuickBird, Ikonos etc) facilitate the recognition and mapping of urban objects such as buildings, streets and even cars which, in the past could only be acquired by non-operational aerial photography. The satellite imagery can be used to generate maps and even 3D-representation of the urban space. Both maps and 3D-visualisations can be used for up-to-date land use mapping, zoning and urban planning purposes etc. The 3D-visualisation provides a deeper understanding of urban structures by integrating building height into the analysis. For this study remote sensing data of the Quickbird satellite data of 2005 were used. They show a section of the city of Sanaa in Yemen. The remote sensing data were supplemented and verified by other data, including terrain data. The image data are then subjected to thorough digital image. This procedure consists of a pixel-oriented classification of the satellite image acquisition at class level. In addition, a visual interpretation of the satellite image has been undertaken to identify and label individual objects (areas, surfaces, streets) etc. which were subsequently digitised. The town maps created in both procedures were merged to one. Through this combination of the results, the advantages of both maps are brought together and their respective weaknesses are eliminated or minimized. The digital collection of the contour lines on the orthophoto map of Sanaa allowed for the creation of a digital terrain model, which was used for the three-dimensional representation of Sanaa's historic district. The 3D-visualisation was created from the classification results as well as from the digital collection of the objects and the results of both visualisations were combined in a city map. In all classification procedures, paved roads, vegetation and single buildings were detected very well. The best overall results with the highest accuracy values achieved in the pixel-oriented classification at class level. Because each class has been classified separately, size belonging to that class can be better understood and optimised. The amount of data could be reduced, thus requiring less memory and resulting in a shorter processing time. The evaluation and validation of the pixel-oriented visual classification results at class level with the original satellite imagery was designed more simply and more accurately than other classification methods implemented. It was also possible by the separate recording of the class building to create a 3D-visualisation. A comparison of the maps created found that the map created from visual interpretation contains more information. The map based on pixel-oriented classification results at class level proved to be less labor- and time-consuming, and the structure of an oriental city with the main features will be worked out better. The 2D-maps and the 3D-visualisation provide a different spatial impression, and certain elements of an oriental city clearly detectable. These include the characteristic dead ends in the old town and the former city wall. The typical high-rise houses of Sanaa are detected in the 3D-visualisation. This work developed a generic procedure to detect, analyse and visualise urban structures in arid zone environments. The city of Sanaa served as a proof of concept. The results show that the workflow developed is instrumental in detecting typical structures of oriental cities. The results achieved in the case study Sanaa prove that the process can be adapted to the investigation of other arid zone cities in the Middle East with minor modifications. KW - Fernerkundung KW - 3D-Visualisierung KW - Klassifikation KW - 2D-Stadtmodell KW - orientalische Stadt KW - remote sensing KW - 3D visualization KW - classification KW - 2D city model KW - oriental city Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-50200 ER - TY - THES A1 - Prasse, Paul T1 - Pattern recognition for computer security T1 - Mustererkennung für Computersicherheit BT - discriminative models for email spam campaign and malware detection BT - diskriminative Modelle zur Erkennung von Email Spam-Kampagnen und Malware N2 - Computer Security deals with the detection and mitigation of threats to computer networks, data, and computing hardware. This thesis addresses the following two computer security problems: email spam campaign and malware detection. Email spam campaigns can easily be generated using popular dissemination tools by specifying simple grammars that serve as message templates. A grammar is disseminated to nodes of a bot net, the nodes create messages by instantiating the grammar at random. Email spam campaigns can encompass huge data volumes and therefore pose a threat to the stability of the infrastructure of email service providers that have to store them. Malware -software that serves a malicious purpose- is affecting web servers, client computers via active content, and client computers through executable files. Without the help of malware detection systems it would be easy for malware creators to collect sensitive information or to infiltrate computers. The detection of threats -such as email-spam messages, phishing messages, or malware- is an adversarial and therefore intrinsically difficult problem. Threats vary greatly and evolve over time. The detection of threats based on manually-designed rules is therefore difficult and requires a constant engineering effort. Machine-learning is a research area that revolves around the analysis of data and the discovery of patterns that describe aspects of the data. Discriminative learning methods extract prediction models from data that are optimized to predict a target attribute as accurately as possible. Machine-learning methods hold the promise of automatically identifying patterns that robustly and accurately detect threats. This thesis focuses on the design and analysis of discriminative learning methods for the two computer-security problems under investigation: email-campaign and malware detection. The first part of this thesis addresses email-campaign detection. We focus on regular expressions as a syntactic framework, because regular expressions are intuitively comprehensible by security engineers and administrators, and they can be applied as a detection mechanism in an extremely efficient manner. In this setting, a prediction model is provided with exemplary messages from an email-spam campaign. The prediction model has to generate a regular expression that reveals the syntactic pattern that underlies the entire campaign, and that a security engineers finds comprehensible and feels confident enough to use the expression to blacklist further messages at the email server. We model this problem as two-stage learning problem with structured input and output spaces which can be solved using standard cutting plane methods. Therefore we develop an appropriate loss function, and derive a decoder for the resulting optimization problem. The second part of this thesis deals with the problem of predicting whether a given JavaScript or PHP file is malicious or benign. Recent malware analysis techniques use static or dynamic features, or both. In fully dynamic analysis, the software or script is executed and observed for malicious behavior in a sandbox environment. By contrast, static analysis is based on features that can be extracted directly from the program file. In order to bypass static detection mechanisms, code obfuscation techniques are used to spread a malicious program file in many different syntactic variants. Deobfuscating the code before applying a static classifier can be subjected to mostly static code analysis and can overcome the problem of obfuscated malicious code, but on the other hand increases the computational costs of malware detection by an order of magnitude. In this thesis we present a cascaded architecture in which a classifier first performs a static analysis of the original code and -based on the outcome of this first classification step- the code may be deobfuscated and classified again. We explore several types of features including token $n$-grams, orthogonal sparse bigrams, subroutine-hashings, and syntax-tree features and study the robustness of detection methods and feature types against the evolution of malware over time. The developed tool scans very large file collections quickly and accurately. Each model is evaluated on real-world data and compared to reference methods. Our approach of inferring regular expressions to filter emails belonging to an email spam campaigns leads to models with a high true-positive rate at a very low false-positive rate that is an order of magnitude lower than that of a commercial content-based filter. Our presented system -REx-SVMshort- is being used by a commercial email service provider and complements content-based and IP-address based filtering. Our cascaded malware detection system is evaluated on a high-quality data set of almost 400,000 conspicuous PHP files and a collection of more than 1,00,000 JavaScript files. From our case study we can conclude that our system can quickly and accurately process large data collections at a low false-positive rate. N2 - Computer-Sicherheit beschäftigt sich mit der Erkennung und der Abwehr von Bedrohungen für Computer-Netze, Daten und Computer-Hardware. In dieser Dissertation wird die Leistungsfähigkeit von Modellen des maschinellen Lernens zur Erkennung von Bedrohungen anhand von zwei konkreten Fallstudien analysiert. Im ersten Szenario wird die Leistungsfähigkeit von Modellen zur Erkennung von Email Spam-Kampagnen untersucht. E-Mail Spam-Kampagnen werden häufig von leicht zu bedienenden Tools erzeugt. Diese Tools erlauben es dem Benutzer, mit Hilfe eines Templates (z.B. einer regulären Grammatik) eine Emailvorlage zu definieren. Ein solches Template kann z.B. auf die Knoten eines Botnetzes verteilt werden. Dort werden Nachrichten mit diesem Template generiert und an verschiedene Absender verschickt. Die damit entstandenen E-Mail Spam-Kampagnen können riesige Datenmengen produzieren und somit zu einer Gefahr für die Stabilität der Infrastruktur von E-Mail-Service-Providern werden. Im zweiten Szenario wird die Leistungsfähigkeit von Modellen zur Erkennung von Malware untersucht. Malware bzw. Software, die schadhaften Programmcode enthält, kann Web-Server und Client-Computer über aktive Inhalte und Client-Computer über ausführbare Dateien beeinflussen. Somit kann die die reguläre und legitime Nutzung von Diensten verhindert werden. Des Weiteren kann Malware genutzt werden, um sensible Informationen zu sammeln oder Computer zu infiltrieren. Die Erkennung von Bedrohungen, die von E-Mail-Spam-Mails, Phishing-E-Mails oder Malware ausgehen, gestaltet sich schwierig. Zum einen verändern sich Bedrohungen von Zeit zu Zeit, zum anderen werden E-Mail-Spam-Mails oder Malware so modifiziert, dass sie von aktuellen Erkennungssystemen nicht oder nur schwer zu erkennen sind. Erkennungssysteme, die auf manuell erstellten Regeln basieren, sind deshalb wenig effektiv, da sie ständig administriert werden müssen. Sie müssen kontinuierlich gewartet werden, um neue Regeln (für veränderte oder neu auftretende Bedrohungen) zu erstellen und alte Regeln anzupassen bzw. zu löschen. Maschinelles Lernen ist ein Forschungsgebiet, das sich mit der Analyse von Daten und der Erkennung von Mustern beschäftigt, um bestimmte Aspekte in Daten, wie beispielsweise die Charakteristika von Malware, zu beschreiben. Mit Hilfe der Methoden des Maschinellen Lernens ist es möglich, automatisiert Muster in Daten zu erkennen. Diese Muster können genutzt werden, um Bedrohung gezielt und genau zu erkennen. Im ersten Teil wird ein Modell zur automatischen Erkennung von E-Mail-Spam-Kampag\-nen vorgestellt. Wir verwenden reguläre Ausdrücke als syntaktischen Rahmen, um E-Mail-Spam-Kampagnen zu beschreiben und E-Mails die zu einer E-Mail-Spam-Kampagne gehören zu identifizieren. Reguläre Ausdrücke sind intuitiv verständlich und können einfach von Administratoren genutzt werden, um E-Mail-Spam-Kampagnen zu beschreiben. Diese Arbeit stellt ein Modell vor, das für eine gegebene E-Mail-Spam-Kampagne einen regulären Ausdruck vorhersagt. In dieser Arbeit stellen wir ein Verfahren vor, um ein Modell zu bestimmen, das reguläre Ausdrücke vorhersagt, die zum Einen die Gesamtheit aller E-Mails in einer Spam-Kampagne abbilden und zum Anderen so verständlich aufgebaut sind, dass ein Systemadministrator eines E-Mail Servers diesen verwendet. Diese Problemstellung wird als ein zweistufiges Lernproblem mit strukturierten Ein- und Ausgaberäumen modelliert, welches mit Standardmethoden des Maschinellen Lernens gelöst werden kann. Hierzu werden eine geeignete Verlustfunktion, sowie ein Dekodierer für das resultierende Optimierungsproblem hergeleitet. Der zweite Teil behandelt die Analyse von Modellen zur Erkennung von Java-Script oder PHP-Dateien mit schadhaften Code. Viele neu entwickelte Malwareanalyse-Tools nutzen statische, dynamische oder eine Mischung beider Merkmalsarten als Eingabe, um Modelle zur Erkennung von Malware zu bilden. Um dynamische Merkmale zu extrahieren, wird eine Software oder ein Teil des Programmcodes in einer gesicherten Umgebung ausgeführt und das Verhalten (z.B. Speicherzugriffe oder Funktionsaufrufe) analysiert. Bei der statischen Analyse von Skripten und Software werden Merkmale direkt aus dem Programcode extrahiert. Um Erkennungsmechanismen, die nur auf statischen Merkmalen basieren, zu umgehen, wird der Programmcode oft maskiert. Die Maskierung von Programmcode wird genutzt, um einen bestimmten schadhaften Programmcode in vielen syntaktisch unterschiedlichen Varianten zu erzeugen. Der originale schadhafte Programmcode wird dabei erst zur Laufzeit generiert. Wird der Programmcode vor dem Anwenden eines Vorhersagemodells demaskiert, spricht man von einer vorwiegend statischen Programmcodeanalyse. Diese hat den Vorteil, dass enthaltener Schadcode einfacher zu erkennen ist. Großer Nachteil dieses Ansatzes ist die erhöhte Laufzeit durch das Demaskieren der einzelnen Dateien vor der Anwendung des Vorhersagemodells. In dieser Arbeit wird eine mehrstufige Architektur präsentiert, in der ein Klassifikator zunächst eine Vorhersage auf Grundlage einer statischen Analyse auf dem originalen Programmcode trifft. Basierend auf dieser Vorhersage wird der Programcode in einem zweiten Schritt demaskiert und erneut ein Vorhersagemodell angewendet. Wir betrachten dabei eine Vielzahl von möglichen Merkmalstypen, wie $n$-gram Merkmale, orthogonal sparse bigrams, Funktions-Hashes und Syntaxbaum Merkmale. Zudem wird in dieser Dissertation untersucht, wie robust die entwickelten Erkennungsmodelle gegenüber Veränderungen von Malware über die Zeit sind. Das vorgestellte Verfahren ermöglicht es, große Datenmengen mit hoher Treffergenauigkeit nach Malware zu durchsuchen. Alle in dieser Dissertation vorgestellten Modelle wurden auf echten Daten evaluiert und mit Referenzmethoden verglichen. Das vorgestellte Modell zur Erkennung von E-Mail-Spam-Kampagnen hat eine hohe richtig-positive Rate und eine sehr kleine falsch-positiv Rate die niedriger ist, als die eines kommerziellen E-Mail-Filters. Das Modell wird von einem kommerziellen E-Mail Service Provider während des operativen Geschäfts genutzt, um eingehende und ausgehende E-Mails eines E-Mails-Servers zu überprüfen. Der Ansatz zur Malwareerkennung wurde auf einem Datensatz mit rund 400.000 verdächtigen PHP Dateien und einer Sammlung von mehr als 1.000.000 Java-Script Dateien evaluiert. Die Fallstudie auf diesen Daten zeigt, dass das vorgestellte System schnell und mit hoher Genauigkeit riesige Datenmengen mit wenigen Falsch-Alarmen nach Malware durchsuchen kann. KW - malware detection KW - structured output prediction KW - pattern recognition KW - computer security KW - email spam detection KW - maschninelles Lernen KW - Computersicherheit KW - strukturierte Vorhersage KW - Klassifikation KW - Vorhersage KW - Spam KW - Malware Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-100251 ER - TY - BOOK A1 - Richter, Angelika T1 - Klassifikationen von Computerspielen T1 - Classifications of computer games N2 - Klassifikationen von Computerspielen widmet sich den Begriffen, mit denen Computerspiele zu Klassifikationszwecken versehen werden. Eine repräsentative Auswahl an derartigen Klassifikationsmodellen, die die Arbeiten von Designern, Journalisten, Pädagogen, Laien und expliziten Computerspielforschern abdeckt, wird vorgestellt und hinsichtlich ihrer Anwendbarkeit zur eindeutigen Bestimmung konkreter Spiele bewertet. Dabei zeigen sich zwei grundlegend verschiedene Herangehensweisen an die Problematik: „Kategorisierungen“ stellen feste Kategorien auf, in die einzelne Spiel eindeutig einsortiert werden sollen, während „Typologien“ die einzelnen Elemente von Spielen untersuchen und klassifizieren. Beide Ansätze werden analysiert und ihre jeweiligen Vor- und Nachteile aufgezeigt. Da offensichtlich wird, dass die Klassifikation von Computerspielen in bedeutendem Maße vom jeweiligen zugrunde liegenden Verständnis davon, was ein „Computerspiel“ sei, abhängt, ist der Untersuchung der Klassifikationsmodelle eine Betrachtung dieser problematischen Begriffsdefinition vorangestellt, die beispielhaft an vier ausgewählten Aspekten durchgeführt wird. N2 - Classifications of computer games is concerned with the terms that are used to label computer games for classificatory purposes. A representative selection of such classification models, that covers the works of designers, journalists, pedagogues, laymen and explicit computer game researchers, are introduced and assessed with regard to their ability to classify specific games unambiguously. Two essentially different approaches to this problem are identified: “categorizations” establish rigid categories to which single games are to be assigned unambiguously, while “typologies” examine and classify single elements of games and not games as a whole. Both methods are analysed and their advantages and disadvantages are shown. As it becomes obvious that classifying computer games is highly dependent on the respective basic understanding of what a computer game is, the study of the classification models is preceded by an overview which discusses four chosen aspects as examples of this problematic definition. T3 - DIGAREC Series - 05 KW - Computerspiele KW - Videospiele KW - Klassifikation KW - Typologie KW - Ludologie KW - computer games KW - video games KW - classification KW - typology KW - ludology Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-43901 SN - 978-3-86956-076-2 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - THES A1 - Veh, Georg T1 - Outburst floods from moraine-dammed lakes in the Himalayas T1 - Ausbruchsfluten von moränen-gestauten Seen im Himalaya BT - detection, frequency, and hazard BT - Erkennung, Häufigkeit, und Gefährdung N2 - The Himalayas are a region that is most dependent, but also frequently prone to hazards from changing meltwater resources. This mountain belt hosts the highest mountain peaks on earth, has the largest reserve of ice outside the polar regions, and is home to a rapidly growing population in recent decades. One source of hazard has attracted scientific research in particular in the past two decades: glacial lake outburst floods (GLOFs) occurred rarely, but mostly with fatal and catastrophic consequences for downstream communities and infrastructure. Such GLOFs can suddenly release several million cubic meters of water from naturally impounded meltwater lakes. Glacial lakes have grown in number and size by ongoing glacial mass losses in the Himalayas. Theory holds that enhanced meltwater production may increase GLOF frequency, but has never been tested so far. The key challenge to test this notion are the high altitudes of >4000 m, at which lakes occur, making field work impractical. Moreover, flood waves can attenuate rapidly in mountain channels downstream, so that many GLOFs have likely gone unnoticed in past decades. Our knowledge on GLOFs is hence likely biased towards larger, destructive cases, which challenges a detailed quantification of their frequency and their response to atmospheric warming. Robustly quantifying the magnitude and frequency of GLOFs is essential for risk assessment and management along mountain rivers, not least to implement their return periods in building design codes. Motivated by this limited knowledge of GLOF frequency and hazard, I developed an algorithm that efficiently detects GLOFs from satellite images. In essence, this algorithm classifies land cover in 30 years (~1988–2017) of continuously recorded Landsat images over the Himalayas, and calculates likelihoods for rapidly shrinking water bodies in the stack of land cover images. I visually assessed such detected tell-tale sites for sediment fans in the river channel downstream, a second key diagnostic of GLOFs. Rigorous tests and validation with known cases from roughly 10% of the Himalayas suggested that this algorithm is robust against frequent image noise, and hence capable to identify previously unknown GLOFs. Extending the search radius to the entire Himalayan mountain range revealed some 22 newly detected GLOFs. I thus more than doubled the existing GLOF count from 16 previously known cases since 1988, and found a dominant cluster of GLOFs in the Central and Eastern Himalayas (Bhutan and Eastern Nepal), compared to the rarer affected ranges in the North. Yet, the total of 38 GLOFs showed no change in the annual frequency, so that the activity of GLOFs per unit glacial lake area has decreased in the past 30 years. I discussed possible drivers for this finding, but left a further attribution to distinct GLOF-triggering mechanisms open to future research. This updated GLOF frequency was the key input for assessing GLOF hazard for the entire Himalayan mountain belt and several subregions. I used standard definitions in flood hydrology, describing hazard as the annual exceedance probability of a given flood peak discharge [m3 s-1] or larger at the breach location. I coupled the empirical frequency of GLOFs per region to simulations of physically plausible peak discharges from all existing ~5,000 lakes in the Himalayas. Using an extreme-value model, I could hence calculate flood return periods. I found that the contemporary 100-year GLOF discharge (the flood level that is reached or exceeded on average once in 100 years) is 20,600+2,200/–2,300 m3 s-1 for the entire Himalayas. Given the spatial and temporal distribution of historic GLOFs, contemporary GLOF hazard is highest in the Eastern Himalayas, and lower for regions with rarer GLOF abundance. I also calculated GLOF hazard for some 9,500 overdeepenings, which could expose and fill with water, if all Himalayan glaciers have melted eventually. Assuming that the current GLOF rate remains unchanged, the 100-year GLOF discharge could double (41,700+5,500/–4,700 m3 s-1), while the regional GLOF hazard may increase largest in the Karakoram. To conclude, these three stages–from GLOF detection, to analysing their frequency and estimating regional GLOF hazard–provide a framework for modern GLOF hazard assessment. Given the rapidly growing population, infrastructure, and hydropower projects in the Himalayas, this thesis assists in quantifying the purely climate-driven contribution to hazard and risk from GLOFs. N2 - In kaum einer anderen Region treten Abhängigkeit, Nutzen und Gefährdung von Gletscher- und Schneeschmelze so deutlich zu Tage wie im Himalaya. Naturgefahren sind hier allgegenwärtig, wobei eine die Wissenschaftler in den vergangen zwei Jahrzehnten besonders beschäftigte: Ausbrüche von Gletscherseen traten in der Vergangenheit zwar selten, aber meist mit katastrophalen Konsequenzen für die darunterliegenden Berggemeinden auf. Gletscherseeausbrüche (englisches Akronym GLOFs – glacial lake outburst floods) beschreiben den plötzlichen Ausfluss von teils mehreren Millionen Kubikmetern Wasser aus natürlich gedämmten Schmelzwasserseen. Anhaltender Gletscherrückgang in vergangenen Jahrzehnten schuf mehrere tausend Hochgebirgsseen, mit ununterbrochenem Wachstum in Anzahl und Fläche, was den Schluss auf ein möglicherweise vermehrtes Auftreten von GLOFs nahelegte. Diese suggerierte Zunahme von GLOFs konnte jedoch bisher weder getestet noch bestätigt werden, vor allem weil Seen überwiegend jenseits von 4,000 m üNN entstehen, was Feldstudien dort erschwert. Unser Wissen über GLOFs ist daher möglicherweise zu größeren, schadensreichen Ereignissen verschoben, wodurch ihre aktuelle Frequenz, und letztlich auch ihr Zusammenhang mit dem Klimawandel, nur schwer quantifizierbar sind. Mit welcher Wiederkehrrate GLOFs auftreten ist nicht zuletzt entscheidend für Risikoanalyse und -management entlang von Flüssen. Um einer Unterschätzung der tatsächlichen GLOF-Aktivität entgegenzuwirken, entwickelte ich einen Algorithmus, der GLOFs automatisch aus Satellitenbildern detektiert. Der Algorithmus greift auf etwa 30 Jahre kontinuierlich aufgenommene Landsat-Bilder (~1988-2017) zu, und berechnet letztlich die Wahrscheinlichkeit, ob Wasserkörper rasch innerhalb dieser Bildzeitreihe geschrumpft sind. An solchen Stellen suchte ich nach Sedimentverlagerungen im Gerinne flussabwärts, was ein zweites Hauptkriterium für GLOFs ist. Tests und Validierung in etwa 10% des Himalayas bestätigten, dass die Methode robust gegenüber atmosphärischen Störeffekten ist. Mit dem Ziel bisher unbekannte GLOFs zu entdecken, wendete ich daher diesen Algorithmus auf den gesamten Himalaya an. Die Suche ergab 22 neu entdeckte GLOFs, was das bestehende Inventar von 16 bekannten GLOFs seit 1988 mehr als verdoppelte. Das aktualisierte räumliche Verbreitungsmuster bestätigte einmal mehr, dass GLOFs vermehrt im Zentral- und Osthimalaya (Bhutan und Ost-Nepal) auftraten, wohingegen im Norden deutlich weniger GLOFs stattfanden. Entgegen der häufigen Annahme stellte ich jedoch fest, dass die jährliche Häufigkeit von GLOFs in den letzten drei Jahrzehnten konstant blieb. Dadurch hat das Verhältnis von GLOFs pro Einheit See(-fläche) in diesem Zeitraum sogar abgenommen. Dieses räumlich aufgelöste GLOF-Inventar bot nun die Möglichkeit, das Gefährdungspotential durch GLOFs für den gesamten Himalaya und einzelne Regionen zu berechnen. Dafür verwendete ich die in der Hochwasseranalyse gebräuchliche Definition von Gefährdung, welche die jährliche Überschreitungswahrscheinlichkeit einer gewissen Abflussmenge, in diesem Fall des Spitzenabflusses [m3 s-1] am Dammbruch, beschreibt. Das GLOF-Inventar liefert demnach die zeitliche Wahrscheinlichkeit für das Auftreten von GLOFs, während Simulationen von möglichen Spitzenabflüssen für alle heute existierenden ~5,000 Seen im Himalaya die zu erwarteten Magnituden beisteuerten. Mit Extremwertstatistik lässt sich so die mittlere Wiederkehrzeit dieser Spitzenabflüsse errechnen. Ich fand heraus, dass der 100-jährliche Abfluss (die Flutmagnitude, die im Durchschnitt einmal in 100 Jahren erreicht oder überschritten wird) derzeit bei rund 20,600+2,200/–2,300 m³ s-1 für den gesamten Himalaya liegt. Entsprechend der heutigen räumlichen und zeitlichen Verteilung von GLOFs ist die Gefährdung im Osthimalaya am höchsten und in Regionen mit wenig dokumentierten GLOFs vergleichsweise niedrig. Für ein Szenario, in dem der gesamte Himalaya in Zukunft eisfrei sein könnte, errechnete ich zudem das Gefährdungspotential von ~9,500 Übertiefungen unterhalb der heutigen Gletschern, die sich nach deren Abschmelzen mit Wasser füllen könnten. Angenommen, dass die zukünftige GLOF-Rate der heutigen entspricht, könnte der 100-jährliche Abfluss sich mehr als verdoppeln (41,700+5,500/–4,700 m3 s-1), wobei der stärkste regionale Anstieg für den Karakorum zu erwarten wäre. Zusammenfassend formen diese drei Schritte–von der Detektion von GLOFs, über die Bestimmung derer Frequenz, bis zur regionalen Abschätzung von Spitzenabflüssen–das Grundgerüst, das ein moderner Ansatz zur Gefahrenabschätzung von GLOFs benötigt. Angesichts einer wachsenden Exposition von Bevölkerung, Infrastruktur und Wasserkraftanlagen liefert diese Arbeit einen entscheidenden Beitrag, den Anteil des Klimawandels in der Gefährdung und Risiko durch GLOFs zu quantifizieren. KW - GLOF KW - frequency KW - Landsat KW - satellite images KW - classification KW - magnitude KW - Himalaya KW - Karakoram KW - climate change KW - atmospheric warming KW - glacial lakes KW - glaciers KW - meltwater KW - natural hazard KW - GLOF KW - Gletscherseeasubruch KW - Häufigkeit KW - Landsat KW - Satellitenbilder KW - Klassifikation KW - Magnitude KW - Himalaya KW - Karakorum KW - Klimawandel KW - atmosphärische Erwärmung KW - Gletscherseen KW - Gletscher KW - Schmelzwasser KW - Naturgefahr Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-436071 ER -