TY  - THES
A1  - Veh, Georg
T1  - Outburst floods from moraine-dammed lakes in the Himalayas
T1  - Ausbruchsfluten von moränen-gestauten Seen im Himalaya
BT  - detection, frequency, and hazard
BT  - Erkennung, Häufigkeit, und Gefährdung
N2  - The Himalayas are a region that is most dependent, but also frequently prone to hazards from changing meltwater resources. This mountain belt hosts the highest mountain peaks on earth, has the largest reserve of ice outside the polar regions, and is home to a rapidly growing population in recent decades. One source of hazard has attracted scientific research in particular in the past two decades: glacial lake outburst floods (GLOFs) occurred rarely, but mostly with fatal and catastrophic consequences for downstream communities and infrastructure. Such GLOFs can suddenly release several million cubic meters of water from naturally impounded meltwater lakes. Glacial lakes have grown in number and size by ongoing glacial mass losses in the Himalayas. Theory holds that enhanced meltwater production may increase GLOF frequency, but has never been tested so far. The key challenge to test this notion are the high altitudes of >4000 m, at which lakes occur, making field work impractical. Moreover, flood waves can attenuate rapidly in mountain channels downstream, so that many GLOFs have likely gone unnoticed in past decades. Our knowledge on GLOFs is hence likely biased towards larger, destructive cases, which challenges a detailed quantification of their frequency and their response to atmospheric warming. Robustly quantifying the magnitude and frequency of GLOFs is essential for risk assessment and management along mountain rivers, not least to implement their return periods in building design codes.
Motivated by this limited knowledge of GLOF frequency and hazard, I developed an algorithm that efficiently detects GLOFs from satellite images. In essence, this algorithm classifies land cover in 30 years (~1988–2017) of continuously recorded Landsat images over the Himalayas, and calculates likelihoods for rapidly shrinking water bodies in the stack of land cover images. I visually assessed such detected tell-tale sites for sediment fans in the river channel downstream, a second key diagnostic of GLOFs. Rigorous tests and validation with known cases from roughly 10% of the Himalayas suggested that this algorithm is robust against frequent image noise, and hence capable to identify previously unknown GLOFs. Extending the search radius to the entire Himalayan mountain range revealed some 22 newly detected GLOFs. I thus more than doubled the existing GLOF count from 16 previously known cases since 1988, and found a dominant cluster of GLOFs in the Central and Eastern Himalayas (Bhutan and Eastern Nepal), compared to the rarer affected ranges in the North. Yet, the total of 38 GLOFs showed no change in the annual frequency, so that the activity of GLOFs per unit glacial lake area has decreased in the past 30 years. I discussed possible drivers for this finding, but left a further attribution to distinct GLOF-triggering mechanisms open to future research.
This updated GLOF frequency was the key input for assessing GLOF hazard for the entire Himalayan mountain belt and several subregions. I used standard definitions in flood hydrology, describing hazard as the annual exceedance probability of a given flood peak discharge [m3 s-1] or larger at the breach location. I coupled the empirical frequency of GLOFs per region to simulations of physically plausible peak discharges from all existing ~5,000 lakes in the Himalayas. Using an extreme-value model, I could hence calculate flood return periods. I found that the contemporary 100-year GLOF discharge (the flood level that is reached or exceeded on average once in 100 years) is 20,600+2,200/–2,300 m3 s-1 for the entire Himalayas. Given the spatial and temporal distribution of historic GLOFs, contemporary GLOF hazard is highest in the Eastern Himalayas, and lower for regions with rarer GLOF abundance. I also calculated GLOF hazard for some 9,500 overdeepenings, which could expose and fill with water, if all Himalayan glaciers have melted eventually. Assuming that the current GLOF rate remains unchanged, the 100-year GLOF discharge could double (41,700+5,500/–4,700 m3 s-1), while the regional GLOF hazard may increase largest in the Karakoram. 
To conclude, these three stages–from GLOF detection, to analysing their frequency and estimating regional GLOF hazard–provide a framework for modern GLOF hazard assessment. Given the rapidly growing population, infrastructure, and hydropower projects in the Himalayas, this thesis assists in quantifying the purely climate-driven contribution to hazard and risk from GLOFs.
N2  - In kaum einer anderen Region treten Abhängigkeit, Nutzen und Gefährdung von Gletscher- und Schneeschmelze so deutlich zu Tage wie im Himalaya. Naturgefahren sind hier allgegenwärtig, wobei eine die Wissenschaftler in den vergangen zwei Jahrzehnten besonders beschäftigte: Ausbrüche von Gletscherseen traten in der Vergangenheit zwar selten, aber meist mit katastrophalen Konsequenzen für die darunterliegenden Berggemeinden auf. Gletscherseeausbrüche (englisches Akronym GLOFs – glacial lake outburst floods) beschreiben den plötzlichen Ausfluss von teils mehreren Millionen Kubikmetern Wasser aus natürlich gedämmten Schmelzwasserseen. Anhaltender Gletscherrückgang in vergangenen Jahrzehnten schuf mehrere tausend Hochgebirgsseen, mit ununterbrochenem Wachstum in Anzahl und Fläche, was den Schluss auf ein möglicherweise vermehrtes Auftreten von GLOFs nahelegte. Diese suggerierte Zunahme von GLOFs konnte jedoch bisher weder getestet noch bestätigt werden, vor allem weil Seen überwiegend jenseits von 4,000 m üNN entstehen, was Feldstudien dort erschwert. Unser Wissen über GLOFs ist daher möglicherweise zu größeren, schadensreichen Ereignissen verschoben, wodurch ihre aktuelle Frequenz, und letztlich auch ihr Zusammenhang mit dem Klimawandel, nur schwer quantifizierbar sind. Mit welcher Wiederkehrrate GLOFs auftreten ist nicht zuletzt entscheidend für Risikoanalyse und -management entlang von Flüssen.
Um einer Unterschätzung der tatsächlichen GLOF-Aktivität entgegenzuwirken, entwickelte ich einen Algorithmus, der GLOFs automatisch aus Satellitenbildern detektiert. Der Algorithmus greift auf etwa 30 Jahre kontinuierlich aufgenommene Landsat-Bilder (~1988-2017) zu, und berechnet letztlich die Wahrscheinlichkeit, ob Wasserkörper rasch innerhalb dieser Bildzeitreihe geschrumpft sind. An solchen Stellen suchte ich nach Sedimentverlagerungen im Gerinne flussabwärts, was ein zweites Hauptkriterium für GLOFs ist. Tests und Validierung in etwa 10% des Himalayas bestätigten, dass die Methode robust gegenüber atmosphärischen Störeffekten ist. Mit dem Ziel bisher unbekannte GLOFs zu entdecken, wendete ich daher diesen Algorithmus auf den gesamten Himalaya an. Die Suche ergab 22 neu entdeckte GLOFs, was das bestehende Inventar von 16 bekannten GLOFs seit 1988 mehr als verdoppelte. Das aktualisierte räumliche Verbreitungsmuster bestätigte einmal mehr, dass GLOFs vermehrt im Zentral- und Osthimalaya (Bhutan und Ost-Nepal) auftraten, wohingegen im Norden deutlich weniger GLOFs stattfanden. Entgegen der häufigen Annahme stellte ich jedoch fest, dass die jährliche Häufigkeit von GLOFs in den letzten drei Jahrzehnten konstant blieb. Dadurch hat das Verhältnis von GLOFs pro Einheit See(-fläche) in diesem Zeitraum sogar abgenommen.
Dieses räumlich aufgelöste GLOF-Inventar bot nun die Möglichkeit, das Gefährdungspotential durch GLOFs für den gesamten Himalaya und einzelne Regionen zu berechnen. Dafür verwendete ich die in der Hochwasseranalyse gebräuchliche Definition von Gefährdung, welche die jährliche Überschreitungswahrscheinlichkeit einer gewissen Abflussmenge, in diesem Fall des Spitzenabflusses [m3 s-1] am Dammbruch, beschreibt. Das GLOF-Inventar liefert demnach die zeitliche Wahrscheinlichkeit für das Auftreten von GLOFs, während Simulationen von möglichen Spitzenabflüssen für alle heute existierenden ~5,000 Seen im Himalaya die zu erwarteten Magnituden beisteuerten. Mit Extremwertstatistik lässt sich so die mittlere Wiederkehrzeit dieser Spitzenabflüsse errechnen. Ich fand heraus, dass der 100-jährliche Abfluss (die Flutmagnitude, die im Durchschnitt einmal in 100 Jahren erreicht oder überschritten wird) derzeit bei rund 20,600+2,200/–2,300 m³ s-1 für den gesamten Himalaya liegt. Entsprechend der heutigen räumlichen und zeitlichen Verteilung von GLOFs ist die Gefährdung im Osthimalaya am höchsten und in Regionen mit wenig dokumentierten GLOFs vergleichsweise niedrig. Für ein Szenario, in dem der gesamte Himalaya in Zukunft eisfrei sein könnte, errechnete ich zudem das Gefährdungspotential von ~9,500 Übertiefungen unterhalb der heutigen Gletschern, die sich nach deren Abschmelzen mit Wasser füllen könnten. Angenommen, dass die zukünftige GLOF-Rate der heutigen entspricht, könnte der 100-jährliche Abfluss sich mehr als verdoppeln (41,700+5,500/–4,700 m3 s-1), wobei der stärkste regionale Anstieg für den Karakorum zu erwarten wäre.
Zusammenfassend formen diese drei Schritte–von der Detektion von GLOFs, über die Bestimmung derer Frequenz, bis zur regionalen Abschätzung von Spitzenabflüssen–das Grundgerüst, das ein moderner Ansatz zur Gefahrenabschätzung von GLOFs benötigt. Angesichts einer wachsenden Exposition von Bevölkerung, Infrastruktur und Wasserkraftanlagen liefert diese Arbeit einen entscheidenden Beitrag, den Anteil des Klimawandels in der Gefährdung und Risiko durch GLOFs zu quantifizieren.
KW  - GLOF
KW  - frequency
KW  - Landsat
KW  - satellite images
KW  - classification
KW  - magnitude
KW  - Himalaya
KW  - Karakoram
KW  - climate change
KW  - atmospheric warming
KW  - glacial lakes
KW  - glaciers
KW  - meltwater
KW  - natural hazard
KW  - GLOF
KW  - Gletscherseeasubruch
KW  - Häufigkeit
KW  - Landsat
KW  - Satellitenbilder
KW  - Klassifikation
KW  - Magnitude
KW  - Himalaya
KW  - Karakorum
KW  - Klimawandel
KW  - atmosphärische Erwärmung
KW  - Gletscherseen
KW  - Gletscher
KW  - Schmelzwasser
KW  - Naturgefahr
Y1  - 2019
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-436071
ER  - 
TY  - THES
A1  - Prasse, Paul
T1  - Pattern recognition for computer security
T1  - Mustererkennung für Computersicherheit
BT  - discriminative models for email spam campaign and malware detection
BT  - diskriminative Modelle zur Erkennung von Email Spam-Kampagnen und Malware
N2  - Computer Security deals with the detection and mitigation of threats to computer networks, data, and computing hardware. This
thesis addresses the following two computer security problems: email spam campaign and malware detection. 
Email spam campaigns can easily be generated using popular dissemination tools by specifying simple grammars that serve as message templates. A grammar is disseminated to nodes of a bot net, the nodes create messages by instantiating the grammar at random. Email spam campaigns can encompass huge data volumes and therefore pose a threat to the stability of the infrastructure of email service providers that have to store them. Malware -software that serves a malicious purpose- is affecting web servers, client computers via active content, and client computers through executable files. Without the help of malware detection systems it would be easy for malware creators to collect sensitive information or to infiltrate computers.


The detection of threats -such as email-spam messages, phishing messages, or malware- is an adversarial and therefore intrinsically
difficult problem. Threats vary greatly and evolve over time. The detection of threats based on manually-designed rules is therefore
difficult and requires a constant engineering effort. Machine-learning is a research area that revolves around the analysis of data and the discovery of patterns that describe aspects of the data. Discriminative learning methods extract prediction models from data that are optimized to predict a target attribute as accurately as possible. Machine-learning methods hold the promise of automatically identifying patterns that robustly and accurately detect threats. This thesis focuses on the design and analysis of discriminative learning methods for the two computer-security problems under investigation: email-campaign and malware detection.


The first part of this thesis addresses email-campaign detection. We focus on regular expressions as a syntactic framework, because regular expressions are intuitively comprehensible by security engineers and administrators, and they can be applied as a detection mechanism in an extremely efficient manner. In this setting, a prediction model is provided with exemplary messages from an email-spam campaign. The prediction model has to generate a regular expression that reveals the syntactic pattern that underlies the entire campaign, and that a security engineers finds comprehensible and feels confident enough to use the expression to blacklist further messages at the email server. We model this problem as two-stage learning problem with structured input and output spaces which can be solved using standard cutting plane methods. Therefore we develop an appropriate loss function, and derive a decoder for the resulting optimization problem.


The second part of this thesis deals with the problem of predicting whether a given JavaScript or PHP file is malicious or benign. Recent malware analysis techniques use static or dynamic features, or both. In fully dynamic analysis, the software or script is executed and observed for malicious behavior in a sandbox environment. By contrast, static analysis is based on features that can be extracted directly from the program file. In order to bypass static detection mechanisms, code obfuscation techniques are used to spread a malicious program file in many different syntactic variants. Deobfuscating the code before applying a static classifier can be subjected to mostly static code analysis and can overcome the problem of obfuscated malicious code, but on the other hand increases the computational costs of malware detection by an order of magnitude. In this thesis we present a cascaded architecture in which a classifier first performs a static analysis of the original code and -based on the outcome of this first classification step- the code may be deobfuscated and classified again. We explore several types of features including token $n$-grams, orthogonal sparse bigrams, subroutine-hashings, and syntax-tree features and study the robustness of detection methods and feature types against the evolution of malware over time. The developed tool scans very large file collections quickly and accurately.

Each model is evaluated on real-world data and compared to reference methods. Our approach of inferring regular expressions to filter emails belonging to an email spam campaigns leads to models with a high true-positive rate at a very low false-positive rate that is an order of magnitude lower than that of a commercial content-based filter. Our presented system -REx-SVMshort- is being used by a commercial email service provider and complements content-based and IP-address based filtering. 
Our cascaded malware detection system is evaluated on a high-quality data set of almost 400,000 conspicuous PHP files and a collection of more than 1,00,000 JavaScript files. From our case study we can conclude that our system can quickly and accurately process large data collections at a low false-positive rate.
N2  - Computer-Sicherheit beschäftigt sich mit der Erkennung und der Abwehr von Bedrohungen für Computer-Netze, Daten und Computer-Hardware. In dieser Dissertation wird die Leistungsfähigkeit von Modellen des maschinellen Lernens zur Erkennung von Bedrohungen anhand von zwei konkreten Fallstudien analysiert. Im ersten Szenario wird die Leistungsfähigkeit von Modellen zur Erkennung von Email Spam-Kampagnen untersucht. E-Mail Spam-Kampagnen werden häufig von leicht zu bedienenden Tools erzeugt. Diese Tools erlauben es dem Benutzer, mit Hilfe eines Templates (z.B. einer regulären Grammatik) eine Emailvorlage zu definieren. Ein solches Template kann z.B. auf die Knoten eines Botnetzes verteilt werden. Dort werden Nachrichten mit diesem Template generiert und an verschiedene Absender verschickt. Die damit entstandenen E-Mail Spam-Kampagnen können riesige Datenmengen produzieren und somit zu einer Gefahr für die Stabilität der Infrastruktur von E-Mail-Service-Providern werden. Im zweiten Szenario wird die Leistungsfähigkeit von Modellen zur Erkennung von Malware untersucht. Malware bzw. Software, die schadhaften Programmcode enthält, kann Web-Server und Client-Computer über aktive Inhalte und Client-Computer über ausführbare Dateien beeinflussen. Somit kann die die reguläre und legitime Nutzung von Diensten verhindert werden. Des Weiteren kann Malware genutzt werden, um sensible Informationen zu sammeln oder Computer zu infiltrieren.

Die Erkennung von Bedrohungen, die von E-Mail-Spam-Mails, Phishing-E-Mails oder Malware ausgehen, gestaltet sich schwierig. Zum einen verändern sich Bedrohungen von Zeit zu Zeit, zum anderen werden E-Mail-Spam-Mails oder Malware so modifiziert, dass sie von aktuellen Erkennungssystemen nicht oder nur schwer zu erkennen sind. Erkennungssysteme, die auf manuell erstellten Regeln basieren, sind deshalb wenig effektiv, da sie ständig administriert werden müssen. Sie müssen kontinuierlich gewartet werden, um neue Regeln (für veränderte oder neu auftretende Bedrohungen) zu erstellen und alte Regeln anzupassen bzw. zu löschen. Maschinelles Lernen ist ein Forschungsgebiet, das sich mit der Analyse von Daten und der Erkennung von Mustern beschäftigt, um bestimmte Aspekte in Daten, wie beispielsweise die Charakteristika von Malware, zu beschreiben. Mit Hilfe der Methoden des Maschinellen Lernens ist es möglich, automatisiert Muster in Daten zu erkennen. Diese Muster können genutzt werden, um Bedrohung gezielt und genau zu erkennen. 

Im ersten Teil wird ein Modell zur automatischen Erkennung von E-Mail-Spam-Kampag\-nen vorgestellt. Wir verwenden reguläre Ausdrücke als syntaktischen Rahmen, um E-Mail-Spam-Kampagnen zu beschreiben und E-Mails die zu einer E-Mail-Spam-Kampagne gehören zu identifizieren. Reguläre Ausdrücke sind intuitiv verständlich und können einfach von  Administratoren genutzt werden, um E-Mail-Spam-Kampagnen zu beschreiben. Diese Arbeit stellt ein Modell vor, das für eine gegebene E-Mail-Spam-Kampagne einen regulären Ausdruck vorhersagt. In dieser Arbeit stellen wir ein Verfahren vor, um ein Modell zu bestimmen, das reguläre Ausdrücke vorhersagt, die zum Einen die Gesamtheit aller E-Mails in einer Spam-Kampagne abbilden und zum Anderen so verständlich aufgebaut sind, dass ein Systemadministrator eines E-Mail Servers diesen verwendet. Diese Problemstellung wird als ein zweistufiges Lernproblem mit strukturierten Ein- und Ausgaberäumen modelliert, welches mit Standardmethoden des Maschinellen Lernens gelöst werden kann. Hierzu werden eine geeignete Verlustfunktion, sowie ein Dekodierer für das resultierende Optimierungsproblem hergeleitet.

Der zweite Teil behandelt die Analyse von Modellen zur Erkennung von Java-Script oder PHP-Dateien mit schadhaften Code. Viele neu entwickelte Malwareanalyse-Tools nutzen statische, dynamische oder eine Mischung beider Merkmalsarten als Eingabe, um Modelle zur Erkennung von Malware zu bilden. Um dynamische Merkmale zu extrahieren, wird eine Software oder ein Teil des Programmcodes in einer gesicherten Umgebung ausgeführt und das Verhalten (z.B. Speicherzugriffe oder Funktionsaufrufe) analysiert. Bei der statischen Analyse von Skripten und Software werden Merkmale direkt aus dem Programcode extrahiert. Um Erkennungsmechanismen, die nur auf statischen Merkmalen basieren, zu umgehen, wird der Programmcode oft maskiert. Die Maskierung von Programmcode wird genutzt, um einen bestimmten schadhaften Programmcode in vielen syntaktisch unterschiedlichen Varianten zu erzeugen. Der originale schadhafte Programmcode wird dabei erst zur Laufzeit generiert. Wird der Programmcode vor dem Anwenden eines Vorhersagemodells demaskiert, spricht man von einer vorwiegend statischen Programmcodeanalyse. Diese hat den Vorteil, dass enthaltener Schadcode einfacher zu erkennen ist. Großer Nachteil dieses Ansatzes ist die erhöhte Laufzeit durch das Demaskieren der einzelnen Dateien vor der Anwendung des Vorhersagemodells. In dieser Arbeit wird eine mehrstufige Architektur präsentiert, in der ein Klassifikator zunächst eine Vorhersage auf Grundlage einer statischen Analyse auf dem originalen Programmcode trifft. Basierend auf dieser Vorhersage wird der Programcode in einem zweiten Schritt demaskiert und erneut ein Vorhersagemodell angewendet. Wir betrachten dabei eine Vielzahl von möglichen Merkmalstypen, wie $n$-gram Merkmale, orthogonal sparse bigrams, Funktions-Hashes und Syntaxbaum Merkmale. Zudem wird in dieser Dissertation untersucht, wie robust die entwickelten Erkennungsmodelle gegenüber Veränderungen von Malware über die Zeit sind. Das vorgestellte Verfahren ermöglicht es, große Datenmengen mit hoher Treffergenauigkeit nach Malware zu durchsuchen.

Alle in dieser Dissertation vorgestellten Modelle wurden auf echten Daten evaluiert und mit Referenzmethoden verglichen. Das  vorgestellte Modell zur Erkennung von E-Mail-Spam-Kampagnen hat eine hohe richtig-positive Rate und eine sehr kleine falsch-positiv Rate die niedriger ist, als die eines kommerziellen E-Mail-Filters. Das Modell wird von einem kommerziellen E-Mail Service Provider während des operativen Geschäfts genutzt, um eingehende und ausgehende E-Mails eines E-Mails-Servers zu überprüfen. Der Ansatz zur Malwareerkennung wurde auf einem Datensatz mit rund 400.000 verdächtigen PHP Dateien und einer Sammlung von mehr als 1.000.000 Java-Script Dateien evaluiert. Die Fallstudie auf diesen Daten zeigt, dass das vorgestellte System schnell und mit hoher Genauigkeit riesige Datenmengen mit wenigen Falsch-Alarmen nach Malware durchsuchen kann.
KW  - malware detection
KW  - structured output prediction
KW  - pattern recognition
KW  - computer security
KW  - email spam detection
KW  - maschninelles Lernen
KW  - Computersicherheit
KW  - strukturierte Vorhersage
KW  - Klassifikation
KW  - Vorhersage
KW  - Spam
KW  - Malware
Y1  - 2016
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-100251
ER  -