TY  - THES
A1  - Ohrnberger, Matthias
T1  - Continuous automatic classification of seismic signals of volcanic origin at Mt. Merapi, Java, Indonesia
N2  - Aufgrund seiner nahezu kontinuierlichen eruptiven Aktivität zählt der Merapi zu den gefährlichsten Vulkanen der Welt. Der Merapi befindet sich im Zentralteil der dicht bevölkerten Insel Java (Indonesien). Selbst kleinere Ausbrüche des Merapi stellen deswegen eine große Gefahr für die ansässige Bevölkerung in der Umgebung des Vulkans dar. Die am Merapi beobachtete enge Korrelation zwischen seismischer und vulkanischer Aktivität erlaubt es, mit Hilfe der Überwachung der seismischen Aktivität Veränderungen des Aktivitätszustandes des Merapi zu erkennen. Ein System zur automatischen Detektion und Klassifizierung seismischer Ereignisse liefert einen wichtigen Beitrag für die schnelle Analyse der seismischen Aktivität. Im Falle eines bevorstehenden Ausbruchszyklus bedeutet dies ein wichtiges Hilfsmittel für die vor Ort ansässigen Wissenschaftler. In der vorliegenden Arbeit wird ein Mustererkennungsverfahren verwendet, um die Detektion und Klassifizierung seismischer Signale vulkanischen Urprunges aus den kontinuierlich aufgezeichneten Daten in Echtzeit zu bewerkstelligen. Der hier verwendete A nsatz der hidden Markov Modelle (HMM) wird motiviert durch die große Ähnlichkeit von seismischen Signalen vulkanischen Ursprunges und Sprachaufzeichnungen und den großen Erfolg, den HMM-basierte Erkennungssysteme in der automatischen Spracherkennung erlangt haben.  Für eine erfolgreiche Implementierung eines Mustererkennungssytems ist es notwendig, eine geeignete Parametrisierung der Rohdaten vorzunehmen. Basierend auf den Erfahrungswerten seismologischer Observatorien wird ein Vorgehen zur Parametrisierung des seismischen Wellenfeldes auf Grundlage von robusten Analyseverfahren vorgeschlagen. Die Wellenfeldparameter werden pro Zeitschritt in einen reell-wertigen Mustervektor zusammengefasst. Die aus diesen Mustervektoren gebildete Zeitreihe ist dann Gegenstand des HMM-basierten Erkennungssystems. Um diskrete hidden Markov Modelle (DHMM) verwenden zu können, werden die Mustervektoren durch eine lineare Transformation und nachgeschaltete Vektor Quantisierung in eine diskrete Symbolsequenz überführt. Als Klassifikator kommt eine Maximum-Likelihood Testfunktion zwischen dieser Sequenz und den, in einem überwachten Lernverfahren trainierten, DHMMs zum Einsatz. Die am Merapi kontinuierlich aufgezeichneten seismischen Daten im Zeitraum vom 01.07. und 05.07.1998 sind besonders für einen Test dieses Klassifikationssystems geeignet. In dieser Zeit zeigte der Merapi einen rapiden Anstieg der Seismizität kurz bevor dem Auftreten zweier Eruptionen am 10.07. und 19.07.1998. Drei der bekannten, vom Vulkanologischen Dienst in Indonesien beschriebenen, seimischen Signalklassen konnten in diesem Zeitraum beobachtet werden. Es handelt sich hierbei um flache vulkanisch-tektonische Beben (VTB, h < 2.5 km), um sogenannte MP-Ereignisse, die in direktem Zusammenhang mit dem Wachstum des aktiven Lavadoms gebracht werden, und um seismische Ereignisse, die durch Gesteinslawinen erzeugt werden (lokaler Name: Guguran). Die spezielle Geometrie des digitalen seismischen Netzwerkes am Merapi besteht aus einer Kombination von drei Mini-Arrays an den Flanken des Merapi. Für die Parametrisierung des Wellenfeldes werden deswegen seismische Array-Verfahren eingesetzt. Die individuellen Wellenfeld Parameter wurden hinsichtlich ihrer Relevanz für den Klassifikationsprozess detailliert analysiert. Für jede der drei Signalklassen wurde ein Satz von DHMMs trainiert. Zusätzlich wurden als Ausschlussklassen noch zwei Gruppen von Noise-Modellen unterschieden. Insgesamt konnte mit diesem Ansatz eine Erkennungsrate von 67 % erreicht werden. Im Mittel erzeugte das automatische Klassifizierungssystem 41 Fehlalarme pro Tag und Klasse. Die Güte der Klassifikationsergebnisse zeigt starke Variationen zwischen den individuellen Signalklassen. Flache vulkanisch-tektonische Beben (VTB) zeigen sehr ausgeprägte Wellenfeldeigenschaften und, zumindest im untersuchten Zeitraum, sehr stabile Zeitmuster der individuellen Wellenfeldparameter. Das DHMM-basierte Klassifizierungssystem erlaubte für diesen Ereignistyp nahezu 89% richtige Entscheidungen und erzeugte im Mittel 2 Fehlalarme pro Tag. Ereignisse der Klassen MP und Guguran sind mit dem automatischen System schwieriger zu erkennen. 64% aller MP-Ereignisse und 74% aller Guguran-Ereignisse wurden korrekt erkannt. Im Mittel kam es bei MP-Ereignissen zu 87 Fehlalarmen und bei Guguran Ereignissen zu 33 Fehlalarmen pro Tag. Eine Vielzahl der Fehlalarme und nicht detektierten Ereignisse entstehen jedoch durch eine Verwechslung dieser beiden Signalklassen im automatischen Erkennnungsprozess. Dieses Ergebnis konnte aufgrund der ähnlichen Wellenfeldeigenschaften beider Signalklassen erklärt werden, deren Ursache vermutlich in den bekannt starken Einflüssen des Mediums entlang des Wellenausbreitungsweges in vulkanischen Gebieten liegen.  Insgesamt ist die Erkennungsleistung des entwickelten automatischen Klassifizierungssystems als sehr vielversprechend einzustufen. Im Gegensatz zu Standardverfahren, bei denen in der Seismologie üblicherweise nur der Startzeitpunkt eines seismischen Ereignisses detektiert wird, werden in dem untersuchten Verfahren seismische Ereignisse in ihrer Gesamtheit erfasst und zudem im selben Schritt bereits klassifiziert.
N2  - Merapi volcano is one of the most active and dangerous volcanoes of the earth. Located in central part of Java island (Indonesia), even a moderate eruption of Merapi poses a high risk to the highly populated area. Due to the close relationship between the volcanic unrest and the occurrence of seismic events at Mt. Merapi, the monitoring of Merapi's seismicity plays an important role for recognizing major changes in the volcanic activity. An automatic seismic event detection and classification system, which is capable to characterize the actual seismic activity in near real-time, is an important tool which allows the scientists in charge to take immediate decisions during a volcanic crisis.  In order to accomplish the task of detecting and classifying volcano-seismic signals automatically in the continuous data streams, a pattern recognition approach has been used. It is based on the method of hidden Markov models (HMM), a technique, which has proven to provide high recognition rates at high confidence levels in classification tasks of similar complexity (e.g. speech recognition). Any pattern recognition system relies on the appropriate representation of the input data in order to allow a reasonable class-decision by means of a mathematical test function. Based on the experiences from seismological observatory practice, a parametrization scheme of the seismic waveform data is derived using robust seismological analysis techniques. The wavefield parameters are summarized into a real-valued feature vector per time step. The time series of this feature vector build the basis for the HMM-based classification system. In order to make use of discrete hidden Markov (DHMM) techniques, the feature vectors are further processed by applying a de-correlating and prewhitening transformation and additional vector quantization. The seismic wavefield is finally represented as a discrete symbol sequence with a finite alphabet. This sequence is subject to a maximum likelihood test against the discrete hidden Markov models, learned from a representative set of training sequences for each seismic event type of interest. A time period from July, 1st to July, 5th, 1998 of rapidly increasing seismic activity prior to the eruptive cycle between July, 10th and July, 19th, 1998 at Merapi volcano is selected for evaluating the performance of this classification approach. Three distinct types of seismic events according to the established classification scheme of the Volcanological Survey of Indonesia (VSI) have been observed during this time period. Shallow volcano-tectonic events VTB (h < 2.5 km), very shallow dome-growth related seismic events MP (h < 1 km) and seismic signals connected to rockfall activity originating from the active lava dome, termed Guguran. The special configuration of the digital seismic station network at Merapi volcano, a combination of small-aperture array deployments surrounding Merapi's summit region, allows the use of array methods to parametrize the continuously recorded seismic wavefield. The individual signal parameters are analyzed to determine their relevance for the discrimination of seismic event classes. For each of the three observed event types a set of DHMMs has been trained using a selected set of seismic events with varying signal to noise ratios and signal durations. Additionally, two sets of discrete hidden Markov models have been derived for the seismic noise, incorporating the fact, that the wavefield properties of the ambient vibrations differ considerably during working hours and night time.  A total recognition accuracy of 67% is obtained. The mean false alarm (FA) rate can be given by 41 FA/class/day. However, variations in the recognition capabilities for the individual seismic event classes are significant. Shallow volcano-tectonic signals (VTB) show very distinct wavefield properties and (at least in the selected time period) a stable time pattern of wavefield attributes. The DHMM-based classification performs therefore best for VTB-type events, with almost 89% recognition accuracy and 2 FA/day.  Seismic signals of the MP- and Guguran-classes are more difficult to detect and classify. Around 64% of MP-events and 74% of Guguran signals are recognized correctly. The average false alarm rate for MP-events is 87 FA/day, whereas for Guguran signals 33 FA/day are obtained. However, the majority of missed events and false alarms for both MP and Guguran events are due to confusion errors between these two event classes in the recognition process.  The confusion of MP and Guguran events is interpreted as being a consequence of the selected parametrization approach for the continuous seismic data streams. The observed patterns of the analyzed wavefield attributes for MP and Guguran events show a significant amount of similarity, thus providing not sufficient discriminative information for the numerical classification. The similarity of wavefield parameters obtained for seismic events of MP and Guguran type reflect the commonly observed dominance of path effects on the seismic wave propagation in volcanic environments. The recognition rates obtained for the five-day period of increasing seismicity show, that the presented DHMM-based automatic classification system is a promising approach for the difficult task of classifying volcano-seismic signals. Compared to standard signal detection algorithms, the most significant advantage of the discussed technique is, that the entire seismogram is detected and classified in a single step.
KW  - volcanic seismology
KW  - Merapi
KW  - monitoring
KW  - classification
KW  - pattern recognition
KW  - Hidden Markov Model (HMM)
KW  - Seismic Array Methods
Y1  - 2001
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-0000028
ER  - 
TY  - THES
A1  - Prasse, Paul
T1  - Pattern recognition for computer security
T1  - Mustererkennung für Computersicherheit
BT  - discriminative models for email spam campaign and malware detection
BT  - diskriminative Modelle zur Erkennung von Email Spam-Kampagnen und Malware
N2  - Computer Security deals with the detection and mitigation of threats to computer networks, data, and computing hardware. This
thesis addresses the following two computer security problems: email spam campaign and malware detection. 
Email spam campaigns can easily be generated using popular dissemination tools by specifying simple grammars that serve as message templates. A grammar is disseminated to nodes of a bot net, the nodes create messages by instantiating the grammar at random. Email spam campaigns can encompass huge data volumes and therefore pose a threat to the stability of the infrastructure of email service providers that have to store them. Malware -software that serves a malicious purpose- is affecting web servers, client computers via active content, and client computers through executable files. Without the help of malware detection systems it would be easy for malware creators to collect sensitive information or to infiltrate computers.


The detection of threats -such as email-spam messages, phishing messages, or malware- is an adversarial and therefore intrinsically
difficult problem. Threats vary greatly and evolve over time. The detection of threats based on manually-designed rules is therefore
difficult and requires a constant engineering effort. Machine-learning is a research area that revolves around the analysis of data and the discovery of patterns that describe aspects of the data. Discriminative learning methods extract prediction models from data that are optimized to predict a target attribute as accurately as possible. Machine-learning methods hold the promise of automatically identifying patterns that robustly and accurately detect threats. This thesis focuses on the design and analysis of discriminative learning methods for the two computer-security problems under investigation: email-campaign and malware detection.


The first part of this thesis addresses email-campaign detection. We focus on regular expressions as a syntactic framework, because regular expressions are intuitively comprehensible by security engineers and administrators, and they can be applied as a detection mechanism in an extremely efficient manner. In this setting, a prediction model is provided with exemplary messages from an email-spam campaign. The prediction model has to generate a regular expression that reveals the syntactic pattern that underlies the entire campaign, and that a security engineers finds comprehensible and feels confident enough to use the expression to blacklist further messages at the email server. We model this problem as two-stage learning problem with structured input and output spaces which can be solved using standard cutting plane methods. Therefore we develop an appropriate loss function, and derive a decoder for the resulting optimization problem.


The second part of this thesis deals with the problem of predicting whether a given JavaScript or PHP file is malicious or benign. Recent malware analysis techniques use static or dynamic features, or both. In fully dynamic analysis, the software or script is executed and observed for malicious behavior in a sandbox environment. By contrast, static analysis is based on features that can be extracted directly from the program file. In order to bypass static detection mechanisms, code obfuscation techniques are used to spread a malicious program file in many different syntactic variants. Deobfuscating the code before applying a static classifier can be subjected to mostly static code analysis and can overcome the problem of obfuscated malicious code, but on the other hand increases the computational costs of malware detection by an order of magnitude. In this thesis we present a cascaded architecture in which a classifier first performs a static analysis of the original code and -based on the outcome of this first classification step- the code may be deobfuscated and classified again. We explore several types of features including token $n$-grams, orthogonal sparse bigrams, subroutine-hashings, and syntax-tree features and study the robustness of detection methods and feature types against the evolution of malware over time. The developed tool scans very large file collections quickly and accurately.

Each model is evaluated on real-world data and compared to reference methods. Our approach of inferring regular expressions to filter emails belonging to an email spam campaigns leads to models with a high true-positive rate at a very low false-positive rate that is an order of magnitude lower than that of a commercial content-based filter. Our presented system -REx-SVMshort- is being used by a commercial email service provider and complements content-based and IP-address based filtering. 
Our cascaded malware detection system is evaluated on a high-quality data set of almost 400,000 conspicuous PHP files and a collection of more than 1,00,000 JavaScript files. From our case study we can conclude that our system can quickly and accurately process large data collections at a low false-positive rate.
N2  - Computer-Sicherheit beschäftigt sich mit der Erkennung und der Abwehr von Bedrohungen für Computer-Netze, Daten und Computer-Hardware. In dieser Dissertation wird die Leistungsfähigkeit von Modellen des maschinellen Lernens zur Erkennung von Bedrohungen anhand von zwei konkreten Fallstudien analysiert. Im ersten Szenario wird die Leistungsfähigkeit von Modellen zur Erkennung von Email Spam-Kampagnen untersucht. E-Mail Spam-Kampagnen werden häufig von leicht zu bedienenden Tools erzeugt. Diese Tools erlauben es dem Benutzer, mit Hilfe eines Templates (z.B. einer regulären Grammatik) eine Emailvorlage zu definieren. Ein solches Template kann z.B. auf die Knoten eines Botnetzes verteilt werden. Dort werden Nachrichten mit diesem Template generiert und an verschiedene Absender verschickt. Die damit entstandenen E-Mail Spam-Kampagnen können riesige Datenmengen produzieren und somit zu einer Gefahr für die Stabilität der Infrastruktur von E-Mail-Service-Providern werden. Im zweiten Szenario wird die Leistungsfähigkeit von Modellen zur Erkennung von Malware untersucht. Malware bzw. Software, die schadhaften Programmcode enthält, kann Web-Server und Client-Computer über aktive Inhalte und Client-Computer über ausführbare Dateien beeinflussen. Somit kann die die reguläre und legitime Nutzung von Diensten verhindert werden. Des Weiteren kann Malware genutzt werden, um sensible Informationen zu sammeln oder Computer zu infiltrieren.

Die Erkennung von Bedrohungen, die von E-Mail-Spam-Mails, Phishing-E-Mails oder Malware ausgehen, gestaltet sich schwierig. Zum einen verändern sich Bedrohungen von Zeit zu Zeit, zum anderen werden E-Mail-Spam-Mails oder Malware so modifiziert, dass sie von aktuellen Erkennungssystemen nicht oder nur schwer zu erkennen sind. Erkennungssysteme, die auf manuell erstellten Regeln basieren, sind deshalb wenig effektiv, da sie ständig administriert werden müssen. Sie müssen kontinuierlich gewartet werden, um neue Regeln (für veränderte oder neu auftretende Bedrohungen) zu erstellen und alte Regeln anzupassen bzw. zu löschen. Maschinelles Lernen ist ein Forschungsgebiet, das sich mit der Analyse von Daten und der Erkennung von Mustern beschäftigt, um bestimmte Aspekte in Daten, wie beispielsweise die Charakteristika von Malware, zu beschreiben. Mit Hilfe der Methoden des Maschinellen Lernens ist es möglich, automatisiert Muster in Daten zu erkennen. Diese Muster können genutzt werden, um Bedrohung gezielt und genau zu erkennen. 

Im ersten Teil wird ein Modell zur automatischen Erkennung von E-Mail-Spam-Kampag\-nen vorgestellt. Wir verwenden reguläre Ausdrücke als syntaktischen Rahmen, um E-Mail-Spam-Kampagnen zu beschreiben und E-Mails die zu einer E-Mail-Spam-Kampagne gehören zu identifizieren. Reguläre Ausdrücke sind intuitiv verständlich und können einfach von  Administratoren genutzt werden, um E-Mail-Spam-Kampagnen zu beschreiben. Diese Arbeit stellt ein Modell vor, das für eine gegebene E-Mail-Spam-Kampagne einen regulären Ausdruck vorhersagt. In dieser Arbeit stellen wir ein Verfahren vor, um ein Modell zu bestimmen, das reguläre Ausdrücke vorhersagt, die zum Einen die Gesamtheit aller E-Mails in einer Spam-Kampagne abbilden und zum Anderen so verständlich aufgebaut sind, dass ein Systemadministrator eines E-Mail Servers diesen verwendet. Diese Problemstellung wird als ein zweistufiges Lernproblem mit strukturierten Ein- und Ausgaberäumen modelliert, welches mit Standardmethoden des Maschinellen Lernens gelöst werden kann. Hierzu werden eine geeignete Verlustfunktion, sowie ein Dekodierer für das resultierende Optimierungsproblem hergeleitet.

Der zweite Teil behandelt die Analyse von Modellen zur Erkennung von Java-Script oder PHP-Dateien mit schadhaften Code. Viele neu entwickelte Malwareanalyse-Tools nutzen statische, dynamische oder eine Mischung beider Merkmalsarten als Eingabe, um Modelle zur Erkennung von Malware zu bilden. Um dynamische Merkmale zu extrahieren, wird eine Software oder ein Teil des Programmcodes in einer gesicherten Umgebung ausgeführt und das Verhalten (z.B. Speicherzugriffe oder Funktionsaufrufe) analysiert. Bei der statischen Analyse von Skripten und Software werden Merkmale direkt aus dem Programcode extrahiert. Um Erkennungsmechanismen, die nur auf statischen Merkmalen basieren, zu umgehen, wird der Programmcode oft maskiert. Die Maskierung von Programmcode wird genutzt, um einen bestimmten schadhaften Programmcode in vielen syntaktisch unterschiedlichen Varianten zu erzeugen. Der originale schadhafte Programmcode wird dabei erst zur Laufzeit generiert. Wird der Programmcode vor dem Anwenden eines Vorhersagemodells demaskiert, spricht man von einer vorwiegend statischen Programmcodeanalyse. Diese hat den Vorteil, dass enthaltener Schadcode einfacher zu erkennen ist. Großer Nachteil dieses Ansatzes ist die erhöhte Laufzeit durch das Demaskieren der einzelnen Dateien vor der Anwendung des Vorhersagemodells. In dieser Arbeit wird eine mehrstufige Architektur präsentiert, in der ein Klassifikator zunächst eine Vorhersage auf Grundlage einer statischen Analyse auf dem originalen Programmcode trifft. Basierend auf dieser Vorhersage wird der Programcode in einem zweiten Schritt demaskiert und erneut ein Vorhersagemodell angewendet. Wir betrachten dabei eine Vielzahl von möglichen Merkmalstypen, wie $n$-gram Merkmale, orthogonal sparse bigrams, Funktions-Hashes und Syntaxbaum Merkmale. Zudem wird in dieser Dissertation untersucht, wie robust die entwickelten Erkennungsmodelle gegenüber Veränderungen von Malware über die Zeit sind. Das vorgestellte Verfahren ermöglicht es, große Datenmengen mit hoher Treffergenauigkeit nach Malware zu durchsuchen.

Alle in dieser Dissertation vorgestellten Modelle wurden auf echten Daten evaluiert und mit Referenzmethoden verglichen. Das  vorgestellte Modell zur Erkennung von E-Mail-Spam-Kampagnen hat eine hohe richtig-positive Rate und eine sehr kleine falsch-positiv Rate die niedriger ist, als die eines kommerziellen E-Mail-Filters. Das Modell wird von einem kommerziellen E-Mail Service Provider während des operativen Geschäfts genutzt, um eingehende und ausgehende E-Mails eines E-Mails-Servers zu überprüfen. Der Ansatz zur Malwareerkennung wurde auf einem Datensatz mit rund 400.000 verdächtigen PHP Dateien und einer Sammlung von mehr als 1.000.000 Java-Script Dateien evaluiert. Die Fallstudie auf diesen Daten zeigt, dass das vorgestellte System schnell und mit hoher Genauigkeit riesige Datenmengen mit wenigen Falsch-Alarmen nach Malware durchsuchen kann.
KW  - malware detection
KW  - structured output prediction
KW  - pattern recognition
KW  - computer security
KW  - email spam detection
KW  - maschninelles Lernen
KW  - Computersicherheit
KW  - strukturierte Vorhersage
KW  - Klassifikation
KW  - Vorhersage
KW  - Spam
KW  - Malware
Y1  - 2016
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-100251
ER  -