TY - THES A1 - Sapegin, Andrey T1 - High-Speed Security Log Analytics Using Hybrid Outlier Detection N2 - The rapid development and integration of Information Technologies over the last decades influenced all areas of our life, including the business world. Yet not only the modern enterprises become digitalised, but also security and criminal threats move into the digital sphere. To withstand these threats, modern companies must be aware of all activities within their computer networks. The keystone for such continuous security monitoring is a Security Information and Event Management (SIEM) system that collects and processes all security-related log messages from the entire enterprise network. However, digital transformations and technologies, such as network virtualisation and widespread usage of mobile communications, lead to a constantly increasing number of monitored devices and systems. As a result, the amount of data that has to be processed by a SIEM system is increasing rapidly. Besides that, in-depth security analysis of the captured data requires the application of rather sophisticated outlier detection algorithms that have a high computational complexity. Existing outlier detection methods often suffer from performance issues and are not directly applicable for high-speed and high-volume analysis of heterogeneous security-related events, which becomes a major challenge for modern SIEM systems nowadays. This thesis provides a number of solutions for the mentioned challenges. First, it proposes a new SIEM system architecture for high-speed processing of security events, implementing parallel, in-memory and in-database processing principles. The proposed architecture also utilises the most efficient log format for high-speed data normalisation. Next, the thesis offers several novel high-speed outlier detection methods, including generic Hybrid Outlier Detection that can efficiently be used for Big Data analysis. Finally, the special User Behaviour Outlier Detection is proposed for better threat detection and analysis of particular user behaviour cases. The proposed architecture and methods were evaluated in terms of both performance and accuracy, as well as compared with classical architecture and existing algorithms. These evaluations were performed on multiple data sets, including simulated data, well-known public intrusion detection data set, and real data from the large multinational enterprise. The evaluation results have proved the high performance and efficacy of the developed methods. All concepts proposed in this thesis were integrated into the prototype of the SIEM system, capable of high-speed analysis of Big Security Data, which makes this integrated SIEM platform highly relevant for modern enterprise security applications. N2 - In den letzten Jahrzehnten hat die schnelle Weiterentwicklung und Integration der Informationstechnologien alle Bereich unseres Lebens beeinflusst, nicht zuletzt auch die Geschäftswelt. Aus der zunehmenden Digitalisierung des modernen Unternehmens ergeben sich jedoch auch neue digitale Sicherheitsrisiken und kriminelle Bedrohungen. Um sich vor diesen Bedrohungen zu schützen, muss das digitale Unternehmen alle Aktivitäten innerhalb seines Firmennetzes verfolgen. Der Schlüssel zur kontinuierlichen Überwachung aller sicherheitsrelevanten Informationen ist ein sogenanntes Security Information und Event Management (SIEM) System, das alle Meldungen innerhalb des Firmennetzwerks zentral sammelt und verarbeitet. Jedoch führt die digitale Transformation der Unternehmen sowie neue Technologien, wie die Netzwerkvirtualisierung und mobile Endgeräte, zu einer konstant steigenden Anzahl zu überwachender Geräte und Systeme. Dies wiederum hat ein kontinuierliches Wachstum der Datenmengen zur Folge, die das SIEM System verarbeiten muss. Innerhalb eines möglichst kurzen Zeitraumes muss somit eine sehr große Datenmenge (Big Data) analysiert werden, um auf Bedrohungen zeitnah reagieren zu können. Eine gründliche Analyse der sicherheitsrelevanten Aspekte der aufgezeichneten Daten erfordert den Einsatz fortgeschrittener Algorithmen der Anomalieerkennung, die eine hohe Rechenkomplexität aufweisen. Existierende Methoden der Anomalieerkennung haben oftmals Geschwindigkeitsprobleme und sind deswegen nicht anwendbar für die sehr schnelle Analyse sehr großer Mengen heterogener sicherheitsrelevanter Ereignisse. Diese Arbeit schlägt eine Reihe möglicher Lösungen für die benannten Herausforderungen vor. Zunächst wird eine neuartige SIEM Architektur vorgeschlagen, die es erlaubt Ereignisse mit sehr hoher Geschwindigkeit zu verarbeiten. Das System basiert auf den Prinzipien der parallelen Programmierung, sowie der In-Memory und In-Database Datenverarbeitung. Die vorgeschlagene Architektur verwendet außerdem das effizienteste Datenformat zur Vereinheitlichung der Daten in sehr hoher Geschwindigkeit. Des Weiteren wurden im Rahmen dieser Arbeit mehrere neuartige Hochgeschwindigkeitsverfahren zur Anomalieerkennung entwickelt. Eines ist die Hybride Anomalieerkennung (Hybrid Outlier Detection), die sehr effizient auf Big Data eingesetzt werden kann. Abschließend wird eine spezifische Anomalieerkennung für Nutzerverhaltens (User Behaviour Outlier Detection) vorgeschlagen, die eine verbesserte Bedrohungsanalyse von spezifischen Verhaltensmustern der Benutzer erlaubt. Die entwickelte Systemarchitektur und die Algorithmen wurden sowohl mit Hinblick auf Geschwindigkeit, als auch Genauigkeit evaluiert und mit traditionellen Architekturen und existierenden Algorithmen verglichen. Die Evaluation wurde auf mehreren Datensätzen durchgeführt, unter anderem simulierten Daten, gut erforschten öffentlichen Datensätzen und echten Daten großer internationaler Konzerne. Die Resultate der Evaluation belegen die Geschwindigkeit und Effizienz der entwickelten Methoden. Alle Konzepte dieser Arbeit wurden in den Prototyp des SIEM Systems integriert, das in der Lage ist Big Security Data mit sehr hoher Geschwindigkeit zu analysieren. Dies zeigt das diese integrierte SIEM Plattform eine hohe praktische Relevanz für moderne Sicherheitsanwendungen besitzt. T2 - Sicherheitsanalyse in Hochgeschwindigkeit mithilfe der Hybride Anomalieerkennung KW - intrusion detection KW - security KW - machine learning KW - anomaly detection KW - outlier detection KW - novelty detection KW - in-memory KW - SIEM KW - IDS KW - Angriffserkennung KW - Sicherheit KW - Machinelles Lernen KW - Anomalieerkennung KW - In-Memory KW - SIEM KW - IDS Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-426118 ER - TY - THES A1 - Kotha, Sreeram Reddy T1 - Quantification of uncertainties in seismic ground-motion prediction T1 - Quantifizierung von Unsicherheiten bei der seismischen Bodenbewegungsvorhersage N2 - The purpose of Probabilistic Seismic Hazard Assessment (PSHA) at a construction site is to provide the engineers with a probabilistic estimate of ground-motion level that could be equaled or exceeded at least once in the structure’s design lifetime. A certainty on the predicted ground-motion allows the engineers to confidently optimize structural design and mitigate the risk of extensive damage, or in worst case, a collapse. It is therefore in interest of engineering, insurance, disaster mitigation, and security of society at large, to reduce uncertainties in prediction of design ground-motion levels. In this study, I am concerned with quantifying and reducing the prediction uncertainty of regression-based Ground-Motion Prediction Equations (GMPEs). Essentially, GMPEs are regressed best-fit formulae relating event, path, and site parameters (predictor variables) to observed ground-motion values at the site (prediction variable). GMPEs are characterized by a parametric median (μ) and a non-parametric variance (σ) of prediction. μ captures the known ground-motion physics i.e., scaling with earthquake rupture properties (event), attenuation with distance from source (region/path), and amplification due to local soil conditions (site); while σ quantifies the natural variability of data that eludes μ. In a broad sense, the GMPE prediction uncertainty is cumulative of 1) uncertainty on estimated regression coefficients (uncertainty on μ,σ_μ), and 2) the inherent natural randomness of data (σ). The extent of μ parametrization, the quantity, and quality of ground-motion data used in a regression, govern the size of its prediction uncertainty: σ_μ and σ. In the first step, I present the impact of μ parametrization on the size of σ_μ and σ. Over-parametrization appears to increase the σ_μ, because of the large number of regression coefficients (in μ) to be estimated with insufficient data. Under-parametrization mitigates σ_μ, but the reduced explanatory strength of μ is reflected in inflated σ. For an optimally parametrized GMPE, a ~10% reduction in σ is attained by discarding the low-quality data from pan-European events with incorrect parametric values (of predictor variables). In case of regions with scarce ground-motion recordings, without under-parametrization, the only way to mitigate σ_μ is to substitute long-term earthquake data at a location with short-term samples of data across several locations – the Ergodic Assumption. However, the price of ergodic assumption is an increased σ, due to the region-to-region and site-to-site differences in ground-motion physics. σ of an ergodic GMPE developed from generic ergodic dataset is much larger than that of non-ergodic GMPEs developed from region- and site-specific non-ergodic subsets - which were too sparse to produce their specific GMPEs. Fortunately, with the dramatic increase in recorded ground-motion data at several sites across Europe and Middle-East, I could quantify the region- and site-specific differences in ground-motion scaling and upgrade the GMPEs with 1) substantially more accurate region- and site-specific μ for sites in Italy and Turkey, and 2) significantly smaller prediction variance σ. The benefit of such enhancements to GMPEs is quite evident in my comparison of PSHA estimates from ergodic versus region- and site-specific GMPEs; where the differences in predicted design ground-motion levels, at several sites in Europe and Middle-Eastern regions, are as large as ~50%. Resolving the ergodic assumption with mixed-effects regressions is feasible when the quantified region- and site-specific effects are physically meaningful, and the non-ergodic subsets (regions and sites) are defined a priori through expert knowledge. In absence of expert definitions, I demonstrate the potential of machine learning techniques in identifying efficient clusters of site-specific non-ergodic subsets, based on latent similarities in their ground-motion data. Clustered site-specific GMPEs bridge the gap between site-specific and fully ergodic GMPEs, with their partially non-ergodic μ and, σ ~15% smaller than the ergodic variance. The methodological refinements to GMPE development produced in this study are applicable to new ground-motion datasets, to further enhance certainty of ground-motion prediction and thereby, seismic hazard assessment. Advanced statistical tools show great potential in improving the predictive capabilities of GMPEs, but the fundamental requirement remains: large quantity of high-quality ground-motion data from several sites for an extended time-period. N2 - Der Zweck der probabilistischen seismischen Gefährdungsbeurteilung (PSHA) auf einer Baustelle besteht darin, den Ingenieuren eine probabilistische Schätzung des Bodenbewegungspegels zu liefern, die mindestens einmal in der Entwurfslebensdauer der Struktur erreicht oder überschritten werden könnte. Eine Gewissheit über die vorhergesagte Bodenbewegung erlaubt es den Ingenieuren, das strukturelle Design sicher zu optimieren und das Risiko von weitreichenden Schäden oder im schlimmsten Fall eines Zusammenbruchs zu minimieren. Es liegt daher im Interesse des Ingenieurwesens, der Versicherung, der Katastrophenvorsorge und der Sicherheit der Gesellschaft insgesamt, die Unsicherheiten bei der Vorhersage der Bodenbewegungsebenen des Entwurfs zu reduzieren. In dieser Studie, beschäftige ich mich mit der Quantifizierung und Reduzierung der Vorhersageunsicherheit von Regressions-basierten Bodenbewegungsvorhersage-Gleichungen (GMPEs). Im Wesentlichen sind GMPEs am besten angepasste Formeln, die Ereignis-, Pfad- und Standortparameter (Prädiktorvariablen) auf beobachtete Bodenbewegungswerte an der Stelle (Vorhersagevariable) beziehen. GMPEs sind gekennzeichnet durch einen parametrischen Median (μ) und eine nichtparametrische Varianz (σ) der Vorhersage. μ erfasst die bekannte Bodenbewegungs-Physik, d. h. Skalierung mit Erdbebenbrucheigenschaften (Ereignis), Dämpfung mit Abstand von der Quelle (Region/Pfad) und Verstärkung aufgrund lokaler Bodenbedingungen (Standort); während σ die natürliche Variabilität von Daten quantifiziert, die sich dem μ entziehen. In einem weiten Sinne ist die GMPE-Vorhersageunsicherheit kumulativ von 1) Unsicherheit bezüglich der geschätzten Regressionskoeffizienten (Unsicherheit auf μ; σ_μ) und 2) der inhärenten natürlichen Zufälligkeit von Daten (σ). Das Ausmaß der μ-Parametrisierung, die Menge und die Qualität der Bodenbewegungsdaten, die in einer Regression verwendet werden, bestimmen die Größe der Vorhersageunsicherheit: σ_μ und σ. Im ersten Schritt stelle ich den Einfluss der μ-Parametrisierung auf die Größe von σ_μ und σ vor. Überparametrisierung scheint die σ_μ zu erhöhen, da die große Anzahl von Regressionskoeffizienten (in μ) mit unzureichenden Daten geschätzt werden muss. Unterparametrisierung mindert σ_μ, aber die reduzierte Erklärungsstärke von μ spiegelt sich in aufgeblähtem σ wider. Für eine optimal parametrisierte GMPE wird eine ~ 10% ige Verringerung von σ erreicht, indem die Daten niedriger Qualität aus paneuropäischen Ereignissen mit inkorrekten Parameterwerten (von Prädiktorvariablen) verworfen werden. In Regionen mit wenigen Bodenbewegungsaufzeichnungen, ohne Unterparametrisierung, besteht die einzige Möglichkeit, σ_μ abzuschwächen, darin, langfristige Erdbebendaten an einem Ort durch kurzzeitige Datenproben an mehreren Orten zu ersetzen - die Ergodische Annahme. Der Preis der ergodischen Annahme ist jedoch aufgrund der Unterschiede in der Bodenbewegungsphysik von Region-zu-Region und von Ort-zu-Ort ein erhöhter σ. σ einer ergodischen GMPE, die aus einem generischen ergodischen Datensatz entwickelt wurde, ist viel größer als die von nicht-ergodischen GMPEs, die aus regions- und ortsspezifischen nicht-ergodischen Teilmengen entwickelt wurden - die zu dünn waren, um ihre spezifischen GMPEs zu erzeugen. Glücklicherweise konnte ich mit dem dramatischen Anstieg der erfassten Bodenbewegungsdaten an mehreren Standorten in Europa und im Nahen Osten die regions- und standortspezifischen Unterschiede bei der Bodenbewegungsskalierung quantifizieren und die GMPE mit 1) wesentlich genauerer Regionalität verbessern, und ortspezifische μ für Standorte in Italien und der Türkei, und 2) signifikant kleinere Vorhersage Varianz σ. Der Vorteil solcher Verbesserungen für GMPEs ist ziemlich offensichtlich in meinem Vergleich von PSHA-Schätzungen von ergodischen gegenüber regions- und ortsspezifischen GMPEs; wo die Unterschiede in den prognostizierten Bodenbewegungsebenen an verschiedenen Standorten in Europa und im Nahen Osten bis zu ~ 50% betragen. Die Lösung der ergodischen Annahme mit gemischten Regressionen ist machbar, wenn die quantifizierten bereichs- und ortsspezifischen Effekte physikalisch sinnvoll sind und die nicht-ergodischen Teilmengen (Regionen und Standorte) a priori durch Expertenwissen definiert werden. In Ermangelung von Expertendefinitionen demonstriere ich das Potential von maschinellen Lerntechniken bei der Identifizierung effizienter Cluster von ortsspezifischen nicht-ergodischen Untergruppen, basierend auf latenten Ähnlichkeiten in ihren Bodenbewegungsdaten. Geclusterte ortsspezifische GMPEs überbrücken die Lücke zwischen ortsspezifischen und vollständig ergodischen GMPEs mit ihrem teilweise nicht-ergodischen μ und ~ 15% kleiner als die ergodische Varianz. Die methodischen Verbesserungen der GMPE-Entwicklung, die in dieser Studie entwickelt wurden, sind auf neue Bodenbewegungsdatensätze anwendbar, um die Sicherheit der Bodenbewegungsvorhersage und damit die Bewertung der seismischen Gefährdung weiter zu verbessern. Fortgeschrittene statistische Werkzeuge zeigen ein großes Potenzial bei der Verbesserung der Vorhersagefähigkeiten von GMPEs, aber die grundlegende Anforderung bleibt: eine große Menge an hochwertigen Bodenbewegungsdaten von mehreren Standorten für einen längeren Zeitraum. KW - ground-motion variability KW - predictive modeling KW - mixed-effect analysis KW - Probabilistic Seismic Hazard and Risk Assessment KW - machine learning Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-415743 ER -