TY - THES A1 - Zali, Zahra T1 - Volcanic tremor analysis based on advanced signal processing concepts including music information retrieval (MIR) strategies N2 - Volcanoes are one of the Earth’s most dynamic zones and responsible for many changes in our planet. Volcano seismology aims to provide an understanding of the physical processes in volcanic systems and anticipate the style and timing of eruptions by analyzing the seismic records. Volcanic tremor signals are usually observed in the seismic records before or during volcanic eruptions. Their analysis contributes to evaluate the evolving volcanic activity and potentially predict eruptions. Years of continuous seismic monitoring now provide useful information for operational eruption forecasting. The continuously growing amount of seismic recordings, however, poses a challenge for analysis, information extraction, and interpretation, to support timely decision making during volcanic crises. Furthermore, the complexity of eruption processes and precursory activities makes the analysis challenging. A challenge in studying seismic signals of volcanic origin is the coexistence of transient signal swarms and long-lasting volcanic tremor signals. Separating transient events from volcanic tremors can, therefore, contribute to improving our understanding of the underlying physical processes. Some similar issues (data reduction, source separation, extraction, and classification) are addressed in the context of music information retrieval (MIR). The signal characteristics of acoustic and seismic recordings comprise a number of similarities. This thesis is going beyond classical signal analysis techniques usually employed in seismology by exploiting similarities of seismic and acoustic signals and building the information retrieval strategy on the expertise developed in the field of MIR. First, inspired by the idea of harmonic–percussive separation (HPS) in musical signal processing, I have developed a method to extract harmonic volcanic tremor signals and to detect transient events from seismic recordings. This provides a clean tremor signal suitable for tremor investigation along with a characteristic function suitable for earthquake detection. Second, using HPS algorithms, I have developed a noise reduction technique for seismic signals. This method is especially useful for denoising ocean bottom seismometers, which are highly contaminated by noise. The advantage of this method compared to other denoising techniques is that it doesn’t introduce distortion to the broadband earthquake waveforms, which makes it reliable for different applications in passive seismological analysis. Third, to address the challenge of extracting information from high-dimensional data and investigating the complex eruptive phases, I have developed an advanced machine learning model that results in a comprehensive signal processing scheme for volcanic tremors. Using this method seismic signatures of major eruptive phases can be automatically detected. This helps to provide a chronology of the volcanic system. Also, this model is capable to detect weak precursory volcanic tremors prior to the eruption, which could be used as an indicator of imminent eruptive activity. The extracted patterns of seismicity and their temporal variations finally provide an explanation for the transition mechanism between eruptive phases. N2 - Vulkane gehören zu den dynamischsten Zonen der Erde und sind für viele Veränderungen auf unserem Planeten verantwortlich. Die Vulkanseismologie zielt darauf ab, physikalischen Prozesse in Vulkansystemen besser zu verstehen und die Art und den Zeitpunkt von Eruptionen durch die Analyse der seismischen Aufzeichnungen vorherzusagen. Die Signale vulkanischer Tremore werden normalerweise vor oder während Vulkanausbrüchen beobachtet und müssen überwacht werden, um die vulkanische Aktivität zu bewerten. Die Untersuchung vulkanischer Tremore ist ein wichtiger Teil der Vulkanüberwachung, die darauf abzielt, Anzeichen für das Erwachen oder Wiedererwachen von Vulkanen zu erkennen und möglicherweise Ausbrüche vorherzusagen. Mehrere Dekaden kontinuierlicher seismischer Überwachung liefern nützliche Informationen für die operative Eruptionsvorhersage. Die ständig wachsende Menge an seismischen Aufzeichnungen stellt jedoch eine Herausforderung für die Analyse, Informationsextraktion und Interpretation für die zeitnahe Entscheidungsfindung während Vulkankrisen dar. Darüber hinaus erschweren die Komplexität der Eruptionsprozesse und Vorläuferaktivitäten die Analyse. Eine Herausforderung bei der Untersuchung seismischer Signale vulkanischen Ursprungs ist die Koexistenz von transienten Signalschwärmen und lang anhaltenden vulkanischen Tremoren. Die Trennung dieser beiden Signaltypen kann daher dazu beitragen, unser Verständnis der zugrunde liegenden physikalischen Prozesse zu verbessern. Einige ähnliche Probleme (Datenreduktion, Quellentrennung, Extraktion und Klassifizierung) werden im Zusammenhang mit Music Information Retrieval (MIR, dt. Etwa Musik-Informationsabruf) behandelt. Die Signaleigenschaften von akustischen und seismischen Aufzeichnungen weisen eine Reihe von Gemeinsamkeiten auf. Ich gehe über die klassischen Signalanalysetechniken hinaus, die normalerweise in der Seismologie verwendet werden, indem ich die Ähnlichkeiten von seismischen und akustischen Signalen und das Fachwissen aus dem Gebiet der MIR zur Informationsgewinnung nutze. Inspiriert von der Idee der harmonisch-perkussiven Trennung (HPS) in der musikalischen Signalverarbeitung habe ich eine Methode entwickelt, mit der harmonische vulkanische Erschütterungssignale extrahiert und transiente Ereignisse aus seismischen Aufzeichnungen erkannt werden können. Dies liefert ein sauberes Tremorsignal für die Tremoruntersuchung, sowie eine charakteristischen Funktion, die für die Erdbebenerkennung geeignet ist. Weiterhin habe ich unter Verwendung von HPS-Algorithmen eine Rauschunterdrückungstechnik für seismische Signale entwickelt. Diese kann zum Beispiel verwendet werden, um klarere Signale an Meeresbodenseismometern zu erhalten, die sonst durch zu starkes Rauschen überdeckt sind. Der Vorteil dieser Methode im Vergleich zu anderen Denoising-Techniken besteht darin, dass sie keine Verzerrung in der Breitbandantwort der Erdbebenwellen einführt, was sie für verschiedene Anwendungen in der passiven seismologischen Analyse zuverlässiger macht. Um Informationen aus hochdimensionalen Daten zu extrahieren und komplexe Eruptionsphasen zu untersuchen, habe ich ein fortschrittliches maschinelles Lernmodell entwickelt, aus dem ein umfassendes Signalverarbeitungsschema für vulkanische Erschütterungen abgeleitet werden kann. Mit dieser Methode können automatisch seismische Signaturen größerer Eruptionsphasen identifizieren werden. Dies ist nützlich, um die Chronologie eines Vulkansystems zu verstehen. Außerdem ist dieses Modell in der Lage, schwache vulkanische Vorläuferbeben zu erkennen, die als Indikator für bevorstehende Eruptionsaktivität verwendet werden könnten. Basierend auf den extrahierten Seismizitätsmustern und ihren zeitlichen Variationen liefere ich eine Erklärung für den Übergangsmechanismus zwischen verschiedenen Eruptionsphasen. KW - seismic signal processing KW - machine learning KW - volcano seismology KW - music information retrieval KW - noise reduction Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-610866 ER - TY - THES A1 - Smirnov, Artem T1 - Understanding the dynamics of the near-earth space environment utilizing long-term satellite observations T1 - Verständnis der Dynamik der erdnahen Weltraumumgebung mit Hilfe von Langzeit-Satellitenbeobachtungen N2 - The near-Earth space environment is a highly complex system comprised of several regions and particle populations hazardous to satellite operations. The trapped particles in the radiation belts and ring current can cause significant damage to satellites during space weather events, due to deep dielectric and surface charging. Closer to Earth is another important region, the ionosphere, which delays the propagation of radio signals and can adversely affect navigation and positioning. In response to fluctuations in solar and geomagnetic activity, both the inner-magnetospheric and ionospheric populations can undergo drastic and sudden changes within minutes to hours, which creates a challenge for predicting their behavior. Given the increasing reliance of our society on satellite technology, improving our understanding and modeling of these populations is a matter of paramount importance. In recent years, numerous spacecraft have been launched to study the dynamics of particle populations in the near-Earth space, transforming it into a data-rich environment. To extract valuable insights from the abundance of available observations, it is crucial to employ advanced modeling techniques, and machine learning methods are among the most powerful approaches available. This dissertation employs long-term satellite observations to analyze the processes that drive particle dynamics, and builds interdisciplinary links between space physics and machine learning by developing new state-of-the-art models of the inner-magnetospheric and ionospheric particle dynamics. The first aim of this thesis is to investigate the behavior of electrons in Earth's radiation belts and ring current. Using ~18 years of electron flux observations from the Global Positioning System (GPS), we developed the first machine learning model of hundreds-of-keV electron flux at Medium Earth Orbit (MEO) that is driven solely by solar wind and geomagnetic indices and does not require auxiliary flux measurements as inputs. We then proceeded to analyze the directional distributions of electrons, and for the first time, used Fourier sine series to fit electron pitch angle distributions (PADs) in Earth's inner magnetosphere. We performed a superposed epoch analysis of 129 geomagnetic storms during the Van Allen Probes era and demonstrated that electron PADs have a strong energy-dependent response to geomagnetic activity. Additionally, we showed that the solar wind dynamic pressure could be used as a good predictor of the PAD dynamics. Using the observed dependencies, we created the first PAD model with a continuous dependence on L, magnetic local time (MLT) and activity, and developed two techniques to reconstruct near-equatorial electron flux observations from low-PA data using this model. The second objective of this thesis is to develop a novel model of the topside ionosphere. To achieve this goal, we collected observations from five of the most widely used ionospheric missions and intercalibrated these data sets. This allowed us to use these data jointly for model development, validation, and comparison with other existing empirical models. We demonstrated, for the first time, that ion density observations by Swarm Langmuir Probes exhibit overestimation (up to ~40-50%) at low and mid-latitudes on the night side, and suggested that the influence of light ions could be a potential cause of this overestimation. To develop the topside model, we used 19 years of radio occultation (RO) electron density profiles, which were fitted with a Chapman function with a linear dependence of scale height on altitude. This approximation yields 4 parameters, namely the peak density and height of the F2-layer and the slope and intercept of the linear scale height trend, which were modeled using feedforward neural networks (NNs). The model was extensively validated against both RO and in-situ observations and was found to outperform the International Reference Ionosphere (IRI) model by up to an order of magnitude. Our analysis showed that the most substantial deviations of the IRI model from the data occur at altitudes of 100-200 km above the F2-layer peak. The developed NN-based ionospheric model reproduces the effects of various physical mechanisms observed in the topside ionosphere and provides highly accurate electron density predictions. This dissertation provides an extensive study of geospace dynamics, and the main results of this work contribute to the improvement of models of plasma populations in the near-Earth space environment. N2 - Die erdnahe Weltraumumgebung ist ein hochkomplexes System, das aus mehreren Regionen und Partikelpopulationen besteht, die für den Satellitenbetrieb gefährlich sind. Die in den Strahlungsgürteln und dem Ringstrom gefangenen Teilchen können bei Weltraumwetterereignissen aufgrund der tiefen dielektrischen und oberflächlichen Aufladung erhebliche Schäden an Satelliten verursachen. Näher an der Erde liegt eine weitere wichtige Region, die Ionosphäre, die die Ausbreitung von Funksignalen verzögert und die Navigation und Positionsbestimmung beeinträchtigen kann. Als Reaktion auf Fluktuationen der solaren und geomagnetischen Aktivität können sowohl die Populationen der inneren Magnetosphäre als auch der Ionosphäre innerhalb von Minuten bis Stunden drastische und plötzliche Veränderungen erfahren, was eine Herausforderung für die Vorhersage ihres Verhaltens darstellt. Angesichts der zunehmenden Abhängigkeit unserer Gesellschaft von der Satellitentechnologie ist ein besseres Verständnis und eine bessere Modellierung dieser Populationen von größter Bedeutung. In den letzten Jahren wurden zahlreiche Raumsonden gestartet, um die Dynamik von Partikelpopulationen im erdnahen Weltraum zu untersuchen, was diesen in eine datenreiche Umgebung verwandelt hat. Um aus der Fülle der verfügbaren Beobachtungen wertvolle Erkenntnisse zu gewinnen, ist der Einsatz fortschrittlicher Modellierungstechniken unabdingbar, und Methoden des maschinellen Lernens gehören zu den leistungsfähigsten verfügbaren Ansätzen. Diese Dissertation nutzt langfristige Satellitenbeobachtungen, um die Prozesse zu analysieren, die die Teilchendynamik antreiben, und schafft interdisziplinäre Verbindungen zwischen Weltraumphysik und maschinellem Lernen, indem sie neue hochmoderne Modelle der innermagnetosphärischen und ionosphärischen Teilchendynamik entwickelt. Das erste Ziel dieser Arbeit ist es, das Verhalten von Elektronen im Strahlungsgürtel und Ringstrom der Erde zu untersuchen. Unter Verwendung von ~18 Jahren Elektronenflussbeobachtungen des Global Positioning System (GPS) haben wir das erste maschinelle Lernmodell des Elektronenflusses im mittleren Erdorbit (MEO) entwickelt, das ausschließlich durch Sonnenwind und geomagnetische Indizes gesteuert wird und keine zusätzlichen Flussmessungen als Eingaben benötigt. Anschließend analysierten wir die Richtungsverteilungen der Elektronen und verwendeten zum ersten Mal Fourier-Sinus-Reihen, um die Elektronen-Stellwinkelverteilungen (PADs) in der inneren Magnetosphäre der Erde zu bestimmen. Wir führten eine epochenübergreifende Analyse von 129 geomagnetischen Stürmen während der Van-Allen-Sonden-Ära durch und zeigten, dass die Elektronen-PADs eine starke energieabhängige Reaktion auf die geomagnetische Aktivität haben. Außerdem konnten wir zeigen, dass der dynamische Druck des Sonnenwindes als guter Prädiktor für die PAD-Dynamik verwendet werden kann. Anhand der beobachteten Abhängigkeiten haben wir das erste PAD-Modell mit einer kontinuierlichen Abhängigkeit von L, der magnetischen Ortszeit (MLT) und der Aktivität erstellt und zwei Techniken entwickelt, um die Beobachtungen des äquatornahen Elektronenflusses aus Daten mit niedrigem Luftdruck mit Hilfe dieses Modells zu rekonstruieren. Das zweite Ziel dieser Arbeit ist die Entwicklung eines neuen Modells der Topside-Ionosphäre. Um dieses Ziel zu erreichen, haben wir Beobachtungen von fünf der meistgenutzten Ionosphärenmissionen gesammelt und diese Datensätze interkalibriert. So konnten wir diese Daten gemeinsam für die Modellentwicklung, die Validierung und den Vergleich mit anderen bestehenden empirischen Modellen nutzen. Wir haben zum ersten Mal gezeigt, dass die Ionendichtebeobachtungen von Swarm-Langmuir-Sonden in niedrigen und mittleren Breiten auf der Nachtseite eine Überschätzung (bis zu ~40-50%) aufweisen, und haben vorgeschlagen, dass der Einfluss leichter Ionen eine mögliche Ursache für diese Überschätzung sein könnte. Zur Entwicklung des Oberseitenmodells wurden 19 Jahre lang Elektronendichteprofile aus der Radio-Okkultation (RO) verwendet, die mit einer Chapman-Funktion mit einer linearen Abhängigkeit der Skalenhöhe von der Höhe angepasst wurden. Aus dieser Näherung ergeben sich 4 Parameter, nämlich die Spitzendichte und die Höhe der F2-Schicht sowie die Steigung und der Achsenabschnitt des linearen Trends der Skalenhöhe, die mit Hilfe von neuronalen Feedforward-Netzwerken (NN) modelliert wurden. Das Modell wurde sowohl anhand von RO- als auch von In-situ-Beobachtungen umfassend validiert und übertrifft das Modell der Internationalen Referenz-Ionosphäre (IRI). Unsere Analyse zeigte, dass die größten Abweichungen des IRI-Modells von den Daten in Höhen von 100-200 km über der F2-Schichtspitze auftreten. Das entwickelte NN-basierte Ionosphärenmodell reproduziert die Auswirkungen verschiedener physikalischer Mechanismen, die in der Topside-Ionosphäre beobachtet werden, und liefert sehr genaue Vorhersagen der Elektronendichte. Diese Dissertation bietet eine umfassende Untersuchung der Dynamik in der Geosphäre, und die wichtigsten Ergebnisse dieser Arbeit tragen zur Verbesserung der Modelle von Plasmapopulationen in der erdnahen Weltraumumgebung bei. KW - Ionosphere KW - radiation belts KW - ring current KW - space physics KW - empirical modeling KW - machine learning KW - gradient boosting KW - neural networks KW - Ionosphäre KW - empirische Modellierung KW - Gradient Boosting KW - maschinelles Lernen KW - neuronale Netze KW - Strahlungsgürtel KW - Ringstrom KW - Weltraumphysik Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-613711 ER - TY - THES A1 - Sidarenka, Uladzimir T1 - Sentiment analysis of German Twitter T1 - Sentimentanalyse des deutschen Twitters N2 - The immense popularity of online communication services in the last decade has not only upended our lives (with news spreading like wildfire on the Web, presidents announcing their decisions on Twitter, and the outcome of political elections being determined on Facebook) but also dramatically increased the amount of data exchanged on these platforms. Therefore, if we wish to understand the needs of modern society better and want to protect it from new threats, we urgently need more robust, higher-quality natural language processing (NLP) applications that can recognize such necessities and menaces automatically, by analyzing uncensored texts. Unfortunately, most NLP programs today have been created for standard language, as we know it from newspapers, or, in the best case, adapted to the specifics of English social media. This thesis reduces the existing deficit by entering the new frontier of German online communication and addressing one of its most prolific forms—users’ conversations on Twitter. In particular, it explores the ways and means by how people express their opinions on this service, examines current approaches to automatic mining of these feelings, and proposes novel methods, which outperform state-of-the-art techniques. For this purpose, I introduce a new corpus of German tweets that have been manually annotated with sentiments, their targets and holders, as well as lexical polarity items and their contextual modifiers. Using these data, I explore four major areas of sentiment research: (i) generation of sentiment lexicons, (ii) fine-grained opinion mining, (iii) message-level polarity classification, and (iv) discourse-aware sentiment analysis. In the first task, I compare three popular groups of lexicon generation methods: dictionary-, corpus-, and word-embedding–based ones, finding that dictionary-based systems generally yield better polarity lists than the last two groups. Apart from this, I propose a linear projection algorithm, whose results surpass many existing automatically-generated lexicons. Afterwords, in the second task, I examine two common approaches to automatic prediction of sentiment spans, their sources, and targets: conditional random fields (CRFs) and recurrent neural networks, obtaining higher scores with the former model and improving these results even further by redefining the structure of CRF graphs. When dealing with message-level polarity classification, I juxtapose three major sentiment paradigms: lexicon-, machine-learning–, and deep-learning–based systems, and try to unite the first and last of these method groups by introducing a bidirectional neural network with lexicon-based attention. Finally, in order to make the new classifier aware of microblogs' discourse structure, I let it separately analyze the elementary discourse units of each tweet and infer the overall polarity of a message from the scores of its EDUs with the help of two new approaches: latent-marginalized CRFs and Recursive Dirichlet Process. N2 - Die enorme Popularität von Online-Kommunikationsdiensten in den letzten Jahrzehnten hat nicht unser Leben massiv geändert (sodass Nachrichten sich wie Fegefeuer übers Internet ausbreiten, Präsidenten ihre Entscheidungen auf Twitter ankündigen, und Ergebnisse politischer Wahlen auf Facebook entschieden werden) sondern auch zu einem dramatischen Anstieg der Datenmenge geführt, die über solche Plattformen ausgetauscht werden. Deswegen braucht man heutzutage dringend zuverlässige, qualitätvolle NLP-Programme, um neue gesellschaftliche Bedürfnisse und Risiken in unzensierten Nutzernachrichten automatisch erkennen und abschätzen zu können. Leider sind die meisten modernen NLP-Anwendungen entweder auf die Analyse der Standardsprache (wie wir sie aus Zeitungstexten kennen) ausgerichtet oder im besten Fall an die Spezifika englischer Social Media angepasst. Diese Dissertation reduziert den bestehenden Rückstand, indem sie das "Neuland" der deutschen Online-Kommunikation betritt und sich einer seiner produktivsten Formen zuwendet—den User-Diskussionen auf Twitter. Diese Arbeit erforscht insbesondere die Art und Weise, wie Leute ihre Meinungen auf diesem Online-Service äußern, analysiert existierende Verfahren zur automatischen Erkennung ihrer Gefühle und schlägt neue Verfahren vor, die viele heutige State-of-the-Art-Systeme übertreffen. Zu diesem Zweck stelle ich ein neues Korpus deutscher Tweets vor, die manuell von zwei menschlichen Experten mit Sentimenten (polaren Meinungen), ihren Quellen (sources) und Zielen (targets) sowie lexikalischen polaren Termen und deren kontextuellen Modifizierern annotiert wurden. Mithilfe dieser Daten untersuche ich vier große Teilgebiete der Sentimentanalyse: (i) automatische Generierung von Sentiment-Lexika, (ii) aspekt-basiertes Opinion-Mining, (iii) Klassifizierung der Polarität von ganzen Nachrichten und (iv) diskurs-bewusste Sentimentanalyse. In der ersten Aufgabe vergleiche ich drei populäre Gruppen von Lexikongenerierungsmethoden: wörterbuch-, corpus- und word-embedding-basierte Verfahren, und komme zu dem Schluss, dass wörterbuch-basierte Ansätze generell bessere Polaritätslexika liefern als die letzten zwei Gruppen. Abgesehen davon, schlage ich einen neuen Linearprojektionsalgorithmus vor, dessen Resultate deutlich besser als viele automatisch generierte Polaritätslisten sind. Weiterhin, in der zweiten Aufgabe, untersuche ich zwei gängige Herangehensweisen an die automatische Erkennung der Textspannen von Sentimenten, Sources und Targets: Conditional Random Fields (CRFs) und rekurrente neuronale Netzwerke. Ich erziele bessere Ergebnisse mit der ersten Methode und verbessere diese Werte noch weiter durch alternative Topologien der CRF-Graphen. Bei der Analyse der Nachrichtenpolarität stelle ich drei große Sentiment-Paradigmen gegenüber: lexikon-, Machine-Learning–, und Deep-Learning–basierte Systeme, und versuche die erste und die letzte dieser Gruppen in einem Verfahren zu vereinigen, indem ich eine neue neuronale Netzwerkarchitektur vorschlage: bidirektionales rekurrentes Netzwerk mit lexikon-basierter Attention (LBA). Im letzten Kapitel unternehme ich einen Versuch, die Prädiktion der Gesamtpolarität von Tweets über die Diskursstruktur der Nachrichten zu informieren. Zu diesem Zweck wende ich den vorgeschlagenen LBA-Klassifikator separat auf jede einzelne elementare Diskurs-Einheit (EDU) eines Microblogs an und induziere die allgemeine semantische Ausrichtung dieser Nachricht mithilfe von zwei neuen Methoden: latenten marginalisierten CRFs und rekursivem Dirichlet-Prozess. KW - sentiment analysis KW - opinion mining KW - social media KW - Twitter KW - natural language processing KW - discourse analysis KW - NLP KW - computational linguistics KW - machine learning KW - Sentimentanalyse KW - Computerlinguistik KW - Meinungsforschung Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-437422 ER - TY - THES A1 - Seleem, Omar T1 - Towards urban pluvial flood mapping using data-driven models T1 - Kartierung städtischer Überschwemmungen mit datengesteuerten Modellen N2 - Casualties and damages from urban pluvial flooding are increasing. Triggered by short, localized, and intensive rainfall events, urban pluvial floods can occur anywhere, even in areas without a history of flooding. Urban pluvial floods have relatively small temporal and spatial scales. Although cumulative losses from urban pluvial floods are comparable, most flood risk management and mitigation strategies focus on fluvial and coastal flooding. Numerical-physical-hydrodynamic models are considered the best tool to represent the complex nature of urban pluvial floods; however, they are computationally expensive and time-consuming. These sophisticated models make large-scale analysis and operational forecasting prohibitive. Therefore, it is crucial to evaluate and benchmark the performance of other alternative methods. The findings of this cumulative thesis are represented in three research articles. The first study evaluates two topographic-based methods to map urban pluvial flooding, fill–spill–merge (FSM) and topographic wetness index (TWI), by comparing them against a sophisticated hydrodynamic model. The FSM method identifies flood-prone areas within topographic depressions while the TWI method employs maximum likelihood estimation to calibrate a TWI threshold (τ) based on inundation maps from the 2D hydrodynamic model. The results point out that the FSM method outperforms the TWI method. The study highlights then the advantage and limitations of both methods. Data-driven models provide a promising alternative to computationally expensive hydrodynamic models. However, the literature lacks benchmarking studies to evaluate the different models' performance, advantages and limitations. Model transferability in space is a crucial problem. Most studies focus on river flooding, likely due to the relative availability of flow and rain gauge records for training and validation. Furthermore, they consider these models as black boxes. The second study uses a flood inventory for the city of Berlin and 11 predictive features which potentially indicate an increased pluvial flooding hazard to map urban pluvial flood susceptibility using a convolutional neural network (CNN), an artificial neural network (ANN) and the benchmarking machine learning models random forest (RF) and support vector machine (SVM). I investigate the influence of spatial resolution on the implemented models, the models' transferability in space and the importance of the predictive features. The results show that all models perform well and the RF models are superior to the other models within and outside the training domain. The models developed using fine spatial resolution (2 and 5 m) could better identify flood-prone areas. Finally, the results point out that aspect is the most important predictive feature for the CNN models, and altitude is for the other models. While flood susceptibility maps identify flood-prone areas, they do not represent flood variables such as velocity and depth which are necessary for effective flood risk management. To address this, the third study investigates data-driven models' transferability to predict urban pluvial floodwater depth and the models' ability to enhance their predictions using transfer learning techniques. It compares the performance of RF (the best-performing model in the previous study) and CNN models using 12 predictive features and output from a hydrodynamic model. The findings in the third study suggest that while CNN models tend to generalise and smooth the target function on the training dataset, RF models suffer from overfitting. Hence, RF models are superior for predictions inside the training domains but fail outside them while CNN models could control the relative loss in performance outside the training domains. Finally, the CNN models benefit more from transfer learning techniques than RF models, boosting their performance outside training domains. In conclusion, this thesis has evaluated both topographic-based methods and data-driven models to map urban pluvial flooding. However, further studies are crucial to have methods that completely overcome the limitation of 2D hydrodynamic models. N2 - Die Zahl der Todesopfer und Schäden durch Überschwemmungen in Städten nimmt zu. Ausgelöst durch kurze, lokal begrenzte und intensive Niederschlagsereignisse können urbane pluviale Überschwemmungen überall auftreten - sogar in Gebieten, in denen es in der Vergangenheit keine Überschwemmungen gab. Urbane pluviale Überschwemmungen haben eine relativ geringe zeitliche und räumliche Ausdehnung. Obwohl die kumulativen Verluste durch urbane pluviale Überschwemmungen vergleichbar sind, konzentrieren sich die meisten Hochwasserrisikomanagement- und -minderungsstrategien auf Fluss- und Küstenüberschwemmungen. Numerisch-physikalisch-hydrodynamische Modelle gelten als das beste Instrument zur Darstellung der komplexen Natur städtischer pluvialer Überschwemmungen; sie sind jedoch rechenintensiv und zeitaufwändig. Diese anspruchsvollen Modelle machen groß angelegte Analysen und operationelle Vorhersagen unerschwinglich. Daher ist es von entscheidender Bedeutung, die Leistung anderer Methoden zu bewerten und zu vergleichen, die komplexe hydrodynamische Modelle ersetzen könnten. Die Ergebnisse dieser kumulativen Arbeit werden in drei Forschungsartikeln dargestellt. In der ersten Studie bewerte ich zwei topografiebasierte Methoden zur Kartierung von Überschwemmungen in Städten, die Fill-Spill-Merge-Methode (FSM) und den topografischen Nässeindex (TWI), indem ich sie mit einem hochentwickelten hydrodynamischen Modell vergleiche. Die FSM-Methode identifiziert überschwemmungsgefährdete Gebiete innerhalb topografischer Senken, während die TWI-Methode eine Maximum-Likelihood-Schätzung verwendet, um einen TWI-Schwellenwert (τ) auf der Grundlage von Überschwemmungskarten aus dem hydrodynamischen 2D-Modell zu kalibrieren. Die Ergebnisse zeigen, dass die FSM-Methode die TWI-Methode übertrifft. Anschließend werden die Vorteile und Grenzen beider Methoden aufgezeigt. Datengesteuerte Modelle stellen eine vielversprechende Alternative zu rechenintensiven hydrodynamischen Modellen dar. In der Literatur fehlt es jedoch an Benchmarking-Studien zur Bewertung der Leistung, Vorteile und Grenzen der verschiedenen Modelle. Die räumliche Übertragbarkeit von Modellen ist ein entscheidendes Problem. Die meisten Studien konzentrieren sich auf Flussüberschwemmungen, was wahrscheinlich auf die relative Verfügbarkeit von Abfluss- und Regenmesserdaten für Training und Validierung zurückzuführen ist. Außerdem betrachten sie diese Modelle als Black Boxes. In der zweiten Studie verwende ich ein Hochwasserinventar für die Stadt Berlin und 11 prädiktive Merkmale, die potenziell auf eine erhöhte pluviale Hochwassergefahr hinweisen, um die Anfälligkeit für pluviale Überschwemmungen in Städten zu kartieren. Dazu verwende ich ein Faltungsneuronales Netzwerk (CNN), ein Künstliches Neuronales Netzwerk (ANN) und die Benchmarking-Modelle Random Forest (RF) und Support Vector Machine (SVM). Ich untersuche den Einfluss der räumlichen Auflösung auf die implementierten Modelle, die Übertragbarkeit der Modelle im Raum und die Bedeutung der prädiktiven Merkmale. Die Ergebnisse zeigen, dass alle Modelle gut abschneiden und die RF-Modelle den anderen Modellen innerhalb und außerhalb des Trainingsbereichs überlegen sind. Die Modelle, die mit feiner räumlicher Auflösung (2 und 5 m) entwickelt wurden, konnten hochwassergefährdete Gebiete besser identifizieren. Schließlich zeigen die Ergebnisse, dass der Aspekt das wichtigste Vorhersagemerkmal für die CNN-Modelle ist, und die Höhe für die anderen Modelle. Während Hochwasseranfälligkeitskarten überschwemmungsgefährdete Gebiete identifizieren, stellen sie keine Hochwasservariablen wie Geschwindigkeit und Wassertiefe dar, die für ein effektives Hochwasserrisikomanagement notwendig sind. Um dieses Problem anzugehen, untersuche ich in der dritten Studie die Übertragbarkeit datengesteuerter Modelle auf die Vorhersage der Überschwemmungstiefe in städtischen Gebieten und die Fähigkeit der Modelle, ihre Vorhersagen durch Transfer-Learning-Techniken zu verbessern. Ich vergleiche die Leistung von RF- (das beste Modell in der vorherigen Studie) und CNN-Modellen anhand von 12 Vorhersagemerkmalen und den Ergebnissen eines hydrodynamischen Modells. Die Ergebnisse der dritten Studie deuten darauf hin, dass CNN-Modelle dazu neigen, die Zielfunktion auf dem Trainingsdatensatz zu verallgemeinern und zu glätten, während RF-Modelle unter Overfitting leiden. Daher sind RF-Modelle für Vorhersagen innerhalb der Trainingsbereiche überlegen, versagen aber außerhalb davon, während CNN-Modelle den relativen Leistungsverlust außerhalb der Trainingsdomänen kontrollieren können. Schließlich profitieren die CNN-Modelle mehr von Transfer-Learning-Techniken als RF-Modelle, was ihre Leistung außerhalb der Trainingsbereiche erhöht. Zusammenfassend lässt sich sagen, dass in dieser Arbeit sowohl topografiebasierte Methoden als auch datengesteuerte Modelle zur Kartierung von Überschwemmungen in Städten bewertet wurden. Weitere Studien sind jedoch von entscheidender Bedeutung, um Methoden zu entwickeln, die die Beschränkungen von 2D-hydrodynamischen Modellen vollständig überwinden. KW - urban pluvial flood KW - machine learning KW - deep learning KW - topography KW - tiefes Lernen KW - maschinelles Lernen KW - Topographie KW - städtische Überschwemmungen Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-598137 ER - TY - THES A1 - Sapegin, Andrey T1 - High-Speed Security Log Analytics Using Hybrid Outlier Detection N2 - The rapid development and integration of Information Technologies over the last decades influenced all areas of our life, including the business world. Yet not only the modern enterprises become digitalised, but also security and criminal threats move into the digital sphere. To withstand these threats, modern companies must be aware of all activities within their computer networks. The keystone for such continuous security monitoring is a Security Information and Event Management (SIEM) system that collects and processes all security-related log messages from the entire enterprise network. However, digital transformations and technologies, such as network virtualisation and widespread usage of mobile communications, lead to a constantly increasing number of monitored devices and systems. As a result, the amount of data that has to be processed by a SIEM system is increasing rapidly. Besides that, in-depth security analysis of the captured data requires the application of rather sophisticated outlier detection algorithms that have a high computational complexity. Existing outlier detection methods often suffer from performance issues and are not directly applicable for high-speed and high-volume analysis of heterogeneous security-related events, which becomes a major challenge for modern SIEM systems nowadays. This thesis provides a number of solutions for the mentioned challenges. First, it proposes a new SIEM system architecture for high-speed processing of security events, implementing parallel, in-memory and in-database processing principles. The proposed architecture also utilises the most efficient log format for high-speed data normalisation. Next, the thesis offers several novel high-speed outlier detection methods, including generic Hybrid Outlier Detection that can efficiently be used for Big Data analysis. Finally, the special User Behaviour Outlier Detection is proposed for better threat detection and analysis of particular user behaviour cases. The proposed architecture and methods were evaluated in terms of both performance and accuracy, as well as compared with classical architecture and existing algorithms. These evaluations were performed on multiple data sets, including simulated data, well-known public intrusion detection data set, and real data from the large multinational enterprise. The evaluation results have proved the high performance and efficacy of the developed methods. All concepts proposed in this thesis were integrated into the prototype of the SIEM system, capable of high-speed analysis of Big Security Data, which makes this integrated SIEM platform highly relevant for modern enterprise security applications. N2 - In den letzten Jahrzehnten hat die schnelle Weiterentwicklung und Integration der Informationstechnologien alle Bereich unseres Lebens beeinflusst, nicht zuletzt auch die Geschäftswelt. Aus der zunehmenden Digitalisierung des modernen Unternehmens ergeben sich jedoch auch neue digitale Sicherheitsrisiken und kriminelle Bedrohungen. Um sich vor diesen Bedrohungen zu schützen, muss das digitale Unternehmen alle Aktivitäten innerhalb seines Firmennetzes verfolgen. Der Schlüssel zur kontinuierlichen Überwachung aller sicherheitsrelevanten Informationen ist ein sogenanntes Security Information und Event Management (SIEM) System, das alle Meldungen innerhalb des Firmennetzwerks zentral sammelt und verarbeitet. Jedoch führt die digitale Transformation der Unternehmen sowie neue Technologien, wie die Netzwerkvirtualisierung und mobile Endgeräte, zu einer konstant steigenden Anzahl zu überwachender Geräte und Systeme. Dies wiederum hat ein kontinuierliches Wachstum der Datenmengen zur Folge, die das SIEM System verarbeiten muss. Innerhalb eines möglichst kurzen Zeitraumes muss somit eine sehr große Datenmenge (Big Data) analysiert werden, um auf Bedrohungen zeitnah reagieren zu können. Eine gründliche Analyse der sicherheitsrelevanten Aspekte der aufgezeichneten Daten erfordert den Einsatz fortgeschrittener Algorithmen der Anomalieerkennung, die eine hohe Rechenkomplexität aufweisen. Existierende Methoden der Anomalieerkennung haben oftmals Geschwindigkeitsprobleme und sind deswegen nicht anwendbar für die sehr schnelle Analyse sehr großer Mengen heterogener sicherheitsrelevanter Ereignisse. Diese Arbeit schlägt eine Reihe möglicher Lösungen für die benannten Herausforderungen vor. Zunächst wird eine neuartige SIEM Architektur vorgeschlagen, die es erlaubt Ereignisse mit sehr hoher Geschwindigkeit zu verarbeiten. Das System basiert auf den Prinzipien der parallelen Programmierung, sowie der In-Memory und In-Database Datenverarbeitung. Die vorgeschlagene Architektur verwendet außerdem das effizienteste Datenformat zur Vereinheitlichung der Daten in sehr hoher Geschwindigkeit. Des Weiteren wurden im Rahmen dieser Arbeit mehrere neuartige Hochgeschwindigkeitsverfahren zur Anomalieerkennung entwickelt. Eines ist die Hybride Anomalieerkennung (Hybrid Outlier Detection), die sehr effizient auf Big Data eingesetzt werden kann. Abschließend wird eine spezifische Anomalieerkennung für Nutzerverhaltens (User Behaviour Outlier Detection) vorgeschlagen, die eine verbesserte Bedrohungsanalyse von spezifischen Verhaltensmustern der Benutzer erlaubt. Die entwickelte Systemarchitektur und die Algorithmen wurden sowohl mit Hinblick auf Geschwindigkeit, als auch Genauigkeit evaluiert und mit traditionellen Architekturen und existierenden Algorithmen verglichen. Die Evaluation wurde auf mehreren Datensätzen durchgeführt, unter anderem simulierten Daten, gut erforschten öffentlichen Datensätzen und echten Daten großer internationaler Konzerne. Die Resultate der Evaluation belegen die Geschwindigkeit und Effizienz der entwickelten Methoden. Alle Konzepte dieser Arbeit wurden in den Prototyp des SIEM Systems integriert, das in der Lage ist Big Security Data mit sehr hoher Geschwindigkeit zu analysieren. Dies zeigt das diese integrierte SIEM Plattform eine hohe praktische Relevanz für moderne Sicherheitsanwendungen besitzt. T2 - Sicherheitsanalyse in Hochgeschwindigkeit mithilfe der Hybride Anomalieerkennung KW - intrusion detection KW - security KW - machine learning KW - anomaly detection KW - outlier detection KW - novelty detection KW - in-memory KW - SIEM KW - IDS KW - Angriffserkennung KW - Sicherheit KW - Machinelles Lernen KW - Anomalieerkennung KW - In-Memory KW - SIEM KW - IDS Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-426118 ER - TY - THES A1 - Risch, Julian T1 - Reader comment analysis on online news platforms N2 - Comment sections of online news platforms are an essential space to express opinions and discuss political topics. However, the misuse by spammers, haters, and trolls raises doubts about whether the benefits justify the costs of the time-consuming content moderation. As a consequence, many platforms limited or even shut down comment sections completely. In this thesis, we present deep learning approaches for comment classification, recommendation, and prediction to foster respectful and engaging online discussions. The main focus is on two kinds of comments: toxic comments, which make readers leave a discussion, and engaging comments, which make readers join a discussion. First, we discourage and remove toxic comments, e.g., insults or threats. To this end, we present a semi-automatic comment moderation process, which is based on fine-grained text classification models and supports moderators. Our experiments demonstrate that data augmentation, transfer learning, and ensemble learning allow training robust classifiers even on small datasets. To establish trust in the machine-learned models, we reveal which input features are decisive for their output with attribution-based explanation methods. Second, we encourage and highlight engaging comments, e.g., serious questions or factual statements. We automatically identify the most engaging comments, so that readers need not scroll through thousands of comments to find them. The model training process builds on upvotes and replies as a measure of reader engagement. We also identify comments that address the article authors or are otherwise relevant to them to support interactions between journalists and their readership. Taking into account the readers' interests, we further provide personalized recommendations of discussions that align with their favored topics or involve frequent co-commenters. Our models outperform multiple baselines and recent related work in experiments on comment datasets from different platforms. N2 - Kommentarspalten von Online-Nachrichtenplattformen sind ein essentieller Ort, um Meinungen zu äußern und politische Themen zu diskutieren. Der Missbrauch durch Trolle und Verbreiter von Hass und Spam lässt jedoch Zweifel aufkommen, ob der Nutzen die Kosten der zeitaufwendigen Kommentarmoderation rechtfertigt. Als Konsequenz daraus haben viele Plattformen ihre Kommentarspalten eingeschränkt oder sogar ganz abgeschaltet. In dieser Arbeit stellen wir Deep-Learning-Verfahren zur Klassifizierung, Empfehlung und Vorhersage von Kommentaren vor, um respektvolle und anregende Online-Diskussionen zu fördern. Das Hauptaugenmerk liegt dabei auf zwei Arten von Kommentaren: toxische Kommentare, die die Leser veranlassen, eine Diskussion zu verlassen, und anregende Kommentare, die die Leser veranlassen, sich an einer Diskussion zu beteiligen. Im ersten Schritt identifizieren und entfernen wir toxische Kommentare, z.B. Beleidigungen oder Drohungen. Zu diesem Zweck stellen wir einen halbautomatischen Moderationsprozess vor, der auf feingranularen Textklassifikationsmodellen basiert und Moderatoren unterstützt. Unsere Experimente zeigen, dass Datenanreicherung, Transfer- und Ensemble-Lernen das Trainieren robuster Klassifikatoren selbst auf kleinen Datensätzen ermöglichen. Um Vertrauen in die maschinell gelernten Modelle zu schaffen, zeigen wir mit attributionsbasierten Erklärungsmethoden auf, welche Teile der Eingabe für ihre Ausgabe entscheidend sind. Im zweiten Schritt ermutigen und markieren wir anregende Kommentare, z.B. ernsthafte Fragen oder sachliche Aussagen. Wir identifizieren automatisch die anregendsten Kommentare, so dass die Leser nicht durch Tausende von Kommentaren blättern müssen, um sie zu finden. Der Trainingsprozess der Modelle baut auf Upvotes und Kommentarantworten als Maß für die Aktivität der Leser auf. Wir identifizieren außerdem Kommentare, die sich an die Artikelautoren richten oder anderweitig für sie relevant sind, um die Interaktion zwischen Journalisten und ihrer Leserschaft zu unterstützen. Unter Berücksichtigung der Interessen der Leser bieten wir darüber hinaus personalisierte Diskussionsempfehlungen an, die sich an den von ihnen bevorzugten Themen oder häufigen Diskussionspartnern orientieren. In Experimenten mit Kommentardatensätzen von verschiedenen Plattformen übertreffen unsere Modelle mehrere grundlegende Vergleichsverfahren und aktuelle verwandte Arbeiten. T2 - Analyse von Leserkommentaren auf Online-Nachrichtenplattformen KW - machine learning KW - Maschinelles Lernen KW - text classification KW - Textklassifikation KW - social media KW - Soziale Medien KW - hate speech detection KW - Hasserkennung Y1 - 2020 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-489222 ER - TY - THES A1 - Rezaei, Mina T1 - Deep representation learning from imbalanced medical imaging N2 - Medical imaging plays an important role in disease diagnosis, treatment planning, and clinical monitoring. One of the major challenges in medical image analysis is imbalanced training data, in which the class of interest is much rarer than the other classes. Canonical machine learning algorithms suppose that the number of samples from different classes in the training dataset is roughly similar or balance. Training a machine learning model on an imbalanced dataset can introduce unique challenges to the learning problem. A model learned from imbalanced training data is biased towards the high-frequency samples. The predicted results of such networks have low sensitivity and high precision. In medical applications, the cost of misclassification of the minority class could be more than the cost of misclassification of the majority class. For example, the risk of not detecting a tumor could be much higher than referring to a healthy subject to a doctor. The current Ph.D. thesis introduces several deep learning-based approaches for handling class imbalanced problems for learning multi-task such as disease classification and semantic segmentation. At the data-level, the objective is to balance the data distribution through re-sampling the data space: we propose novel approaches to correct internal bias towards fewer frequency samples. These approaches include patient-wise batch sampling, complimentary labels, supervised and unsupervised minority oversampling using generative adversarial networks for all. On the other hand, at algorithm-level, we modify the learning algorithm to alleviate the bias towards majority classes. In this regard, we propose different generative adversarial networks for cost-sensitive learning, ensemble learning, and mutual learning to deal with highly imbalanced imaging data. We show evidence that the proposed approaches are applicable to different types of medical images of varied sizes on different applications of routine clinical tasks, such as disease classification and semantic segmentation. Our various implemented algorithms have shown outstanding results on different medical imaging challenges. N2 - Medizinische Bildanalyse spielt eine wichtige Rolle bei der Diagnose von Krankheiten, der Behandlungsplanung, und der klinischen Überwachung. Eines der großen Probleme in der medizinischen Bildanalyse ist das Vorhandensein von nicht ausbalancierten Trainingsdaten, bei denen die Anzahl der Datenpunkte der Zielklasse in der Unterzahl ist. Die Aussagen eines Modells, welches auf einem unbalancierten Datensatz trainiert wurde, tendieren dazu Datenpunkte in die Klasse mit der Mehrzahl an Trainingsdaten einzuordnen. Die Aussagen eines solchen Modells haben eine geringe Sensitivität aber hohe Genauigkeit. Im medizinischen Anwendungsbereich kann die Einordnung eines Datenpunktes in eine falsche Klasse Schwerwiegende Ergebnisse mit sich bringen. In die Nichterkennung eines Tumors Beispielsweise brigt ein viel höheres Risiko für einen Patienten, als wenn ein gesunder Patient zum Artz geschickt wird. Das Problem des Lernens unter Nutzung von nicht ausbalancierten Trainingsdaten wird erst seit Kurzem bei der Klassifizierung von Krankheiten, der Entdeckung von Tumoren und beider Segmentierung von Tumoren untersucht. In der Literatur wird hier zwischen zwei verschiedenen Ansätzen unterschieden: datenbasierte und algorithmische Ansätze. Die vorliegende Arbeit behandelt das Lernen unter Nutzung von unbalancierten medizinischen Bilddatensätzen mittels datenbasierter und algorithmischer Ansätze. Bei den datenbasierten Ansätzen ist es unser Ziel, die Datenverteilung durch gezieltes Nutzen der vorliegenden Datenbasis auszubalancieren. Dazu schlagen wir neuartige Ansätze vor, um eine ausgeglichene Einordnung der Daten aus seltenen Klassen vornehmen zu können. Diese Ansätze sind unter anderem synthesize minority class sampling, patient-wise batch normalization, und die Erstellung von komplementären Labels unter Nutzung von generative adversarial networks. Auf der Seite der algorithmischen Ansätze verändern wir den Trainingsalgorithmus, um die Tendenz in Richtung der Klasse mit der Mehrzahl an Trainingsdaten zu verringern. Dafür schlagen wir verschiedene Algorithmen im Bereich des kostenintensiven Lernens, Ensemble-Lernens und des gemeinsamen Lernens vor, um mit stark unbalancierten Trainingsdaten umgehen zu können. Wir zeigen, dass unsere vorgeschlagenen Ansätze für verschiedenste Typen von medizinischen Bildern, mit variierender Größe, auf verschiedene Anwendungen im klinischen Alltag, z. B. Krankheitsklassifizierung, oder semantische Segmentierung, anwendbar sind. Weiterhin haben unsere Algorithmen hervorragende Ergebnisse bei unterschiedlichen Wettbewerben zur medizinischen Bildanalyse gezeigt. KW - machine learning KW - deep learning KW - computer vision KW - imbalanced learning KW - medical image analysis KW - Maschinenlernen KW - tiefes Lernen KW - unbalancierter Datensatz KW - Computervision KW - medizinische Bildanalyse Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-442759 ER - TY - THES A1 - Najafi, Pejman T1 - Leveraging data science & engineering for advanced security operations T1 - Der Einsatz von Data Science & Engineering für fortschrittliche Security Operations N2 - The Security Operations Center (SOC) represents a specialized unit responsible for managing security within enterprises. To aid in its responsibilities, the SOC relies heavily on a Security Information and Event Management (SIEM) system that functions as a centralized repository for all security-related data, providing a comprehensive view of the organization's security posture. Due to the ability to offer such insights, SIEMS are considered indispensable tools facilitating SOC functions, such as monitoring, threat detection, and incident response. Despite advancements in big data architectures and analytics, most SIEMs fall short of keeping pace. Architecturally, they function merely as log search engines, lacking the support for distributed large-scale analytics. Analytically, they rely on rule-based correlation, neglecting the adoption of more advanced data science and machine learning techniques. This thesis first proposes a blueprint for next-generation SIEM systems that emphasize distributed processing and multi-layered storage to enable data mining at a big data scale. Next, with the architectural support, it introduces two data mining approaches for advanced threat detection as part of SOC operations. First, a novel graph mining technique that formulates threat detection within the SIEM system as a large-scale graph mining and inference problem, built on the principles of guilt-by-association and exempt-by-reputation. The approach entails the construction of a Heterogeneous Information Network (HIN) that models shared characteristics and associations among entities extracted from SIEM-related events/logs. Thereon, a novel graph-based inference algorithm is used to infer a node's maliciousness score based on its associations with other entities in the HIN. Second, an innovative outlier detection technique that imitates a SOC analyst's reasoning process to find anomalies/outliers. The approach emphasizes explainability and simplicity, achieved by combining the output of simple context-aware univariate submodels that calculate an outlier score for each entry. Both approaches were tested in academic and real-world settings, demonstrating high performance when compared to other algorithms as well as practicality alongside a large enterprise's SIEM system. This thesis establishes the foundation for next-generation SIEM systems that can enhance today's SOCs and facilitate the transition from human-centric to data-driven security operations. N2 - In einem Security Operations Center (SOC) werden alle sicherheitsrelevanten Prozesse, Daten und Personen einer Organisation zusammengefasst. Das Herzstück des SOCs ist ein Security Information and Event Management (SIEM)-System, welches als zentraler Speicher aller sicherheitsrelevanten Daten fungiert und einen Überblick über die Sicherheitslage einer Organisation geben kann. SIEM-Systeme sind unverzichtbare Werkzeuge für viele SOC-Funktionen wie Monitoring, Threat Detection und Incident Response. Trotz der Fortschritte bei Big-Data-Architekturen und -Analysen können die meisten SIEMs nicht mithalten. Sie fungieren nur als Protokollsuchmaschine und unterstützen keine verteilte Data Mining und Machine Learning. In dieser Arbeit wird zunächst eine Blaupause für die nächste Generation von SIEM-Systemen vorgestellt, welche Daten verteilt, verarbeitet und in mehreren Schichten speichert, damit auch Data Mining im großen Stil zu ermöglichen. Zudem werden zwei Data Mining-Ansätze vorgeschlagen, mit denen auch anspruchsvolle Bedrohungen erkannt werden können. Der erste Ansatz ist eine neue Graph-Mining-Technik, bei der SIEM-Daten als Graph strukturiert werden und Reputationsinferenz mithilfe der Prinzipien guiltby-association (Kontaktschuld) und exempt-by-reputation (Reputationsbefreiung) implementiert wird. Der Ansatz nutzt ein heterogenes Informationsnetzwerk (HIN), welches gemeinsame Eigenschaften und Assoziationen zwischen Entitäten aus Event Logs verknüpft. Des Weiteren ermöglicht ein neuer Inferenzalgorithmus die Bestimmung der Schädlichkeit eines Kontos anhand seiner Verbindungen zu anderen Entitäten im HIN. Der zweite Ansatz ist eine innovative Methode zur Erkennung von Ausreißern, die den Entscheidungsprozess eines SOC-Analysten imitiert. Diese Methode ist besonders einfach und interpretierbar, da sie einzelne univariate Teilmodelle kombiniert, die sich jeweils auf eine kontextualisierte Eigenschaft einer Entität beziehen. Beide Ansätze wurden sowohl akademisch als auch in der Praxis getestet und haben im Vergleich mit anderen Methoden auch in großen Unternehmen eine hohe Qualität bewiesen. Diese Arbeit bildet die Grundlage für die nächste Generation von SIEM-Systemen, welche den Übergang von einer personalzentrischen zu einer datenzentrischen Perspektive auf SOCs ermöglichen. KW - cybersecurity KW - endpoint security KW - threat detection KW - intrusion detection KW - apt KW - advanced threats KW - advanced persistent threat KW - zero-day KW - security analytics KW - data-driven KW - data mining KW - data science KW - anomaly detection KW - outlier detection KW - graph mining KW - graph inference KW - machine learning KW - Advanced Persistent Threats KW - fortschrittliche Angriffe KW - Anomalieerkennung KW - APT KW - Cyber-Sicherheit KW - Data-Mining KW - Data-Science KW - datengetrieben KW - Endpunktsicherheit KW - Graphableitung KW - Graph-Mining KW - Einbruchserkennung KW - Machine-Learning KW - Ausreißererkennung KW - Sicherheitsanalyse KW - Bedrohungserkennung KW - 0-day Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-612257 ER - TY - THES A1 - Mientus, Lukas T1 - Reflexion und Reflexivität T1 - Reflection and reflexivity BT - Befunde reflexionsbezogener Dispositionen BT - findings of reflection-related amplifiers and filters N2 - Reflexion gilt in der Lehrkräftebildung als eine Schlüsselkategorie der professionellen Entwicklung. Entsprechend wird auf vielfältige Weise die Qualität reflexionsbezogener Kompetenzen untersucht. Eine Herausforderung hierbei kann in der Annahme bestehen, von der Analyse schriftlicher Reflexionen unmittelbar auf die Reflexivität einer Person zu schließen, da Reflexion stets kontextspezifisch als Abbild reflexionsbezogener Argumentationsprozesse angesehen werden sollte und reflexionsbezogenen Dispositionen unterliegt. Auch kann die Qualität einer Reflexion auf mehreren Dimensionen bewertet werden, ohne quantifizierbare, absolute Aussagen treffen zu können. Daher wurden im Rahmen einer Physik-Videovignette N = 134 schriftliche Fremdreflexionen verfasst und kontextspezifische reflexionsbezogene Dispositionen erhoben. Expert*innen erstellten theoriegeleitet Qualitätsbewertungen zur Breite, Tiefe, Kohärenz und Spezifität eines jeden Reflexionstextes. Unter Verwendung computerbasierter Klassifikations- und Analyseverfahren wurden weitere Textmerkmale erhoben. Mittels explorativer Faktorenanalyse konnten die Faktoren Qualität, Quantität und Deskriptivität gefunden werden. Da alle konventionell eingeschätzten Qualitätsbewertungen durch einen Faktor repräsentiert wurden, konnte ein maximales Qualitätskorrelat kalkuliert werden, zu welchem jede schriftliche Fremdreflexion im Rahmen der vorliegenden Vignette eine computerbasiert bestimmbare Distanz aufweist. Diese Distanz zum maximalen Qualitätskorrelat konnte validiert werden und kann die Qualität der schriftlichen Reflexionen unabhängig von menschlichen Ressourcen quantifiziert repräsentieren. Abschließend konnte identifiziert werden, dass ausgewählte Dispositionen in unterschiedlichem Maße mit der Reflexionsqualität zusammenhängen. So konnten beispielsweise bezogen auf das Physik-Fachwissen minimale Zusammenhänge identifiziert werden, wohingegen Werthaltung sowie wahrgenommene Unterrichtsqualität eng mit der Qualität einer schriftlichen Reflexion in Verbindung stehen können. Es wird geschlussfolgert, dass reflexionsbezogene Dispositionen moderierenden Einfluss auf Reflexionen nehmen können. Es wird empfohlen bei der Erhebung von Reflexion mit dem Ziel der Kompetenzmessung ausgewählte Dispositionen mit zu erheben. Weiter verdeutlicht diese Arbeit die Möglichkeit, aussagekräftige Quantifizierungen auch in der Analyse komplexer Konstrukte vorzunehmen. Durch computerbasierte Qualitätsabschätzungen können objektive und individuelle Analysen und differenzierteres automatisiertes Feedback ermöglicht werden. N2 - Reflection is considered as a key category of professional development in teacher education. Thus, the quality of reflection-related performance has been studied in a variety of ways. To derive teacher's reflection-related personal Pedagogical Content Knowledge (PCK) from the analysis of a written reflection (reflection-related enacted PCK) seems to be challenging. The enactment of reflection-related personal PCK is context-specific and should be seen as a manifestation under the influence of Amplifiers & Filters. Also, it is difficult to make quantifiable statements of reasoning quality in a written reflection without using stage models or categorical scoring. Therefore, N = 134 (preservice) physics teachers wrote a reflection text in the context of a video vignette and answered items related to context-specific reflection-related dispositions. Experts rated the quality of each reflection text according to the breadth, depth, coherence, and specificity. Using computer-based classification and analysis, additional text features were extracted. An exploratory factor analysis was used to reduce date to the factors quality, quantity, and descriptiveness of a written reflection. Cause experts’ quality ratings were represented by just one factor, a maximum quality-correlate for the present vignette was calculated. Each written reflection was determined a distance to this maximum computer-based. This quality index was validated and can represent the quality of the written reflections in a quantified way without the need of human expertise. Finally, it could be identified that selected Amplifiers & Filters are related to the reflection quality. For example, minimal correlations could be identified with respect to physics content knowledge, whereas values and perceived teaching quality can be closely related to the quality of a written reflection. It is concluded that reflection-related Amplifiers & Filters can have a measurable influence on reflection-related enacted PCK. It is recommended to include measurements of Amplifiers & Filters in each research of reflection with the aim of measuring competence. Further, this work illustrates the possibility of meaningful quantification even in the analysis of complex constructs. Computer-based quality assessments can enable objective and individualized analyses and more differentiated automated feedback. KW - Reflexion KW - Reflexivität KW - Physikdidaktik KW - pedagogical content knowledge KW - refined consensus model KW - machine learning Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-610003 ER - TY - THES A1 - Meier, Sebastian T1 - Personal Big Data T1 - Personal Big Data BT - a privacy-centred selective cloud computing approach to progressive user modelling on mobile devices BT - ein mit dem Schwerpunkt auf Privatsphäre entwickelter selektiver Cloud-Computing Ansatz zur fortschreitenden Modellierung von Nutzerverhalten auf mobilen Endgeräten N2 - Many users of cloud-based services are concerned about questions of data privacy. At the same time, they want to benefit from smart data-driven services, which require insight into a person’s individual behaviour. The modus operandi of user modelling is that data is sent to a remote server where the model is constructed and merged with other users’ data. This thesis proposes selective cloud computing, an alternative approach, in which the user model is constructed on the client-side and only an abstracted generalised version of the model is shared with the remote services. In order to demonstrate the applicability of this approach, the thesis builds an exemplary client-side user modelling technique. As this thesis is carried out in the area of Geoinformatics and spatio-temporal data is particularly sensitive, the application domain for this experiment is the analysis and prediction of a user’s spatio-temporal behaviour. The user modelling technique is grounded in an innovative conceptual model, which builds upon spatial network theory combined with time-geography. The spatio-temporal constraints of time-geography are applied to the network structure in order to create individual spatio-temporal action spaces. This concept is translated into a novel algorithmic user modelling approach which is solely driven by the user’s own spatio-temporal trajectory data that is generated by the user’s smartphone. While modern smartphones offer a rich variety of sensory data, this thesis only makes use of spatio-temporal trajectory data, enriched by activity classification, as the input and foundation for the algorithmic model. The algorithmic model consists of three basal components: locations (vertices), trips (edges), and clusters (neighbourhoods). After preprocessing the incoming trajectory data in order to identify locations, user feedback is used to train an artificial neural network to learn temporal patterns for certain location types (e.g. work, home, bus stop, etc.). This Artificial Neural Network (ANN) is used to automatically detect future location types by their spatio-temporal patterns. The same is done in order to predict the duration of stay at a certain location. Experiments revealed that neural nets were the most successful statistical and machine learning tool to detect those patterns. The location type identification algorithm reached an accuracy of 87.69%, the duration prediction on binned data was less successful and deviated by an average of 0.69 bins. A challenge for the location type classification, as well as for the subsequent components, was the imbalance of trips and connections as well as the low accuracy of the trajectory data. The imbalance is grounded in the fact that most users exhibit strong habitual patterns (e.g. home > work), while other patterns are rather rare by comparison. The accuracy problem derives from the energy-saving location sampling mode, which creates less accurate results. Those locations are then used to build a network that represents the user’s spatio-temporal behaviour. An initial untrained ANN to predict movement on the network only reached 46% average accuracy. Only lowering the number of included edges, focusing on more common trips, increased the performance. In order to further improve the algorithm, the spatial trajectories were introduced into the predictions. To overcome the accuracy problem, trips between locations were clustered into so-called spatial corridors, which were intersected with the user’s current trajectory. The resulting intersected trips were ranked through a k-nearest-neighbour algorithm. This increased the performance to 56%. In a final step, a combination of a network and spatial clustering algorithm was built in order to create clusters, therein reducing the variety of possible trips. By only predicting the destination cluster instead of the exact location, it is possible to increase the performance to 75% including all classes. A final set of components shows in two exemplary ways how to deduce additional inferences from the underlying spatio-temporal data. The first example presents a novel concept for predicting the ‘potential memorisation index’ for a certain location. The index is based on a cognitive model which derives the index from the user’s activity data in that area. The second example embeds each location in its urban fabric and thereby enriches its cluster’s metadata by further describing the temporal-semantic activity in an area (e.g. going to restaurants at noon). The success of the client-side classification and prediction approach, despite the challenges of inaccurate and imbalanced data, supports the claimed benefits of the client-side modelling concept. Since modern data-driven services at some point do need to receive user data, the thesis’ computational model concludes with a concept for applying generalisation to semantic, temporal, and spatial data before sharing it with the remote service in order to comply with the overall goal to improve data privacy. In this context, the potentials of ensemble training (in regards to ANNs) are discussed in order to highlight the potential of only sharing the trained ANN instead of the raw input data. While the results of our evaluation support the assets of the proposed framework, there are two important downsides of our approach compared to server-side modelling. First, both of these server-side advantages are rooted in the server’s access to multiple users’ data. This allows a remote service to predict spatio-in the user-specific data, which represents the second downside. While minor classes will likely be minor classes in a bigger dataset as well, for each class, there will still be more variety than in the user-specific dataset. The author emphasises that the approach presented in this work holds the potential to change the privacy paradigm in modern data-driven services. Finding combinations of client- and server-side modelling could prove a promising new path for data-driven innovation. Beyond the technological perspective, throughout the thesis the author also offers a critical view on the data- and technology-driven development of this work. By introducing the client-side modelling with user-specific artificial neural networks, users generate their own algorithm. Those user-specific algorithms are influenced less by generalised biases or developers’ prejudices. Therefore, the user develops a more diverse and individual perspective through his or her user model. This concept picks up the idea of critical cartography, which questions the status quo of how space is perceived and represented. N2 - Die Nutzung von modernen digitalen Diensten und Cloud-Services geht häufig einher mit einer Besorgtheit um die Sicherheit der eigenen Privatsphäre. Gleichzeitig zeigt sich, dass die Nutzung eben dieser Dienste nicht rückläufig ist. Dieses Phänomen wird in der Wissenschaft auch als Privacy-Paradox bezeichnet (Barnes, 2006). Viele digitale Dienste bauen einen Großteil ihrer Funktionalitäten auf NutzerInnendaten auf. Der Modus Operandi bei diesen Diensten ist bisher, die Daten der NutzerInnen an einen Server zu schicken, wo diese verarbeitet, analysiert und gespeichert werden. Die vorliegende Doktorarbeit schlägt ein alternatives Konzept vor: Selective Cloud Computing. Kern dieses Konzeptes ist die Verlagerung der NutzerInnen-Modellierung auf die privaten Endgeräte, wodurch für weitere Services nur ein abstrahiertes Daten- und NutzerInnenmodel mit den externen Diensten geteilt wird. Um dieses Konzept auf seine Machbarkeit und Performanz zu überprüfen wird im Rahmen dieser Arbeit ein beispielhafter Prozess für die nutzerInnenseitige Modellierung von raumzeitlichen Informationen entwickelt. Da raumzeitliche Informationen mit zu den sensibelsten persönlichen Daten gehören, bietet die Verortung der vorliegende Arbeit im Bereich der Geoinformatik für das Anwendungsfeld der NutzerInnen-Modellierung einen passenden disziplinären Rahmen. Die NutzerInnen-Modellierung fußt auf einem innovativen konzeptuellen Modell, welches Theorien zu räumlichen Netzwerken und Hägerstrands Theorie der Zeitgeographie miteinander kombiniert (Hägerstrand, 1970). Hierbei werden die von Hägerstrand entwickelten raumzeitlichen Einschränkungen (Constraints) auf das Netzwerkmodel übertragen, wodurch individuelle Aktionsräume konstituiert werden. Dieses Model wird schließlich in ein algorithmisches Computermodel übersetzt, dessen Operationen ausschließlich die Daten verarbeiten und nutzen, die auf den Smartphones der NutzerInnen generiert werden. Moderne Smartphones bieten für die Datengenerierung gute Voraussetzungen, da sie den Zugriff auf eine ganze Bandbreite an Sensoren und anderen Datenquellen ermöglich. Die vorliegende Arbeit beschränkt sich dabei jedoch auf die raumzeitlichen Informationen, welche über die Ortungsfunktionen des Geräts produziert werden (Trajectories). Die Trajektorien werden angereichert durch Aktivitätsklassifikationen (z.B. Laufen, Radfahren, etc.), welche von der App, die diese Daten aufzeichnet, zugeordnet werden. Das Computermodel basiert auf diesen Daten und gliedert diese in drei grundlegende Komponenten: 1) Orte (Knotenpunkte) 2) Trips (Kanten) und 3) Cluster (Nachbarschaften). Zu Beginn der algorithmischen Verarbeitung werden die eingehenden Daten optimiert und analysiert, um in einem ersten Schritt geographische Orte zu identifizieren. Um diese Orte nun mit semantischen Informationen anzureichern wird ein automatisierter Algorithmus über User-Feedback trainiert, welcher die Orts-Typen selbstständig erkennt (z.B. Zuhause, Arbeitsplatz, Haltestelle). Der Algorithmus basiert auf einem künstlichen neuronalen Netz, welches versucht, Muster in den Daten zu erkennen. Die Entscheidung, neuronale Netze in diesem Prozess einzusetzen, ergab sich aus einer Evaluation verschiedener Verfahren der statistischen Klassifizierung und des maschinellen Lernens. Das Verfahren zur Erkennung der Orts-Typen erreichte unter Zuhilfenahme eines künstlichen neuronalen Netz eine Genauigkeit von 87.69% und war damit das akkurateste. Eine weitere Einsatzmöglichkeit solcher neuronalen Netze ist bei der Vorhersage von Aufenthaltsdauern an bestimmten Orten, welche im Durschnitt 0.69 Klassen vom korrekten Ergebnis abwich. Eine große Herausforderung für alle Module war sowohl die Ungenauigkeit der Rohdaten, also auch die ungleichmäßige Verteilung der Daten. Die Ungenauigkeit ist ein Resultat der Generierung der Positionsinformationen, welche zugunsten eines geringeren Energieverbrauchs der mobilen Geräte Ungenauigkeiten in Kauf nehmen muss. Die ungleichmäßige Verteilung ergibt sich wiederum durch häufig wiederkehrende Muster (z.B. Fahrten zur Arbeit und nach Hause), welche im Vergleich zu anderen Aktivitäten vergleichsweise häufig auftreten und die Datensätze dominieren. Die Orte, die in der ersten Phase identifiziert und klassifiziert wurden, werden im nächsten Schritt für die Konstruktion des eigentlichen räumlichen Netzwerks genutzt. Basierend auf den über einen bestimmten Zeitraum gesammelten Daten der NutzerInnen und im Rückgriff auf Hägerstrands Einschränkungsprinzip werden Vorhersagen über mögliche raumzeitliche Verhaltensweisen im nutzerspezifischen Netzwerk gemacht. Hierzu werden Methoden des maschinellen Lernens, in diesem Fall künstliche neuronale Netze und Nächste-Nachbarn-Klassifikation (k-nearest-neighbour), mit Methoden der Trajektorien-Analyse kombiniert. Die zugrundeliegenden Orts- und Bewegungsinformationen werden unter Anwendung von Netzwerk-Nachbarschafts-Methoden und klassischen räumlichen Gruppierungsmethoden (Clustering) für die Optimierung der Algorithmen verfeinert. Die aus diesen Schritten resultierende Methodik erreichte eine Genauigkeit von 75% bei der Vorhersage über raumzeitliches Verhalten. Wenn man Vorhersagen mit einbezieht, bei denen der korrekte Treffer auf Rang 2 und 3 der Nächste-Nachbarn-Klassifikation liegt, erreichte die Methodik sogar eine Vorhersagen-Genauigkeit von 90%. Um zu erproben, welche weiteren Schlussfolgerungen über die NutzerInnen basierend auf den zugrundeliegenden Daten getroffen werden könnten, werden abschließend zwei beispielhafte Methoden entwickelt und getestet: zum einen werden die Trajektorien genutzt um vorherzusagen, wie gut eine NutzerIn ein bestimmtes Gebiet kennt (Potential Memorisation Index). Zum anderen werden zeitlich-semantische Muster für Orts-Cluster extrahiert und darauf basierend berechnet, wann welche Aktivitäten und spezifischen Orte innerhalb eines Clusters für die NutzerIn potenziell von Interesse sind. Trotz der Herausforderungen, die mit den unausgeglichenen Datensätzen und teilweise fehlerhaften Daten einhergehen, spricht die dennoch vergleichsweise hohe Präzision der nutzerseitigen Klassifizierungs- und Vorhersagemethoden für den in dieser Arbeit vorgestellten Ansatz der nutzerseitigen Modellierung. In einem letzten Schritt kontextualisiert die vorliegende Arbeit die erstellten Ansätze in einem realweltlichen Anwendungsfall und diskutiert den Austausch der generierten Daten mit einem datengestützten Dienst. Hierzu wird das Konzept der Generalisierung genutzt, um im Sinne des Schutzes der Privatsphäre abstrahierte Daten mit einem Dienst zu teilen. Obgleich der positiven Ergebnisse der Tests gibt es auch klare Nachteile im Vergleich zur klassischen serverseitigen Modellierung, die unter Einbezug mehrerer aggregierter NutzerInnenprofile stattfindet. Hierzu zählt zum einen, dass unterrepräsentierte Klassen in den Daten schlechter identifiziert werden können. Zum anderen ergibt sich der Nachteil, dass nur Verhaltensweisen erkannt werden können, die bereits zuvor von der NutzerIn selber ausgeübt wurden und somit in den Daten bereits enthalten sind. Im Vergleich dazu besteht bei serverseitiger Modellierung auf der Basis zahlreicher Personenprofile der Zugriff auf ein breiteres Spektrum an Verhaltensmustern und somit die Möglichkeit, diese Muster mit dem der NutzerIn abzugleichen, ohne dass dieses Verhalten bereits in ihren nutzerseitig generierten Daten abgelegt ist. Nichtsdestotrotz zeigt die Arbeit, welches Potential die nutzerseitige Modellierung bereithält - nicht nur in Bezug auf den größeren Schutz der Privatsphäre der NutzerInnen, sondern ebenso in Hinsicht auf den Einsatz von Methoden des verteilten Rechnens (distributed computing). Die Kombination von beidem, nutzerInnen- und serverseitiger Modellierung, könnte ein neuer und vielversprechender Pfad für datengetriebene Innovation darstellen. Neben der technologischen Perspektive werden die entwickelten Methoden einer kritischen Analyse unterzogen. Durch das Einbringen der nutzerseitigen Modellierung in Form von benutzerspezifischen künstlichen neuronalen Netzen trainieren die NutzerInnen ihre eigenen Algorithmen auf ihren mobilen Geräten. Diese spezifischen Algorithmen sind weniger stark von generalisierten Vorannahmen, Vorurteilen und möglichen Befangenheiten der EntwicklerInnen beeinflusst. Hierdurch haben NutzerInnen die Möglichkeit, vielfältigere und persönlichere Perspektiven auf ihre Daten und ihr Verhalten zu generieren. Dieses Konzept setzt Ideen der kritischen Kartographie fort, in welcher der Status Quo der Wahrnehmung und Repräsentation des Raumes hinterfragt werden. KW - Personal Data KW - mobile KW - machine learning KW - privacy KW - spatio-temporal KW - recommendation KW - behaviour KW - persönliche Informationen KW - Mobil KW - Machine Learning KW - Privatsphäre KW - raum-zeitlich KW - Empfehlungen KW - Verhalten Y1 - 2017 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-406696 ER -