TY - THES A1 - Ayzel, Georgy T1 - Advancing radar-based precipitation nowcasting T1 - Fortschritte bei der radarbasierten Niederschlagsvorhersage BT - an open benchmark and the potential of deep learning BT - ein offener Benchmark und das Potenzial von Deep Learning N2 - Precipitation forecasting has an important place in everyday life – during the day we may have tens of small talks discussing the likelihood that it will rain this evening or weekend. Should you take an umbrella for a walk? Or should you invite your friends for a barbecue? It will certainly depend on what your weather application shows. While for years people were guided by the precipitation forecasts issued for a particular region or city several times a day, the widespread availability of weather radars allowed us to obtain forecasts at much higher spatiotemporal resolution of minutes in time and hundreds of meters in space. Hence, radar-based precipitation nowcasting, that is, very-short-range forecasting (typically up to 1–3 h), has become an essential technique, also in various professional application contexts, e.g., early warning, sewage control, or agriculture. There are two major components comprising a system for precipitation nowcasting: radar-based precipitation estimates, and models to extrapolate that precipitation to the imminent future. While acknowledging the fundamental importance of radar-based precipitation retrieval for precipitation nowcasts, this thesis focuses only on the model development: the establishment of open and competitive benchmark models, the investigation of the potential of deep learning, and the development of procedures for nowcast errors diagnosis and isolation that can guide model development. The present landscape of computational models for precipitation nowcasting still struggles with the availability of open software implementations that could serve as benchmarks for measuring progress. Focusing on this gap, we have developed and extensively benchmarked a stack of models based on different optical flow algorithms for the tracking step and a set of parsimonious extrapolation procedures based on image warping and advection. We demonstrate that these models provide skillful predictions comparable with or even superior to state-of-the-art operational software. We distribute the corresponding set of models as a software library, rainymotion, which is written in the Python programming language and openly available at GitHub (https://github.com/hydrogo/rainymotion). That way, the library acts as a tool for providing fast, open, and transparent solutions that could serve as a benchmark for further model development and hypothesis testing. One of the promising directions for model development is to challenge the potential of deep learning – a subfield of machine learning that refers to artificial neural networks with deep architectures, which may consist of many computational layers. Deep learning showed promising results in many fields of computer science, such as image and speech recognition, or natural language processing, where it started to dramatically outperform reference methods. The high benefit of using "big data" for training is among the main reasons for that. Hence, the emerging interest in deep learning in atmospheric sciences is also caused and concerted with the increasing availability of data – both observational and model-based. The large archives of weather radar data provide a solid basis for investigation of deep learning potential in precipitation nowcasting: one year of national 5-min composites for Germany comprises around 85 billion data points. To this aim, we present RainNet, a deep convolutional neural network for radar-based precipitation nowcasting. RainNet was trained to predict continuous precipitation intensities at a lead time of 5 min, using several years of quality-controlled weather radar composites provided by the German Weather Service (DWD). That data set covers Germany with a spatial domain of 900 km x 900 km and has a resolution of 1 km in space and 5 min in time. Independent verification experiments were carried out on 11 summer precipitation events from 2016 to 2017. In these experiments, RainNet was applied recursively in order to achieve lead times of up to 1 h. In the verification experiments, trivial Eulerian persistence and a conventional model based on optical flow served as benchmarks. The latter is available in the previously developed rainymotion library. RainNet significantly outperformed the benchmark models at all lead times up to 60 min for the routine verification metrics mean absolute error (MAE) and critical success index (CSI) at intensity thresholds of 0.125, 1, and 5 mm/h. However, rainymotion turned out to be superior in predicting the exceedance of higher intensity thresholds (here 10 and 15 mm/h). The limited ability of RainNet to predict high rainfall intensities is an undesirable property which we attribute to a high level of spatial smoothing introduced by the model. At a lead time of 5 min, an analysis of power spectral density confirmed a significant loss of spectral power at length scales of 16 km and below. Obviously, RainNet had learned an optimal level of smoothing to produce a nowcast at 5 min lead time. In that sense, the loss of spectral power at small scales is informative, too, as it reflects the limits of predictability as a function of spatial scale. Beyond the lead time of 5 min, however, the increasing level of smoothing is a mere artifact – an analogue to numerical diffusion – that is not a property of RainNet itself but of its recursive application. In the context of early warning, the smoothing is particularly unfavorable since pronounced features of intense precipitation tend to get lost over longer lead times. Hence, we propose several options to address this issue in prospective research on model development for precipitation nowcasting, including an adjustment of the loss function for model training, model training for longer lead times, and the prediction of threshold exceedance. The model development together with the verification experiments for both conventional and deep learning model predictions also revealed the need to better understand the source of forecast errors. Understanding the dominant sources of error in specific situations should help in guiding further model improvement. The total error of a precipitation nowcast consists of an error in the predicted location of a precipitation feature and an error in the change of precipitation intensity over lead time. So far, verification measures did not allow to isolate the location error, making it difficult to specifically improve nowcast models with regard to location prediction. To fill this gap, we introduced a framework to directly quantify the location error. To that end, we detect and track scale-invariant precipitation features (corners) in radar images. We then consider these observed tracks as the true reference in order to evaluate the performance (or, inversely, the error) of any model that aims to predict the future location of a precipitation feature. Hence, the location error of a forecast at any lead time ahead of the forecast time corresponds to the Euclidean distance between the observed and the predicted feature location at the corresponding lead time. Based on this framework, we carried out a benchmarking case study using one year worth of weather radar composites of the DWD. We evaluated the performance of four extrapolation models, two of which are based on the linear extrapolation of corner motion; and the remaining two are based on the Dense Inverse Search (DIS) method: motion vectors obtained from DIS are used to predict feature locations by linear and Semi-Lagrangian extrapolation. For all competing models, the mean location error exceeds a distance of 5 km after 60 min, and 10 km after 110 min. At least 25% of all forecasts exceed an error of 5 km after 50 min, and of 10 km after 90 min. Even for the best models in our experiment, at least 5 percent of the forecasts will have a location error of more than 10 km after 45 min. When we relate such errors to application scenarios that are typically suggested for precipitation nowcasting, e.g., early warning, it becomes obvious that location errors matter: the order of magnitude of these errors is about the same as the typical extent of a convective cell. Hence, the uncertainty of precipitation nowcasts at such length scales – just as a result of locational errors – can be substantial already at lead times of less than 1 h. Being able to quantify the location error should hence guide any model development that is targeted towards its minimization. To that aim, we also consider the high potential of using deep learning architectures specific to the assimilation of sequential (track) data. Last but not least, the thesis demonstrates the benefits of a general movement towards open science for model development in the field of precipitation nowcasting. All the presented models and frameworks are distributed as open repositories, thus enhancing transparency and reproducibility of the methodological approach. Furthermore, they are readily available to be used for further research studies, as well as for practical applications. N2 - Niederschlagsvorhersagen haben einen wichtigen Platz in unserem täglichen Leben. Und die breite Abdeckung mit Niederschlagsradaren ermöglicht es uns, den Niederschlag mit einer viel höheren räumlich-zeitlichen Auflösung vorherzusagen (Minuten in der Zeit, Hunderte von Metern im Raum). Solche radargestützten Niederschlagsvorhersagen mit sehr kurzem Vorhersagehorizont (1–3 Stunden) nennt man auch "Niederschlagsnowcasting." Sie sind in verschiedenen Anwendungsbereichen (z.B. in der Frühwarnung, der Stadtentwässerung sowie in der Landwirtschaft) zu einer wichtigen Technologie geworden. Eine erhebliche Schwierigkeit in Modellentwicklung zum Niederschlagsnowcastings ist jedoch die Verfügbarkeit offener Softwarewerkzeuge und Implementierungen, die als Benchmark für den Entwicklungsfortschritt auf diesem Gebiet dienen können. Um diese Lücke zu schließen, haben wir eine Gruppe von Modellen auf der Grundlage verschiedener Tracking- und Extrapolationsverfahren entwickelt und systematisch verglichen. Es konnte gezeigt werden, dass die Vorhersagen dieser einen Skill haben, der sich mit dem Skill operationeller Vorhersagesysteme messen kann, teils sogar überlegen sind. Diese Benchmark-Modelle sind nun in Form der quelloffenen Software-Bibliothek rainymotion allgemein verfügbar (https://github.com/hydrogo/rainymotion). Eine der vielversprechenden Perspektiven für die weitere Modellentwicklung besteht in der Untersuchung des Potenzials von "Deep Learning" – einem Teilgebiet des maschinellen Lernens, das sich auf künstliche neuronale Netze mit sog. "tiefen Architekturen" bezieht, die aus einer Vielzahl von Schichten (computational layers) bestehen können. Im Rahmen dieser Arbeit wurde daher RainNet entwickelt: ein Tiefes Neuronales Netz für radargestütztes Niederschlags-Nowcasting. RainNet wurde zunächst zur Vorhersage der Niederschlagsintensität mit einem Vorhersagehorizont von fünf Minuten trainiert. Als Datengrundlage dazu dienten mehrere Jahre qualitätskontrollierter Radarkompositprodukte des Deutschen Wetterdienstes (DWD). RainNet übertraf die verfügbaren Benchmark-Modelle für Vorhersagezeiten bis zu 60 min in Bezug auf den Mittleren Absoluten Fehler (MAE) und den Critical Success Index (CSI) für Intensitätsschwellenwerte von 0.125, 1 und 5 mm/h. Allerdings erwies sich das das Benchmark-Modell aus dem Softwarepaket rainymotion bei der Vorhersage der Überschreitung höherer Intensitätsschwellen (10 und 15 mm/h) als überlegen. Die eingeschränkte Fähigkeit von RainNet zur Vorhersage hoher Niederschlagsintensitäten ist eine unerwünschte Eigenschaft, die wir auf ein hohes Maß an räumlicher Glättung durch das Modell zurückführen. Im Kontext der Frühwarnung ist die Glättung besonders ungünstig, da ausgeprägte Merkmale von Starkniederschlägen bei längeren Vorlaufzeiten tendenziell verloren gehen. In dieser Arbeit werden daher mehrere Optionen vorgeschlagen, um dieses Problem in der zukünftigen Forschung zur Modellentwicklung anzugehen. Ein weiterer Beitrag dieser Arbeit liegt in der Quantifizierung einer spezifischen Fehlerquelle von Niederschlagsnowcasts. Der Gesamtfehler eines Nowcasts besteht aus einem Fehler in der vorhergesagten Lage eines Niederschlagsfeatures (Ortsfehler) sowie einem Fehler in der Änderung der Intensität eines Features über die Vorhersagezeit (Intensitätsfehler). Herkömmliche Verifikationsmaße waren bislang nicht in der Lage, das Ausmaß des Ortsfehlers zu isolieren. Um diese Lücke zu füllen, haben wir einen Ansatz zur direkten Quantifizierung des Ortsfehlers entwickelt. Mit Hilfe dieses Ansatzes wurde wir Benchmarking-Experiment auf Grundlage eines fünfminütigen DWD Radarkompositprodukts für das komplette Jahr 2016 umgesetzt. In diesem Experiment wurden vier Nowcasting-Modelle aus der rainymotion-Softwarebibliothek verwendet im Hinblick auf den Ortsfehler der Vorhersage verglichen. Die Ergebnisse zeigen, dass für alle konkurrierenden Modelle die Ortsfehler von Bedeutung sind: die Größenordnung dieser Fehler entspricht etwa der typischen Ausdehnung einer konvektiven Zelle oder einer mittelgroßen Stadt (5–10 km). Insgesamt zeigt diese Arbeit die Vorteile eines "Open Science"-Ansatzes für die Modellentwicklung im Bereich der Niederschlagsnowcastings. Alle vorgestellten Modelle und Modellsysteme stehen als offene, gut dokumentierte Repositorien zusammen mit entsprechenden offenen Datensätzen öffentlich zu Verfügung für, was die Transparenz und Reproduzierbarkeit des methodischen Ansatzes, aber auch die Anwendbarkeit in der Praxis erhöht. KW - Weather radar KW - nowcasting KW - optical flow KW - deep learning KW - Wetterradar KW - Deep Learning KW - Nowcasting KW - Optischer Fluss Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-504267 ER - TY - JOUR A1 - Ayzel, Georgy T1 - Deep neural networks in hydrology BT - the new generation of universal and efficient models BT - новое поколение универсальных и эффективных моделей JF - Vestnik of Saint Petersburg University. Earth Sciences N2 - For around a decade, deep learning - the sub-field of machine learning that refers to artificial neural networks comprised of many computational layers - modifies the landscape of statistical model development in many research areas, such as image classification, machine translation, and speech recognition. Geoscientific disciplines in general and the field of hydrology in particular, also do not stand aside from this movement. Recently, the proliferation of modern deep learning-based techniques and methods has been actively gaining popularity for solving a wide range of hydrological problems: modeling and forecasting of river runoff, hydrological model parameters regionalization, assessment of available water resources. identification of the main drivers of the recent change in water balance components. This growing popularity of deep neural networks is primarily due to their high universality and efficiency. The presented qualities, together with the rapidly growing amount of accumulated environmental information, as well as increasing availability of computing facilities and resources, allow us to speak about deep neural networks as a new generation of mathematical models designed to, if not to replace existing solutions, but significantly enrich the field of geophysical processes modeling. This paper provides a brief overview of the current state of the field of development and application of deep neural networks in hydrology. Also in the following study, the qualitative long-term forecast regarding the development of deep learning technology for managing the corresponding hydrological modeling challenges is provided based on the use of "Gartner Hype Curve", which in the general details describes a life cycle of modern technologies. N2 - В течение последнего десятилетия глубокое обучение - область машинного обучения, относящаяся к искусственным нейронным сетям, состоящим из множества вычислительных слоев, - изменяет ландшафт развития статистических моделей во многих областях исследований, таких как классификация изображений, машинный перевод, распознавание речи. Географические науки, а также входящая в их состав область исследования гидрологии суши, не стоят в стороне от этого движения. В последнее время применение современных технологий и методов глубокого обучения активно набирает популярность для решения широкого спектра гидрологических задач: моделирования и прогнозирования речного стока, районирования модельных параметров, оценки располагаемых водных ресурсов, идентификации факторов, влияющих на современные изменения водного режима. Такой рост популярности глубоких нейронных сетей продиктован прежде всего их высокой универсальностью и эффективностью. Представленные качества в совокупности с быстрорастущим количеством накопленной информации о состоянии окружающей среды, а также ростом доступности вычислительных средств и ресурсов, позволяют говорить о глубоких нейронных сетях как о новом поколении математических моделей, призванных если не заменить существующие решения, то значительно обогатить область моделирования геофизических процессов. В данной работе представлен краткий обзор текущего состояния области разработки и применения глубоких нейронных сетей в гидрологии. Также в работе предложен качественный долгосрочный прогноз развития технологии глубокого обучения для решения задач гидрологического моделирования на основе использования «кривой ажиотажа Гартнера», в общих чертах описывающей жизненный цикл современных технологий. T2 - Глубокие нейронные сети в гидрологии KW - deep neural networks KW - deep learning KW - machine learning KW - hydrology KW - modeling KW - глубокие нейронные сети KW - глубокое обучение KW - машинное обучение KW - гидрология KW - моделирование Y1 - 2021 U6 - https://doi.org/10.21638/spbu07.2021.101 SN - 2541-9668 SN - 2587-585X VL - 66 IS - 1 SP - 5 EP - 18 PB - Univ. Press CY - St. Petersburg ER - TY - JOUR A1 - Bridwell, David A. A1 - Cavanagh, James F. A1 - Collins, Anne G. E. A1 - Nunez, Michael D. A1 - Srinivasan, Ramesh A1 - Stober, Sebastian A1 - Calhoun, Vince D. T1 - Moving Beyond ERP Components BT - a selective review of approaches to integrate EEG and behavior JF - Frontiers in human neuroscienc N2 - Relationships between neuroimaging measures and behavior provide important clues about brain function and cognition in healthy and clinical populations. While electroencephalography (EEG) provides a portable, low cost measure of brain dynamics, it has been somewhat underrepresented in the emerging field of model-based inference. We seek to address this gap in this article by highlighting the utility of linking EEG and behavior, with an emphasis on approaches for EEG analysis that move beyond focusing on peaks or "components" derived from averaging EEG responses across trials and subjects (generating the event-related potential, ERP). First, we review methods for deriving features from EEG in order to enhance the signal within single-trials. These methods include filtering based on user-defined features (i.e., frequency decomposition, time-frequency decomposition), filtering based on data-driven properties (i.e., blind source separation, BSS), and generating more abstract representations of data (e.g., using deep learning). We then review cognitive models which extract latent variables from experimental tasks, including the drift diffusion model (DDM) and reinforcement learning (RL) approaches. Next, we discuss ways to access associations among these measures, including statistical models, data-driven joint models and cognitive joint modeling using hierarchical Bayesian models (HBMs). We think that these methodological tools are likely to contribute to theoretical advancements, and will help inform our understandings of brain dynamics that contribute to moment-to-moment cognitive function. KW - EEG KW - ERP KW - blind source separation KW - partial least squares KW - canonical correlations analysis KW - representational similarity analysis KW - deep learning KW - hierarchical Bayesian model Y1 - 2018 U6 - https://doi.org/10.3389/fnhum.2018.00106 SN - 1662-5161 VL - 12 PB - Frontiers Research Foundation CY - Lausanne ER - TY - GEN A1 - Bridwell, David A. A1 - Cavanagh, James F. A1 - Collins, Anne G. E. A1 - Nunez, Michael D. A1 - Srinivasan, Ramesh A1 - Stober, Sebastian A1 - Calhoun, Vince D. T1 - Moving beyond ERP components BT - a selective review of approaches to integrate EEG and behavior T2 - Postprints der Universität Potsdam : Humanwissenschaftliche Reihe N2 - Relationships between neuroimaging measures and behavior provide important clues about brain function and cognition in healthy and clinical populations. While electroencephalography (EEG) provides a portable, low cost measure of brain dynamics, it has been somewhat underrepresented in the emerging field of model-based inference. We seek to address this gap in this article by highlighting the utility of linking EEG and behavior, with an emphasis on approaches for EEG analysis that move beyond focusing on peaks or "components" derived from averaging EEG responses across trials and subjects (generating the event-related potential, ERP). First, we review methods for deriving features from EEG in order to enhance the signal within single-trials. These methods include filtering based on user-defined features (i.e., frequency decomposition, time-frequency decomposition), filtering based on data-driven properties (i.e., blind source separation, BSS), and generating more abstract representations of data (e.g., using deep learning). We then review cognitive models which extract latent variables from experimental tasks, including the drift diffusion model (DDM) and reinforcement learning (RL) approaches. Next, we discuss ways to access associations among these measures, including statistical models, data-driven joint models and cognitive joint modeling using hierarchical Bayesian models (HBMs). We think that these methodological tools are likely to contribute to theoretical advancements, and will help inform our understandings of brain dynamics that contribute to moment-to-moment cognitive function. T3 - Zweitveröffentlichungen der Universität Potsdam : Humanwissenschaftliche Reihe - 656 KW - EEG KW - ERP KW - blind source separation KW - partial least squares KW - canonical correlations analysis KW - representational similarity analysis KW - deep learning KW - hierarchical Bayesian model Y1 - 2020 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-459667 SN - 1866-8364 IS - 656 ER - TY - THES A1 - Che, Xiaoyin T1 - E-lecture material enhancement based on automatic multimedia analysis T1 - Online-Vorlesung Materialverbesserung basierend auf automatischer Multimedia-Analyse N2 - In this era of high-speed informatization and globalization, online education is no longer an exquisite concept in the ivory tower, but a rapidly developing industry closely relevant to people's daily lives. Numerous lectures are recorded in form of multimedia data, uploaded to the Internet and made publicly accessible from anywhere in this world. These lectures are generally addressed as e-lectures. In recent year, a new popular form of e-lectures, the Massive Open Online Courses (MOOCs), boosts the growth of online education industry and somehow turns "learning online" into a fashion. As an e-learning provider, besides to keep improving the quality of e-lecture content, to provide better learning environment for online learners is also a highly important task. This task can be preceded in various ways, and one of them is to enhance and upgrade the learning materials provided: e-lectures could be more than videos. Moreover, this process of enhancement or upgrading should be done automatically, without giving extra burdens to the lecturers or teaching teams, and this is the aim of this thesis. The first part of this thesis is an integrated framework of multi-lingual subtitles production, which can help online learners penetrate the language barrier. The framework consists of Automatic Speech Recognition (ASR), Sentence Boundary Detection (SBD) and Machine Translation (MT), among which the proposed SBD solution is major technical contribution, building on Deep Neural Network (DNN) and Word Vector (WV) and achieving state-of-the-art performance. Besides, a quantitative evaluation with dozens of volunteers is also introduced to measure how these auto-generated subtitles could actually help in context of e-lectures. Secondly, a technical solution "TOG" (Tree-Structure Outline Generation) is proposed to extract textual content from the displaying slides recorded in video and re-organize them into a hierarchical lecture outline, which may serve in multiple functions, such like preview, navigation and retrieval. TOG runs adaptively and can be roughly divided into intra-slide and inter-slides phases. Table detection and lecture video segmentation can be implemented as sub- or post-application in these two phases respectively. Evaluation on diverse e-lectures shows that all the outlines, tables and segments achieved are trustworthily accurate. Based on the subtitles and outlines previously created, lecture videos can be further split into sentence units and slide-based segment units. A lecture highlighting process is further applied on these units, in order to capture and mark the most important parts within the corresponding lecture, just as what people do with a pen when reading paper books. Sentence-level highlighting depends on the acoustic analysis on the audio track, while segment-level highlighting focuses on exploring clues from the statistical information of related transcripts and slide content. Both objective and subjective evaluations prove that the proposed lecture highlighting solution is with decent precision and welcomed by users. All above enhanced e-lecture materials have been already implemented in actual use or made available for implementation by convenient interfaces. N2 - In der Ära der mit Hochgeschwindigkeit digitalisierten und globalisierten Welt ist die Online-Bildung nicht mehr ein kunstvoller Begriff im Elfenbeinturm, sondern eine sich schnell entwickelnde Industrie, die für den Alltag der Menschen eine wichtige Rolle spielt. Zahlreiche Vorlesungen werden digital aufgezeichnet und im Internet Online zur Verfügung gestellt, so dass sie vom überall auf der Welt erreichbar und zugänglich sind. Sie werden als e-Vorlesungen bezeichnet. Eine neue Form der Online-Bildung namens „Massive Open Online Courses“ (MOOCs), welche zum Trend seit dem letzten Jahr geworden ist, verstärket und beschleunigt die Entwicklung des Online-Lernens. Ein Online-Lernen Anbieter hat nicht nur die Qualität des Lerninhaltes sondern auch die Lernumgebung und die Lerntools ständig zu verbessern. Eine diese Verbesserungen ist die Form, in der das Lernmaterial aktualisiert und angeboten wird. Das Ziel dieser Dissertation ist die Untersuchung und die Entwicklung von Tools, die der Prozess der Verbesserung und Aktualisierung des Lernmaterials automatisch durchführen. Die entwickelten Tools sollen das Lehrerteam entlasten und seine Arbeit beschleunigen. Der erste Teil der Dissertation besteht aus einem integrierten Framework für die Generierung von mehrsprachigen Untertiteln. Dies kann den Online-Lernern ermöglichen, die Sprachbarriere beim Lernen zu überwinden. Das Framework besteht aus „Automatic Speech Recognition“ (ASR), „Sentence Boundary Detection“ (SBD), und „Machine Translation“ (MT). SBD ist realisiert durch die Anwendung von „Deep Neural Network“ (DNN) und „Word Vector“ (WV), wodurch die Genauigkeit der Stand der Technik erreicht ist. Außerdem quantitative Bewertung durch Dutzende von Freiwilligen ist also eingesetzt, um zu evaluieren, wie diese automaisch generierten Untertiteln in den E-Vorlesungen helfen können. Im zweiten Teil ist eine technische Lösung namens „Tree-Structure Outline Generation“ (TOG) für die Extraktion des textuellen Inhalts aus den Folien präsentiert. Der extrahierten Informationen werden dann in strukturierter Form dargestellt, welche die Outline der Vorlesung wiederspiegelt. Diese Darstellung kann verschiedenen Funktionen dienen, wie dem Vorschau, der Navigation, und dem Abfragen des Inhaltes. TOG ist adaptiv und kann grob in Intra-Folie und Inter-Folien Phasen unterteilt werden. Für diese Phasen, Tabellenerkennung und die Segmentierung von Vorlesungsvideo können als Sub- oder Post-Applikation jeweils implementiert werden. Die höhere Genauigkeit der extrahierten Outline, der Tabellen, und der Segmenten wird experimentell durch die Anwendung auf verschieden e-Vorlesungen gezeigt. Basierend auf den Untertiteln und dem Outline, die in vorher generiert wurden, Vorlesungsvideos können weiter in Satzeinheiten und Folien-basierten Segmenteinheiten gesplittet werden. Ein Hervorhebungsprozess wird weiter auf diese Einheiten angewendet, um die wichtigsten Teile innerhalb der entsprechenden Vorlesung zu erfassen und zu markieren. Dies entspricht genau, was die Lerner mit einem Stift beim Lesen von Büchern machen. Die Satz-Level-Hervorhebung hängt von der akustischen Analyse auf der Audiospur ab, während die Segment-Level-Hervorhebung auf die Erforschung von Hinweisen aus den statistischen Informationen der verwandten Transkripte und des Folieninhalts fokussiert. Die objektiven und subjektiven Auswertungen zeigen, dass die vorgeschlagene Vorlesungsvorhebungslösung mit anständiger Präzision und von den Benutzern akzeptiert wird. All diese Methoden für die Verbesserung der Online-Materialien wurden bereits für den Einsatz implementiert und durch komfortable Schnittstellen zur Verfügung gestellt. KW - E-Learning KW - deep learning KW - NLP KW - document analysis KW - E-Learning KW - Deep Learning KW - natürliche Sprachverarbeitung KW - Dokument Analyse Y1 - 2017 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-408224 ER - TY - THES A1 - Dämpfling, Helge Leoard Carl T1 - DeepGeoMap BT - a deep learning convolutional neural network architecture for geological hyperspectral classification and mapping N2 - In recent years, deep learning improved the way remote sensing data is processed. The classification of hyperspectral data is no exception. 2D or 3D convolutional neural networks have outperformed classical algorithms on hyperspectral image classification in many cases. However, geological hyperspectral image classification includes several challenges, often including spatially more complex objects than found in other disciplines of hyperspectral imaging that have more spatially similar objects (e.g., as in industrial applications, aerial urban- or farming land cover types). In geological hyperspectral image classification, classical algorithms that focus on the spectral domain still often show higher accuracy, more sensible results, or flexibility due to spatial information independence. In the framework of this thesis, inspired by classical machine learning algorithms that focus on the spectral domain like the binary feature fitting- (BFF) and the EnGeoMap algorithm, the author of this thesis proposes, develops, tests, and discusses a novel, spectrally focused, spatial information independent, deep multi-layer convolutional neural network, named 'DeepGeoMap’, for hyperspectral geological data classification. More specifically, the architecture of DeepGeoMap uses a sequential series of different 1D convolutional neural networks layers and fully connected dense layers and utilizes rectified linear unit and softmax activation, 1D max and 1D global average pooling layers, additional dropout to prevent overfitting, and a categorical cross-entropy loss function with Adam gradient descent optimization. DeepGeoMap was realized using Python 3.7 and the machine and deep learning interface TensorFlow with graphical processing unit (GPU) acceleration. This 1D spectrally focused architecture allows DeepGeoMap models to be trained with hyperspectral laboratory image data of geochemically validated samples (e.g., ground truth samples for aerial or mine face images) and then use this laboratory trained model to classify other or larger scenes, similar to classical algorithms that use a spectral library of validated samples for image classification. The classification capabilities of DeepGeoMap have been tested using two geological hyperspectral image data sets. Both are geochemically validated hyperspectral data sets one based on iron ore and the other based on copper ore samples. The copper ore laboratory data set was used to train a DeepGeoMap model for the classification and analysis of a larger mine face scene within the Republic of Cyprus, where the samples originated from. Additionally, a benchmark satellite-based dataset, the Indian Pines data set, was used for training and testing. The classification accuracy of DeepGeoMap was compared to classical algorithms and other convolutional neural networks. It was shown that DeepGeoMap could achieve higher accuracies and outperform these classical algorithms and other neural networks in the geological hyperspectral image classification test cases. The spectral focus of DeepGeoMap was found to be the most considerable advantage compared to spectral-spatial classifiers like 2D or 3D neural networks. This enables DeepGeoMap models to train data independently of different spatial entities, shapes, and/or resolutions. N2 - In den letzten Jahren hat Deep Learning die Verarbeitung von Fernerkundungsdaten verbessert. Die Klassifizierung hyperspektraler Daten ist keine Ausnahme. 2D- oder 3D-Convolutional Neural Networks haben in vielen Fällen klassische Algorithmen zur hyperspektralen Bildklassifizierung übertroffen. Die Klassifikation geologischer hyperspektraler Bilder beinhaltet jedoch mehrere Herausforderungen, die oft räumlich komplexere Objekte umfassen als in anderen Disziplinen der hyperspektralen Bildanalyse, die in der Regel räumlich ähnlichere Objekte aufweisen (z. B. in industriellen Anwendungen, städtischen oder landwirtschaftlichen Luftaufnahmen). Bei der geologischen hyperspektralen Bildklassifizierung zeigen klassische Algorithmen, die sich auf den Spektralbereich konzentrieren, oft noch eine höhere Klassifizierungsgenauigkeit, sinnvollere Ergebnisse oder Flexibilität aufgrund räumlicher Informationsunabhängigkeit. Im Rahmen dieser Arbeit, inspiriert von klassischen maschinellen Lernalgorithmen, die sich auf den spektralen Bereich konzentrieren, wie dem Binary Feature Fitting- (BFF) und dem EnGeoMap-Algorithmus, schlägt der Autor dieser Arbeit ein neuartiges, spektral fokussiertes, räumlich unabhängiges, tiefes mehrschichtiges neuronales Faltungsnetzwerk (Deep Convolutional Neural Network) mit dem Namen "DeepGeoMap" für die hyperspektrale geologische Datenklassifizierung vor. Genauer gesagt verwendet die Architektur von DeepGeoMap eine sequenzielle Reihe verschiedener „1D-Convolutional-Layer“ und „1D-Dense-Layer“ und verwendet ReLU und Softmax-Aktivierung, "1D-Max- und 1D-Global-Average-Pooling-Layer“, ein zusätzliches "Dropout-Layer", um ein „Overfitting“ zu verhindern, und eine kategoriale Kreuzentropieverlustfunktion mit Adam-Gradientenabstiegsoptimierung. DeepGeoMap wurde mit Python 3.7 und der Machine- und Deep-Learning-Schnittstelle TensorFlow mit Grafikartenbeschleunigung (GPU) realisiert. Diese spektral fokussierte 1D-Architektur ermöglicht das Trainieren von DeepGeoMap-Modellen mit hyperspektralen Laborbilddaten geochemisch validierter Proben (nach dem Vorbild klassischer Algorithmen, die eine Spektralbibliothek validierter Proben zur Bildklassifizierung verwenden). Die Klassifizierungsfähigkeiten von DeepGeoMap wurden mit zwei geologischen hyperspektralen Bilddatensätzen getestet. Bei beiden handelt es sich um geochemisch validierte hyperspektrale Datensätze, von denen einer auf Eisenerz und der andere auf Kupfererzproben basiert. Der Kupfererz-Labordatensatz wurde verwendet, um ein DeepGeoMap-Modell für die Klassifizierung und Analyse einer größeren Tagebauwandszene in der Republik Zypern, aus der die Proben stammten, zu trainieren. Darüber hinaus wurde ein satellitenbasierter Benchmark-Datensatz, der Indian Pines-Datensatz, für Training und Tests verwendet. Die Klassifikationsgenauigkeit von DeepGeoMap wurde mit klassischen Algorithmen und anderen neuronalen Faltungsnetzen verglichen. Es wurde gezeigt, dass DeepGeoMap höhere Genauigkeiten erreichen und diese klassischen Algorithmen und andere neuronale Netze in den Testfällen der geologischen hyperspektralen Bildklassifizierung übertreffen kann. Der spektrale Fokus von DeepGeoMap erwies sich als der größte Vorteil gegenüber spektral-räumlichen Klassifikatoren wie 2D- oder 3D-Convolutional Neural Networks. Dadurch können DeepGeoMap-Modelle Daten unabhängig von unterschiedlichen räumlichen Einheiten, Formen und/oder Auflösungen trainieren. KW - deep learning KW - convolutional neural network KW - geological hyperspectral image classification KW - deep learning KW - faltendes neuronales Netzwerk KW - geologische hyperspektrale Bildklassifikation Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-520575 ER - TY - JOUR A1 - Döllner, Jürgen Roland Friedrich T1 - Geospatial artificial intelligence BT - potentials of machine learning for 3D point clouds and geospatial digital twins JF - Journal of photogrammetry, remote sensing and geoinformation science : PFG : Photogrammetrie, Fernerkundung, Geoinformation N2 - Artificial intelligence (AI) is changing fundamentally the way how IT solutions are implemented and operated across all application domains, including the geospatial domain. This contribution outlines AI-based techniques for 3D point clouds and geospatial digital twins as generic components of geospatial AI. First, we briefly reflect on the term "AI" and outline technology developments needed to apply AI to IT solutions, seen from a software engineering perspective. Next, we characterize 3D point clouds as key category of geodata and their role for creating the basis for geospatial digital twins; we explain the feasibility of machine learning (ML) and deep learning (DL) approaches for 3D point clouds. In particular, we argue that 3D point clouds can be seen as a corpus with similar properties as natural language corpora and formulate a "Naturalness Hypothesis" for 3D point clouds. In the main part, we introduce a workflow for interpreting 3D point clouds based on ML/DL approaches that derive domain-specific and application-specific semantics for 3D point clouds without having to create explicit spatial 3D models or explicit rule sets. Finally, examples are shown how ML/DL enables us to efficiently build and maintain base data for geospatial digital twins such as virtual 3D city models, indoor models, or building information models. N2 - Georäumliche Künstliche Intelligenz: Potentiale des Maschinellen Lernens für 3D-Punktwolken und georäumliche digitale Zwillinge. Künstliche Intelligenz (KI) verändert grundlegend die Art und Weise, wie IT-Lösungen in allen Anwendungsbereichen, einschließlich dem Geoinformationsbereich, implementiert und betrieben werden. In diesem Beitrag stellen wir KI-basierte Techniken für 3D-Punktwolken als einen Baustein der georäumlichen KI vor. Zunächst werden kurz der Begriff "KI” und die technologischen Entwicklungen skizziert, die für die Anwendung von KI auf IT-Lösungen aus der Sicht der Softwaretechnik erforderlich sind. Als nächstes charakterisieren wir 3D-Punktwolken als Schlüsselkategorie von Geodaten und ihre Rolle für den Aufbau von räumlichen digitalen Zwillingen; wir erläutern die Machbarkeit der Ansätze für Maschinelles Lernen (ML) und Deep Learning (DL) in Bezug auf 3D-Punktwolken. Insbesondere argumentieren wir, dass 3D-Punktwolken als Korpus mit ähnlichen Eigenschaften wie natürlichsprachliche Korpusse gesehen werden können und formulieren eine "Natürlichkeitshypothese” für 3D-Punktwolken. Im Hauptteil stellen wir einen Workflow zur Interpretation von 3D-Punktwolken auf der Grundlage von ML/DL-Ansätzen vor, die eine domänenspezifische und anwendungsspezifische Semantik für 3D-Punktwolken ableiten, ohne explizite räumliche 3D-Modelle oder explizite Regelsätze erstellen zu müssen. Abschließend wird an Beispielen gezeigt, wie ML/DL es ermöglichen, Basisdaten für räumliche digitale Zwillinge, wie z.B. für virtuelle 3D-Stadtmodelle, Innenraummodelle oder Gebäudeinformationsmodelle, effizient aufzubauen und zu pflegen. KW - geospatial artificial intelligence KW - machine learning KW - deep learning KW - 3D KW - point clouds KW - geospatial digital twins KW - 3D city models Y1 - 2020 U6 - https://doi.org/10.1007/s41064-020-00102-3 SN - 2512-2789 SN - 2512-2819 VL - 88 IS - 1 SP - 15 EP - 24 PB - Springer International Publishing CY - Cham ER - TY - JOUR A1 - Evsevleev, Sergei A1 - Paciornik, Sidnei A1 - Bruno, Giovanni T1 - Advanced deep learning-based 3D microstructural characterization of multiphase metal matrix composites JF - Advanced engineering materials N2 - The quantitative analysis of microstructural features is a key to understanding the micromechanical behavior of metal matrix composites (MMCs), which is a premise for their use in practice. Herein, a 3D microstructural characterization of a five-phase MMC is performed by synchrotron X-ray computed tomography (SXCT). A workflow for advanced deep learning-based segmentation of all individual phases in SXCT data is shown using a fully convolutional neural network with U-net architecture. High segmentation accuracy is achieved with a small amount of training data. This enables extracting unprecedently precise microstructural parameters (e.g., volume fractions and particle shapes) to be input, e.g., in micromechanical models. KW - computed tomography KW - convolutional neural networks KW - deep learning KW - metal KW - matrix composites KW - segmentations Y1 - 2020 U6 - https://doi.org/10.1002/adem.201901197 SN - 1438-1656 SN - 1527-2648 VL - 22 IS - 4 PB - Wiley-VCH CY - Weinheim ER - TY - THES A1 - Galetzka, Fabian T1 - Investigating and improving background context consistency in neural conversation models N2 - Neural conversation models aim to predict appropriate contributions to a (given) conversation by using neural networks trained on dialogue data. A specific strand focuses on non-goal driven dialogues, first proposed by Ritter et al. (2011): They investigated the task of transforming an utterance into an appropriate reply. Then, this strand evolved into dialogue system approaches using long dialogue histories and additional background context. Contributing meaningful and appropriate to a conversation is a complex task, and therefore research in this area has been very diverse: Serban et al. (2016), for example, looked into utilizing variable length dialogue histories, Zhang et al. (2018) added additional context to the dialogue history, Wolf et al. (2019) proposed a model based on pre-trained Self-Attention neural networks (Vasvani et al., 2017), and Dinan et al. (2021) investigated safety issues of these approaches. This trend can be seen as a transformation from trying to somehow carry on a conversation to generating appropriate replies in a controlled and reliable way. In this thesis, we first elaborate the meaning of appropriateness in the context of neural conversation models by drawing inspiration from the Cooperative Principle (Grice, 1975). We first define what an appropriate contribution has to be by operationalizing these maxims as demands on conversation models: being fluent, informative, consistent towards given context, coherent and following a social norm. Then, we identify different targets (or intervention points) to achieve the conversational appropriateness by investigating recent research in that field. In this thesis, we investigate the aspect of consistency towards context in greater detail, being one aspect of our interpretation of appropriateness. During the research, we developed a new context-based dialogue dataset (KOMODIS) that combines factual and opinionated context to dialogues. The KOMODIS dataset is publicly available and we use the data in this thesis to gather new insights in context-augmented dialogue generation. We further introduced a new way of encoding context within Self-Attention based neural networks. For that, we elaborate the issue of space complexity from knowledge graphs, and propose a concise encoding strategy for structured context inspired from graph neural networks (Gilmer et al., 2017) to reduce the space complexity of the additional context. We discuss limitations of context-augmentation for neural conversation models, explore the characteristics of knowledge graphs, and explain how we create and augment knowledge graphs for our experiments. Lastly, we analyzed the potential of reinforcement and transfer learning to improve context-consistency for neural conversation models. We find that current reward functions need to be more precise to enable the potential of reinforcement learning, and that sequential transfer learning can improve the subjective quality of generated dialogues. N2 - Neuronale Konversationsmodelle versuchen einen angemessenen Beitrag zu einer (gegebenen) Konversation zu erzeugen, indem neuronale Netze auf Dialogdaten trainiert werden. Ein spezieller Forschungszweig beschäftigt sich mit den nicht-zielgeführten Dialogen, erstmals vorgestellt von Ritter et al. (2011): Das Team untersuchte die Aufgabe der Transformation einer Äußerung in eine angemessene Antwort. Im Laufe der Zeit hat dieser Zweig Dialogsystem-Ansätze hervorgebracht, die lange Konversationen und zusätzlichen Kontext verarbeiten können. Einen sinnvollen und angemessenen Beitrag zu einem Gespräch zu leisten, ist eine komplexe Aufgabe, und daher war die Forschung auf diesem Gebiet sehr vielfältig: Serban et al. (2016) untersuchten beispielsweise die Verwendung von Dialogverläufen variabler Länge, Zhang et al. (2018) fügten der Dialoggeschichte zusätzlichen Kontext hinzu, Wolf et al. (2019) schlugen ein Modell vor, das auf vortrainierten neuronalen Self-Attention Schichten basiert (Vasvani et al., 2017), und Dinan et al. (2021) untersuchten Ansätze zur Kontrolle von unangebrachten Inhalten, wie zum Beispiel Beleidigungen. Dieser Trend kann als Transformation gesehen werden, der vom Versuch, ein Gespräch irgendwie fortzuführen, hin zum kontrollierten und zuverlässigen Generieren angemessener Antworten reicht. In dieser Arbeit untersuchen wir den Aspekt der Kontextkonsistenz genauer, der ein Aspekt unserer Interpretation von einem angemessenen Konversationsbeitrag ist. Während der Untersuchungen haben wir einen neuen kontextbasierten Dialogdatensatz (KOMODIS) entwickelt, der sachlichen und meinungsbezogenen Kontext zu Dialogen kombiniert. Der KOMODIS Datensatz ist öffentlich verfügbar, und wir verwenden die Daten in dieser Arbeit, um neue Einblicke in die kontextunterstützte Dialoggenerierung zu gewinnen. Wir haben außerdem eine neue Methode zur Eingabe von Kontext auf Self-Attention basierenden neuronalen Netzen entwickelt. Dazu erörtern wir zunächst das Problem der begrenzten Eingabelänge für Sequenzen aus Wissensgraphen in solche Modelle, und schlagen eine effiziente Codierungsstrategie für strukturierten Kontext vor, die von Graph Neural Networks inspiriert ist (Gilmer et al., 2017), um die Komplexität des zusätzlichen Kontexts zu reduzieren. Wir diskutieren die Grenzen der Kontexterweiterung für neuronale Konversationsmodelle, untersuchen die Eigenschaften von Wissensgraphen und erklären, wie wir Wissensgraphen für unsere Experimente erstellen und erweitern können. Schließlich haben wir das Potenzial von Reinforcement Learning und Transfer Learning analysiert, um die Kontextkonsistenz für neuronale Konversationsmodelle zu verbessern. Wir stellen fest, dass aktuelle Reward Funktionen präziser sein müssen, um das Potenzial von Reinforcement Learning zu nutzen, und dass Sequential Transfer Learning die subjektive Qualität der generierten Dialoge verbessern kann. KW - conversational ai KW - neural conversation models KW - context consistency KW - gpt KW - conversation KW - dialogue KW - deep learning KW - knowledge graphs KW - Kontextkonsistenz KW - Konversation KW - Dialog KI KW - Deep Learning KW - Dialog KW - GPT KW - Wissensgraph KW - neuronale Konversationsmodelle Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-584637 ER - TY - JOUR A1 - Krestel, Ralf A1 - Chikkamath, Renukswamy A1 - Hewel, Christoph A1 - Risch, Julian T1 - A survey on deep learning for patent analysis JF - World patent information N2 - Patent document collections are an immense source of knowledge for research and innovation communities worldwide. The rapid growth of the number of patent documents poses an enormous challenge for retrieving and analyzing information from this source in an effective manner. Based on deep learning methods for natural language processing, novel approaches have been developed in the field of patent analysis. The goal of these approaches is to reduce costs by automating tasks that previously only domain experts could solve. In this article, we provide a comprehensive survey of the application of deep learning for patent analysis. We summarize the state-of-the-art techniques and describe how they are applied to various tasks in the patent domain. In a detailed discussion, we categorize 40 papers based on the dataset, the representation, and the deep learning architecture that were used, as well as the patent analysis task that was targeted. With our survey, we aim to foster future research at the intersection of patent analysis and deep learning and we conclude by listing promising paths for future work. KW - deep learning KW - patent analysis KW - text mining KW - natural language processing Y1 - 2021 U6 - https://doi.org/10.1016/j.wpi.2021.102035 SN - 0172-2190 SN - 1874-690X VL - 65 PB - Elsevier CY - Amsterdam ER - TY - THES A1 - Kriegerowski, Marius T1 - Development of waveform-based, automatic analysis tools for the spatio-temporal characterization of massive earthquake clusters and swarms N2 - Earthquake swarms are characterized by large numbers of events occurring in a short period of time within a confined source volume and without significant mainshock aftershock pattern as opposed to tectonic sequences. Intraplate swarms in the absence of active volcanism usually occur in continental rifts as for example in the Eger Rift zone in North West Bohemia, Czech Republic. A common hypothesis links event triggering to pressurized fluids. However, the exact causal chain is often poorly understood since the underlying geotectonic processes are slow compared to tectonic sequences. The high event rate during active periods challenges standard seismological routines as these are often designed for single events and therefore costly in terms of human resources when working with phase picks or computationally costly when exploiting full waveforms. This methodological thesis develops new approaches to analyze earthquake swarm seismicity as well as the underlying seismogenic volume. It focuses on the region of North West (NW) Bohemia, a well studied, well monitored earthquake swarm region. In this work I develop and test an innovative approach to detect and locate earthquakes using deep convolutional neural networks. This technology offers great potential as it allows to efficiently process large amounts of data which becomes increasingly important given that seismological data storage grows at increasing pace. The proposed deep neural network trained on NW Bohemian earthquake swarm records is able to locate 1000 events in less than 1 second using full waveforms while approaching precision of double difference relocated catalogs. A further technological novelty is that the trained filters of the deep neural network’s first layer can be repurposed to function as a pattern matching event detector without additional training on noise datasets. For further methodological development and benchmarking, I present a new toolbox to generate realistic earthquake cluster catalogs as well as synthetic full waveforms of those clusters in an automated fashion. The input is parameterized using constraints on source volume geometry, nucleation and frequency-magnitude relations. It harnesses recorded noise to produce highly realistic synthetic data for benchmarking and development. This tool is used to study and assess detection performance in terms of magnitude of completeness Mc of a full waveform detector applied to synthetic data of a hydrofracturing experiment at the Wysin site, Poland. Finally, I present and demonstrate a novel approach to overcome the masking effects of wave propagation between earthquake and stations and to determine source volume attenuation directly in the source volume where clustered earthquakes occur. The new event couple spectral ratio approach exploits high frequency spectral slopes of two events sharing the greater part of their rays. Synthetic tests based on the toolbox mentioned before show that this method is able to infer seismic wave attenuation within the source volume at high spatial resolution. Furthermore, it is independent from the distance towards a station as well as the complexity of the attenuation and velocity structure outside of the source volume of swarms. The application to recordings of the NW Bohemian earthquake swarm shows increased P phase attenuation within the source volume (Qp < 100) based on results at a station located close to the village Luby (LBC). The recordings of a station located in epicentral proximity, close to Nový Kostel (NKC), show a relatively high complexity indicating that waves arriving at that station experience more scattering than signals recorded at other stations. The high level of complexity destabilizes the inversion. Therefore, the Q estimate at NKC is not reliable and an independent proof of the high attenuation finding given the geometrical and frequency constraints is still to be done. However, a high attenuation in the source volume of NW Bohemian swarms has been postulated before in relation to an expected, highly damaged zone bearing CO 2 at high pressure. The methods developed in the course of this thesis yield the potential to improve our understanding regarding the role of fluids and gases in intraplate event clustering. N2 - Erdbebenschwärme zeichnen sich durch eine große Anzahl an Ereignissen in einem relativ kleinen Zeitraum und Volumen aus. Im Gegensatz zu tektonischen Sequenzen ist in der Regel keine signifikantes Muster von Vor- und Nachbeben erkennbar. In Abwesenheit aktiven Vulkanismusses, kommen Erdbebenschwärme innerhalb kontinentaler Platten häufg an kontinentalen Verwerfungen vor, wie Beispielsweise im Bereich des Egergrabens im nordböhmischen Becken (Tschechien). Eine übliche Hypothese verbindet den Erdbebenentstehungsprozess mit Hochdruckfluiden. Der exakte kausale Zusammenhang ist jedoch häufig enigmatisch, da die zugrundeliegenden geotektonischen Prozesse im Vergleich zu tektonischen Sequenzen relativ langsam sind. Die hohe Erdbebenrate während aktiver Phasen stellt hohe Anforderungen an etablierte seismologische Routinen da diese häufg für Einzelereignisse konzipiert sind. So können sie einen hohen Aufwand bei manueller Selektion seismischer Phasen (picking) bedeuten oder rechenerisch aufwändig sein wenn volle Wellenformen verarbeitet werden sollen. Im Rahmen dieser methodologischen Thesis werden neue Ansätze zur Analyse seismischer Schwärme, sowie des zugrundeliegenden seismogenen Volumens entwickelt. Der Fokus liegt hierbei auf der gut untersuchten und überwachten nordböhmischen Schwarmregion. Ich entwickle und teste in dieser Arbeit einen innovativen Ansatz zur Detektion und Lokalisation von Erdbeben basierend auf einem tiefen konvolvierenden neuronalen Netzwerk. Diese Technologie bietet großes Potential da sie es erlaubt große Datenmengen effizient zu verarbeiten was durch die zunehmenden Datenmengen seismologischer Datenzentren immer weiter an Bedeutung gewinnt. Das entwickelte tiefe neuronale Netzwerk, trainiert auf Aufnahmen nordböhmischer Erdbebenschwärme, ist in der Lage 1000 Eregnisse in weniger als 1 Sekunde bei Verwendung voller Wellenformen zu lokalisieren und erreicht eine Präzision die vergleichbar ist mit der Genauigkeit eines Katalogs, der mittels Doppelte Differenzen Methode relokalisiert wurde. Eine weitere technologische Neuheit ist, dass die trainierten Filter der ersten Schicht des tiefen neuronalen Netzwerkes als Mustererkennungsfilter umfunktioniert werden und damit als Ereignisdetektor dienen können, ohne, dass zuvor explizit auf Rauschdaten trainiert werden muss. Für die weitere technologische Entwicklung stelle ich ein neues, automatisiertes Werkzeug für die synthetisierung realistischer Erdbebenschwarmkataloge, sowie hierauf basierender synthetischer voller Wollenform vor. Die Eingabeparameter werden durch die Geometrie des Quellvolumens, der Nukleationscharakteristik und Magnitude-Häufigkeitsverteilung definiert. Weiter können Rauschsignale realer Daten verwendet werden um äußerst realistische synthetische Daten zu generieren. Dieses Werkzeug wird verwendet um die Vollständigkeitmagnitude eines Detektors für volle Wellenformen anhand synthetischer Daten zu evaluieren. Die synthetisierten Daten sind Motiviert durch ein Hydrofrackingexperiment in Wysin (Polen). Des Weiteren stelle ich einen neuen Ansatz vor, der die Effekte der Wellenausbreitung zwischen Erdbeben und Stationen ausblendet und die Bestimmung der Dämpfung unmittelbar im Quellvolumen von Schwarmerdbeben erlaubt. Diese neue Methode benutzt das hochfrequente spektrale Verhältnis von Ereignispaaren mit gemeinsamen Strahlenwegen. Synthetische Tests zeigen, dass die Methode in der Lage ist die Dämpfung innerhalb des Quellvolumens mit hoher räumlicher Genauigkeit zu bestimmen. Weiter ist sie im Einzelnen unabhängig von der Entfernung zwischen Ereignis und Station als auch von der Komplexität der Dämpfungs und Geschwindigkeitsstruktur außerhalb des Quellvolumens. Die Anwendung auf Daten des nordböhmischen Erdbebenschwarms zeigt eine erhöhte P Phasen Dämpfung im Quellvolumen (Qp < 100) basierend auf Daten einer Station in der Nähe des Dorfes Luby (LBC). Die Wellenformen einer Station in unmittelbarer epizentraler Nähe, bei Novy Kostel (NKC), weisen eine relativ hohe Komplexität auf, was darauf hindeutet, dass seismische Wellen, die diese Station erreichen relativ stark gestreut werden im Vergleich zu anderen Stationen. Das hohe Maß an Komplexität destabilisiert die Methode und führt zu ungenauen Schätzungen an der Station NKC. Daher bedarf es einer weiteren unabhängigen Validierung der hohen Dämpfung bei gegebenen geometrischen und spektralen Voraussetzungen. Nichtsdestoweniger wurde bereits eine hohe Dämpfung im Quellvolumen der nordböhmischen Schwärme postuliert und erwartet, insbesondere im Zusammenhang mit einer Zone hoher Brüchigkeit die CO2 bei hohen Drücken beinhaltet. Die Methoden die im Rahmen dieser Thesis entwickelt werden haben das Potential unser Verständnis bezüglich der Rolle von Fluiden und Gasen bei Erdbebenschärmen innerhalb kontinentaler Platten zu verbessern. KW - attenuation tomography KW - earthquake swarms KW - deep learning KW - Dämpfungstomographie KW - Erdbebenschwärme KW - tiefes Lernen Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-444040 ER - TY - THES A1 - Lilienkamp, Henning T1 - Enhanced computational approaches for data-driven characterization of earthquake ground motion and rapid earthquake impact assessment T1 - Fortgeschrittene Berechnungsansätze für die datengestützte Charakterisierung von Erdbeben-Bodenbewegungen und die schnelle Einschätzung von Erdbebenauswirkungen N2 - Rapidly growing seismic and macroseismic databases and simplified access to advanced machine learning methods have in recent years opened up vast opportunities to address challenges in engineering and strong motion seismology from novel, datacentric perspectives. In this thesis, I explore the opportunities of such perspectives for the tasks of ground motion modeling and rapid earthquake impact assessment, tasks with major implications for long-term earthquake disaster mitigation. In my first study, I utilize the rich strong motion database from the Kanto basin, Japan, and apply the U-Net artificial neural network architecture to develop a deep learning based ground motion model. The operational prototype provides statistical estimates of expected ground shaking, given descriptions of a specific earthquake source, wave propagation paths, and geophysical site conditions. The U-Net interprets ground motion data in its spatial context, potentially taking into account, for example, the geological properties in the vicinity of observation sites. Predictions of ground motion intensity are thereby calibrated to individual observation sites and earthquake locations. The second study addresses the explicit incorporation of rupture forward directivity into ground motion modeling. Incorporation of this phenomenon, causing strong, pulse like ground shaking in the vicinity of earthquake sources, is usually associated with an intolerable increase in computational demand during probabilistic seismic hazard analysis (PSHA) calculations. I suggest an approach in which I utilize an artificial neural network to efficiently approximate the average, directivity-related adjustment to ground motion predictions for earthquake ruptures from the 2022 New Zealand National Seismic Hazard Model. The practical implementation in an actual PSHA calculation demonstrates the efficiency and operational readiness of my model. In a follow-up study, I present a proof of concept for an alternative strategy in which I target the generalizing applicability to ruptures other than those from the New Zealand National Seismic Hazard Model. In the third study, I address the usability of pseudo-intensity reports obtained from macroseismic observations by non-expert citizens for rapid impact assessment. I demonstrate that the statistical properties of pseudo-intensity collections describing the intensity of shaking are correlated with the societal impact of earthquakes. In a second step, I develop a probabilistic model that, within minutes of an event, quantifies the probability of an earthquake to cause considerable societal impact. Under certain conditions, such a quick and preliminary method might be useful to support decision makers in their efforts to organize auxiliary measures for earthquake disaster response while results from more elaborate impact assessment frameworks are not yet available. The application of machine learning methods to datasets that only partially reveal characteristics of Big Data, qualify the majority of results obtained in this thesis as explorative insights rather than ready-to-use solutions to real world problems. The practical usefulness of this work will be better assessed in the future by applying the approaches developed to growing and increasingly complex data sets. N2 - Das rapide Wachstum seismischer und makroseismischer Datenbanken und der vereinfachte Zugang zu fortschrittlichen Methoden aus dem Bereich des maschinellen Lernens haben in den letzen Jahren die datenfokussierte Betrachtung von Fragestellungen in der Seismologie ermöglicht. In dieser Arbeit erforsche ich das Potenzial solcher Betrachtungsweisen im Hinblick auf die Modellierung erdbebenbedingter Bodenerschütterungen und der raschen Einschätzung von gesellschaftlichen Erdbebenauswirkungen, Disziplinen von erheblicher Bedeutung für den langfristigen Erdbebenkatastrophenschutz in seismisch aktiven Regionen. In meiner ersten Studie nutze ich die Vielzahl an Bodenbewegungsdaten aus der Kanto Region in Japan, sowie eine spezielle neuronale Netzwerkarchitektur (U-Net) um ein Bodenbewegungsmodell zu entwickeln. Der einsatzbereite Prototyp liefert auf Basis der Charakterisierung von Erdbebenherden, Wellenausbreitungspfaden und Bodenbeschaffenheiten statistische Schätzungen der zu erwartenden Bodenerschütterungen. Das U-Net interpretiert Bodenbewegungsdaten im räumlichen Kontext, sodass etwa die geologischen Beschaffenheiten in der Umgebung von Messstationen mit einbezogen werden können. Auch die absoluten Koordinaten von Erdbebenherden und Messstationen werden berücksichtigt. Die zweite Studie behandelt die explizite Berücksichtigung richtungsabhängiger Verstärkungseffekte in der Bodenbewegungsmodellierung. Obwohl solche Effekte starke, impulsartige Erschütterungen in der Nähe von Erdbebenherden erzeugen, die eine erhebliche seismische Beanspruchung von Gebäuden darstellen, wird deren explizite Modellierung in der seismischen Gefährdungsabschätzung aufgrund des nicht vertretbaren Rechenaufwandes ausgelassen. Mit meinem, auf einem neuronalen Netzwerk basierenden, Ansatz schlage ich eine Methode vor, umdieses Vorhaben effizient für Erdbebenszenarien aus dem neuseeländischen seismischen Gefährdungsmodell für 2022 (NSHM) umzusetzen. Die Implementierung in einer seismischen Gefährdungsrechnung unterstreicht die Praktikabilität meines Modells. In einer anschließenden Machbarkeitsstudie untersuche ich einen alternativen Ansatz der auf die Anwendbarkeit auf beliebige Erdbebeszenarien abzielt. Die abschließende dritte Studie befasst sich mit dem potenziellen Nutzen der von makroseismischen Beobachtungen abgeleiteten pseudo-Erschütterungsintensitäten für die rasche Abschätzung von gesellschaftlichen Erdbebenauswirkungen. Ich zeige, dass sich aus den Merkmalen solcher Daten Schlussfolgerungen über die gesellschaftlichen Folgen eines Erdbebens ableiten lassen. Basierend darauf formuliere ich ein statistisches Modell, welches innerhalb weniger Minuten nach einem Erdbeben die Wahrscheinlichkeit für das Auftreten beachtlicher gesellschaftlicher Auswirkungen liefert. Ich komme zu dem Schluss, dass ein solches Modell, unter bestimmten Bedingungen, hilfreich sein könnte, um EntscheidungsträgerInnen in ihren Bestrebungen Hilfsmaßnahmen zu organisieren zu unterstützen. Die Anwendung von Methoden des maschinellen Lernens auf Datensätze die sich nur begrenzt als Big Data charakterisieren lassen, qualifizieren die Mehrheit der Ergebnisse dieser Arbeit als explorative Einblicke und weniger als einsatzbereite Lösungen für praktische Fragestellungen. Der praktische Nutzen dieser Arbeit wird sich in erst in Zukunft an der Anwendung der erarbeiteten Ansätze auf wachsende und zunehmend komplexe Datensätze final abschätzen lassen. KW - seismology KW - machine learning KW - deep learning KW - ground motion modeling KW - seismic hazard KW - rapid earthquake impact assessment KW - geophysics KW - Deep Learning KW - Geophysik KW - Bodenbewegungsmodellierung KW - maschinelles Lernen KW - schnelle Einschätzung von Erdbebenauswirkungen KW - seismische Gefährdung KW - Seismologie Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-631954 ER - TY - THES A1 - Panzer, Marcel T1 - Design of a hyper-heuristics based control framework for modular production systems T1 - Design eines auf Hyperheuristiken basierenden Steuerungsframeworks für modulare Produktionssysteme N2 - Volatile supply and sales markets, coupled with increasing product individualization and complex production processes, present significant challenges for manufacturing companies. These must navigate and adapt to ever-shifting external and internal factors while ensuring robustness against process variabilities and unforeseen events. This has a pronounced impact on production control, which serves as the operational intersection between production planning and the shop- floor resources, and necessitates the capability to manage intricate process interdependencies effectively. Considering the increasing dynamics and product diversification, alongside the need to maintain constant production performances, the implementation of innovative control strategies becomes crucial. In recent years, the integration of Industry 4.0 technologies and machine learning methods has gained prominence in addressing emerging challenges in production applications. Within this context, this cumulative thesis analyzes deep learning based production systems based on five publications. Particular attention is paid to the applications of deep reinforcement learning, aiming to explore its potential in dynamic control contexts. Analysis reveal that deep reinforcement learning excels in various applications, especially in dynamic production control tasks. Its efficacy can be attributed to its interactive learning and real-time operational model. However, despite its evident utility, there are notable structural, organizational, and algorithmic gaps in the prevailing research. A predominant portion of deep reinforcement learning based approaches is limited to specific job shop scenarios and often overlooks the potential synergies in combined resources. Furthermore, it highlights the rare implementation of multi-agent systems and semi-heterarchical systems in practical settings. A notable gap remains in the integration of deep reinforcement learning into a hyper-heuristic. To bridge these research gaps, this thesis introduces a deep reinforcement learning based hyper- heuristic for the control of modular production systems, developed in accordance with the design science research methodology. Implemented within a semi-heterarchical multi-agent framework, this approach achieves a threefold reduction in control and optimisation complexity while ensuring high scalability, adaptability, and robustness of the system. In comparative benchmarks, this control methodology outperforms rule-based heuristics, reducing throughput times and tardiness, and effectively incorporates customer and order-centric metrics. The control artifact facilitates a rapid scenario generation, motivating for further research efforts and bridging the gap to real-world applications. The overarching goal is to foster a synergy between theoretical insights and practical solutions, thereby enriching scientific discourse and addressing current industrial challenges. N2 - Volatile Beschaffungs- und Absatzmärkte sowie eine zunehmende Produktindividualisierung konfrontieren Fertigungsunternehmen mit beträchtlichen Herausforderungen. Diese erfordern eine Anpassung der Produktion an sich ständig wechselnde externe Einflüsse und eine hohe Prozessrobustheit gegenüber unvorhersehbaren Schwankungen. Ein Schlüsselelement in diesem Kontext ist die Produktionssteuerung, die als operative Schnittstelle zwischen der Produktions- planung und den Fertigungsressourcen fungiert und eine effiziente Handhabung zahlreicher Prozessinterdependenzen sicherstellen muss. Angesichts dieser gesteigerten Produktionsdynamik und Produktvielfalt rücken innovative Steuerungsansätze in den Vordergrund. In jüngerer Zeit wurden daher verstärkt Industrie-4.0-Ansätze und Methoden des maschinellen Lernens betrachtet. Im Kontext der aktuellen Forschung analysiert die vorliegende kumulative Arbeit Deep-Learning basierte Produktionssysteme anhand von fünf Publikationen. Hierbei wird ein besonderes Augenmerk auf die Anwendungen des Deep Reinforcement Learning gelegt, um dessen Potenzial zu ergründen. Die Untersuchungen zeigen, dass das Deep Reinforcement Learning in vielen Produktionsanwendungen sowohl herkömmlichen Ansätzen als auch an- deren Deep-Learning Werkzeugen überlegen ist. Diese Überlegenheit ergibt sich vor allem aus dem interaktiven Lernprinzip und der direkten Interaktion mit der Umwelt, was es für die dynamische Produktionssteuerung besonders geeignet macht. Dennoch werden strukturelle, organisatorische und algorithmische Forschungslücken identifiziert. Die überwiegende Mehrheit der untersuchten Ansätze fokussiert sich auf Werkstattfertigungen und vernachlässigt dabei potenzielle Prozesssynergien modularer Produktionssysteme. Ferner zeigt sich, dass Multi- Agenten- und Mehr-Ebenen-Systeme sowie die Kombination verschiedener algorithmischer Ansätze nur selten zur Anwendung kommen. Um diese Forschungslücken zu adressieren, wird eine auf Deep Reinforcement Learning basierende Hyper-Heuristik für die Steuerung modularer Produktionssysteme vorgestellt, die nach der Design Science Research Methodology entwickelt wird. Ein semi-heterarchisches Multi-Agenten-System ermöglicht eine dreifache Reduktion der Steuerungs- und Optimierungs- komplexität und gewährleistet gleichzeitig eine hohe Systemadaptabilität und -robustheit. In Benchmarks übertrifft das Steuerungskonzept regelbasierte Ansätze, minimiert Durchlaufzeiten und Verspätungen und berücksichtigt kunden- sowie auftragsorientierte Kennzahlen. Die ent- wickelte Steuerungsmethodik ermöglicht einen schnellen Szenarienentwurf, um dadurch weitere Forschungsbemühungen zu stimulieren und die bestehende Transferlücke zur Realität weiter zu überbrücken. Das Ziel dieser Forschungsarbeit ist es, eine Synergie zwischen theoretischen Erkenntnissen und Praxis-relevanten Lösungen zu schaffen, um sowohl den wissenschaftlichen Diskurs zu bereichern als auch Antworten auf aktuelle industrielle Herausforderungen zu bieten. KW - modular production KW - deep learning KW - modulare Produktion KW - Produktionssteuerung KW - Deep Learning KW - Reinforcement Learning KW - Simulation KW - production control KW - reinforcement learning KW - simulation Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-633006 ER - TY - GEN A1 - Panzer, Marcel A1 - Bender, Benedict A1 - Gronau, Norbert T1 - A deep reinforcement learning based hyper-heuristic for modular production control T2 - Zweitveröffentlichungen der Universität Potsdam : Wirtschafts- und Sozialwissenschaftliche Reihe N2 - In nowadays production, fluctuations in demand, shortening product life-cycles, and highly configurable products require an adaptive and robust control approach to maintain competitiveness. This approach must not only optimise desired production objectives but also cope with unforeseen machine failures, rush orders, and changes in short-term demand. Previous control approaches were often implemented using a single operations layer and a standalone deep learning approach, which may not adequately address the complex organisational demands of modern manufacturing systems. To address this challenge, we propose a hyper-heuristics control model within a semi-heterarchical production system, in which multiple manufacturing and distribution agents are spread across pre-defined modules. The agents employ a deep reinforcement learning algorithm to learn a policy for selecting low-level heuristics in a situation-specific manner, thereby leveraging system performance and adaptability. We tested our approach in simulation and transferred it to a hybrid production environment. By that, we were able to demonstrate its multi-objective optimisation capabilities compared to conventional approaches in terms of mean throughput time, tardiness, and processing of prioritised orders in a multi-layered production system. The modular design is promising in reducing the overall system complexity and facilitates a quick and seamless integration into other scenarios. T3 - Zweitveröffentlichungen der Universität Potsdam : Wirtschafts- und Sozialwissenschaftliche Reihe - 173 KW - production control KW - modular production KW - multi-agent system KW - deep reinforcement learning KW - deep learning KW - multi-objective optimisation Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-605642 SN - 1867-5808 ER - TY - JOUR A1 - Panzer, Marcel A1 - Bender, Benedict A1 - Gronau, Norbert T1 - A deep reinforcement learning based hyper-heuristic for modular production control JF - International journal of production research N2 - In nowadays production, fluctuations in demand, shortening product life-cycles, and highly configurable products require an adaptive and robust control approach to maintain competitiveness. This approach must not only optimise desired production objectives but also cope with unforeseen machine failures, rush orders, and changes in short-term demand. Previous control approaches were often implemented using a single operations layer and a standalone deep learning approach, which may not adequately address the complex organisational demands of modern manufacturing systems. To address this challenge, we propose a hyper-heuristics control model within a semi-heterarchical production system, in which multiple manufacturing and distribution agents are spread across pre-defined modules. The agents employ a deep reinforcement learning algorithm to learn a policy for selecting low-level heuristics in a situation-specific manner, thereby leveraging system performance and adaptability. We tested our approach in simulation and transferred it to a hybrid production environment. By that, we were able to demonstrate its multi-objective optimisation capabilities compared to conventional approaches in terms of mean throughput time, tardiness, and processing of prioritised orders in a multi-layered production system. The modular design is promising in reducing the overall system complexity and facilitates a quick and seamless integration into other scenarios. KW - production control KW - modular production KW - multi-agent system KW - deep reinforcement learning KW - deep learning KW - multi-objective optimisation Y1 - 2023 U6 - https://doi.org/10.1080/00207543.2023.2233641 SN - 0020-7543 SN - 1366-588X SN - 0278-6125 SP - 1 EP - 22 PB - Taylor & Francis CY - London ER - TY - THES A1 - Pfrang, Konstantin Johannes T1 - Search for light primordial black holes with VERITAS using gamma γ-ray and optical observations T1 - Suche nach leichten primordialen Schwarzen Löchern mit VERITAS anhand von Gammastrahlen- und optischen Beobachtungen N2 - The Very Energetic Radiation Imaging Telescope Array System (VERITAS) is an array of four imaging atmospheric Cherenkov telescopes (IACTs). VERITAS is sensitive to very-high-energy gamma-rays in the range of 100 GeV to >30 TeV. Hypothesized primordial black holes (PBHs) are attractive targets for IACTs. If they exist, their potential cosmological impact reaches beyond the candidacy for constituents of dark matter. The sublunar mass window is the largest unconstrained range of PBH masses. This thesis aims to develop novel concepts searching for light PBHs with VERITAS. PBHs below the sublunar window lose mass due to Hawking radiation. They would evaporate at the end of their lifetime, leading to a short burst of gamma-rays. If PBHs formed at about 10^15 g, the evaporation would occur nowadays. Detecting these signals might not only confirm the existence of PBHs but also prove the theory of Hawking radiation. This thesis probes archival VERITAS data recorded between 2012 and 2021 for possible PBH signals. This work presents a new automatic approach to assess the quality of the VERITAS data. The array-trigger rate and far infrared temperature are well suited to identify periods with poor data quality. These are masked by time cuts to obtain a consistent and clean dataset which contains about 4222 hours. The PBH evaporations could occur at any location in the field of view or time within this data. Only a blind search can be performed to identify these short signals. This thesis implements a data-driven deep learning based method to search for short transient signals with VERITAS. It does not depend on the modelling of the effective area and radial acceptance. This work presents the first application of this method to actual observational IACT data. This thesis develops new concepts dealing with the specifics of the data and the transient detection method. These are reflected in the developed data preparation pipeline and search strategies. After correction for trial factors, no candidate PBH evaporation is found in the data. Thus, new constraints of the local rate of PBH evaporations are derived. At the 99% confidence limit it is below <1.07 * 10^5 pc^-3 yr^-1. This constraint with the new, independent analysis approach is in the range of existing limits for the evaporation rate. This thesis also investigates an alternative novel approach to searching for PBHs with IACTs. Above the sublunar window, the PBH abundance is constrained by optical microlensing studies. The sampling speed, which is of order of minutes to hours for traditional optical telescopes, is a limiting factor in expanding the limits to lower masses. IACTs are also powerful instruments for fast transient optical astronomy with up to O(ns) sampling. This thesis investigates whether IACTs might constrain the sublunar window with optical microlensing observations. This study confirms that, in principle, the fast sampling speed might allow extending microlensing searches into the sublunar mass window. However, the limiting factor for IACTs is the modest sensitivity to detect changes in optical fluxes. This thesis presents the expected rate of detectable events for VERITAS as well as prospects of possible future next-generation IACTs. For VERITAS, the rate of detectable microlensing events in the sublunar range is ~10^-6 per year of observation time. The future prospects for a 100 times more sensitive instrument are at ~0.05 events per year. N2 - Das Very Energetic Radiation Imaging Telescope Array System (VERITAS) ist ein Instrument mit vier atmosphärischen Cherenkov-Teleskopen (IACTs). VERITAS ist empfindlich für sehr hoch-energetische gamma-Strahlung im Bereich von 100 GeV bis >30 TeV. Hypothetische primordiale Schwarze Löcher (PBHs) sind interessante Ziele für IACTs. Falls sie existieren, könnte ihr potentieller kosmologischer Einfluss über die Möglichkeit, dass sie ein Bestandteil der dunklen Materie sind, hinausgehen. Der größte nicht eingeschränkte Bereich der PBH-Massen ist das sublunare Fenster. Das Ziel dieser Arbeit ist es, neue Konzepte für die Suche nach leichten PBHs mit VERITAS zu entwickeln. Durch die Hawking-Strahlung verlieren PBHs unterhalb des sublunaren Fensters an Masse. Am Ende ihrer Lebenszeit verdampfen diese, was einen kurzen Ausbruch an gamma-Strahlung verursacht. Falls PBHs mit ~10^15 g entstanden sind, würde sich dieser Ausbruch in der heutigen Zeit ereignen. Der Nachweis dieser Signale könnte nicht nur die Existenz von PBHs bestätigen, sondern auch die Theorie der Hawking-Strahlung beweisen. In dieser Arbeit werden VERITAS-Daten aus den Jahren 2012 bis 2021 auf mögliche PBH-Signale untersucht. Es wird ein neuer automatisierter Ansatz zur Beurteilung der Qualität der VERITAS-Daten vorgestellt. Die Array-Trigger-Rate und die ferne Infrarot-Temperatur sind gut geeignet, um Zeiträume mit schlechter Datenqualität zu identifizieren. Diese werden maskiert, um einen konsistenten Datensatz zu erhalten, der etwa 4222 Stunden umfasst. Die PBH-Verdampfungen könnten an jeder beliebigen Stelle im Sichtfeld oder zu jeder beliebigen Zeit innerhalb dieser Daten auftreten. Zur Identifizierung dieser kurzen Signale kann nur eine Blindsuche durchgeführt werden. In dieser Arbeit wird eine datengestützte, auf Deep Learning basierende Methode zur Suche nach kurzen vorübergehenden Signalen mit VERITAS implementiert. Die Methode ist nicht von der Modellierung der effektiven Fläche und der radialen Akzeptanz abhängig. Diese Arbeit präsentiert die erste Anwendung dieser Methode mit echten IACT-Beobachtungsdaten. In dieser Arbeit werden neue Konzepte entwickelt, die sich mit den Besonderheiten der Daten und der Methode befassen. Sie spiegeln sich in der entwickelten Datenvorbereitung und den Suchstrategien wider. Nach Korrektur der Versuchsfaktoren wird in den Daten kein Kandidat für PBH-Verdampfung gefunden. Daher wird die lokale Rate von PBH-Verdampfungen auf unter <1.07 * 10^5 pc^-3 yr^-1 an der 99%-Konfidenzgrenze beschränkt. Dieses Limit, welches mit dem neuen, unabhängigen Analyseansatz erreicht wurde, liegt im Bereich der bestehenden Grenzwerte für die Verdunstungsrate. In dieser Arbeit wird auch ein alternativer neuer Ansatz für die Suche nach PBHs mit IACTs untersucht. Oberhalb des sublunaren Fensters wird die Existenz von PBHs durch optische Mikrolensing-Studien eingeschränkt. Für niedrige Massen ist die Abtastgeschwindigkeit, die bei herkömmlichen optischen Teleskopen in der Größenordnung von Minuten bis Stunden liegt, ein limitierender Faktor. IACTs sind auch leistungsstarke Instrumente für die schnelle optische Astronomie mit Abtastraten von bis zu O(ns). In dieser Arbeit wird untersucht, ob IACTs das sublunare Fenster mit optischen Mikrolensing-Beobachtungen beschränken könnten. Diese Studie bestätigt, dass die schnelle Abtastgeschwindigkeit eine Ausweitung der Mikrolensing-Suche auf das sublunare Massenfenster ermöglichen könnte. Der begrenzende Faktor für IACTs ist jedoch die eingeschränkte Empfindlichkeit, um Änderungen im optischen Fluss zu detektieren. In dieser Arbeit werden die erwarteten Raten der nachweisbaren Ereignisse für VERITAS sowie für mögliche zukünftige IACTs der nächsten Generation vorgestellt. Für VERITAS beträgt die Rate der nachweisbaren Microlensing-Ereignisse im sublunaren Bereich ~10^-6 pro Jahr. Die Zukunftsaussichten für ein 100-mal empfindlicheres Instrument liegen bei ~0,05 Ereignissen pro Jahr. KW - PBH KW - dark matter KW - primordial black holes KW - microlensing KW - gamma-rays KW - deep learning KW - LSTM KW - LSTM KW - PBH KW - Dunkle Materie KW - Deep Learning KW - Gammastrahlung KW - Microlensing KW - Primordiale Schwarzen Löchern Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-587266 ER - TY - THES A1 - Rezaei, Mina T1 - Deep representation learning from imbalanced medical imaging N2 - Medical imaging plays an important role in disease diagnosis, treatment planning, and clinical monitoring. One of the major challenges in medical image analysis is imbalanced training data, in which the class of interest is much rarer than the other classes. Canonical machine learning algorithms suppose that the number of samples from different classes in the training dataset is roughly similar or balance. Training a machine learning model on an imbalanced dataset can introduce unique challenges to the learning problem. A model learned from imbalanced training data is biased towards the high-frequency samples. The predicted results of such networks have low sensitivity and high precision. In medical applications, the cost of misclassification of the minority class could be more than the cost of misclassification of the majority class. For example, the risk of not detecting a tumor could be much higher than referring to a healthy subject to a doctor. The current Ph.D. thesis introduces several deep learning-based approaches for handling class imbalanced problems for learning multi-task such as disease classification and semantic segmentation. At the data-level, the objective is to balance the data distribution through re-sampling the data space: we propose novel approaches to correct internal bias towards fewer frequency samples. These approaches include patient-wise batch sampling, complimentary labels, supervised and unsupervised minority oversampling using generative adversarial networks for all. On the other hand, at algorithm-level, we modify the learning algorithm to alleviate the bias towards majority classes. In this regard, we propose different generative adversarial networks for cost-sensitive learning, ensemble learning, and mutual learning to deal with highly imbalanced imaging data. We show evidence that the proposed approaches are applicable to different types of medical images of varied sizes on different applications of routine clinical tasks, such as disease classification and semantic segmentation. Our various implemented algorithms have shown outstanding results on different medical imaging challenges. N2 - Medizinische Bildanalyse spielt eine wichtige Rolle bei der Diagnose von Krankheiten, der Behandlungsplanung, und der klinischen Überwachung. Eines der großen Probleme in der medizinischen Bildanalyse ist das Vorhandensein von nicht ausbalancierten Trainingsdaten, bei denen die Anzahl der Datenpunkte der Zielklasse in der Unterzahl ist. Die Aussagen eines Modells, welches auf einem unbalancierten Datensatz trainiert wurde, tendieren dazu Datenpunkte in die Klasse mit der Mehrzahl an Trainingsdaten einzuordnen. Die Aussagen eines solchen Modells haben eine geringe Sensitivität aber hohe Genauigkeit. Im medizinischen Anwendungsbereich kann die Einordnung eines Datenpunktes in eine falsche Klasse Schwerwiegende Ergebnisse mit sich bringen. In die Nichterkennung eines Tumors Beispielsweise brigt ein viel höheres Risiko für einen Patienten, als wenn ein gesunder Patient zum Artz geschickt wird. Das Problem des Lernens unter Nutzung von nicht ausbalancierten Trainingsdaten wird erst seit Kurzem bei der Klassifizierung von Krankheiten, der Entdeckung von Tumoren und beider Segmentierung von Tumoren untersucht. In der Literatur wird hier zwischen zwei verschiedenen Ansätzen unterschieden: datenbasierte und algorithmische Ansätze. Die vorliegende Arbeit behandelt das Lernen unter Nutzung von unbalancierten medizinischen Bilddatensätzen mittels datenbasierter und algorithmischer Ansätze. Bei den datenbasierten Ansätzen ist es unser Ziel, die Datenverteilung durch gezieltes Nutzen der vorliegenden Datenbasis auszubalancieren. Dazu schlagen wir neuartige Ansätze vor, um eine ausgeglichene Einordnung der Daten aus seltenen Klassen vornehmen zu können. Diese Ansätze sind unter anderem synthesize minority class sampling, patient-wise batch normalization, und die Erstellung von komplementären Labels unter Nutzung von generative adversarial networks. Auf der Seite der algorithmischen Ansätze verändern wir den Trainingsalgorithmus, um die Tendenz in Richtung der Klasse mit der Mehrzahl an Trainingsdaten zu verringern. Dafür schlagen wir verschiedene Algorithmen im Bereich des kostenintensiven Lernens, Ensemble-Lernens und des gemeinsamen Lernens vor, um mit stark unbalancierten Trainingsdaten umgehen zu können. Wir zeigen, dass unsere vorgeschlagenen Ansätze für verschiedenste Typen von medizinischen Bildern, mit variierender Größe, auf verschiedene Anwendungen im klinischen Alltag, z. B. Krankheitsklassifizierung, oder semantische Segmentierung, anwendbar sind. Weiterhin haben unsere Algorithmen hervorragende Ergebnisse bei unterschiedlichen Wettbewerben zur medizinischen Bildanalyse gezeigt. KW - machine learning KW - deep learning KW - computer vision KW - imbalanced learning KW - medical image analysis KW - Maschinenlernen KW - tiefes Lernen KW - unbalancierter Datensatz KW - Computervision KW - medizinische Bildanalyse Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-442759 ER - TY - JOUR A1 - Risch, Julian A1 - Krestel, Ralf ED - Agarwal, Basant ED - Nayak, Richi ED - Mittal, Namita ED - Patnaik, Srikanta T1 - Toxic comment detection in online discussions JF - Deep learning-based approaches for sentiment analysis N2 - Comment sections of online news platforms are an essential space to express opinions and discuss political topics. In contrast to other online posts, news discussions are related to particular news articles, comments refer to each other, and individual conversations emerge. However, the misuse by spammers, haters, and trolls makes costly content moderation necessary. Sentiment analysis can not only support moderation but also help to understand the dynamics of online discussions. A subtask of content moderation is the identification of toxic comments. To this end, we describe the concept of toxicity and characterize its subclasses. Further, we present various deep learning approaches, including datasets and architectures, tailored to sentiment analysis in online discussions. One way to make these approaches more comprehensible and trustworthy is fine-grained instead of binary comment classification. On the downside, more classes require more training data. Therefore, we propose to augment training data by using transfer learning. We discuss real-world applications, such as semi-automated comment moderation and troll detection. Finally, we outline future challenges and current limitations in light of most recent research publications. KW - deep learning KW - natural language processing KW - user-generated content KW - toxic comment classification KW - hate speech detection Y1 - 2020 SN - 978-981-15-1216-2 SN - 978-981-15-1215-5 U6 - https://doi.org/10.1007/978-981-15-1216-2_4 SN - 2524-7565 SN - 2524-7573 SP - 85 EP - 109 PB - Springer CY - Singapore ER - TY - JOUR A1 - Schirrmann, Michael A1 - Landwehr, Niels A1 - Giebel, Antje A1 - Garz, Andreas A1 - Dammer, Karl-Heinz T1 - Early detection of stripe rust in winter wheat using deep residual neural networks JF - Frontiers in plant science : FPLS N2 - Stripe rust (Pst) is a major disease of wheat crops leading untreated to severe yield losses. The use of fungicides is often essential to control Pst when sudden outbreaks are imminent. Sensors capable of detecting Pst in wheat crops could optimize the use of fungicides and improve disease monitoring in high-throughput field phenotyping. Now, deep learning provides new tools for image recognition and may pave the way for new camera based sensors that can identify symptoms in early stages of a disease outbreak within the field. The aim of this study was to teach an image classifier to detect Pst symptoms in winter wheat canopies based on a deep residual neural network (ResNet). For this purpose, a large annotation database was created from images taken by a standard RGB camera that was mounted on a platform at a height of 2 m. Images were acquired while the platform was moved over a randomized field experiment with Pst-inoculated and Pst-free plots of winter wheat. The image classifier was trained with 224 x 224 px patches tiled from the original, unprocessed camera images. The image classifier was tested on different stages of the disease outbreak. At patch level the image classifier reached a total accuracy of 90%. To test the image classifier on image level, the image classifier was evaluated with a sliding window using a large striding length of 224 px allowing for fast test performance. At image level, the image classifier reached a total accuracy of 77%. Even in a stage with very low disease spreading (0.5%) at the very beginning of the Pst outbreak, a detection accuracy of 57% was obtained. Still in the initial phase of the Pst outbreak with 2 to 4% of Pst disease spreading, detection accuracy with 76% could be attained. With further optimizations, the image classifier could be implemented in embedded systems and deployed on drones, vehicles or scanning systems for fast mapping of Pst outbreaks. KW - yellow rust KW - monitoring KW - deep learning KW - wheat crops KW - image recognition KW - camera sensor KW - ResNet KW - smart farming Y1 - 2021 U6 - https://doi.org/10.3389/fpls.2021.469689 SN - 1664-462X VL - 12 PB - Frontiers Media CY - Lausanne ER - TY - THES A1 - Seleem, Omar T1 - Towards urban pluvial flood mapping using data-driven models T1 - Kartierung städtischer Überschwemmungen mit datengesteuerten Modellen N2 - Casualties and damages from urban pluvial flooding are increasing. Triggered by short, localized, and intensive rainfall events, urban pluvial floods can occur anywhere, even in areas without a history of flooding. Urban pluvial floods have relatively small temporal and spatial scales. Although cumulative losses from urban pluvial floods are comparable, most flood risk management and mitigation strategies focus on fluvial and coastal flooding. Numerical-physical-hydrodynamic models are considered the best tool to represent the complex nature of urban pluvial floods; however, they are computationally expensive and time-consuming. These sophisticated models make large-scale analysis and operational forecasting prohibitive. Therefore, it is crucial to evaluate and benchmark the performance of other alternative methods. The findings of this cumulative thesis are represented in three research articles. The first study evaluates two topographic-based methods to map urban pluvial flooding, fill–spill–merge (FSM) and topographic wetness index (TWI), by comparing them against a sophisticated hydrodynamic model. The FSM method identifies flood-prone areas within topographic depressions while the TWI method employs maximum likelihood estimation to calibrate a TWI threshold (τ) based on inundation maps from the 2D hydrodynamic model. The results point out that the FSM method outperforms the TWI method. The study highlights then the advantage and limitations of both methods. Data-driven models provide a promising alternative to computationally expensive hydrodynamic models. However, the literature lacks benchmarking studies to evaluate the different models' performance, advantages and limitations. Model transferability in space is a crucial problem. Most studies focus on river flooding, likely due to the relative availability of flow and rain gauge records for training and validation. Furthermore, they consider these models as black boxes. The second study uses a flood inventory for the city of Berlin and 11 predictive features which potentially indicate an increased pluvial flooding hazard to map urban pluvial flood susceptibility using a convolutional neural network (CNN), an artificial neural network (ANN) and the benchmarking machine learning models random forest (RF) and support vector machine (SVM). I investigate the influence of spatial resolution on the implemented models, the models' transferability in space and the importance of the predictive features. The results show that all models perform well and the RF models are superior to the other models within and outside the training domain. The models developed using fine spatial resolution (2 and 5 m) could better identify flood-prone areas. Finally, the results point out that aspect is the most important predictive feature for the CNN models, and altitude is for the other models. While flood susceptibility maps identify flood-prone areas, they do not represent flood variables such as velocity and depth which are necessary for effective flood risk management. To address this, the third study investigates data-driven models' transferability to predict urban pluvial floodwater depth and the models' ability to enhance their predictions using transfer learning techniques. It compares the performance of RF (the best-performing model in the previous study) and CNN models using 12 predictive features and output from a hydrodynamic model. The findings in the third study suggest that while CNN models tend to generalise and smooth the target function on the training dataset, RF models suffer from overfitting. Hence, RF models are superior for predictions inside the training domains but fail outside them while CNN models could control the relative loss in performance outside the training domains. Finally, the CNN models benefit more from transfer learning techniques than RF models, boosting their performance outside training domains. In conclusion, this thesis has evaluated both topographic-based methods and data-driven models to map urban pluvial flooding. However, further studies are crucial to have methods that completely overcome the limitation of 2D hydrodynamic models. N2 - Die Zahl der Todesopfer und Schäden durch Überschwemmungen in Städten nimmt zu. Ausgelöst durch kurze, lokal begrenzte und intensive Niederschlagsereignisse können urbane pluviale Überschwemmungen überall auftreten - sogar in Gebieten, in denen es in der Vergangenheit keine Überschwemmungen gab. Urbane pluviale Überschwemmungen haben eine relativ geringe zeitliche und räumliche Ausdehnung. Obwohl die kumulativen Verluste durch urbane pluviale Überschwemmungen vergleichbar sind, konzentrieren sich die meisten Hochwasserrisikomanagement- und -minderungsstrategien auf Fluss- und Küstenüberschwemmungen. Numerisch-physikalisch-hydrodynamische Modelle gelten als das beste Instrument zur Darstellung der komplexen Natur städtischer pluvialer Überschwemmungen; sie sind jedoch rechenintensiv und zeitaufwändig. Diese anspruchsvollen Modelle machen groß angelegte Analysen und operationelle Vorhersagen unerschwinglich. Daher ist es von entscheidender Bedeutung, die Leistung anderer Methoden zu bewerten und zu vergleichen, die komplexe hydrodynamische Modelle ersetzen könnten. Die Ergebnisse dieser kumulativen Arbeit werden in drei Forschungsartikeln dargestellt. In der ersten Studie bewerte ich zwei topografiebasierte Methoden zur Kartierung von Überschwemmungen in Städten, die Fill-Spill-Merge-Methode (FSM) und den topografischen Nässeindex (TWI), indem ich sie mit einem hochentwickelten hydrodynamischen Modell vergleiche. Die FSM-Methode identifiziert überschwemmungsgefährdete Gebiete innerhalb topografischer Senken, während die TWI-Methode eine Maximum-Likelihood-Schätzung verwendet, um einen TWI-Schwellenwert (τ) auf der Grundlage von Überschwemmungskarten aus dem hydrodynamischen 2D-Modell zu kalibrieren. Die Ergebnisse zeigen, dass die FSM-Methode die TWI-Methode übertrifft. Anschließend werden die Vorteile und Grenzen beider Methoden aufgezeigt. Datengesteuerte Modelle stellen eine vielversprechende Alternative zu rechenintensiven hydrodynamischen Modellen dar. In der Literatur fehlt es jedoch an Benchmarking-Studien zur Bewertung der Leistung, Vorteile und Grenzen der verschiedenen Modelle. Die räumliche Übertragbarkeit von Modellen ist ein entscheidendes Problem. Die meisten Studien konzentrieren sich auf Flussüberschwemmungen, was wahrscheinlich auf die relative Verfügbarkeit von Abfluss- und Regenmesserdaten für Training und Validierung zurückzuführen ist. Außerdem betrachten sie diese Modelle als Black Boxes. In der zweiten Studie verwende ich ein Hochwasserinventar für die Stadt Berlin und 11 prädiktive Merkmale, die potenziell auf eine erhöhte pluviale Hochwassergefahr hinweisen, um die Anfälligkeit für pluviale Überschwemmungen in Städten zu kartieren. Dazu verwende ich ein Faltungsneuronales Netzwerk (CNN), ein Künstliches Neuronales Netzwerk (ANN) und die Benchmarking-Modelle Random Forest (RF) und Support Vector Machine (SVM). Ich untersuche den Einfluss der räumlichen Auflösung auf die implementierten Modelle, die Übertragbarkeit der Modelle im Raum und die Bedeutung der prädiktiven Merkmale. Die Ergebnisse zeigen, dass alle Modelle gut abschneiden und die RF-Modelle den anderen Modellen innerhalb und außerhalb des Trainingsbereichs überlegen sind. Die Modelle, die mit feiner räumlicher Auflösung (2 und 5 m) entwickelt wurden, konnten hochwassergefährdete Gebiete besser identifizieren. Schließlich zeigen die Ergebnisse, dass der Aspekt das wichtigste Vorhersagemerkmal für die CNN-Modelle ist, und die Höhe für die anderen Modelle. Während Hochwasseranfälligkeitskarten überschwemmungsgefährdete Gebiete identifizieren, stellen sie keine Hochwasservariablen wie Geschwindigkeit und Wassertiefe dar, die für ein effektives Hochwasserrisikomanagement notwendig sind. Um dieses Problem anzugehen, untersuche ich in der dritten Studie die Übertragbarkeit datengesteuerter Modelle auf die Vorhersage der Überschwemmungstiefe in städtischen Gebieten und die Fähigkeit der Modelle, ihre Vorhersagen durch Transfer-Learning-Techniken zu verbessern. Ich vergleiche die Leistung von RF- (das beste Modell in der vorherigen Studie) und CNN-Modellen anhand von 12 Vorhersagemerkmalen und den Ergebnissen eines hydrodynamischen Modells. Die Ergebnisse der dritten Studie deuten darauf hin, dass CNN-Modelle dazu neigen, die Zielfunktion auf dem Trainingsdatensatz zu verallgemeinern und zu glätten, während RF-Modelle unter Overfitting leiden. Daher sind RF-Modelle für Vorhersagen innerhalb der Trainingsbereiche überlegen, versagen aber außerhalb davon, während CNN-Modelle den relativen Leistungsverlust außerhalb der Trainingsdomänen kontrollieren können. Schließlich profitieren die CNN-Modelle mehr von Transfer-Learning-Techniken als RF-Modelle, was ihre Leistung außerhalb der Trainingsbereiche erhöht. Zusammenfassend lässt sich sagen, dass in dieser Arbeit sowohl topografiebasierte Methoden als auch datengesteuerte Modelle zur Kartierung von Überschwemmungen in Städten bewertet wurden. Weitere Studien sind jedoch von entscheidender Bedeutung, um Methoden zu entwickeln, die die Beschränkungen von 2D-hydrodynamischen Modellen vollständig überwinden. KW - urban pluvial flood KW - machine learning KW - deep learning KW - topography KW - tiefes Lernen KW - maschinelles Lernen KW - Topographie KW - städtische Überschwemmungen Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-598137 ER - TY - GEN A1 - Seleem, Omar A1 - Ayzel, Georgy A1 - Costa Tomaz de Souza, Arthur A1 - Bronstert, Axel A1 - Heistermann, Maik T1 - Towards urban flood susceptibility mapping using data-driven models in Berlin, Germany T2 - Zweitveröffentlichungen der Universität Potsdam : Mathematisch-Naturwissenschaftliche Reihe N2 - Identifying urban pluvial flood-prone areas is necessary but the application of two-dimensional hydrodynamic models is limited to small areas. Data-driven models have been showing their ability to map flood susceptibility but their application in urban pluvial flooding is still rare. A flood inventory (4333 flooded locations) and 11 factors which potentially indicate an increased hazard for pluvial flooding were used to implement convolutional neural network (CNN), artificial neural network (ANN), random forest (RF) and support vector machine (SVM) to: (1) Map flood susceptibility in Berlin at 30, 10, 5, and 2 m spatial resolutions. (2) Evaluate the trained models' transferability in space. (3) Estimate the most useful factors for flood susceptibility mapping. The models' performance was validated using the Kappa, and the area under the receiver operating characteristic curve (AUC). The results indicated that all models perform very well (minimum AUC = 0.87 for the testing dataset). The RF models outperformed all other models at all spatial resolutions and the RF model at 2 m spatial resolution was superior for the present flood inventory and predictor variables. The majority of the models had a moderate performance for predictions outside the training area based on Kappa evaluation (minimum AUC = 0.8). Aspect and altitude were the most influencing factors on the image-based and point-based models respectively. Data-driven models can be a reliable tool for urban pluvial flood susceptibility mapping wherever a reliable flood inventory is available. T3 - Zweitveröffentlichungen der Universität Potsdam : Mathematisch-Naturwissenschaftliche Reihe - 1297 KW - Urban pluvial flood susceptibility KW - convolutional neural network KW - deep learning KW - random forest KW - support vector machine KW - spatial resolution KW - flood predictors Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-576806 SN - 1866-8372 IS - 1297 SP - 1640 EP - 1662 ER - TY - JOUR A1 - Stober, Sebastian T1 - Toward Studying Music Cognition with Information Retrieval Techniques: Lessons Learned from the OpenMIIR Initiative JF - Frontiers in psychology N2 - As an emerging sub-field of music information retrieval (MIR), music imagery information retrieval (MIIR) aims to retrieve information from brain activity recorded during music cognition-such as listening to or imagining music pieces. This is a highly interdisciplinary endeavor that requires expertise in MIR as well as cognitive neuroscience and psychology. The OpenMIIR initiative strives to foster collaborations between these fields to advance the state of the art in MIIR. As a first step, electroencephalography (EEG) recordings ofmusic perception and imagination have beenmade publicly available, enabling MIR researchers to easily test and adapt their existing approaches for music analysis like fingerprinting, beat tracking or tempo estimation on this new kind of data. This paper reports on first results of MIIR experiments using these OpenMIIR datasets and points out how these findings could drive new research in cognitive neuroscience. KW - music cognition KW - music perception KW - music information retrieval KW - deep learning KW - representation learning Y1 - 2017 U6 - https://doi.org/10.3389/fpsyg.2017.01255 SN - 1664-1078 VL - 8 PB - Frontiers Research Foundation CY - Lausanne ER - TY - JOUR A1 - Stober, Sebastian T1 - Toward Studying Music Cognition with Information Retrieval Techniques BT - Lessons Learned from the OpenMIIR Initiative JF - Frontiers in psychology N2 - As an emerging sub-field of music information retrieval (MIR), music imagery information retrieval (MIIR) aims to retrieve information from brain activity recorded during music cognition–such as listening to or imagining music pieces. This is a highly inter-disciplinary endeavor that requires expertise in MIR as well as cognitive neuroscience and psychology. The OpenMIIR initiative strives to foster collaborations between these fields to advance the state of the art in MIIR. As a first step, electroencephalography (EEG) recordings of music perception and imagination have been made publicly available, enabling MIR researchers to easily test and adapt their existing approaches for music analysis like fingerprinting, beat tracking or tempo estimation on this new kind of data. This paper reports on first results of MIIR experiments using these OpenMIIR datasets and points out how these findings could drive new research in cognitive neuroscience. KW - music cognition KW - music perception KW - music information retrieval KW - deep learning KW - representation learning Y1 - 2017 U6 - https://doi.org/10.3389/fpsyg.2017.01255 SN - 1664-1078 VL - 8 PB - Frontiers Research Foundation CY - Lausanne ER - TY - GEN A1 - Stober, Sebastian T1 - Toward Studying Music Cognition with Information Retrieval Techniques BT - Lessons Learned from the OpenMIIR Initiative N2 - As an emerging sub-field of music information retrieval (MIR), music imagery information retrieval (MIIR) aims to retrieve information from brain activity recorded during music cognition–such as listening to or imagining music pieces. This is a highly inter-disciplinary endeavor that requires expertise in MIR as well as cognitive neuroscience and psychology. The OpenMIIR initiative strives to foster collaborations between these fields to advance the state of the art in MIIR. As a first step, electroencephalography (EEG) recordings of music perception and imagination have been made publicly available, enabling MIR researchers to easily test and adapt their existing approaches for music analysis like fingerprinting, beat tracking or tempo estimation on this new kind of data. This paper reports on first results of MIIR experiments using these OpenMIIR datasets and points out how these findings could drive new research in cognitive neuroscience. T3 - Zweitveröffentlichungen der Universität Potsdam : Humanwissenschaftliche Reihe - 347 KW - deep learning KW - music cognition KW - music information retrieval KW - music perception KW - representation learning Y1 - 2017 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-402762 ER - TY - THES A1 - Torcato Mordido, Gonçalo Filipe T1 - Diversification, compression, and evaluation methods for generative adversarial networks N2 - Generative adversarial networks (GANs) have been broadly applied to a wide range of application domains since their proposal. In this thesis, we propose several methods that aim to tackle different existing problems in GANs. Particularly, even though GANs are generally able to generate high-quality samples, the diversity of the generated set is often sub-optimal. Moreover, the common increase of the number of models in the original GANs framework, as well as their architectural sizes, introduces additional costs. Additionally, even though challenging, the proper evaluation of a generated set is an important direction to ultimately improve the generation process in GANs. We start by introducing two diversification methods that extend the original GANs framework to multiple adversaries to stimulate sample diversity in a generated set. Then, we introduce a new post-training compression method based on Monte Carlo methods and importance sampling to quantize and prune the weights and activations of pre-trained neural networks without any additional training. The previous method may be used to reduce the memory and computational costs introduced by increasing the number of models in the original GANs framework. Moreover, we use a similar procedure to quantize and prune gradients during training, which also reduces the communication costs between different workers in a distributed training setting. We introduce several topology-based evaluation methods to assess data generation in different settings, namely image generation and language generation. Our methods retrieve both single-valued and double-valued metrics, which, given a real set, may be used to broadly assess a generated set or separately evaluate sample quality and sample diversity, respectively. Moreover, two of our metrics use locality-sensitive hashing to accurately assess the generated sets of highly compressed GANs. The analysis of the compression effects in GANs paves the way for their efficient employment in real-world applications. Given their general applicability, the methods proposed in this thesis may be extended beyond the context of GANs. Hence, they may be generally applied to enhance existing neural networks and, in particular, generative frameworks. N2 - Generative adversarial networks (GANs) wurden seit ihrer Einführung in einer Vielzahl von Anwendungsbereichen eingesetzt. In dieser Dissertation schlagen wir einige Verfahren vor, die darauf abzielen, verschiedene bestehende Probleme von GANs zu lösen. Insbesondere, fokussieren wir uns auf das Problem das GANs zwar qualitative hochwertige Samples generieren können, aber die Diversität ist oft sub-optimal. Darüber hinaus, stellt die allgemein übliche Zunahme der Anzahl der Modelle unter dem ursprünglichen GAN-Framework, als auch deren Modellgröße weitere Aufwendungskosten dar. Abschließend, ist die richtige Evaluierung einer generierten Menge, wenn auch herausfordernd, eine wichtige Forschungsrichtung, um letztendlich den Generierungsprozess von GANs zu verbessern. Wir beginnen mit der Einführung von zwei Diversifizierungsmethoden die das ursprüngliche GAN-Framework um mehrere Gegenspieler erweitern, um die Diversität zu erhöhen. Um den zusätzlichen Speicher- und Rechenaufwand zu reduzieren, führen wir dann eine neue Kompressionsmethode ein. Diese Methode basiert auf den Monte-Carlo-Methoden und Importance Sampling, für das Quantisieren und Pruning der Gewichte und Aktivierungen von schon trainierten neuronalen Netzwerken ohne zusätzliches Trainieren. Wir erweitern die erwähne Methode zusätzlich für das Quantisieren und Pruning von Gradienten während des Trainierens, was die Kommunikationskosten zwischen verschiedenen sogenannten „Workern“ in einer verteilten Trainingsumgebung reduziert. Bezüglich der Bewertung der generierten Samples, stellen wir mehrere typologie basierte Evaluationsmethoden vor, die sich auf Bild-und Text konzentrieren. Um verschiedene Anwendungsfälle zu erfassen, liefern unsere vorgestellten Methoden einwertige und doppelwertige Metriken. Diese können einerseits dazu genutzt werden, generierte Samples, oder die Qualität und Verteilung der Samples anhand einer Menge von echten Samples zu bewerten. Außerdem, verwenden zwei unserer vorgestellten Metriken so genanntes locality-sensitive Hashing, um die generierten Samples von stark komprimierten GANs genau zu bewerten. Die Analyse von Kompressionseffekten in GANs ebnet den Weg für ihren effizienten Einsatz für reale Anwendungen. Aufgrund der allgemeinen Anwendungsmöglichkeit von GANs, können die in dieser Arbeit vorgestellten Methoden auch über Kontext von GANs hinaus erweitert werden. Daher könnten sie allgemein auf existierende neuronale Netzwerke angewandt werden und insbesondere auf generative Frameworks. KW - deep learning KW - generative adversarial networks KW - erzeugende gegnerische Netzwerke KW - tiefes Lernen Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-535460 ER - TY - BOOK A1 - Weber, Benedikt T1 - Human pose estimation for decubitus prophylaxis T1 - Verwendung von Posenabschätzung zur Dekubitusprophylaxe N2 - Decubitus is one of the most relevant diseases in nursing and the most expensive to treat. It is caused by sustained pressure on tissue, so it particularly affects bed-bound patients. This work lays a foundation for pressure mattress-based decubitus prophylaxis by implementing a solution to the single-frame 2D Human Pose Estimation problem. For this, methods of Deep Learning are employed. Two approaches are examined, a coarse-to-fine Convolutional Neural Network for direct regression of joint coordinates and a U-Net for the derivation of probability distribution heatmaps. We conclude that training our models on a combined dataset of the publicly available Bodies at Rest and SLP data yields the best results. Furthermore, various preprocessing techniques are investigated, and a hyperparameter optimization is performed to discover an improved model architecture. Another finding indicates that the heatmap-based approach outperforms direct regression. This model achieves a mean per-joint position error of 9.11 cm for the Bodies at Rest data and 7.43 cm for the SLP data. We find that it generalizes well on data from mattresses other than those seen during training but has difficulties detecting the arms correctly. Additionally, we give a brief overview of the medical data annotation tool annoto we developed in the bachelor project and furthermore conclude that the Scrum framework and agile practices enhanced our development workflow. N2 - Dekubitus ist eine der relevantesten Krankheiten in der Krankenpflege und die kostspieligste in der Behandlung. Sie wird durch anhaltenden Druck auf Gewebe verursacht, betrifft also insbesondere bettlägerige Patienten. Diese Arbeit legt eine Grundlage für druckmatratzenbasierte Dekubitusprophylaxe, indem eine Lösung für das Einzelbild-2D-Posenabschätzungsproblem implementiert wird. Dafür werden Methoden des tiefen Lernens verwendet. Zwei Ansätze, basierend auf einem Gefalteten Neuronalen grob-zu-fein Netzwerk zur direkten Regression der Gelenkkoordinaten und auf einem U-Netzwerk zur Ableitung von Wahrscheinlichkeitsverteilungsbildern, werden untersucht. Wir schlussfolgern, dass das Training unserer Modelle auf einem kombinierten Datensatz, bestehend aus den frei verfügbaren Bodies at Rest und SLP Daten, die besten Ergebnisse liefert. Weiterhin werden diverse Vorverarbeitungsverfahren untersucht und eine Hyperparameteroptimierung zum Finden einer verbesserten Modellarchitektur durchgeführt. Der wahrscheinlichkeitsverteilungsbasierte Ansatz übertrifft die direkte Regression. Dieses Modell erreicht einen durchschnittlichen Pro-Gelenk-Positionsfehler von 9,11 cm auf den Bodies at Rest und von 7,43 cm auf den SLP Daten. Wir sehen, dass es gut auf Daten anderer als der im Training verwendeten Matratzen funktioniert, aber Schwierigkeiten mit der korrekten Erkennung der Arme hat. Weiterhin geben wir eine kurze Übersicht des medizinischen Datenannotationstools annoto, welches wir im Zusammenhang mit dem Bachelorprojekt entwickelt haben, und schlussfolgern außerdem, dass Scrum und agile Praktiken unseren Entwicklungsprozess verbessert haben. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 153 KW - machine learning KW - deep learning KW - convolutional neural networks KW - pose estimation KW - decubitus KW - telemedicine KW - maschinelles Lernen KW - tiefes Lernen KW - gefaltete neuronale Netze KW - Posenabschätzung KW - Dekubitus KW - Telemedizin Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-567196 SN - 978-3-86956-551-4 SN - 1613-5652 SN - 2191-1665 IS - 153 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Wilksch, Moritz A1 - Abramova, Olga T1 - PyFin-sentiment BT - towards a machine-learning-based model for deriving sentiment from financial tweets JF - International journal of information management data insights N2 - Responding to the poor performance of generic automated sentiment analysis solutions on domain-specific texts, we collect a dataset of 10,000 tweets discussing the topics of finance and investing. We manually assign each tweet its market sentiment, i.e., the investor’s anticipation of a stock’s future return. Using this data, we show that all existing sentiment models trained on adjacent domains struggle with accurate market sentiment analysis due to the task’s specialized vocabulary. Consequently, we design, train, and deploy our own sentiment model. It outperforms all previous models (VADER, NTUSD-Fin, FinBERT, TwitterRoBERTa) when evaluated on Twitter posts. On posts from a different platform, our model performs on par with BERT-based large language models. We achieve this result at a fraction of the training and inference costs due to the model’s simple design. We publish the artifact as a python library to facilitate its use by future researchers and practitioners. KW - sentiment analysis KW - financial market sentiment KW - opinion mining KW - machine learning KW - deep learning Y1 - 2023 U6 - https://doi.org/10.1016/j.jjimei.2023.100171 SN - 2667-0968 VL - 3 IS - 1 PB - Elsevier CY - Amsterdam ER -