TY - THES A1 - Sawade, Christoph T1 - Active evaluation of predictive models T1 - Aktive Evaluierung von Vorhersagemodellen N2 - The field of machine learning studies algorithms that infer predictive models from data. Predictive models are applicable for many practical tasks such as spam filtering, face and handwritten digit recognition, and personalized product recommendation. In general, they are used to predict a target label for a given data instance. In order to make an informed decision about the deployment of a predictive model, it is crucial to know the model’s approximate performance. To evaluate performance, a set of labeled test instances is required that is drawn from the distribution the model will be exposed to at application time. In many practical scenarios, unlabeled test instances are readily available, but the process of labeling them can be a time- and cost-intensive task and may involve a human expert. This thesis addresses the problem of evaluating a given predictive model accurately with minimal labeling effort. We study an active model evaluation process that selects certain instances of the data according to an instrumental sampling distribution and queries their labels. We derive sampling distributions that minimize estimation error with respect to different performance measures such as error rate, mean squared error, and F-measures. An analysis of the distribution that governs the estimator leads to confidence intervals, which indicate how precise the error estimation is. Labeling costs may vary across different instances depending on certain characteristics of the data. For instance, documents differ in their length, comprehensibility, and technical requirements; these attributes affect the time a human labeler needs to judge relevance or to assign topics. To address this, the sampling distribution is extended to incorporate instance-specific costs. We empirically study conditions under which the active evaluation processes are more accurate than a standard estimate that draws equally many instances from the test distribution. We also address the problem of comparing the risks of two predictive models. The standard approach would be to draw instances according to the test distribution, label the selected instances, and apply statistical tests to identify significant differences. Drawing instances according to an instrumental distribution affects the power of a statistical test. We derive a sampling procedure that maximizes test power when used to select instances, and thereby minimizes the likelihood of choosing the inferior model. Furthermore, we investigate the task of comparing several alternative models; the objective of an evaluation could be to rank the models according to the risk that they incur or to identify the model with lowest risk. An experimental study shows that the active procedure leads to higher test power than the standard test in many application domains. Finally, we study the problem of evaluating the performance of ranking functions, which are used for example for web search. In practice, ranking performance is estimated by applying a given ranking model to a representative set of test queries and manually assessing the relevance of all retrieved items for each query. We apply the concepts of active evaluation and active comparison to ranking functions and derive optimal sampling distributions for the commonly used performance measures Discounted Cumulative Gain and Expected Reciprocal Rank. Experiments on web search engine data illustrate significant reductions in labeling costs. N2 - Maschinelles Lernen befasst sich mit Algorithmen zur Inferenz von Vorhersagemodelle aus komplexen Daten. Vorhersagemodelle sind Funktionen, die einer Eingabe – wie zum Beispiel dem Text einer E-Mail – ein anwendungsspezifisches Zielattribut – wie „Spam“ oder „Nicht-Spam“ – zuweisen. Sie finden Anwendung beim Filtern von Spam-Nachrichten, bei der Text- und Gesichtserkennung oder auch bei der personalisierten Empfehlung von Produkten. Um ein Modell in der Praxis einzusetzen, ist es notwendig, die Vorhersagequalität bezüglich der zukünftigen Anwendung zu schätzen. Für diese Evaluierung werden Instanzen des Eingaberaums benötigt, für die das zugehörige Zielattribut bekannt ist. Instanzen, wie E-Mails, Bilder oder das protokollierte Nutzerverhalten von Kunden, stehen häufig in großem Umfang zur Verfügung. Die Bestimmung der zugehörigen Zielattribute ist jedoch ein manueller Prozess, der kosten- und zeitaufwendig sein kann und mitunter spezielles Fachwissen erfordert. Ziel dieser Arbeit ist die genaue Schätzung der Vorhersagequalität eines gegebenen Modells mit einer minimalen Anzahl von Testinstanzen. Wir untersuchen aktive Evaluierungsprozesse, die mit Hilfe einer Wahrscheinlichkeitsverteilung Instanzen auswählen, für die das Zielattribut bestimmt wird. Die Vorhersagequalität kann anhand verschiedener Kriterien, wie der Fehlerrate, des mittleren quadratischen Verlusts oder des F-measures, bemessen werden. Wir leiten die Wahrscheinlichkeitsverteilungen her, die den Schätzfehler bezüglich eines gegebenen Maßes minimieren. Der verbleibende Schätzfehler lässt sich anhand von Konfidenzintervallen quantifizieren, die sich aus der Verteilung des Schätzers ergeben. In vielen Anwendungen bestimmen individuelle Eigenschaften der Instanzen die Kosten, die für die Bestimmung des Zielattributs anfallen. So unterscheiden sich Dokumente beispielsweise in der Textlänge und dem technischen Anspruch. Diese Eigenschaften beeinflussen die Zeit, die benötigt wird, mögliche Zielattribute wie das Thema oder die Relevanz zuzuweisen. Wir leiten unter Beachtung dieser instanzspezifischen Unterschiede die optimale Verteilung her. Die entwickelten Evaluierungsmethoden werden auf verschiedenen Datensätzen untersucht. Wir analysieren in diesem Zusammenhang Bedingungen, unter denen die aktive Evaluierung genauere Schätzungen liefert als der Standardansatz, bei dem Instanzen zufällig aus der Testverteilung gezogen werden. Eine verwandte Problemstellung ist der Vergleich von zwei Modellen. Um festzustellen, welches Modell in der Praxis eine höhere Vorhersagequalität aufweist, wird eine Menge von Testinstanzen ausgewählt und das zugehörige Zielattribut bestimmt. Ein anschließender statistischer Test erlaubt Aussagen über die Signifikanz der beobachteten Unterschiede. Die Teststärke hängt von der Verteilung ab, nach der die Instanzen ausgewählt wurden. Wir bestimmen die Verteilung, die die Teststärke maximiert und damit die Wahrscheinlichkeit minimiert, sich für das schlechtere Modell zu entscheiden. Des Weiteren geben wir eine Möglichkeit an, den entwickelten Ansatz für den Vergleich von mehreren Modellen zu verwenden. Wir zeigen empirisch, dass die aktive Evaluierungsmethode im Vergleich zur zufälligen Auswahl von Testinstanzen in vielen Anwendungen eine höhere Teststärke aufweist. Im letzten Teil der Arbeit werden das Konzept der aktiven Evaluierung und das des aktiven Modellvergleichs auf Rankingprobleme angewendet. Wir leiten die optimalen Verteilungen für das Schätzen der Qualitätsmaße Discounted Cumulative Gain und Expected Reciprocal Rank her. Eine empirische Studie zur Evaluierung von Suchmaschinen zeigt, dass die neu entwickelten Verfahren signifikant genauere Schätzungen der Rankingqualität liefern als die untersuchten Referenzverfahren. KW - Aktive Evaluierung KW - Vorhersagemodelle KW - Maschinelles Lernen KW - Fehlerschätzung KW - Statistische Tests KW - Active Evaluation KW - Predictive Models KW - Machine Learning KW - Error Estimation KW - Statistical Tests Y1 - 2012 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-65583 SN - 978-3-86956-255-1 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - THES A1 - Flöter, André T1 - Analyzing biological expression data based on decision tree induction T1 - Analyse biologischer Expressionsdaten mit Hilfe von Entscheidungsbauminduktion N2 - Modern biological analysis techniques supply scientists with various forms of data. One category of such data are the so called "expression data". These data indicate the quantities of biochemical compounds present in tissue samples. Recently, expression data can be generated at a high speed. This leads in turn to amounts of data no longer analysable by classical statistical techniques. Systems biology is the new field that focuses on the modelling of this information. At present, various methods are used for this purpose. One superordinate class of these methods is machine learning. Methods of this kind had, until recently, predominantly been used for classification and prediction tasks. This neglected a powerful secondary benefit: the ability to induce interpretable models. Obtaining such models from data has become a key issue within Systems biology. Numerous approaches have been proposed and intensively discussed. This thesis focuses on the examination and exploitation of one basic technique: decision trees. The concept of comparing sets of decision trees is developed. This method offers the possibility of identifying significant thresholds in continuous or discrete valued attributes through their corresponding set of decision trees. Finding significant thresholds in attributes is a means of identifying states in living organisms. Knowing about states is an invaluable clue to the understanding of dynamic processes in organisms. Applied to metabolite concentration data, the proposed method was able to identify states which were not found with conventional techniques for threshold extraction. A second approach exploits the structure of sets of decision trees for the discovery of combinatorial dependencies between attributes. Previous work on this issue has focused either on expensive computational methods or the interpretation of single decision trees a very limited exploitation of the data. This has led to incomplete or unstable results. That is why a new method is developed that uses sets of decision trees to overcome these limitations. Both the introduced methods are available as software tools. They can be applied consecutively or separately. That way they make up a package of analytical tools that usefully supplement existing methods. By means of these tools, the newly introduced methods were able to confirm existing knowledge and to suggest interesting and new relationships between metabolites. N2 - Neuere biologische Analysetechniken liefern Forschern verschiedenste Arten von Daten. Eine Art dieser Daten sind die so genannten "Expressionsdaten". Sie geben die Konzentrationen biochemischer Inhaltsstoffe in Gewebeproben an. Neuerdings können Expressionsdaten sehr schnell erzeugt werden. Das führt wiederum zu so großen Datenmengen, dass sie nicht mehr mit klassischen statistischen Verfahren analysiert werden können. "System biology" ist eine neue Disziplin, die sich mit der Modellierung solcher Information befasst. Zur Zeit werden dazu verschiedenste Methoden benutzt. Eine Superklasse dieser Methoden ist das maschinelle Lernen. Dieses wurde bis vor kurzem ausschließlich zum Klassifizieren und zum Vorhersagen genutzt. Dabei wurde eine wichtige zweite Eigenschaft vernachlässigt, nämlich die Möglichkeit zum Erlernen von interpretierbaren Modellen. Die Erstellung solcher Modelle hat mittlerweile eine Schlüsselrolle in der "Systems biology" erlangt. Es sind bereits zahlreiche Methoden dazu vorgeschlagen und diskutiert worden. Die vorliegende Arbeit befasst sich mit der Untersuchung und Nutzung einer ganz grundlegenden Technik: den Entscheidungsbäumen. Zunächst wird ein Konzept zum Vergleich von Baummengen entwickelt, welches das Erkennen bedeutsamer Schwellwerte in reellwertigen Daten anhand ihrer zugehörigen Entscheidungswälder ermöglicht. Das Erkennen solcher Schwellwerte dient dem Verständnis von dynamischen Abläufen in lebenden Organismen. Bei der Anwendung dieser Technik auf metabolische Konzentrationsdaten wurden bereits Zustände erkannt, die nicht mit herkömmlichen Techniken entdeckt werden konnten. Ein zweiter Ansatz befasst sich mit der Auswertung der Struktur von Entscheidungswäldern zur Entdeckung von kombinatorischen Abhängigkeiten zwischen Attributen. Bisherige Arbeiten hierzu befassten sich vornehmlich mit rechenintensiven Verfahren oder mit einzelnen Entscheidungsbäumen, eine sehr eingeschränkte Ausbeutung der Daten. Das führte dann entweder zu unvollständigen oder instabilen Ergebnissen. Darum wird hier eine Methode entwickelt, die Mengen von Entscheidungsbäumen nutzt, um diese Beschränkungen zu überwinden. Beide vorgestellten Verfahren gibt es als Werkzeuge für den Computer, die entweder hintereinander oder einzeln verwendet werden können. Auf diese Weise stellen sie eine sinnvolle Ergänzung zu vorhandenen Analyswerkzeugen dar. Mit Hilfe der bereitgestellten Software war es möglich, bekanntes Wissen zu bestätigen und interessante neue Zusammenhänge im Stoffwechsel von Pflanzen aufzuzeigen. KW - Molekulare Bioinformatik KW - Maschinelles Lernen KW - Entscheidungsbäume KW - machine learning KW - decision trees KW - computational biology Y1 - 2005 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-6416 ER - TY - THES A1 - Scholz, Matthias T1 - Approaches to analyse and interpret biological profile data T1 - Methoden zur Analyse und Interpretation biologischer Profildaten N2 - Advances in biotechnologies rapidly increase the number of molecules of a cell which can be observed simultaneously. This includes expression levels of thousands or ten-thousands of genes as well as concentration levels of metabolites or proteins. Such Profile data, observed at different times or at different experimental conditions (e.g., heat or dry stress), show how the biological experiment is reflected on the molecular level. This information is helpful to understand the molecular behaviour and to identify molecules or combination of molecules that characterise specific biological condition (e.g., disease). This work shows the potentials of component extraction algorithms to identify the major factors which influenced the observed data. This can be the expected experimental factors such as the time or temperature as well as unexpected factors such as technical artefacts or even unknown biological behaviour. Extracting components means to reduce the very high-dimensional data to a small set of new variables termed components. Each component is a combination of all original variables. The classical approach for that purpose is the principal component analysis (PCA). It is shown that, in contrast to PCA which maximises the variance only, modern approaches such as independent component analysis (ICA) are more suitable for analysing molecular data. The condition of independence between components of ICA fits more naturally our assumption of individual (independent) factors which influence the data. This higher potential of ICA is demonstrated by a crossing experiment of the model plant Arabidopsis thaliana (Thale Cress). The experimental factors could be well identified and, in addition, ICA could even detect a technical artefact. However, in continuously observations such as in time experiments, the data show, in general, a nonlinear distribution. To analyse such nonlinear data, a nonlinear extension of PCA is used. This nonlinear PCA (NLPCA) is based on a neural network algorithm. The algorithm is adapted to be applicable to incomplete molecular data sets. Thus, it provides also the ability to estimate the missing data. The potential of nonlinear PCA to identify nonlinear factors is demonstrated by a cold stress experiment of Arabidopsis thaliana. The results of component analysis can be used to build a molecular network model. Since it includes functional dependencies it is termed functional network. Applied to the cold stress data, it is shown that functional networks are appropriate to visualise biological processes and thereby reveals molecular dynamics. N2 - Fortschritte in der Biotechnologie ermöglichen es, eine immer größere Anzahl von Molekülen in einer Zelle gleichzeitig zu erfassen. Das betrifft sowohl die Expressionswerte tausender oder zehntausender Gene als auch die Konzentrationswerte von Metaboliten oder Proteinen. Diese Profildaten verschiedener Zeitpunkte oder unterschiedlicher experimenteller Bedingungen (z.B. unter Stressbedingungen wie Hitze oder Trockenheit) zeigen, wie sich das biologische Experiment auf molekularer Ebene widerspiegelt. Diese Information kann genutzt werden, um molekulare Abläufe besser zu verstehen und um Moleküle oder Molekül-Kombinationen zu bestimmen, die für bestimmte biologische Zustände (z.B.: Krankheit) charakteristisch sind. Die Arbeit zeigt die Möglichkeiten von Komponenten-Extraktions-Algorithmen zur Bestimmung der wesentlichen Faktoren, die einen Einfluss auf die beobachteten Daten ausübten. Das können sowohl die erwarteten experimentellen Faktoren wie Zeit oder Temperatur sein als auch unerwartete Faktoren wie technische Einflüsse oder sogar unerwartete biologische Vorgänge. Unter der Extraktion von Komponenten versteht man die Reduzierung dieser stark hoch-dimensionalen Daten auf wenige neue Variablen, die eine Kombination aus allen ursprünglichen Variablen darstellen und als Komponenten bezeichnet werden. Die Standard-Methode für diesen Zweck ist die Hauptkomponentenanalyse (PCA). Es wird gezeigt, dass - im Vergleich zur nur die Varianz maximierenden PCA - moderne Methoden wie die Unabhängige Komponentenanalyse (ICA) für die Analyse molekularer Datensätze besser geeignet sind. Die Unabhängigkeit von Komponenten in der ICA entspricht viel besser unserer Annahme individueller (unabhängiger) Faktoren, die einen Einfluss auf die Daten ausüben. Dieser Vorteil der ICA wird anhand eines Kreuzungsexperiments mit der Modell-Pflanze Arabidopsis thaliana (Ackerschmalwand) demonstriert. Die experimentellen Faktoren konnten dabei gut identifiziert werden und ICA erkannte sogar zusätzlich einen technischen Störfaktor. Bei kontinuierlichen Beobachtungen wie in Zeitexperimenten zeigen die Daten jedoch häufig eine nichtlineare Verteilung. Für die Analyse dieser nichtlinearen Daten wird eine nichtlinear erweiterte Methode der PCA angewandt. Diese nichtlineare PCA (NLPCA) basiert auf einem neuronalen Netzwerk-Algorithmus. Der Algorithmus wurde für die Anwendung auf unvollständigen molekularen Daten erweitert. Dies ermöglicht es, die fehlenden Werte zu schätzen. Die Fähigkeit der nichtlinearen PCA zur Bestimmung nichtlinearer Faktoren wird anhand eines Kältestress-Experiments mit Arabidopsis thaliana demonstriert. Die Ergebnisse aus der Komponentenanalyse können zur Erstellung molekularer Netzwerk-Modelle genutzt werden. Da sie funktionelle Abhängigkeiten berücksichtigen, werden sie als Funktionale Netzwerke bezeichnet. Anhand der Kältestress-Daten wird demonstriert, dass solche funktionalen Netzwerke geeignet sind, biologische Prozesse zu visualisieren und dadurch die molekularen Dynamiken aufzuzeigen. KW - Bioinformatik KW - Hauptkomponentenanalyse KW - Unabhängige Komponentenanalyse KW - Neuronales Netz KW - Maschinelles Lernen KW - Fehlende Daten KW - Ackerschmalwand KW - nichtlineare PCA (NLPCA) KW - molekulare Netzwerke KW - nonlinear PCA (NLPCA) KW - molecular networks Y1 - 2006 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-7839 ER - TY - THES A1 - Dick, Uwe T1 - Discriminative Classification Models for Internet Security T1 - Diskriminative Klassifikationsmodelle in der Internet-Sicherheit BT - Mitigating Email Spam and HTTP-Layer DDoS Attacks BT - Verhindern von Email-Spam und HTTP-Layer DDoS-Attacken N2 - Services that operate over the Internet are under constant threat of being exposed to fraudulent use. Maintaining good user experience for legitimate users often requires the classification of entities as malicious or legitimate in order to initiate countermeasures. As an example, inbound email spam filters decide for spam or non-spam. They can base their decision on both the content of each email as well as on features that summarize prior emails received from the sending server. In general, discriminative classification methods learn to distinguish positive from negative entities. Each decision for a label may be based on features of the entity and related entities. When labels of related entities have strong interdependencies---as can be assumed e.g. for emails being delivered by the same user---classification decisions should not be made independently and dependencies should be modeled in the decision function. This thesis addresses the formulation of discriminative classification problems that are tailored for the specific demands of the following three Internet security applications. Theoretical and algorithmic solutions are devised to protect an email service against flooding of user inboxes, to mitigate abusive usage of outbound email servers, and to protect web servers against distributed denial of service attacks. In the application of filtering an inbound email stream for unsolicited emails, utilizing features that go beyond each individual email's content can be valuable. Information about each sending mail server can be aggregated over time and may help in identifying unwanted emails. However, while this information will be available to the deployed email filter, some parts of the training data that are compiled by third party providers may not contain this information. The missing features have to be estimated at training time in order to learn a classification model. In this thesis an algorithm is derived that learns a decision function that integrates over a distribution of values for each missing entry. The distribution of missing values is a free parameter that is optimized to learn an optimal decision function. The outbound stream of emails of an email service provider can be separated by the customer IDs that ask for delivery. All emails that are sent by the same ID in the same period of time are related, both in content and in label. Hijacked customer accounts may send batches of unsolicited emails to other email providers, which in turn might blacklist the sender's email servers after detection of incoming spam emails. The risk of being blocked from further delivery depends on the rate of outgoing unwanted emails and the duration of high spam sending rates. An optimization problem is developed that minimizes the expected cost for the email provider by learning a decision function that assigns a limit on the sending rate to customers based on the each customer's email stream. Identifying attacking IPs during HTTP-level DDoS attacks allows to block those IPs from further accessing the web servers. DDoS attacks are usually carried out by infected clients that are members of the same botnet and show similar traffic patterns. HTTP-level attacks aim at exhausting one or more resources of the web server infrastructure, such as CPU time. If the joint set of attackers cannot increase resource usage close to the maximum capacity, no effect will be experienced by legitimate users of hosted web sites. However, if the additional load raises the computational burden towards the critical range, user experience will degrade until service may be unavailable altogether. As the loss of missing one attacker depends on block decisions for other attackers---if most other attackers are detected, not blocking one client will likely not be harmful---a structured output model has to be learned. In this thesis an algorithm is developed that learns a structured prediction decoder that searches the space of label assignments, guided by a policy. Each model is evaluated on real-world data and is compared to reference methods. The results show that modeling each classification problem according to the specific demands of the task improves performance over solutions that do not consider the constraints inherent to an application. N2 - Viele Dienste im Internet benötigen zur Gewährleistung ihrer Erreichbarkeit die Möglichkeit, Entitäten als entweder gefährlich oder harmlos zu klassifizieren. Diskriminative Methoden des maschinellen Lernens verwenden Features von Entitäten oder Entitätengruppen, um zwischen positiven und negativen Labels zu unterscheiden. So können beispielsweise Email-Spamfilter Entscheidungen aufgrund sowohl des Inhalts der Email als auch von Informationen treffen, die vorherige Emails des gleichen versendenden Servers zusammenfassen. Darüber hinaus sind Labels zueinander in Verbindung stehender Entitäten, wie z.B. Emails des gleichen Nutzers, oftmals nicht unabhängig, so dass auch Klassifikationsentscheidungen nicht unabhängig getroffen werden sollten. Diese Arbeit beschäftigt sich mit der Formulierung diskriminativer Klassifikationsprobleme, die den speziellen Anforderungen von drei Internetsicherheitsanwendungen Rechnung tragen. Theoretische und algorithmische Lösungen zum Spamschutz von Nutzer-Inboxen eines Emailanbieters, zum Schutz von ausgehenden Emailservern gegen Missbrauch und zur Abwehr von Distributed Denial of Service-Attacken auf Webserver werden entwickelt. Beim Säubern der bei einem Emailanbieter eingehenden Menge von Emails von ungewollten Emails wie Spam können Informationen, die über den Inhalt einzelner Emails hinausgehen, von großem Nutzen sein. Etwa können Informationen über einen Mailserver zeitlich aggregiert und zum Klassifizieren neuer Emails des gleichen Servers verwendet werden. Diese Informationen sind in der Regel nur für Emails verfügbar, die vom Emailanbieter selbst empfangen werden, und fehlen bei Datensätzen, die extern gesammelte Emails beinhalten. Während des Trainings eines Spamklassifikators müssen diese Features entsprechend geschätzt werden. In dieser Arbeit wird ein Algorithmus entwickelt, der eine Entscheidungsfunktion lernt, die über eine Verteilung von fehlenden Werten integriert. Die Verteilung ist ein freier Parameter, der während des Lernens der Entscheidungsfunktion optimiert wird. Der Strom ausgehender Emails eines Emailanbieters setzt sich zusammen aus Emails einzelner Kunden. Alle Emails, die vom gleichen Kunden im gleichen Zeitraum gesendet werden, sind sowohl bzgl. Inhalt als auch Label abhängig. Kompromittierte Kundenaccounts können beispielsweise Batches von Spams an andere Emailanbieter schicken. Nach erfolgter Spamerkennung könnten diese Anbieter die Mailserver des sendenden Anbieters auf eine Blacklist setzen und somit am Versand weiterer Emails hindern. Das Risiko einer solchen Blockierung ist abhängig von der Rate ausgehender ungewollter Emails und der Dauer hoher Senderaten. Es wird ein Optimierungsproblem entwickelt, das die erwarteten Kosten des Emailproviders minimiert, indem eine Entscheidungsfunktion gelernt wird, die die erlaubte Versenderate von Kunden aufgrund der gesendeten Emails dynamisch einstellt. Um angreifende IPs während einer HTTP-Level-DDoS-Attacke zu blockieren, müssen sie als solche erkannt werden. DDoS-Angriffe werden üblicherweise von Clients durchgeführt, die dem gleichen Botnet angehören und ähnliche Traffic-Muster aufweisen. HTTP-Level-Angriffe zielen darauf, eine oder mehrere Ressourcen der Webserverinfrastruktur, wie etwa CPU-Zeit, aufzubrauchen. Für legitime Besucher ergeben sich erst dann Einschränkungen der User Experience, bis hin zur Unerreichbarkeit der Webseite, wenn Angreifer den Ressourcenverbrauch in die Nähe oder über die Maximalkapazität steigern können. Dieser durch einen Angreifer verursachte Verlust hängt von Entscheidungen für andere Angreifer ab; werden z.B. die meisten anderen Angreifer erkannt, wird ein nicht geblockter Angreifer kaum Schaden anrichten. Es wird deshalb ein Algorithmus entwickelt, der einen Dekodierer für strukturierte Vorhersagen trainiert, der, geleitet durch eine Policy, den Raum der gemeinsamen Labelzuweisungen durchsucht. Alle Modelle werden auf industriellen Daten evaluiert und mit Referenzmethoden verglichen. Die Ergebnisse zeigen, dass anforderungsspezifische Modellierung der Klassifikationsprobleme die Performance gegenüber den Vergleichsmethoden verbessert. KW - Machine Learning KW - Internet Security KW - DDoS KW - Spam-Filtering KW - DDoS KW - Internet-Sicherheit KW - Maschinelles Lernen KW - Spam-Erkennung Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-102593 ER - TY - THES A1 - Dornhege, Guido T1 - Increasing information transfer rates for brain-computer interfacing T1 - Erhöhung der Informationstransferrate einer Gehirn-Computer-Schnittstelle N2 - The goal of a Brain-Computer Interface (BCI) consists of the development of a unidirectional interface between a human and a computer to allow control of a device only via brain signals. While the BCI systems of almost all other groups require the user to be trained over several weeks or even months, the group of Prof. Dr. Klaus-Robert Müller in Berlin and Potsdam, which I belong to, was one of the first research groups in this field which used machine learning techniques on a large scale. The adaptivity of the processing system to the individual brain patterns of the subject confers huge advantages for the user. Thus BCI research is considered a hot topic in machine learning and computer science. It requires interdisciplinary cooperation between disparate fields such as neuroscience, since only by combining machine learning and signal processing techniques based on neurophysiological knowledge will the largest progress be made. In this work I particularly deal with my part of this project, which lies mainly in the area of computer science. I have considered the following three main points: Establishing a performance measure based on information theory: I have critically illuminated the assumptions of Shannon's information transfer rate for application in a BCI context. By establishing suitable coding strategies I was able to show that this theoretical measure approximates quite well to what is practically achieveable. Transfer and development of suitable signal processing and machine learning techniques: One substantial component of my work was to develop several machine learning and signal processing algorithms to improve the efficiency of a BCI. Based on the neurophysiological knowledge that several independent EEG features can be observed for some mental states, I have developed a method for combining different and maybe independent features which improved performance. In some cases the performance of the combination algorithm outperforms the best single performance by more than 50 %. Furthermore, I have theoretically and practically addressed via the development of suitable algorithms the question of the optimal number of classes which should be used for a BCI. It transpired that with BCI performances reported so far, three or four different mental states are optimal. For another extension I have combined ideas from signal processing with those of machine learning since a high gain can be achieved if the temporal filtering, i.e., the choice of frequency bands, is automatically adapted to each subject individually. Implementation of the Berlin brain computer interface and realization of suitable experiments: Finally a further substantial component of my work was to realize an online BCI system which includes the developed methods, but is also flexible enough to allow the simple realization of new algorithms and ideas. So far, bitrates of up to 40 bits per minute have been achieved with this system by absolutely untrained users which, compared to results of other groups, is highly successful. N2 - Ein Brain-Computer Interface (BCI) ist eine unidirektionale Schnittstelle zwischen Mensch und Computer, bei der ein Mensch in der Lage ist, ein Gerät einzig und allein Kraft seiner Gehirnsignale zu steuern. In den BCI Systemen fast aller Forschergruppen wird der Mensch in Experimenten über Wochen oder sogar Monaten trainiert, geeignete Signale zu produzieren, die vordefinierten allgemeinen Gehirnmustern entsprechen. Die BCI Gruppe in Berlin und Potsdam, der ich angehöre, war in diesem Feld eine der ersten, die erkannt hat, dass eine Anpassung des Verarbeitungssystems an den Menschen mit Hilfe der Techniken des Maschinellen Lernens große Vorteile mit sich bringt. In unserer Gruppe und mittlerweile auch in vielen anderen Gruppen wird BCI somit als aktuelles Forschungsthema im Maschinellen Lernen und folglich in der Informatik mit interdisziplinärer Natur in Neurowissenschaften und anderen Feldern verstanden, da durch die geeignete Kombination von Techniken des Maschinellen Lernens und der Signalverarbeitung basierend auf neurophysiologischem Wissen der größte Erfolg erzielt werden konnte. In dieser Arbeit gehe ich auf meinem Anteil an diesem Projekt ein, der vor allem im Informatikbereich der BCI Forschung liegt. Im Detail beschäftige ich mich mit den folgenden drei Punkten: Diskussion eines informationstheoretischen Maßes für die Güte eines BCI's: Ich habe kritisch die Annahmen von Shannon's Informationsübertragungsrate für die Anwendung im BCI Kontext beleuchtet. Durch Ermittlung von geeigneten Kodierungsstrategien konnte ich zeigen, dass dieses theoretische Maß den praktisch erreichbaren Wert ziemlich gut annähert. Transfer und Entwicklung von geeigneten Techniken aus dem Bereich der Signalverarbeitung und des Maschinellen Lernens: Eine substantielle Komponente meiner Arbeit war die Entwicklung von Techniken des Machinellen Lernens und der Signalverarbeitung, um die Effizienz eines BCI's zu erhöhen. Basierend auf dem neurophysiologischem Wissen, dass verschiedene unabhängige Merkmale in Gehirnsignalen für verschiedene mentale Zustände beobachtbar sind, habe ich eine Methode zur Kombination von verschiedenen und unter Umständen unabhängigen Merkmalen entwickelt, die sehr erfolgreich die Fähigkeiten eines BCI's verbessert. Besonders in einigen Fällen übertraf die Leistung des entwickelten Kombinationsalgorithmus die beste Leistung auf den einzelnen Merkmalen mit mehr als 50 %. Weiterhin habe ich theoretisch und praktisch durch Einführung geeigneter Algorithmen die Frage untersucht, wie viele Klassen man für ein BCI nutzen kann und sollte. Auch hier wurde ein relevantes Resultat erzielt, nämlich dass für BCI Güten, die bis heute berichtet sind, die Benutzung von 3 oder 4 verschiedenen mentalen Zuständen in der Regel optimal im Sinne von erreichbarer Leistung sind. Für eine andere Erweiterung wurden Ideen aus der Signalverarbeitung mit denen des Maschinellen Lernens kombiniert, da ein hoher Erfolg erzielt werden kann, wenn der temporale Filter, d.h. die Wahl des benutzten Frequenzbandes, automatisch und individuell für jeden Menschen angepasst wird. Implementation des Berlin Brain-Computer Interfaces und Realisierung von geeigneten Experimenten: Eine weitere wichtige Komponente meiner Arbeit war eine Realisierung eines online BCI Systems, welches die entwickelten Methoden umfasst, aber auch so flexibel ist, dass neue Algorithmen und Ideen einfach zu verwirklichen sind. Bis jetzt wurden mit diesem System Bitraten von bis zu 40 Bits pro Minute von absolut untrainierten Personen in ihren ersten BCI Experimenten erzielt. Dieses Resultat übertrifft die bisher berichteten Ergebnisse aller anderer BCI Gruppen deutlich.