TY - GEN A1 - Bin Tareaf, Raad A1 - Berger, Philipp A1 - Hennig, Patrick A1 - Meinel, Christoph T1 - Personality exploration system for online social networks BT - Facebook brands as a use case T2 - 2018 IEEE/WIC/ACM International Conference on Web Intelligence (WI) N2 - User-generated content on social media platforms is a rich source of latent information about individual variables. Crawling and analyzing this content provides a new approach for enterprises to personalize services and put forward product recommendations. In the past few years, brands made a gradual appearance on social media platforms for advertisement, customers support and public relation purposes and by now it became a necessity throughout all branches. This online identity can be represented as a brand personality that reflects how a brand is perceived by its customers. We exploited recent research in text analysis and personality detection to build an automatic brand personality prediction model on top of the (Five-Factor Model) and (Linguistic Inquiry and Word Count) features extracted from publicly available benchmarks. The proposed model reported significant accuracy in predicting specific personality traits form brands. For evaluating our prediction results on actual brands, we crawled the Facebook API for 100k posts from the most valuable brands' pages in the USA and we visualize exemplars of comparison results and present suggestions for future directions. KW - Big Five Model KW - Brand Personality KW - Personality Prediction KW - Machine Learning KW - Social Media Analysis Y1 - 2019 SN - 978-1-5386-7325-6 U6 - https://doi.org/10.1109/WI.2018.00-76 SP - 301 EP - 309 PB - IEEE CY - New York ER - TY - GEN A1 - Bin Tareaf, Raad A1 - Berger, Philipp A1 - Hennig, Patrick A1 - Meinel, Christoph T1 - ASEDS BT - Towards automatic social emotion detection system using facebook reactions T2 - IEEE 20th International Conference on High Performance Computing and Communications; IEEE 16th International Conference on Smart City; IEEE 4th International Conference on Data Science and Systems (HPCC/SmartCity/DSS)) N2 - The Massive adoption of social media has provided new ways for individuals to express their opinion and emotion online. In 2016, Facebook introduced a new reactions feature that allows users to express their psychological emotions regarding published contents using so-called Facebook reactions. In this paper, a framework for predicting the distribution of Facebook post reactions is presented. For this purpose, we collected an enormous amount of Facebook posts associated with their reactions labels using the proposed scalable Facebook crawler. The training process utilizes 3 million labeled posts for more than 64,000 unique Facebook pages from diverse categories. The evaluation on standard benchmarks using the proposed features shows promising results compared to previous research. The final model is able to predict the reaction distribution on Facebook posts with a recall score of 0.90 for "Joy" emotion. KW - Emotion Mining KW - Psychological Emotions KW - Machine Learning KW - Social Media Analysis KW - Natural Language Processing Y1 - 2018 SN - 978-1-5386-6614-2 U6 - https://doi.org/10.1109/HPCC/SmartCity/DSS.2018.00143 SP - 860 EP - 866 PB - IEEE CY - New York ER - TY - THES A1 - Stojanovic, Vladeta T1 - Digital twins for indoor built environments T1 - Digitale Zwillinge für gebaute Innenumgebungen N2 - One of the key challenges in modern Facility Management (FM) is to digitally reflect the current state of the built environment, referred to as-is or as-built versus as-designed representation. While the use of Building Information Modeling (BIM) can address the issue of digital representation, the generation and maintenance of BIM data requires a considerable amount of manual work and domain expertise. Another key challenge is being able to monitor the current state of the built environment, which is used to provide feedback and enhance decision making. The need for an integrated solution for all data associated with the operational life cycle of a building is becoming more pronounced as practices from Industry 4.0 are currently being evaluated and adopted for FM use. This research presents an approach for digital representation of indoor environments in their current state within the life cycle of a given building. Such an approach requires the fusion of various sources of digital data. The key to solving such a complex issue of digital data integration, processing and representation is with the use of a Digital Twin (DT). A DT is a digital duplicate of the physical environment, states, and processes. A DT fuses as-designed and as-built digital representations of built environment with as-is data, typically in the form of floorplans, point clouds and BIMs, with additional information layers pertaining to the current and predicted states of an indoor environment or a complete building (e.g., sensor data). The design, implementation and initial testing of prototypical DT software services for indoor environments is presented and described. These DT software services are implemented within a service-oriented paradigm, and their feasibility is presented through functioning and tested key software components within prototypical Service-Oriented System (SOS) implementations. The main outcome of this research shows that key data related to the built environment can be semantically enriched and combined to enable digital representations of indoor environments, based on the concept of a DT. Furthermore, the outcomes of this research show that digital data, related to FM and Architecture, Construction, Engineering, Owner and Occupant (AECOO) activity, can be combined, analyzed and visualized in real-time using a service-oriented approach. This has great potential to benefit decision making related to Operation and Maintenance (O&M) procedures within the scope of the post-construction life cycle stages of typical office buildings. N2 - Eine der wichtigsten Herausforderungen im modernen Facility Management (FM) besteht darin, den aktuellen Zustand der gebauten Umgebung digital wiederzugeben und die tatsächliche mit der geplanten Gebäudedarstellung zu vergleichen. Während die Verwendung von Building Information Modeling (BIM) das Problem der digitalen Darstellung lösen kann, erfordert die Generierung und Pflege von BIM-Daten einen erheblichen manuellen Aufwand und Fachkenntnisse. Eine weitere wichtige Herausforderung besteht darin, den aktuellen Zustand der gebauten Umgebung zu überwachen, um Feedback zu geben und die Entscheidungsfindung zu verbessern. Die Notwendigkeit einer integrierten Lösung für alle Daten im Zusammenhang mit dem Betriebslebenszyklus eines Gebäudes wird immer deutlicher, da derzeit Praktiken aus Industrie 4.0 evaluiert und für die FM-Nutzung übernommen werden. Diese Studie präsentiert einen Ansatz zur digitalen Darstellung von Innenräumen in ihrem aktuellen Zustand innerhalb des Lebenszyklus eines bestimmten Gebäudes. Ein solcher Ansatz erfordert die Fusion verschiedener Quellen digitaler Daten. Der Schlüssel zur Lösung eines solch komplexen Problems der Integration, Verarbeitung und Darstellung digitaler Daten liegt in der Verwendung eines Digital Twin (DT). Ein DT ist ein digitales Duplikat der physischen Umgebung, Zustände und Prozesse. Ein DT verschmilzt die entworfenen und gebauten digitalen Darstellungen der gebauten Umwelt mit aktuellen Repräsentationsdaten, typischerweise in Form von Grundrissen, Punktwolken und BIMs, mit zusätzlichen Informationsebenen, die sich auf die aktuellen und vorhergesagten Zustände einer Innenumgebung oder eines kompletten Gebäudes beziehen (z.B. Sensordaten). Das Design, die Implementierung und die ersten Tests prototypischen DT-Software-Dienstleistungen für Innenräume werden vorgestellt und beschrieben. Die DT-Software-Dienstleistungen werden innerhalb eines serviceorientierten Paradigmas implementiert, und ihre Machbarkeit wird durch funktionierende und getestete wichtige Softwarekomponenten in prototypischen SOS-Implementierungen dargestellt. Das Hauptergebnis dieser Forschung zeigt, dass Schlüsseldaten in Bezug auf die gebaute Umgebung semantisch angereichert und kombiniert werden können, um digitale Darstellungen von Innenumgebungen basierend auf dem Konzept eines DT zu ermöglichen. Darüber hinaus zeigen die Ergebnisse dieser Forschung, dass digitale Daten in Bezug auf FM und Architektur, Bauwesen, Ingenieurwesen, Eigentümer- und Insassenaktivitäten mithilfe eines serviceorientierten Ansatzes in Echtzeit kombiniert, analysiert und visualisiert werden können. Dies hat ein großes Potenzial für die Entscheidungsfindung in Bezug auf Betriebsund Wartungsverfahren im Rahmen der Lebenszyklusphasen typischer Bürogebäude nach dem Bau. KW - Digital Twin KW - BIM KW - Point Clouds KW - Service-Oriented Systems KW - 3D Visualization KW - Data Analytics KW - Machine Learning KW - Deep Learning KW - Semantic Enrichment KW - Indoor Point Clouds KW - Real Estate 4.0 KW - Facility Management KW - Building Management KW - Sensor Analytics KW - Visualization KW - 3D-Visualisierung KW - Gebäudeinformationsmodellierung KW - Gebäudemanagement KW - Daten-Analytik KW - Tiefes Lernen KW - Digitaler Zwilling KW - Indoor-Punktwolken KW - Maschinelles Lernen KW - Punktwolken KW - Immobilien 4.0 KW - Semantische Anreicherung KW - Sensor-Analytik KW - Service-Orientierte Systeme KW - Visualisierung Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-509134 ER - TY - THES A1 - Zieger, Tobias T1 - Self-adaptive data quality BT - automating duplicate detection N2 - Carrying out business processes successfully is closely linked to the quality of the data inventory in an organization. Lacks in data quality lead to problems: Incorrect address data prevents (timely) shipments to customers. Erroneous orders lead to returns and thus to unnecessary effort. Wrong pricing forces companies to miss out on revenues or to impair customer satisfaction. If orders or customer records cannot be retrieved, complaint management takes longer. Due to erroneous inventories, too few or too much supplies might be reordered. A special problem with data quality and the reason for many of the issues mentioned above are duplicates in databases. Duplicates are different representations of same real-world objects in a dataset. However, these representations differ from each other and are for that reason hard to match by a computer. Moreover, the number of required comparisons to find those duplicates grows with the square of the dataset size. To cleanse the data, these duplicates must be detected and removed. Duplicate detection is a very laborious process. To achieve satisfactory results, appropriate software must be created and configured (similarity measures, partitioning keys, thresholds, etc.). Both requires much manual effort and experience. This thesis addresses automation of parameter selection for duplicate detection and presents several novel approaches that eliminate the need for human experience in parts of the duplicate detection process. A pre-processing step is introduced that analyzes the datasets in question and classifies their attributes semantically. Not only do these annotations help understanding the respective datasets, but they also facilitate subsequent steps, for example, by selecting appropriate similarity measures or normalizing the data upfront. This approach works without schema information. Following that, we show a partitioning technique that strongly reduces the number of pair comparisons for the duplicate detection process. The approach automatically finds particularly suitable partitioning keys that simultaneously allow for effective and efficient duplicate retrieval. By means of a user study, we demonstrate that this technique finds partitioning keys that outperform expert suggestions and additionally does not need manual configuration. Furthermore, this approach can be applied independently of the attribute types. To measure the success of a duplicate detection process and to execute the described partitioning approach, a gold standard is required that provides information about the actual duplicates in a training dataset. This thesis presents a technique that uses existing duplicate detection results and crowdsourcing to create a near gold standard that can be used for the purposes above. Another part of the thesis describes and evaluates strategies how to reduce these crowdsourcing costs and to achieve a consensus with less effort. N2 - Die erfolgreiche Ausführung von Geschäftsprozessen ist eng an die Datenqualität der Datenbestände in einer Organisation geknüpft. Bestehen Mängel in der Datenqualität, kann es zu Problemen kommen: Unkorrekte Adressdaten verhindern, dass Kunden (rechtzeitig) beliefert werden. Fehlerhafte Bestellungen führen zu Reklamationen und somit zu unnötigem Aufwand. Falsche Preisauszeichnungen zwingen Unternehmen, auf Einnahmen zu verzichten oder gefährden die Kundenzufriedenheit. Können Bestellungen oder Kundendaten nicht gefunden werden, verlängert sich die Abarbeitung von Beschwerden. Durch fehlerhafte Inventarisierung wird zu wenig oder zu viel Nachschub bestellt. Ein spezielles Datenqualitätsproblem und der Grund für viele der genannten Datenqualitätsprobleme sind Duplikate in Datenbanken. Duplikate sind verschiedene Repräsentationen derselben Realweltobjekte im Datenbestand. Allerdings unterscheiden sich diese Repräsentationen voneinander und sind so für den Computer nur schwer als zusammengehörig zu erkennen. Außerdem wächst die Anzahl der zur Aufdeckung der Duplikate benötigten Vergleiche quadratisch mit der Datensatzgröße. Zum Zwecke der Datenreinigung müssen diese Duplikate erkannt und beseitigt werden. Diese Duplikaterkennung ist ein sehr aufwändiger Prozess. Um gute Ergebnisse zu erzielen, ist die Erstellung von entsprechender Software und das Konfigurieren vieler Parameter (Ähnlichkeitsmaße, Partitionierungsschlüssel, Schwellwerte usw.) nötig. Beides erfordert viel manuellen Aufwand und Erfahrung. Diese Dissertation befasst sich mit dem Automatisieren der Parameterwahl für die Duplikaterkennung und stellt verschiedene neuartige Verfahren vor, durch die Teile des Duplikaterkennungsprozesses ohne menschliche Erfahrung gestaltet werden können. Es wird ein Vorverarbeitungsschritt vorgestellt, der die betreffenden Datensätze analysiert und deren Attribute automatisch semantisch klassifiziert. Durch diese Annotationen wird nicht nur das Verständnis des Datensatzes verbessert, sondern es werden darüber hinaus die folgenden Schritte erleichtert, zum Beispiel können so geeignete Ähnlichkeitsmaße ausgewählt oder die Daten normalisiert werden. Dabei kommt der Ansatz ohne Schemainformationen aus. Anschließend wird ein Partitionierungsverfahren gezeigt, das die Anzahl der für die Duplikaterkennung benötigten Vergleiche stark reduziert. Das Verfahren findet automatisch besonders geeignete Partitionierungsschlüssel, die eine gleichzeitig effektive und effiziente Duplikatsuche ermöglichen. Anhand einer Nutzerstudie wird gezeigt, dass die so gefundenen Partitionierungsschlüssel Expertenvorschlägen überlegen sind und zudem keine menschliche Konfiguration benötigen. Außerdem lässt sich das Verfahren unabhängig von den Attributtypen anwenden. Zum Messen des Erfolges eines Duplikaterkennungsverfahrens und für das zuvor beschriebene Partitionierungsverfahren ist ein Goldstandard nötig, der Auskunft über die zu findenden Duplikate gibt. Die Dissertation stellt ein Verfahren vor, das anhand mehrerer vorhandener Duplikaterkennungsergebnisse und dem Einsatz von Crowdsourcing einen Nahezu-Goldstandard erzeugt, der für die beschriebenen Zwecke eingesetzt werden kann. Ein weiterer Teil der Arbeit beschreibt und evaluiert Strategien, wie die Kosten dieses Crowdsourcingeinsatzes reduziert werden können und mit geringerem Aufwand ein Konsens erreicht wird. KW - data quality KW - Datenqualität KW - Duplikaterkennung KW - duplicate detection KW - Machine Learning KW - Information Retrieval KW - Automatisierung KW - automation Y1 - 2017 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-410573 ER -