Hybride semantische Suche - eine Kombination aus Fakten- und Dokumentretrieval

Hybrid semantic search - a combination of fact and document retrieval

  • Das Thema der vorliegenden Arbeit ist die semantische Suche im Kontext heutiger Informationsmanagementsysteme. Zu diesen Systemen zählen Intranets, Web 3.0-Anwendungen sowie viele Webportale, die Informationen in heterogenen Formaten und Strukturen beinhalten. Auf diesen befinden sich einerseits Daten in strukturierter Form und andererseits Dokumente, die inhaltlich mit diesen Daten in Beziehung stehen. Diese Dokumente sind jedoch in der Regel nur teilweise strukturiert oder vollständig unstrukturiert. So beschreiben beispielsweise Reiseportale durch strukturierte Daten den Zeitraum, das Reiseziel, den Preis einer Reise und geben in unstrukturierter Form weitere Informationen, wie Beschreibungen zum Hotel, Zielort, Ausflugsziele an. Der Fokus heutiger semantischer Suchmaschinen liegt auf dem Finden von Wissen entweder in strukturierter Form, auch Faktensuche genannt, oder in semi- bzw. unstrukturierter Form, was üblicherweise als semantische Dokumentensuche bezeichnet wird. Einige wenige Suchmaschinen versuchen die Lücke zwischenDas Thema der vorliegenden Arbeit ist die semantische Suche im Kontext heutiger Informationsmanagementsysteme. Zu diesen Systemen zählen Intranets, Web 3.0-Anwendungen sowie viele Webportale, die Informationen in heterogenen Formaten und Strukturen beinhalten. Auf diesen befinden sich einerseits Daten in strukturierter Form und andererseits Dokumente, die inhaltlich mit diesen Daten in Beziehung stehen. Diese Dokumente sind jedoch in der Regel nur teilweise strukturiert oder vollständig unstrukturiert. So beschreiben beispielsweise Reiseportale durch strukturierte Daten den Zeitraum, das Reiseziel, den Preis einer Reise und geben in unstrukturierter Form weitere Informationen, wie Beschreibungen zum Hotel, Zielort, Ausflugsziele an. Der Fokus heutiger semantischer Suchmaschinen liegt auf dem Finden von Wissen entweder in strukturierter Form, auch Faktensuche genannt, oder in semi- bzw. unstrukturierter Form, was üblicherweise als semantische Dokumentensuche bezeichnet wird. Einige wenige Suchmaschinen versuchen die Lücke zwischen diesen beiden Ansätzen zu schließen. Diese durchsuchen zwar gleichzeitig strukturierte sowie unstrukturierte Daten, werten diese jedoch entweder weitgehend voneinander unabhängig aus oder schränken die Suchmöglichkeiten stark ein, indem sie beispielsweise nur bestimmte Fragemuster unterstützen. Hierdurch werden die im System verfügbaren Informationen nicht ausgeschöpft und gleichzeitig unterbunden, dass Zusammenhänge zwischen einzelnen Inhalten der jeweiligen Informationssysteme und sich ergänzende Informationen den Benutzer erreichen.
 Um diese Lücke zu schließen, wurde in der vorliegenden Arbeit ein neuer hybrider semantischer Suchansatz entwickelt und untersucht, der strukturierte und semi- bzw. unstrukturierte Inhalte während des gesamten Suchprozesses kombiniert. Durch diesen Ansatz werden nicht nur sowohl Fakten als auch Dokumente gefunden, es werden auch Zusammenhänge, die zwischen den unterschiedlich strukturierten Daten bestehen, in jeder Phase der Suche genutzt und fließen in die Suchergebnisse mit ein. Liegt die Antwort zu einer Suchanfrage nicht vollständig strukturiert, in Form von Fakten, oder unstrukturiert, in Form von Dokumenten vor, so liefert dieser Ansatz eine Kombination der beiden. Die Berücksichtigung von unterschiedlich Inhalten während des gesamten Suchprozesses stellt jedoch besondere Herausforderungen an die Suchmaschine. Diese muss in der Lage sein, Fakten und Dokumente in Abhängigkeit voneinander zu durchsuchen, sie zu kombinieren sowie die unterschiedlich strukturierten Ergebnisse in eine geeignete Rangordnung zu bringen. Weiterhin darf die Komplexität der Daten nicht an die Endnutzer weitergereicht werden. Die Darstellung der Inhalte muss vielmehr sowohl bei der Anfragestellung als auch bei der Darbietung der Ergebnisse verständlich und leicht interpretierbar sein. Die zentrale Fragestellung der Arbeit ist, ob ein hybrider Ansatz auf einer vorgegebenen Datenbasis die Suchanfragen besser beantworten kann als die semantische Dokumentensuche und die Faktensuche für sich genommen, bzw. als eine Suche die diese Ansätze im Rahmen des Suchprozesses nicht kombiniert. Die durchgeführten Evaluierungen aus System- und aus Benutzersicht zeigen, dass die im Rahmen der Arbeit entwickelte hybride semantische Suchlösung durch die Kombination von strukturierten und unstrukturierten Inhalten im Suchprozess bessere Antworten liefert als die oben genannten Verfahren und somit Vorteile gegenüber bisherigen Ansätzen bietet. Eine Befragung von Benutzern macht deutlich, dass die hybride semantische Suche als verständlich empfunden und für heterogen strukturierte Datenmengen bevorzugt wird.show moreshow less
  • The subject of this doctoral thesis is semantic search in the context of today's information management systems. These systems include intranets and Web 3.0 applications, as well as many web portals that contain information in heterogeneous formats and structures. On the one hand, they contain data in a structured form, and on the other hand they contain documents that are related to this data. However, these documents are usually only partially structured or completely unstructured. For example, travel portals describe the period, the destination, the cost of the travel through structured data, while additional information, such as descriptions of the hotel, destination, excursions, etc. is in unstructured form. 
The focus of today's semantic search engines is to find knowledge either in a structured form (also called fact retrieval), or in semi- or un-structured form, which is commonly referred to as semantic document retrieval. Only a few search engines are trying to close the gap between these two approaches. Although they searchThe subject of this doctoral thesis is semantic search in the context of today's information management systems. These systems include intranets and Web 3.0 applications, as well as many web portals that contain information in heterogeneous formats and structures. On the one hand, they contain data in a structured form, and on the other hand they contain documents that are related to this data. However, these documents are usually only partially structured or completely unstructured. For example, travel portals describe the period, the destination, the cost of the travel through structured data, while additional information, such as descriptions of the hotel, destination, excursions, etc. is in unstructured form. 
The focus of today's semantic search engines is to find knowledge either in a structured form (also called fact retrieval), or in semi- or un-structured form, which is commonly referred to as semantic document retrieval. Only a few search engines are trying to close the gap between these two approaches. Although they search simultaneously for structured and unstructured data, the results are either analyzed independently, or the search possibilities are highly limited: for example, they might support only specific question patterns. Accordingly, the information available in the system is not exploited, and, simultaneously, the relationships between individual pieces of content in the respective information systems and complementary information cannot reach the user. In order to close this gap, this thesis develops and evaluates a new hybrid semantic search approach that combines structured and semi- or un-structured content throughout the entire search process. This approach not only finds facts and documents, it uses also relationships that exist between the different items of structured data at every stage of the search, and integrates them into the search results. If the answer to a query is not completely structured (like a fact), or unstructured (like a document), this approach provides a query-specific combination of both. However, consideration of structured as well as semi- or un-structured content by the information system throughout the entire search process poses a special challenge to the search engine. This engine must be able to browse facts and documents independently, to combine them, and to rank the differently structured results in an appropriate order. Furthermore, the complexity of the data should not be apparent to the end user. Rather, the presentation of the contents must be understandable and easy to interpret, both in the query request and the presentation of results. The central question of this thesis is whether a hybrid approach can answer the queries on a given database better than a semantic document search or fact-finding alone, or any other hybrid search that does not combine these approaches during the search process. The evaluations from the perspective of the system and users show that the hybrid semantic search solution developed in this thesis provides better answers than the methods above by combining structured and unstructured content in the search process, and therefore gives an advantage over previous approaches. A survey of users shows that the hybrid semantic search is perceived as understandable and preferable for heterogeneously structured datasets.show moreshow less

Download full text files

Export metadata

Metadaten
Author:Kinga SchumacherORCiDGND
URN:urn:nbn:de:kobv:517-opus4-405973
Advisor:Harald Sack
Document Type:Doctoral Thesis
Language:German
Year of Completion:2017
Publishing Institution:Universität Potsdam
Granting Institution:Universität Potsdam
Date of final exam:2017/12/08
Release Date:2018/01/05
Tag:Evaluierung semantischer Suchmaschinen; Methoden der semantischen Suche; hybride semantische Suche; semantische Suche; semantisches Ranking
hybrid semantic search; information retrieval; semantic ranking; semantic search; semantic search evaluation; semantic search methods
Pagenumber:vii, 187
RVK - Regensburg Classification:ST 270, AN 95000
Organizational units:Mathematisch-Naturwissenschaftliche Fakultät / Institut für Informatik und Computational Science
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 000 Informatik, Informationswissenschaft, allgemeine Werke
Licence (German):License LogoKeine Nutzungslizenz vergeben - es gilt das deutsche Urheberrecht