OREX
Ontologiebasierte Informationsextraktion und Suche

Ziel des Projektes ist die Entwicklung von Methoden zur Verbesserung domänen-spezifischer Informationsextraktion und Suche. Dabei soll als wesentliche Innovation der durchgängige Einsatz ontologiebasierter Techniken gemeinsam für beide Bereiche, Informationsextraktion (IE) und Suche (Information Retrieval, IR), untersucht werden. Mit diesem Ansatz wird einerseits die Qualität der Informationsextraktion verbessert und der Aufwand für Wartung und Domänentransfer werden verringert. Andererseits wird mit diesem Ansatz auch eine wesentliche Verbesserung des IR, insbesondere der domänen-spezifischen Suchmöglichkeiten für den Endanwender erreicht.

Die angestrebten Verbesserungen sind domänenunabhängig, sollen aber im Rahmen des Projektes anhand von zwei konkreten Beispielsanwendungen erprobt werden. Die erste Anwendung erlaubt die Auswertung von Internet-Stellenanzeigen aus beliebigen Webdokumenten und die einfache Suche in den so gewonnenen Daten. Sie ist bereits in einer ersten Version (ohne Verwendung von Ontologien) im Einsatz. Anhand dieser Anwendung sollen die Verbesserungen durch den Einsatz von Ontologien untersucht werden und prototypisch Strategien zum vereinfachten Domänentransfer entwickelt werden. Die zweite Anwendung zur automatischen Extraktion von Immobilienanzeigen und ontologiegestützten Suche in den Ergebnisdaten, wird für dieses Projekt neu entwickelt. Anhand dieser Anwendung sollen insbesondere auch die im Rahmen des Projekts entwickelten Methoden zur Vereinfachung des Domänentransfers demonstriert werden.

Die beiden Hauptziele in diesem Projekt sind einerseits eine Verbesserung und kostengünstigere Wartung und Domänenadaptierung von Informationsextraktion, andererseits die Verbesserung einer domänenspezifischen Suche in den durch die Informationsextraktion ermittelten Daten. Die wesentliche Strategie zur Erreichung dieser Ziele ist der durchgängige Einsatz von ontologiebasierten Verfahren, wodurch die einzelnen Komponenten auf ein gemeinsames Wissensrepräsentationsframework zugreifen und eine gemeinsame Repräsentationssprache verwenden können. Aus Sicht des Anwenders soll damit eine intelligente domänenspezifische semantische Suche in den relevanten Webseiten der Domäne möglich werden. Diese Suche geht über die konventionelle Stichwortsuche weit hinaus, da gezielt nach den domänenrelevanten Fakten im jeweils relevanten Kontext gesucht werden kann. Eine Erhöhung der Qualität der erhaltenen Daten soll durch eine bessere Auswahl der domänenrelevanten Seiten (Erhöhung des Recalls beim Webcrawler) und durch eine Verbesserung der Extraktionsergebnisse selbst (Erhöhung der Precision) erreicht werden. Gleichzeitig soll der Aufwand für die Anpassung und Wartung der Extraktionspipeline möglichst gering bleiben. Sobald die extrahierten Daten zur Verfügung stehen, soll es für den Anwender einfach sein domänentypische Suchanfragen zu formulieren und möglichst viele relevante Informationen zu erhalten (Verbesserung des F-Maßes). Durch die prototypische Anwendung der entwickelten Techniken auf den unterschiedlichen Domänen soll insbesondere untersucht und demonstriert werden, wie die ontologiebasierten Methoden zu Vereinfachung des Domänentransfers konkret in einer kommerziellen Anwendung umsetzbar sind.

Resources

Publically available resources developed as part of this project:

  • GATE plugin AppDoc - automatically create documentation for GATE pipeliens, JAPE and other components
  • GATE plugin VirtualCorpus - make a directory of documents directly accessible as a corpus
  • GATE plugin StringAnnotation - provides an improved and extended version of the GATE list gazetteer and a new processing resource for using Java regular expressions for annotating the document content
  • GATE plugin VirtualDocuments - several processing resources for generating and processing "virtual views" of a document based on a various annotation features and/or the original document text
  • GATE plugin JapeUtils - this plugin provides an extended version of JAPE that has several additional matching constraints pre-loaded (valueref, coextensive, startswith, endswith). In addition, it also provides an extensive library of methods to simplify the Java language rule right-hand-side code.
  • GATE plugin Modular Pipelines - allows to use individual GATE applications/pipelines as modules and combining them by nesting them while still keeping their original identity. With this plugin it is possible to continue developing and updating each module separately without changing or updating any containing pipeline.

Resources that got superseded or merged/changed to new resources during the project:

  • GATE plugin JAPEBackRefs - extend JAPE so that rules can match against previously matched values, similar to back-references in regular expressions. This plugin got merged into the JapeUtils plugin.
  • GATE plugin JapeParms - allows to use a templating mechanism to parametrize a JAPE transducer grammar in order to make it portable and re-usable. This plugin got merged into the JapeUtils plugin.

Research staff

Partners

Sponsor

Key facts