- Informationsextraktion - Wikipedia: Euler, Timm (2001a) Informationsextraktion durch Zusammenfassung maschinell selektierter Textsegmente, Universität Dortmund.
de.wikipedia.org
- Forschungsgebiet der Informationsextraktion: Die Entwicklung auf dem noch recht jungen Forschungsgebiet der Informationsextraktion wurde maßgeblich durch die Message Understanding Conferences (MUC) vorangetrieben.
- Textzusammenfassung: Abzugrenzen ist das eigenständige Forschungsgebiet der Informationsextraktion von verwandten Gebieten: Textzusammenfassung hat eine umfassende Zusammenfassung des Inhaltes eines Textes zum Ziel (die umfassende automatische Textzusammenfassung ist insofern problematisch, als dass auch menschliche Leser bei der Aufgabe, das Wichtigste eines Textes zusammenzufassen, nie völlige Übereinstimmung erzielen werden, wenn nicht spezifiziert wurde, inwiefern die Informationen wichtig sein sollen).
- Zusammenfassung: — (2001b) Informationsextraktion durch gezielte Zusammenfassung von Texten, Universität Dortmund.
- Message Understanding Conferences
- MUC: Die sieben MUC wurden von 1987 bis 1997 von der ’Defense Advanced Research Projects Agency’ (DARPA) – der zentralen Forschungs- und Entwicklungseinrichtung des US-amerikanischen Verteidigungsministeriums – veranstaltet.
- Informationsextraktionssystems: In diesem Zusammenhang ist zu beachten, dass eine solche Einschränkung Konsequenzen für die technische Realisierung eines Informationsextraktionssystems hat.
- Evaluation: Zur Bewertung (Evaluation) von Informationsextraktionssystemen werden die im Information Retrieval gebräuchlichen Kriterien Vollständigkeit (Recall) und Präzision (Precision) bzw. das aus diesen Werten ermittelte F-Maß verwendet.
- Bewertung: Ein weiteres Kriterium zur Bewertung der Güte des Extraktes ist der Anteil der unerwünschten Informationen (Fall-out).
- Information Retrieval: Mit Information Retrieval kann die Suche nach Dokumenten in einer Dokumentenmenge (Volltextsuche) oder auch – entsprechend der wörtlichen Bedeutung – die allgemeiner formulierte Aufgabe des Abrufs von Informationen gemeint sein (vgl. Strube et al. 2001).
- (Template): Da zur gemeinsamen Evaluation ein standardisiertes Ausgabeformat notwendig war, verwendete man ab der zweiten MUC eine gemeinsame Ausgabeschablone (Template), weshalb nahezu alle Informationsextraktionssysteme eine strukturierte Ausgabe der extrahierten Informationen leisten, eine Ausnahme hierzu bildet Euler (2001a, 2001b, 2002).
- Grishman: In einigen Bereichen führt unser mangelndes Verständnis für die Funktionsweise natürlicher Sprache zu einer Stagnation der Entwicklung, doch da Informationsextraktion eine eingeschränktere Aufgabe als ein komplettes Textverständnis darstellt, sind vielfach im Sinne eines ”appropriate language engineering” (Grishman 2003) den Anforderungen angemessene Lösungen (vielleicht auch gerade in Verbindung mit den Nachbargebieten) möglich.
- Information Extraction: Cardie, Claire (1997) ”Empirical Methods in Information Extraction” in AI Magazine, Vol.
- IE: Unter Informationsextraktion (engl. Information Extraction, IE) versteht man die ingenieursmäßige Anwendung von Verfahren aus der praktischen Informatik, der künstlichen Intelligenz und der Computerlinguistik auf das Problem der automatischen maschinellen Verarbeitung von unstrukturierter textueller Information mit dem Ziel, Wissen bezüglich einer im Vorhinein definierten Domäne zu gewinnen.
- Mitkov: Grishman, Ralph (2003) ”Information Extraction” in Mitkov, Ruslan et al., The Oxford Handbook of Computational Linguistics, Oxford University Press.
- text: Einerseits als das Erkennen von bestimmten Informationen – so bezeichnet etwa Grishman IE als ”the automatic identification of selected types of entities, relations, or events in free text” (Grishman 2003) –, andererseits als das Entfernen der Informationen, die nicht gesucht werden.
- events: Ein typisches Beispiel ist die Extraktion von Informationen über Firmenzusammenschlüsse (engl. merger events), wobei etwa aus Online-Nachrichten Instanzen der Relation merge(Firma1, Firma2, Datum) extrahiert werden.
- Informationen: Der Informationsextraktion kommt eine große Bedeutung zu, da viele Informationen in unstrukturierter (nicht relational modellierter) Form vorliegen, zum Beispiel im Internet, und dieses Wissen durch Informationsextraktion besser erschließbar wird.
- Szenario: So wäre etwa in der Domäne ’Wirtschaftsnachrichten’ ein mögliches Szenario ’Personalwechsel in einer Managementposition’.
- Domäne: Informationsextraktionssysteme sind also immer zumindest auf ein spezielles Fachgebiet, meist sogar auf bestimmte Interessengebiete (Szenarios) innerhalb eines allgemeineren Fachgebietes (Domäne) ausgerichtet.
- Cardie: Letztere Sichtweise drückt etwa eine Definition von Cardie aus: ”An IE system takes as input a text and ’summarizes’ the text with respect to a prespecified topic or domain of interest” (Cardie 1997).
- Topic: — (2002) ”Tailoring Text using Topic Words: Selection and Compression” in Proceedings of the 13th International Workshop on Database and Expert Systems Applications (DEXA), IEEE Computer Society Press.
- Euler 2001a: In diesem Sinne könnte man Informationsextraktion auch als gezielte Textzusammenfassung bezeichnen (vgl. Euler 2001a, 2001b).
- maschinellen Weiterverarbeitung: So müssen zu einer maschinellen Weiterverarbeitung die Informationen strukturiert vorliegen, während für eine Weiterverarbeitung direkt durch den Menschen auch ein unstrukturiertes Ergebnis genügen kann.
- The Oxford Handbook of Computational: Mitkov, Ruslan (2003) ”Anaphora Resolution” in Mitkov, Ruslan et al., The Oxford Handbook of Computational Linguistics, Oxford University Press.
Diese Seite wurde von InfoRapid KnowledgeMap automatisch aus dem Inhalt der Wikipedia-Enzyklopädie generiert. Sie steht unter der GNU Free Documentation License.