- Textmining - Wikipedia: Ein gängiges Verfahren des Textmining ist es, in einem ersten Schritt die unstrukturierten Textdaten in eine strukturierte Form zu bringen, die ihre Erschließung mit Verfahren des Datamining erlaubt.
de.wikipedia.org
- Gegensatz zum Textmining: Im Gegensatz zum Textmining werden also nicht einzelne Informationen oder Fakten erschlossen, sondern ganze Dokumente.
- Informationen: Eine Suchmaschine für Informationen aus dem Finanzsektor, die thematisch einschlägige Artikel identifizieren und thematische Entwicklungen verfolgen kann.
- Fakten: Verfahren der Informationsextraktion (engl. Information Extraction, IE) zielen darauf, aus Texten einzelne Fakten zu extrahieren und diese in einem Schema zu präsentieren, z.B. Fakten über Attentate mit terroristischem Hintergrund oder über Firmenzusammenschlüsse.
- Benutzer: Mit statistischen und linguistischen Mitteln erschließt die Textmining-Software aus Texten Informationen, die die Benutzer in die Lage versetzen soll, ihr Wissen zu erweitern oder ihre Handlungen daran auszurichten.
- Wörter und Phrasen: Diese Aufgabe wird dadurch erschwert, dass einerseits einzelne Wörter und Phrasen mehrdeutig sein können (Polysemie) und andererseits dieselbe Bedeutung durch verschiedene Wörter und Phrasen ausgedrückt werden kann (Synonymie).
- Synonymie: Die Erkennung von Assoziationen setzt voraus, dass die Probleme, die Synonymie und Polysemie in natürlichsprachlichen Texten einer solchen Datenanalyse bereiten, weitgehend gelöst sind.
- Matrix: Auswertung von Beziehungen zwischen Termen in dieser Matrix ermöglicht es, assoziative Beziehungen zwischen Termen herzustellen, die oftmals semantischen Beziehungen entsprechen und in einer Ontologie repräsentiert werden können.
- Auswertung von Beziehungen: Die Auswertung von Beziehungen zwischen Dokumenten durch diese reduzierte Matrix ermöglicht es, Dokumente zu ermitteln, die sich auf denselben Sachverhalt beziehen, obwohl ihr Wortlaut verschieden ist.
- Termen: Eine Menge von Dokumenten wird in einen hochdimensionalen Vektorraum (100.000 Dimensionen und mehr) von Termen und Termhäufigkeiten überführt.
- Singulärwertzerlegung: Die so entstandene Matrix wird durch Singulärwertzerlegung in eine niederdimensionale Matrix zerlegt (mit mehreren Hundert Dimensionen).
- Textdaten: Der Begriff Textmining (zu deutsch:Textschürfung) bezeichnet die automatisierte Entdeckung neuer, richtiger und relevanter Informationen aus Textdaten.
- Schritt: Ein weiterer wichtiger Schritt, der nach der Analyse der Daten erfolgen muss, ist die Präsentation oder Visualisierung der Ergebnisse.
- Textmining-Verfahren: Textmining-Verfahren hingegen operieren auf Texten, die als unstrukturierte oder schwach strukturierte Daten bezeichnet werden.
- Texten: Verfahren des automatischen Zusammenfassens von Texten (Summarizing) erzeugen ein Kondensat von einem Text oder einer Textsammlung, jedoch ebenfalls ohne über das in den Texten explizit Vorhandene hinauszugehen.
- Daten: Suchmaschinen für Nachforschungen jeglicher Art: Das Informationsangebot via Internet, Radio, Fernsehen, Zeitschriften und sonstigen in Digitaler Form vorhandenen Daten ist bei weitem unüberschaubar.
- Phrasen und Wörter: Zunächst muss ein Text in Sätze, Phrasen und Wörter zerlegt werden (Tokenisierung).
- Tagging: Die Phrasen und Wörter müssen linguistisch klassifiziert werden (Tagging (s.a. Wortart) wird in der Informatik auch als Lexer bezeichnet).
- natürlichsprachlichen Texten: Eine der größten Herausforderungen des Textmining liegt darin, die Bedeutung aus natürlichsprachlichen Texten zu erschließen.
- Texte repräsentierten: So lässt sich z.B. eine starke Assoziation zwischen dem Namen eines Medikaments und negativen Prädikationen schließen, das in dem durch die Texte repräsentierten Diskurs dieses Medikament in schlechtem Ruf steht.
Diese Seite wurde von InfoRapid KnowledgeMap automatisch aus dem Inhalt der Wikipedia-Enzyklopädie generiert. Sie steht unter der GNU Free Documentation License.