- Data-Mining - Wikipedia: Dies unterstreicht CABENA, wenn er feststellt, dass lediglich zehn Prozent des Zeitaufwandes im Data-Mining unmittelbar auf den Einsatz von Data-Mining-Methoden entfallen, während 90 Prozent in die Datenaufbereitung und Ergebnisnachbearbeitung fließen.
de.wikipedia.org
- Knowledge Discovery in Databases: In Abgrenzung zum Knowledge Discovery in Databases findet beim Data Mining keine Bewertung der Ergebnisse statt, etwa auf Bekanntheit von Mustern oder Trivialitäten.
- Data Mining: Daher kann Data Mining als ein (zentraler) Baustein im Knowledge Discovery in Databases gesehen werden.
- Abgrenzung: Eine Abgrenzung von Data-Mining zur statistischen Datenanalyse sowie eine Beschränkung der dem Data-Mining zuordenbaren Methoden findet jedoch nicht statt (Lit.: Bensberg, S.
- Ergebnisse: Interessante Ergebnisse können sich hier insbesondere dann ergeben, wenn das Fehlen einer Angabe direkt mit ihrer Ausprägung zusammenhängt.
- Evaluation der Ergebnisse: Da der Data-Mining-Prozess auf der sigmatischen Ebene stattfindet, stellt sich die Frage, inwieweit die Evaluation der Ergebnisse als Bestandteil des Data-Mining-Prozesses gelten kann.
- Data-Mining-Prozess: Der Data-Mining-Prozess umfasst somit, ausgehend von der Datenselektion, alle Aktivitäten, die zur Kommunikation von in Datenbeständen entdeckten Mustern notwendig sind.
- Umgang mit stark korrelierten Attributen
- Selektion: Neben der Selektion redundanter Attribute führt auch die Berechnung neuer Attribute zu Abhängigkeiten, die das Ergebnis durch eine Vielzahl trivialer Erkenntnisse aufblähen.
- Attribute: Die Berechnung von Verhältniskennzahlen ist für solche Attribute ratsam, für die die Datenbasis eine stark heterogene Grundgesamtheit repräsentiert.
- Datenselektion und -extraktion: Die Attributsausprägungen von unechten Fehlwerten können durch eine Rückkopplung zur ersten Phase des Data-Mining-Prozesses, der Datenselektion und -extraktion, teilweise ermittelt werden.
- Phasen: So verweisen HIPPNER und WILDE darauf, dass die einzelnen Phasen in „intensiver Interaktion mit dem Anwender und mit zahlreichen Rückkopplungen ablaufen“.
- Rückkopplung: Liefert auch eine Rückkopplung zur Datenselektion keine sicheren Werte, ist im Einzelfall zu prüfen, ob kritische Werte als Fehlwerte behandelt werden müssen.
- Phase der Datenselektion: Die manuelle Vorauswahl von Attributen aufgrund domänenspezifischem A-priori-Wissen ist formal der Phase der Datenselektion zuzuordnen.
- Aggregation der Daten
- Interesse: Daten können ebenfalls dann aggregiert werden, wenn sie im aktuellen Aggregationsniveau Informationen enthalten, die nicht von Interesse sind.
- A-priori-Wissen: Fundiertes A-priori-Wissen über kausale Zusammenhänge zwischen den Attributen ist die Voraussetzung, um durch mathematische Transformation einzelner Attribute die Komplexität der später einzusetzenden Methode reduzieren zu können.
- Datenselektion: Im Folgenden wird der Data-Mining-Prozess in vier Phasen unterteilt: Datenselektion, Datenvorbereitung, Mustererkennung und Kommunikation.
- Datenquellen: Grundsätzlich sollten neben den verschiedenen Datenbanken der operativen Systeme daher auch folgende Datenquellen auf ihre Relevanz geprüft werden:
- Relevanz: Empirische Untersuchungen belegen Fehlerwahrscheinlichkeiten in den Rohdaten von bis zu 30 Prozent und damit auch die Relevanz der Datenbereinigung.
- Mustererkennung: HUKEMANN unterteilt diesen Prozess in Anlehnung an FAYYAD, PIATETSKY-SHAPIRO und SMYTH in die Phasen: Aufgabendefinition, Selektion und Extraktion, Vorbereitung und Transformation, Mustererkennung, Evaluation und Präsentation.
- Kommunikation: In der Phase der Kommunikation sind die entdeckten Muster in eine für den Adressaten verarbeitbare Form zu bringen und über adäquate Medien zu kommunizieren.
- Künstliche Neuronale Netze: Neben den statistischen Verfahren können zur Gruppenbildung auch Verfahren des maschinellen Lernens eingesetzt werden, beispielsweise Künstliche Neuronale Netze.
- Verfahren: Subsymbolische Verfahren wie Künstliche Neuronale Netze arbeiten hingegen nach dem Black-Box-Prinzip, Klassenbeschreibungen sind nicht aus dem konstruierten Modell heraus ableitbar.
- maschinellen Lernen: Mathematische Methoden, die für das Aufstellen von Klassifikationsmodellen hilfreich sind, entstammen sowohl der klassischen Statistik (Diskriminanzanalyse, K-Nächste-Nachbarn-Methode) als auch dem maschinellen Lernen.
- Gruppenbildung: Die Gruppenbildung „zielt auf die Aufspaltung der Daten in interessante und sinnvolle Teilmengen oder Klassen.“ Dabei ist die Zielvorstellung, dass Objekte innerhalb einer Klasse möglichst homogen, Objekte aus unterschiedlichen Klassen möglichst heterogen zueinander sind.
- Entscheidungsbäumen: Durch den Einsatz von Entscheidungsbäumen oder künstlichen neuronalen Netzen können diese Gestaltungsparameter unter gegebenen Umweltbedingungen optimiert werden.
- Gestaltungsparameter: Mittels Klassifikationsverfahren und Wirkungsprognosen können Systeme konstruiert werden, die für die flexiblen Gestaltungsparameter als Input den erwarteten Output einer Zielgröße bestimmen.
- explorativen Datenanalyse: Zwar lassen sich deskriptive Verfahren nicht der explorativen Datenanalyse zuordnen, jedoch erfüllen verschiedene deskriptive Methoden ebenfalls die Ziele des Data Mining.
- Deskriptive Verfahren: Deskriptive Verfahren sind aufgrund der genannten Eigenschaften dem Data-Mining zuzuordnen.
- Data-Mining-Techniken: Im Folgenden wird Data-Mining in Anlehnung an Bensberg als integrierter Prozess verstanden, der durch Anwendung von Data-Mining-Techniken auf einen Datenbestand Muster entdeckt und kommuniziert.
- Verfahren des Data-Mining: Dies ruft Datenschützer auf den Plan, welche die Anwendung der Verfahren des Data-Mining kritisch begleiten.
Diese Seite wurde von InfoRapid KnowledgeMap automatisch aus dem Inhalt der Wikipedia-Enzyklopädie generiert. Sie steht unter der GNU Free Documentation License.