Unterschiede zwischen den Revisionen 20 und 22 (über 2 Versionen hinweg)
Revision 20 vom 2011-02-06 22:06:00
Größe: 4299
Autor: anonym
Kommentar:
Revision 22 vom 2011-02-07 18:22:36
Größe: 5425
Autor: anonym
Kommentar:
Gelöschter Text ist auf diese Art markiert. Hinzugefügter Text ist auf diese Art markiert.
Zeile 11: Zeile 11:
Bei nicht numerischen Daten versucht Data-Mining ebenfalls die Daten durch eine Funktion zu approproximieren. Diese ist dann allerdings keine analytische Funktion, sondern eine abstrahierte Funktion. Das Verfahren ist somit noch fehleranfälliger als wie bei numerischen Daten.
Zum Finden der Funktion gibt es verschiedene Verfahren, welche je nach vorhandenen Daten ausgewählt werden müssen. Das Finden der Funktion wird bei den KI-Informatikern [[http://wissensexploration.de/datamining-kdd-machine-learning.php|Maschinelles Lernen]] genannt. Dieser Begriff ist allerdings problematisch, da er zur Überschätzung der Erkenntnisse durch Data-Mining führt.
Bei nicht numerischen Daten versucht Data-Mining ebenfalls die Daten durch eine Funktion zu approproximieren. Diese ist dann allerdings keine analytische Funktion, sondern eine abstrahierte Funktion. Diese abstrahierte Funktion wird als vorhandenes Muster in den Daten bezeichnet. Data Mining ist somit ein Suchen nach Mustern in komplizierten Datensätzen.

Zum Finden der Muster gibt es verschiedene Verfahren, welche je nach vorhandenen Daten ausgewählt werden müssen. Das Finden des Musters wird bei den KI-Informatikern [[http://wissensexploration.de/datamining-kdd-machine-learning.php|Maschinelles Lernen]] genannt.
Zeile 16: Zeile 18:
==== Next Neighbour Methode ====
Wird auch als Lazy Learning bezeichnet, d.h. von allem vorhandenen Datensätzen werden die gesucht, die den aktuellen Daten am ähnlichsten sind. Dabei werden bei nicht numerischen Daten abstrahierte Abstände verwendet.
==== Classification ====
Zeile 19: Zeile 20:
==== Künstliche Neuronale Netze ==== Es wird versucht in den vorhandenen Daten allgemeinen Strukturen zu finden, so dass Rückschlüsse auf neue Daten gezogen werden können.
Zeile 21: Zeile 22:
==== Cluster ==== ===== K-Nearest Neighbor Methode =====
Wird auch als Lazy Learning bezeichnet, d.h. von allem vorhandenen Datensätzen werden K-Datensätzen gesucht, die den neuen Daten am ähnlichsten sind. Dabei werden bei nicht numerischen Daten abstrahierte Abstände verwendet. Die gesuchten Werte des neuen Datensatzes werden dann mit Gewichtung 1/Abstand aus den nächsten K-Datensätzen bestimmt.

===== Entscheidungsbäume =====

Es wird versucht aus den Daten Entscheidungsbäume zu machen. D.h. die Daten werden in einem abstrakten Baum dargestellt, wobei jede Verästelung eine Entscheidung darstellt. Es wird dabei von der Wurzel angefangen und bei jeder Verästelung wird ein Attribut abgefragt und die nächste Verästelung ausgewählt. Diese Prozedur wird so lange fortgesetzt, bis das Baumende erreicht ist. Da es verschieden Möglichkeiten für die Bäume gibt wird per Algorithmus versucht den Kürzesten und Optimalsten (d.h. mit dem kleinsten Fehler) zu finden.

===== Künstliche Neuronale Netze =====

==== Clustering ====

Clustering ist das Einteilen der Datensätze in verschiedene Mengen mit ähnlichen Eigenschaften.

==== Regression ====

Bei numerischen Daten als lineare Regression bezeichnet, gibt es in der KI Methoden dieses auf nicht numerische Daten zu verallgemeinern.

Data Mining

Data Mining als Teilbereich der KI

Data-Mining ist ein Teilbereich der Künstlichen Intelligenz (KI) in der Informartik. Data-Mining ist ein vereinfachter Begriff für Knowledge Discovery in Databases (KDD). D.h. KDD ist der Versuch aus vorhandenen Datenmassen in Datenbanken Erkenntnisse zu bekommen. Bei nicht als Datenbanken vorliegenden Texten wird dabei zuerst Text Mining betrieben.

Bei Zahlendaten ist dieses nicht anderes als ein numerisches Verfahren, d.h. mathematische Funktionen werden durch Polynome angenähert, also eine kompliziertere Version der linearen Regression.

Bei nicht numerischen Daten versucht Data-Mining ebenfalls die Daten durch eine Funktion zu approproximieren. Diese ist dann allerdings keine analytische Funktion, sondern eine abstrahierte Funktion. Diese abstrahierte Funktion wird als vorhandenes Muster in den Daten bezeichnet. Data Mining ist somit ein Suchen nach Mustern in komplizierten Datensätzen.

Zum Finden der Muster gibt es verschiedene Verfahren, welche je nach vorhandenen Daten ausgewählt werden müssen. Das Finden des Musters wird bei den KI-Informatikern Maschinelles Lernen genannt.

Methoden des Data-Mining

Classification

Es wird versucht in den vorhandenen Daten allgemeinen Strukturen zu finden, so dass Rückschlüsse auf neue Daten gezogen werden können.

K-Nearest Neighbor Methode

Wird auch als Lazy Learning bezeichnet, d.h. von allem vorhandenen Datensätzen werden K-Datensätzen gesucht, die den neuen Daten am ähnlichsten sind. Dabei werden bei nicht numerischen Daten abstrahierte Abstände verwendet. Die gesuchten Werte des neuen Datensatzes werden dann mit Gewichtung 1/Abstand aus den nächsten K-Datensätzen bestimmt.

Entscheidungsbäume

Es wird versucht aus den Daten Entscheidungsbäume zu machen. D.h. die Daten werden in einem abstrakten Baum dargestellt, wobei jede Verästelung eine Entscheidung darstellt. Es wird dabei von der Wurzel angefangen und bei jeder Verästelung wird ein Attribut abgefragt und die nächste Verästelung ausgewählt. Diese Prozedur wird so lange fortgesetzt, bis das Baumende erreicht ist. Da es verschieden Möglichkeiten für die Bäume gibt wird per Algorithmus versucht den Kürzesten und Optimalsten (d.h. mit dem kleinsten Fehler) zu finden.

Künstliche Neuronale Netze

Clustering

Clustering ist das Einteilen der Datensätze in verschiedene Mengen mit ähnlichen Eigenschaften.

Regression

Bei numerischen Daten als lineare Regression bezeichnet, gibt es in der KI Methoden dieses auf nicht numerische Daten zu verallgemeinern.

Projekte im Überwachungsbereich mit Data-Mining

INDECT

Im Rahmen der EU gibt es ein Projekt namens INDECT indem alle Datenbanken, alle durch Überwachungstechnik aufgezeichneten Daten und durch Software Agenten im Netz gefundenen Daten mit Hilfe von Data-Mining geplante Verbrechen a la Minority Report vorhergesehen werden sollen.

Anschauliche Erläuterung der Gefahren von Data-Mining

In einem FAZ-Artikel über Data-Mining von Frank Rieger wird die Problematik von Data-Minig sehr anschaulich beschrieben:

Die Profile sind nützlich, um uns gezielt zum Kauf von mehr nutzlosem Tand oder interessanteren Büchern zu verleiten, uns effizienter zu verwalten und zukünftiges Verhalten zu prognostizieren. Und um Menschen unter präventive Überwachung zu stellen, deren Profil sich bedenklich dem von Straftätern nähert. Dabei geht es nicht um hundertprozentige Präzision der Vorhersage. Wahrscheinlichkeiten, Neigungen, Tendenzen, Zugehörigkeit zu Kohorten sind die Währungen der algorithmischen Orakel.

Grundsätzliche Kritik an de KI

Einer der ersten und versiertesten Kritiker der Künstlichen Intelligenz Forschung ist Joseph Weizenbaum. Joseph Weizenbaum war einer der Pioniere in der Künstlichen Intelligenz Forschung. Er hat das Programm Eliza entwickelt, welches einen Psychiater symuliert. Seine Intention für das Programm war allerdings nur eine bloße Übung, wie der Computer mit Sprache umgehen kann. Zu seinem Erschrecken wurde das Programm von vielen (auch seinen Kolleg_innen und Mitarbeiter_innen) als ernste Alternative zu einem realen Psychiater angenommen. Dieses Schlüsselerlebnis hat Joseph Weizenbaum zu einem entschiedenen Warner vor den Gefahren der KI gemacht (und dem latenten Größenwahn der Wissenschaftler_innen).

Seminararbeit zu Data-Mining

Rote Hilfe Zeitung zu Data Mining

Data-Mining Skript (mathematisch)