Die Top-10-Algorithmen, Data Mining

June 3

Datamining ist der Prozess der Analyse und Zusammenfassung von Daten aus unterschiedlichen Perspektiven. Es bemüht sich, die Datenmuster und Beziehungen über große Pools von Informationen mithilfe von Algorithmen---Sätze von Regeln, die ein Problem über eine Reihe von konkreten Schritten zu lösen (glaube der Euklidische Algorithmus in der Algebra, die Teiler von zwei Zahlen findet) zu definieren.

Der 2006 IEEE International Conference on Data Mining auf die oberen 10 Algorithmen im Bereich Platz.

Entscheidungsbäume

Baum Entscheidungsalgorithmen wollen konkurrierende Entscheidungen in Zweige des Einflusses nach einer anfänglichen Entscheidung organisieren. Der Stamm des Baumes repräsentiert die erste Entscheidung, und es beginnt mit einer Ja-oder-Nein-Frage, z. B. ob Sie frühstücken. Frühstück essen und nicht Essen Frühstück wäre die ersten zwei unterschiedliche Zweige des Baumes, und jede Wahl hätte danach eigene unterschiedliche Niederlassungen zu einem Endpunkt führen.

Der K-Means-Algorithmus

Der k-Means-Algorithmus basiert auf Clusteranalyse. Ziel ist es, die gesammelten Daten in separaten "Clustern" gruppiert nach ähnlichen Merkmalen zu brechen.

Support Vector Machines

Support Vektor Maschinen Algorithmen nehmen Eingabedaten und vorherzusagen, welche der beiden möglichen Kategorien, die die eingegebenen Daten enthalten. Ein Beispiel wäre die Postleitzahlen aus einem Pool von Wähler sammeln und versuchen, vorherzusagen, ob ein Wähler geben ein Demokrat oder ein Republikaner ist.

Der Apriori-Algorithmus

Der Apriori-Algorithmus verfolgt in der Regel Bewegungsdaten. Beispielsweise könnte in einem Bekleidungsgeschäft der Algorithmus verfolgen die Hemden-Kunden in der Regel zusammen kaufen.

Der EM-Algorithmus

Dieser Algorithmus definiert Parameter durch die Analyse von Daten und prognostiziert die Wahrscheinlichkeit eines künftigen Ergebnis oder zufälliges Ereignis innerhalb der Parameter der Daten. Zum Beispiel könnte der EM-Algorithmus versuchen, die Zeit der nächsten Eruption der Geysir basierend auf die Zeitdaten der vergangenen Eruptionen vorherzusagen.

PageRank-Algorithmus

Der PageRank-Algorithmus ist eine Stiftung für Suchmaschinen. Es gehört und schätzt Relevanz aus einem einzigen Stück innerhalb einer größeren Gruppe von Daten, z. B. eine einzelne Web Site innerhalb der größeren aller Webseiten im Internet.

AdaBoost-Algorithmus

Der Adaboost-Algorithmus funktioniert in anderen Lernalgorithmen, die Verhalten, die auf der Grundlage von beobachteten Daten, um sie empfindlicher auf statistische Ausreißer zu erwarten. Obwohl der EM-Algorithmus durch einen Geysir mit zwei Eruptionen in weniger als einer Minute, wenn es in der Regel einmal täglich ausbricht, verzerrt werden könnte, würde der Adaboost-Algorithmus der EM-Algorithmus-Ausgabe optimieren, durch die Analyse der Relevanz der Ausreißer.

K-nächste-Nachbar-Algorithmus

Dieser Algorithmus erkennt Muster in Daten-Standort und verknüpft diese Daten mit einer größeren Bezeichner. Beispielsweise wenn Sie ein Postamt jedes Haus geographische Position zuzuweisen wollte und den Datenpool von jedem Haus geographische Lage hatte, würde der k-nächste-Nachbar-Algorithmus die Häuser das nächste Postamt auf der Grundlage ihrer Nähe zueinander zuordnen.

Naive Baye

Der Naive Bayes-Algorithmus prognostiziert eine Identität-Ergebnis, basierend auf Daten von bekannten Beobachtungen. Beispielsweise wenn eine Person g Fuß sechs Zoll groß ist und Größe 14 Schuhe trägt, würde der Naive Bayes-Algorithmus mit einer gewissen Wahrscheinlichkeit Vorhersagen, dass der Mensch ein Mann ist.

Warenkorb-Algorithmus

"Warenkorb" steht für "Klassifikation und Regressive Tree"-Analyse. Wie Baum-Entscheidungsanalyse organisiert sie Daten basierend auf konkurrierende Optionen, wie beispielsweise, ob eine Person ein Erdbeben überlebt hat? Im Gegensatz zu Entscheidung Baum Algorithmen, die nur ein Ergebnis zu klassifizieren oder ein Rückschritt-basierte numerische Ergebnis geben, können der CART-Algorithmus beide die Wahrscheinlichkeit eines Ereignisses vorauszusagen.