Daten-Reinigung-Theorien

October 26

Daten-Reinigung-Theorien

Fehler bei der Datenerfassung und Integration gemacht werden können, und Analysten müssen wissen, wie Sie identifizieren und korrigieren diese Fehler. Dies nennt Daten bereinigen oder Datenbereinigung. Dies ist keine exakte Wissenschaft, und manchmal die Entscheidung, was zu tun ist Grundlage der Analyst Urteils; aber sie weiß, das ist es nicht nur wichtig, eine ausreichende Menge an Daten--sein muss eine seriöse Qualität zu.

Semantik und Formatierung

Eine allgemeine Daten-Reinigungs-Aufgabe umfasst Störungen bei der Formatierung entfernen. Dies könnte etwas so einfaches wie Rechtschreibfehler gemacht während der Datenerhebung oder Eintrag bis zu Problemen mit dem Symbol verwendet, um Einträge zu trennen. Zum Beispiel vorstellen Sie, dass das folgende Stück von Daten in ein Dataset ist, ein Apostroph verwendet wird, um Einträge zu trennen:

Vogelbeobachter Club 42 Beacon Street'Boston

Dies würde als gelesen werden:

VogelbeobachterVerein42 Beacon StreetBoston

Automatisierte Abfragen und Programme werden oft zum Bereinigen von Daten für diesen Fehler.

Integration

Einige Datensätze sind gut alleine aber problematisch, wenn sie in einem größeren Repository oder eines Datawarehouse integriert sind. Beispielsweise kann Alter als Geburtsdatum gespeichert werden:

tt/mm/jjTT/MM/JJJJ

Oder nach einem Bereich:

20-30, 30-40, 40-5015-25, 25-35, 35-45

In einigen Fällen, wie Datum der Geburt zu formatieren ist es relativ einfach, semantische Strukturen zu identifizieren und die Einträge zu standardisieren. In solchen Fällen die Altersgruppen müssen jedoch Annahmen erfolgen. Zum Beispiel; ist die Zahl der Menschen im Alter von 25-35 der Durchschnitt der Menschen im Alter von 20-30 und 30-40?

Ausreißer

Ausreißer sind Datenpunkte, die einen langen Weg vom Rest der Daten liegen. Zum Beispiel ein Alter von 600 oder ein Testergebnis ein Vielfaches höher als der Durchschnitt. Im ersten Fall können Sie sicher davon ausgehen, es war ein Tippfehler, aber im letzteren ist es nicht so offensichtlich. Wenn Sie nicht wissen, ob Ausreißer einen Fehler oder einen legitimen Datenpunkt ist, ist es Ihr Urteil, ob Sie es entfernen oder nicht, unter Berücksichtigung der Zweck der Daten.

Fehlende Daten

Sie müssen auch entscheiden, was zu tun, wenn keine Daten fehlt. Als erstes Muster sollten mithilfe von Abfragen und statistische Analysen identifiziert werden--die Verteilung der fehlenden Daten bestimmt, was Sie tun sollten. Beispielsweise können wenn eine online-Umfrage zwei Seiten hat, aber nur die Fragen auf der ersten Seite beantwortet wurden, diese Informationen verwendet werden zu helfen, die Formen zu verfeinern. Wenn fehlende Daten nach dem Zufallsprinzip verteilt werden und auf die gleiche Variable ist, ist es manchmal möglich, Schätzungen auf Grundlage, was bereits bekannt ist.