Methoden für die Datenbereinigung

July 29

Datenbereinigung--Daten Reinigung oder Wäsche genannt--ist der Prozess der Erkennung und Korrektur von Fehlern, Inkonsistenzen und Auslassungen in Daten. Riesige Datenmengen werden gesammelt und analysiert durch Politiker, Ökonomen und Wissenschaftler, aber von Fehlern in Daten--was die Verarbeitung und die daraus gezogenen Schlussfolgerungen auswirken können--sind üblich und zu erwarten ist. Es gibt verschiedene Methoden der Datenbereinigung, sowohl traditionelle als auch automatisierte.

Statistische Methoden

Statistische Methoden können Überwachungsdaten und korrekte auch komplexe Datenfehler verwendet werden. Ein Statistiker analysieren den Mittelwert, die Standardabweichung und die Palette von Datenwerten und, damit identifizieren einzelne Datenbanksätze (Tupel), die ungültig sind. Diese Einträge können gelöscht, oder durch eine durchschnittliche oder andere statistische Wert ersetzt. Statistische Methoden der Datenbereinigung können auch fehlende Werte angeben, welche mit plausiblen Werte basierend auf den Rest des Datensatzes ausgefüllt werden können.

Tools für die Datenbereinigung

Datenbereinigung Werkzeuge haben eine Reihe von Jahren existiert. Automatische Datenbereinigung Werkzeuge in der Regel konzentrieren sich auf eine bestimmte Datenbank Domain--definiert die möglichen Werte als in jedes Feld oder Attribut eingegeben werden können--wie Namens-und Adressdaten. Normalerweise verwenden einen matching-Regeln aus einer Bibliothek oder interaktiv vom Benutzer, zu validieren, Straßennamen, Ortsnamen und Postleitzahlen und verwandeln Sie die vorhandenen Daten in einzelne, standard-Elemente zur Verfügung. Sie verwenden übereinstimmenden Datensatz, um festzustellen, ob zwei Datensätze Daten zum selben Thema dar und sind in der Lage, einzelne Datensätze zu verbinden, die, sagen wir, die gleiche Adresse haben. Werkzeuge für die Datenbereinigung variieren in den Grad an Komplexität im Hinblick auf die Überwachung von Daten, Reinigung und Migration.

ETL-Tools

ETL steht für "Extract, Transform, Load" und es gibt viele kommerzielle Software-Tools entwickelt, um die Hilfe des ETL-Prozess der Datenbereinigung. Die wichtigsten Merkmale eines effektiven ETL-Tools ist seine Fähigkeit Quelldaten direkt zu lesen und zu reinigen und Transformieren von Daten, zusammen mit seiner Unterstützung für Metadaten. Metadaten kann ist Dokumentation oder Informationen über ein bestimmtes Datenelement und einen Benutzer Fehler und Inkonsistenzen in den Daten zu erkennen, die nicht unbedingt, durch das ETL-Tool selbst identifiziert werden kann. ETL-Tools bieten in der Regel eine Bibliothek von Funktionen und Schemata zum Transformieren von Daten--Datentypkonvertierungen, arithmetische Funktionen, string Funktionen, etc.-- und können Daten aus Datenquellen formfreie, mit einigen Einschränkungen, sowie über den standard ODBC ("Open Database Connectivity") und EDA ("Electronic Design Automation") Schnittstellen zu extrahieren.