Strategien für die Datenbereinigung

November 21

Strategien für die Datenbereinigung

Daten können in eine beliebige Anzahl von Möglichkeiten, von Benutzereingabefehler auf die Formatierung von Inkonsistenzen beschädigt werden. Duplikate sind eines der häufigsten Datenprobleme in den meisten Firmen-Datenbanken. Der beste Weg, um die Korrektheit der Daten zu gewährleisten ist, um Beschädigung zu verhindern, aber es ist klug, haben einen Plan um Datenprobleme sollten Probleme auftreten.

Vervielfältigung

Duplikate können eine frustrierende daran, als Prüfer für die Daten zu sehen sein. Ein Front-End-Datenbildschirm fangen nicht oft, bestimmte Arten von Duplikaten; zum Beispiel können an eine Adresse Tisch, Hauptstraße 123 und 123 Main St. erscheinen zwei separate Adressen sein, wenn sie die gleiche Adresse sind.

Dies kann mithilfe einer der beiden Methoden gelöst werden: Datenentfernung oder Korrektur der Daten. Datenentfernung würde bedeuten, alle aber eine Instanz einer Gruppe von Duplikaten, gelöscht, während Datenberichtigung alle Instanzen Vervielfältigung einen einzigen vereinbarten Wert aktualisieren würde. Software-Pakete stehen zur Verfügung, dass Verwendung Standardabweichung, Cluster oder anderen Kriterien, dann die Ausläufer ein Algorithmus zur Identifizierung von Ausreißern anhand von einem Fachexperten, die das Schicksal des unerwarteten Eintrags bestimmt bewertet.

Extract, Transform, Load

Extract, Transform, Belastung oder ETF, ist eine häufig verwendete Methode verschieben und Bereinigen von Daten. Während keine manuelle Säuberung auftritt, gibt es automatisierte Aufgaben in der Phase übersetzen. Beispielsweise ist wenn die Quelltabelle "M" und "F" und die Zieltabelle "männlich" und "weiblich speichert", ein Skript ausführen, um die Daten auf die neuen Werte zu übersetzen.

Sobald die Daten bereinigt und bestätigt ist, kann es in die Zieltabelle importiert werden. Es darf auch über die alten Daten über Daten schreiben eingeführt werden. Dies funktioniert gut, wenn eine ganze Spalte von Daten in einer Tabelle muss geändert werden.

Aktualisieren von Legacy-Systemen

Aktualisieren eine legacy-System in der Regel beinhaltet Verschieben der Daten auf eine Zwischenspeicherort oder Staging-Bereich, wo es dann eine automatische als auch manuelle Daten-Reinigung-Runde erfährt. Dies geschieht, um verhindern, dass irreversible Fehler auf den legacy-Daten vor dem Import in das neue System. Es sollte darauf hingewiesen, dass die Altdaten nicht nach Informationen-management.com, aktualisiert werden, sollte um zwei separate Datasets aufrechterhaltene vermeiden. Sie sollten stattdessen ausgemustert und das neue System sollte die einzige im Einsatz geht nach vorn.