Data Profiling mit ETL-Tools – so funktioniert es.

Lesezeit: 3 Minuten

Dein Traumjob bei DICOS
Aufgepasst: Du liebst IT und bist im Team zuhause? Wir auch. Auf Dich warten spannende Projekte, ein tolles Team und zahlreiche individuelle Entfaltungsmöglichkeiten.

Datenqualität x Automation = Produktivität

Produktivität durch Automation zu steigern, ist ein aktueller Trend in der Informations- und Kommunikationstechnik. Dabei wird die Bedeutung der Datenqualität allerdings häufig außer Acht gelassen. Vielmehr werden Daten als notwendiges Übel betrachtet, das in erster Linie dort zu bewältigen ist, wo die Daten entstehen. Dies führt zu Datensilos wie DCIM-Systeme, Netzdokumentationssysteme, CMDBs, IP-Adress-Managementsysteme, Netz- und Element-Managementsysteme u. v. m.

Nehmen wir nun an, ein Unternehmen möchte die Bereitstellung von virtuellen Maschinen in einem Rechenzentrum automatisieren. Hierfür müssen Arbeitsschritte automatisiert werden, die Eingabeparameter aus unterschiedlichen Datenquellen benötigen: eine freie IP-Adresse in einem bestimmten Subnetz, Kommunikationsbeziehungen für Firewallregeln, VLAN Tags, Storage/SAN Konfigurationsparameter und Weitere. Kann einer dieser Parameter nicht ermittelt werden oder ist fehlerhaft, scheitert die Automation.

Ursachen sind häufig veraltete Informationen, fehlerhafte oder unterschiedliche Formate, uneinheitliche Namenskonventionen, Datenduplikate, die bisher entweder hingenommen oder nicht bemerkt wurden. Mit fortschreitender Digitalisierung wird diese mangelnde Datenqualität zum Problem und verhindert die Steigerung der Produktivität durch Automation.

Data Profiling mit DICOS – was heisst das?

DICOS unterstützt bei der Umsetzung automatisierter technischer Abläufe im Umfeld von Rechenzentren und komplexen Netzen. Dabei haben wir immer auch die Qualität der relevanten Daten im Blick.

Im Rahmen von Automatisierungsprojekten führen wir zunächst ein Data Profiling durch: Wir überprüfen alle relevanten Datenquellen und verschaffen uns einen Überblick über die Struktur der Daten und ihre Beziehungen untereinander. Zudem identifizieren wir Qualitätsmängel in den unterschiedlichen Datensilos.

Die 5 Arbeitsschritte des Data Profiling.

1 - Datenprofil erstellen: Nach der Analyse der Datenquellen und der verfügbaren Daten erstellen wir ein aussagekräftiges Datenprofil.
2 - Datenregeln identifizieren: Durch einen Soll-Ist-Abgleich identifizieren wir Datenregeln. Dabei bewerten wir die Risiken durch die Verknüpfung von Daten aus unterscheidlichen Silos. Wir ermitteln Duplikate und fehlende Daten. Verteilungen, Primary und Foreign Key Candidates identifizieren wir ebenso wie funktionale Abhängigkeiten und Beziehungen zwischen unterschiedlichen Datenquellen. Zudem erstellen wir Statistiken zur Häufigkeit verschiedener Datenfehler, um deren Behebung sinnvoll priorisieren zu können.
3 - Korrekturen ermitteln: Die zuvor definierten Datenregeln dienen uns als Ausgangsbasis, um notwendige Korrekturen zu identifizieren.
4 - ETL-Prozesse erstellen: Im nächsten Schritt erstellen wir ETL-Prozesse, um Korrekturen und Bereinigungen der Daten automatisiert durchzuführen.
5 - Korrekturen ausführen: Notwendige Korrekturen werden in definierten Zyklen automatisch durchgeführt.
6 - Datenqualität reporten: Auch das Reporting der Datenqualität erfolgt automatisiert in bestimmten Zyklen.

Individuelle Beratung von DICOS

Professionelle Beratung durch Experten bildet den Grundstein unserer Arbeit. Gerne besprechen wir mit Ihnen die individuelle Durchführung eines Data Profiling für Ihre IT-Infrastruktur. Schreiben Sie uns und wir vereinbaren einen Termin.

Effizientes Data Profiling mit ETL-Tools

monitor_etl_neu

Durch den Einsatz von Extract, Transform & Load Tools (ETL-Tools) sowie Business Intelligence Tools lassen sich aussagekräftige Auswertungen effizient und in kurzer Zeit erstellen.

ETL-Tools bringen eine umfassende Bibliothek an Schnittstellen für den Zugriff auf unterschiedlichste Datenquellen und APIs mit. Business Intelligence Tools erleichern die Auswertung der Daten, die durch das ETL-Tool aus den unterschiedlichen Quellen ermittelt wurden.

Mit der Kombination der entwickelten ETL-Pipelines und Auswertungen mit Hilfe von Business Intelligence Tools kann das Data Profiling automatisiert werden. Damit lässt sich die Datenqualität überwachen und ein Einbruch in der Produktivität proaktiv verhindern.

Datenbereinigung und Datenvervollständigung

Je nach Umfang und Art der identifizierten Probleme in der Datenqualität machen manuelle Daten-Clearings Sinn oder aber die automatisierte Korrektur bzw. Vervollständigung der Daten. Für diesen Zweck setzen wir ebenfalls ein ETL-Tool ein. Dies ermöglicht die grafische Modellierung von Datenpipelines und bringt Schnittstellen für den Zugriff auf zahlreiche Datenquellen mit. Eine Umsetzung auch komplexer ETL Datenpipelines lässt sich damit im Vergleich zu einer manuellen Kodierung deutlich schneller umsetzen und ist gleichzeitig einfacher in der Wartung.

Maßgeschneiderte ETL-Lösungen von DICOS

DICOS unterstützt bei der Analyse und Umsetzung von Datenverarbeitungsprozessen unter Verwendung von ETL-Tools. Beispiele für ETL-Projekte mit unseren Kunden sind:

1

Zusammenführung von Kunden- und Vertragsdaten aus unterschiedlichen CRM-Systemen.

2

Sammeln und Aggregieren von Perfomance-Daten aus einem Datennetz.

3

Soll-Ist-Abgleich von Inventardaten aus dem Netz und CMDBs, Asset-DBs oder Netzdokumentationssystemen.

Haben Sie Fragen zum Thema Data Profiling mit ETL?

Schreiben Sie uns gerne und wir beraten Sie unverbindlich zu den Möglichkeiten Ihrer IT-Umgebung.