Data Warehouses sind Informationen, die aus mehreren Quellen gesammelt und unter einem Schema gespeichert werden, das auf der identischen Site lebt. Es wird mit Hilfe verschiedener Techniken hergestellt, einschließlich der folgenden Prozesse:

1. Datenbereinigung:
Datenbereinigung ist die Art und Weise, Statistiken für die Analyse vorzubereiten, indem falsche, unvollständige, irrelevante, doppelte oder unregelmäßig formatierte Informationen entfernt oder verbessert werden. Diese Tatsache ist in der Regel nicht mehr notwendig oder vorteilhaft, wenn Sie die Statistik recherchieren möchten, da sie die Technik unterbrechen oder falsche Ergebnisse liefern kann.

2. Datenintegration:
Datenintegration ist der Prozess der Integration von Daten aus verschiedenen Assets direkt in eine einheitliche Ansicht. Die Integrationsmethode beginnt mit einem Start und umfasst Schritte, die Verfeinerung, ETL-Mapping und Konvertierung umfassen. Die Datenintegration ermöglicht letztendlich Analysetools, um leistungsstarke und kostengünstige Enterprise Intelligence zu erstellen.

Bei einem typischen Datenintegrationsverfahren sendet der Client eine Informationsrequests an den Master-Server. Der Master-Server bereitet die lebenswichtigen Aufzeichnungen aus internen und externen Assets vor. Extrahiert Fakten aus Quellen und integriert sie dann in einen einzigen Informationssatz. Es wird dann wieder an den Client zur Verwendung zurückgegeben.

3. Datentransformation:
Datentransformation ist die Art und Weise, Informationen von einem Layout oder einer Form in ein anderes Layout oder eine andere Struktur umzuwandeln. Die Datentransformation ist entscheidend für Funktionen, die Datenintegration und Informationsmanagement umfassen. Die Datentransformation hat verschiedene Möglichkeiten: Sie können die Datensatztypen je nach den Wünschen Ihres Projekts ändern, die Datensätze anreichern oder aggregieren, indem Sie ungültige oder doppelte Daten entfernen.

Im Allgemeinen besteht die Technik aus zwei Stufen.

Im ersten Schritt sollten Sie:

  • Führen Sie eine Informationssuche durch, die Assets und Datentypen identifiziert.
  • Bestimmen Sie die Struktur- und Informationsänderungen, die auftreten.
  • Zuordnen von Daten, um herauszufinden, wie Zeichenfelder zugeordnet, bearbeitet, eingefügt, gefiltert und gespeichert werden.

Im zweiten Schritt müssen Sie:

  • Extrahieren Sie Daten aus der ursprünglichen Quelle. Die Größe des Angebots kann von einem verbundenen Tool bis zu einer zuverlässigen nützlichen Ressource zusammen mit einer Datenbank oder Streaming-Ressourcen reichen, einschließlich Telemetrie- oder Protokolldateien von Clients, die Ihre Webanwendung verwenden.
  • Senden Sie Daten an die Zielseite.
  • Das Ziel kann eine Datenbank oder ein Data Warehouse sein, das strukturierte und unstrukturierte Datensätze verwaltet.

4. Laden von Daten:
Beim Laden von Daten werden Daten aus einem Bericht, Ordner oder einer Anwendung in eine Datenbank oder ein ähnliches Dienstprogramm kopiert und geladen. Dies erfolgt normalerweise durch Kopieren digitaler Daten aus der Quelle und Einfügen oder Laden der Datensätze in ein Data Warehouse oder Verarbeitungstools.

Das Laden von Daten wird in Datenextraktions- und Ladeverfahren verwendet. Typischerweise werden solche Informationen in einem anderen Format als dem ursprünglichen Speicherort der Quelle geladen.

5. Datenaktualisierung:
Bei diesem Prozess werden die im Warehouse gespeicherten Daten regelmäßig aktualisiert, damit sie ihre Integrität bewahren.

Ein Data Warehouse ist ein Modell mehrdimensionaler Datenstrukturen, die als „Datenwürfel“ bekannt sind, in denen jede Dimension ein Attribut oder einen anderen Satz von Attributen im Schema der Daten darstellt und jede Zelle zum Speichern des Werts verwendet wird. Daten werden aus verschiedenen Quellen wie Krankenhäusern, Banken, Organisationen und vielen mehr gesammelt und durchlaufen einen Prozess namens ETL (Extract, Transform, Load).

  1. Extract: Dieser Prozess liest die Daten aus der Datenbank verschiedener Quellen.
  2. Transformieren: Es wandelt die in den Datenbanken gespeicherten Daten in Datenwürfel um, damit sie in das Warehouse geladen werden können.
  3. Laden: Es ist ein Prozess, bei dem die transformierten Daten in das Data Warehouse geschrieben werden.

Dieser Vorgang ist in der folgenden Abbildung zu sehen:

Funktionen von Data Warehouse:
Siehe – Funktionen von Data Warehouse .