Prova di fattibilità dell’ottimizzazione del data warehouse

Guida di riferimento dettagliata di Talend Big Data and Machine Learning

Leggi gli altri articoli della serie:

Configurazione di Sandbox

Manutenzione predittiva tramite l'IoTValutazione dei rischi in tempo realeMotore di raccomandazione

Introduzione

In questo esempio esamineremo un approccio di ottimizzazione del data warehouse che sfrutta la potenza di Spark per eseguire l'analisi di un set di dati di grandi dimensioni prima di caricarlo nel data warehouse. In questo modo è possibile confermare l'integrità dei dati e in definitiva scegliere di rifiutare il caricamento prima che eventuali dati errati danneggino la qualità del data warehouse. La configurazione di questa demo mette in evidenza il motore Spark integrato di Talend Studio e può essere eseguita senza una connettività diretta a una piattaforma di big data. Sebbene non rappresenti una soluzione per un ambiente di produzione, il motore Spark di Talend Studio dimostra come anche nello sviluppo gli utenti Talend possano sfruttare appieno la funzionalità di Spark senza la necessità di connettersi a una piattaforma di big data completa né di configurarla.


In primo piano

Analisi del data warehouse Sandbox

Analisi pre-caricamento

Analizzando grandi volumi di dati PRIMA di caricarli nel data warehouse, si elimina il sovraccarico causato da costose anomalie dei dati all'interno del data warehouse.

Icona Sandbox - Elaborazione di grandi volumi

Elaborazione di grandi volumi con Spark

Con Talend e Spark è possibile elaborare gigabyte e terabyte di dati in molto meno tempo.

Ripartizione del carico di lavoro ETL

Utilizzando Talend con una piattaforma di big data, è possibile ottimizzare il data warehouse eliminando i costi del sovraccarico prodotto dall'elaborazione dei dati.


Esecuzione

Per istruzioni sull'esecuzione veloce e l'interfaccia grafica Web, accedi al portale dei casi d'uso sull'ottimizzazione del data warehouse dalla pagina di caricamento dell'ambiente Sandbox.

Pagina di caricamento dell'ottimizzazione del data warehouse Sandbox

Apri Talend Studio nell'ambiente Sandbox.Per questo esempio lavoreremo nella cartella Warehouse_Optimization (Ottimizzazione warehouse) che si trova nella vista Repository. Esamineremo i job presenti in Standard e Big Data Batch (Batch big data) di Job Designs (Progetti job).Quando sei pronto per iniziare, segui questi passaggi:

  1. Seleziona la cartella Warehouse_Optimization nei job Big Data Batch. Esegui il job Step_01_Generate_MonthlyReport. Si tratta di un job Spark che legge una vasta raccolta di file da un'unica directory e aggrega i dati in un unico report. Ottimizzazione del data warehouse - Generazione di un report mensile
  2. Seleziona la cartella Warehouse_Optimization nei job Big Data Batch. Esegui il job Step_02_Month_Over_Month_Comparison. .Questo job Spark prende i nuovi dati aggregati dal job precedente e li confronta con lo stesso file del report generato nel mese precedente per evidenziare eventuali anomalie nei dati. In un caso d'uso tipico, questi job vengono eseguiti ogni qualvolta viene programmato di caricare un nuovo set di dati nel warehouse (in questo caso la frequenza è mensile). Ai fini di questo sandbox, avevamo già incluso i dati del mese precedente ("Previous Month's") per il confronto.Ottimizzazione del data warehouse - Job Month Over Month (Mese per mese)
  3. Seleziona la cartella Warehouse_Optimization nei job Standard. Esegui il job Step_03_GoogleChart_Product_by_Unit.Questo job utilizza Google Charts solo per creare grafici relativi ai report di confronto generati nel job precedente. È possibile visualizzare tali grafici nella dashboard di questa pagina Web. Ottimizzazione del data warehouse - Google Chart
  4. Osserviamo la dashboard della pagina Web e i due report grafici generati. Si può notare che alcuni prodotti sono nettamente disallineati rispetto ad altri, il che significa che i dati non sono accurati. In uno scenario di vita reale, gli analisti aziendali che hanno dimestichezza con i dati dovrebbero essere in grado di riconoscere le anomalie e rifiutarsi di caricare i dati nel warehouse.

Pagina Web della demo relativa al data warehouse


Conclusione

In questo esempio abbiamo osservato l'uso del motore Spark integrato in Talend Studio. Analogamente, questa stessa demo potrebbe essere configurata per l'esecuzione su qualsiasi piattaforma di big data. Il caricamento di grandi volumi di dati richiede tempo e se i dati sono danneggiati o non accurati potrebbero essere necessarie misure correttive di durata anche più lunga. Tuttavia, grazie alla connettività Spark nativa e alla potenza di elaborazione di Talend è possibile analizzare in modo rapido e semplice set di dati di grandi dimensioni prima di caricarli nel data warehouse. Questo offre agli analisti aziendali un'anteprima della qualità dei dati e permette di eliminare dal data warehouse il carico dell'elaborazione di dati pesanti, consentendo di utilizzarlo per lo scopo al quale è destinato, ovvero fornire rapido accesso ai report sulla qualità.

| Ultimo aggiornamento: giugno 26th, 2019