ETL per Analytics

I processi ETL (Extraction, Transformation and Loading - estrazione, trasformazione e caricamento) sono i componenti più importanti e con più valore aggiunto di un'infrastrutturadi Business Intelligence (BI). Sebbene siano per lo più invisibiliagli utenti della piattaforma di BI, i processi ETL recuperano i dati da tutti i sistemi operativi e li pre-elaborano per i tool di analisi e di reporting. La precisione e la tempestività dell´intera piattaforma di BI dipendono in larga misura dai processi ETL.

Per avere più informazioni sulle soluzioni ETL di Talend adesso.

 

Cos´è l´ETL?

I processi di estrazione, trasformazione e caricamento comprendono step multipli che hanno come obiettivo il trasferimento dei dati dalle applicazioni di produzione ai sistemi di Business Intelligence :

  • Estrazione dei dati dalle applicazioni di produzione e dai database (ERP, CRM, RDBMS, file ecc.)
  • Trasformazione di questi dati per la loro riconciliazione su tutti i sistemi sorgente, eseguire calcoli o parsing di stringhe, arricchirli con informazioni di lookup esterne e confrontare il formato richiesto dal sistema target (Third Normal Form Star Schema, Slowly Changing Dimensions, ecc.)
  • Caricamento dei dati risultanti nelle varie applicazioni BI: Data Warehouse o Enterprise Data Warehouse, Data Mart, applicazioni Online Analytical Processing (OLAP) o “cubi”, ecc.

La latenza dei processi ETL varia da batch (a volte mensilmente o settimanalmente, ma più spesso quotidianamente), a near-real-time con aggiornamenti più frequenti (ogni ora, ogni minuto, ecc).

 

Le sfide dell´ETL

Ci sono numerose difficoltà da fronteggiare per ottenere un´implementazione efficiente ed affidabile dei processi ETL.

  • I volumi di dati crescono in maniera esponenziale, e i processi ETL devono elaborare grandi quantità di dati granulari (prodotti venduti, chiamate telefoniche, transazioni bancarie.).
    Alcuni sistemi BI raramente vengono aggiornati incrementalmente mentre altri richiedono un caricamento completo ad ogni iterazione.
  • Con l´aumento della complessità dei sistemi informatici, anche la disparità delle sorgenti aumenta. I processi ETL richiedono una connettività di vasta portata per i pacchetti di applicazioni (ERP, CRM, ecc.), database, mainframe, file, Servizi Web, ecc.
  • Le strutture e le applicazioni di Business Intelligence comprendono data warehouse, data mart, applicazioni OLAP per l´analisi, il reporting, il dashboarding, lo scorecarding, ecc. Tutte queste strutture target hanno diversi requisiti di trasformazione dei dati e diverse latenze.
  • Le trasformazioni coinvolte nei processi ETL possono essere altamente complesse. I dati devono essere aggregati, sottoposti a parsing, calcolati, elaborati statisticamente, ecc. Le trasformazioni specifiche BI sono anch´esse necessarie, come lo Slowly Changing Dimensions.
  • Mentre la BI tende alla simultaneità real-time, i data warehouse e data mart devono essere aggiornati più spesso e le finestre di tempo del caricamento diventano sempre più brevi.

 

Soluzioni di integrazione dati open source per ETL

Le soluzioni di integrazione dati Talend sono ottimizzate per l´ETL enterprise-grade. Le seguenti funzioni sono particolarmente importanti per la progettazione, lo sviluppo, l´esecuzione e la manutenzione dei processi ETL :

  • Modeling del processo business-oriented garantisce una comunicazione ottimale tra l'informatica ed il business
  • Ambiente di sviluppo grafico che migliora notevolmente la produttività e agevola la manutenzione
  • Piattaforma molto evolutiva che sfrutta una griglia di commodity hardware e l´unica soluzione a supportare l´architettura doppia ETL + ELT.
  • Ampissima connettività per supportare tutti i sistemi
  • Componenti avanzati integrati per l´ETL, compresi manipolazioni di stringhe, Slowly Changing Dimensions, supporto carichi bulk, ecc.
Copyright © 2006-2008 Talend. All rights reserved