ETL per l’analitica

Talend Open Studio: Business ModelerI processi ETL(Extract, Transform and Load) sono i più critici e a maggior valore aggiunto – componenti dell’integrazione dati dell’infrastruttura per la Business Intelligence. Mentre la piattaforma di Business Intelligence è per lo più invisibile per gli utilizzatori, i processi open source ETL recuperano i dati da tutti i sistemi operativi e li pre-processano per gli strumenti di analisi e report. La precisione e la puntualità dell’intera piattaforma di Business Intelligence conta difatti sui processi ETL open source.

Ottieni maggiori informazioni sulle soluzioni Talend per ETL.

 

Cos’ è l’ETL?

I processi di estrazione, trasformazione e caricamento comprendono più passi, finalizzati al trasferimento dati da applicazioni di produzione a sistemi Open Source di Business Intelligence:

  • Estrazione dei dati dalle applicazioni di produzione e databases (ERP,CRM,RDBMS, Files, etc)
  • La Trasformazione di questi dati per riconciliarli attraverso i sistemi sorgente, l' esecuzione di calcoli e analisi, l'arricchimento attraverso  la ricerca di informazioni esterne, l'abbinamento del formato richiesto dai sistemi di destinazione  (Third Normal Form, Star Schema, Slowly Changing Dimensions, etc.)
  • Caricamento dei dati derivanti da Integrazione di dati open source nelle diverse applicazioni di Business Intelligence (BI): Data Warehouse or Enterprise Data Warehouse, Data Marts, Online Analytical Processing (OLAP) applications or “cubes”, etc.
  • La latenza dei processi open source varia in base ai ‘’batch’’ (qualche volta mensile o settimanale, ma più spesso giornaliero), fino a un’integrazione dati in tempo reale con più frequenti aggiornamenti (ogni ora, ogni pochi minuti, etc)

 

Sfide dell' ETL

Ci sono numerose sfde per implementare efficacemente e in maniera affidabile i processi di open source ETL.

  • I volumi dei dati crescono in maniera esponenziale, e i processi open source ETL devono processare un gran numero di dati granulari  (Prodotti venduti, telefonate, transazioni bancarie...). Alcuni sistemi di  Business Intelligence (BI)  semplicmente ottengono un aumento incrementale, mentre altri richiedono una ricarica completa ad ogni iterazione.
  • Pochè i sistemi di informazione crescono in complessità, la disparità delle fonti sono pure in crescita. I processi ETL Open source data integration  necessitano di connettività globale per applicazioni pacchettizzate (ERP, CRM, etc.), databases, mainframes, files, Web Services, etc.
  • Le strutture e le applicazioni di Business Intelligence includono data warehouses, data marts, applicazioni OLAP  - per analisi, reporting, dashboard, scorecard, ecc Tutte queste strutture target hanno diversi requisiti di trasformazione dei dati, e diverse latenze.
  • Le transformazioni coinvolte dai processi ETL open source data integration possono essere can be altamente complessi. I dati necessitano di essere aggregati, analizzati, elaborati statistiamente, etc. Per open source B I-sono inoltre necessarie trasformazioni specifiche, come Slowly Changing Dimensions.
  • Dato che la  Business Intelligence (BI) tende verso real-timeliness, i data warehouses e i data marts devono essere aggiornati più spesso, e il tempo di caricamento diventa sempre più breve.

 

Soluzioni Open Source Data Integration per ETL

Le soluzioni ETL Talend open source data integration sono ottimizzate a livello enterprise. Le seguenti caratteristiche sono particolarmente critiche per la progettazione, lo sviluppo, la realizzazione e manutenzione di integrazione dati open source e processi di ETL:

  • Business-oriented process modeling che coinvolge la direzione aziendale e garantisce una corretta comunicazione tra IT e le linee di business
  • Fully graphical development environment che migliora notevolmente la produttività e facilita la manutenzione
  • Highly scalable and fast execution open source platform che sfrutta una griglia di hardware commodity è l'unica soluzione per sostenere la doppia architettura  ETL + ELT
  • Broadest data integration connectivity per supportare tutti i sistemi e ottenere l'accesso a tutti i dati di produzione e per aggiungere facilmente i sistemi di nuove sorgenti
  • Built-in advanced components per ETL, comprese le manipolazioni di stringhe, Slowly Changing Dimensions, automatic lookup handling, bulk loads support, etc