Presentazione di Pipeline Designer: reinventare l’integrazione dei dati

Presentazione di Pipeline Designer: reinventare l’integrazione dei dati

  • Stephanie Yanaga
    Stephanie Yanaga is a Product Marketing Manager focusing on Talend’s free and open source products. In this role, Stephanie will be involved in the open source product strategy and will also work to ensure the Talend open source community has the resources needed to continue to thrive. Prior to joining the product marketing group in January 2018, Stephanie spent two years in Australia building out Talend’s APAC presence.

Sono entusiasta di poter presentare Pipeline Designer, un ambiente di progettazione d'avanguardia per l'integrazione dei dati nel cloud, che permette di sviluppare e implementare pipeline di dati in pochi minuti, progettare in modo fluido job per l'esecuzione sia in batch che in streaming e scalare in modo nativo con le più recenti tecnologie ibride e multi-cloud. 

<<Prova ora Pipeline Designer>>

Perché Pipeline Designer

Non è certo un segreto che i dati siano diventati un vantaggio competitivo per le aziende di qualsiasi settore e che per mantenerlo queste devono assicurarsi di:

  1. Raccogliere tutti i dati che produrranno le informazioni migliori
  2. Far sì che le unità aziendali che dipendono dai dati li ricevano tempestivamente per prendere decisioni in tempi rapidi
  3. Avere la possibilità di scalare e innovare le loro tecnologie in modo semplice nel momento in cui emergono nuovi requisiti relativi ai dati.

Riuscire in tutto questo può essere molto difficile considerata la comparsa di una miriade di nuovi tipi di dati e tecnologie. Una delle maggiori sfide che le aziende si trovano ad affrontare, ad esempio, è quella di lavorare con tutti i tipi di paradigmi di streaming e gestire nuovi tipi di dati provenienti da social media, web, sensori, cloud e così via. Le aziende considerano l'elaborazione e la distribuzione dei dati in tempo reale un fattore rivoluzionario, in grado di fornire informazioni in tempo reale; ma raccogliere e trasformare questi dati in modo agevole si è dimostrata un'impresa difficile.

Consideriamo ad esempio i dati relativi al flusso di navigazione (clickstream). L'invio dei dati dai siti web è costante; il flusso di dati è continuo. Il tipico approccio di acquisizione ed elaborazione dei dati in batch basato su "start" e "stop" definitivi è ormai obsoleto per i dati in streaming e sottrae il potenziale valore della reattività ai dati in tempo reale. Ad esempio, i dettaglianti online si affidano ai dati relativi al flusso di navigazione per capire il livello di coinvolgimento degli utenti nei loro siti web, un'informazione essenziale per decidere in che modo destinare agli utenti dei prodotti che acquisteranno. In un settore dai margini strettissimi è fondamentale disporre in tempo reale di informazioni relative all'attività dei clienti e ai prezzi della concorrenza, per poter prendere rapidamente le decisioni che permettono di conquistare quote di mercato.

Inoltre, se l'azienda si affida a dati provenienti da varie applicazioni, lo strumento di integrazione dei dati che utilizza potrebbe non riuscire a gestire bene i diversi formati dei dati e le pipeline di dati potrebbero interrompersi ogni volta che alla sorgente viene aggiunto un campo nuovo. E nonostante l'IT sia in grado di gestire la natura dinamica dei dati, le unità aziendali che hanno necessità di accedere ai dati potrebbero dover attendere diverse settimane prima di disporre di informazioni fruibili, perché le persone responsabili della distribuzione dei dati al resto dell'azienda sono sovraccariche di lavoro.  

In effetti, da un recente sondaggio è emerso che per oltre il 30% degli scienziati dei dati le sfide più impegnative sono l'indisponibilità dei dati e la difficoltà ad accedervi; l'aumento della domanda del mercato per un maggiore accesso a dati fruibili è testimoniato anche dalle inserzioni di lavoro, che dimostrano che la richiesta di tecnici dei dati è quattro volte maggiore rispetto a quella di scienziati dei dati.

Quelle richieste sono le competenze del data engineering, cioè la capacità di accedere, raccogliere, trasformare e distribuire nell'azienda tutti i tipi di dati, e oggi i tecnici dei dati devono essere più produttivi che mai, lavorando comunque in un ambiente di dati in costante evoluzione. Al contempo gli integratori ad hoc devono sapersi mettere nelle condizioni di accedere e integrare i propri dati, senza più contare sul reparto IT.

Infine, poiché sono sempre di più i reparti dell'azienda che richiedono tempi di risposta più rapidi, sia i tecnici dei dati che gli integratori ad hoc devono riuscire a integrare all'istante i propri dati e gli strumenti di integrazione che utilizzano devono aiutarli a soddisfare queste nuove richieste. I tecnici dei dati e gli integratori ad hoc richiedono oggi uno strumento di integrazione "nato nel cloud" che sia non solo accessibile e intuitivo, ma anche capace di gestire la varietà e i volumi di dati con cui lavorano ogni giorno.  

Sembrano problemi enormi, ai quali per fortuna possiamo offrire una soluzione.

Presentazione di Pipeline Designer

Avendo visto questo scenario ripetersi di continuo con clienti esistenti e potenziali, eravamo convinti di poter dare il nostro contributo. Ecco perché abbiamo creato Pipeline Designer.

Pipeline Designer è un'interfaccia utente web self-service, creata nel cloud, che rende l'integrazione dei dati più rapida, semplice e accessibile, in un'epoca in cui tutti vogliono applicazioni nel cloud facili da usare e in cui i volumi e i tipi di dati e le tecnologie crescono a una velocità apparentemente impossibile.

È uno strumento che consente ai tecnici dei dati di dedicarsi ad applicazioni di integrazione leggera, tra cui la trasformazione e la distribuzione dei dati in data warehouse nel cloud, l'acquisizione e l'elaborazione di dati di streaming in un data lake nel cloud e il caricamento in blocco dei dati in Snowflake e Amazon Redshift. Grazie all'architettura moderna di Pipeline Designer, gli utenti possono lavorare sia con dati in batch che in streaming, senza doversi preoccupare di ricreare completamente le pipeline per adattarle ai maggiori volumi di dati o ai loro diversi formati, e questo in definitiva consente loro di trasformare e distribuire i dati più rapidamente rispetto al passato.

<<Prova ora Pipeline Designer>>

Cosa rende Pipeline Designer così unico? Ecco alcune delle sue caratteristiche salienti:

Anteprima live

Le funzionalità di anteprima live di Pipeline Designer permettono una progettazione continua dell'integrazione dei dati. Non è più necessario progettare, compilare, implementare ed eseguire la pipeline per vedere come appariranno i dati,

ma è possibile visualizzare in tempo reale le modifiche dei dati, in ogni fase del processo di progettazione, nella stessa identica area di progettazione. Facendo clic su un qualsiasi processore nella pipeline è possibile visualizzare i dati prima e dopo la trasformazione applicata, per assicurarsi che i dati di output siano esattamente quelli che si stanno cercando. Tutto ciò riduce drasticamente i tempi di sviluppo e accelera i progetti di trasformazione digitale.

Per fare un rapido esempio, osserviamo l'input e l'output della trasformazione Python riportata qui di seguito:

Progettazione senza schema

Il criterio di elaborazione "schema on read" è una strategia di integrazione adatta ai dati moderni, come lo streaming dei dati in piattaforme di big data, sistemi di messaggistica e NoSQL. Esso permette di risparmiare tempo perché elimina la necessità di mappare i dati in entrata, spesso meno strutturati, rispetto a uno schema fisso. 

Pipeline Designer supporta il criterio di elaborazione "schema on read", eliminando la necessità di definire schemi prima di realizzare pipeline di dati e mantenendo le pipeline resilienti quando lo schema viene modificato.Quando si definisce una connessione o un set di dati in Pipeline Designer non esiste una definizione rigida di schema.La struttura dei dati viene desunta al momento dell'esecuzione della pipeline; questo significa che la pipeline raccoglie i dati e ne ipotizza la struttura. Se lo schema sorgente viene modificato, la pipeline si adatterà in modo da tenere conto delle modifiche,permettendo di iniziare immediatamente a lavorare con i dati e di aggiungere "al volo" sorgenti di dati, dato che gli schemi vengono scoperti in modo dinamico.In sintesi, aumenta la resilienza e la flessibilità rispetto alla definizione "rigida" dei metadati. 

Integrazione di qualsiasi tipo di dati con livelli di portabilità impareggiabili

Da tempo Talend si è imposta come leader nell'offrire soluzioni che rendono il lavoro di sviluppo "a prova di futuro". Basta modellare la pipeline e selezionare la piattaforma sulla quale eseguirla (locale, cloud o big data). Quando i requisiti cambiano, è sufficiente selezionare una diversa piattaforma. Ad esempio, quando abbiamo trasformato il nostro generatore di codici da MapReduce a Spark, con pochi clic la tua azienda è riuscita a convertire l'esecuzione dei job in Spark nativo in modo ottimizzato. Ma ora è anche meglio. Creando qualcosa che va al di là del progetto open-source Apache Beam, siamo in grado di separare la progettazione dal runtime, consentendo di creare pipeline senza doversi preoccupare del motore di elaborazione sul quale saranno eseguite.

E c'è di più: è possibile progettare pipeline sia in batch che in streaming nella medesima tavolozza.

Quindi si potrebbe integrare la stessa pipeline in un'origine vincolata, come una query SQL, o in una non vincolata, ad esempio una coda di messaggi: essa funzionerà come pipeline in batch o in streaming semplicemente in base alla sorgente dei dati. Per il runtime, è possibile scegliere l'esecuzione nativa nella piattaforma cloud in cui risiedono i dati o addirittura l'esecuzione su EMR per la massima scalabilità. Pipeline Designer realizza concretamente il concetto di "progetta una sola volta ed esegui ovunque", consentendoti di eseguire le pipeline su diversi cloud in modo scalabile.

Componente Python incorporato

Python è il linguaggio di programmazione a crescita più rapida e un linguaggio di programmazione comunemente utilizzato dai tecnici dei dati; per questo volevamo che Pipeline Designer permettesse agli utenti di sfruttare le proprie conoscenze di Python, offrendo in più la possibilità di gestire qualsiasi trasformazione personalizzata eventualmente necessaria. Ecco perché Pipeline Designer incorpora un componente Python per eseguire lo script Python per trasformazioni personalizzabili.

Vuoi mettere al lavoro più dati?

Ma il punto forte di Pipeline Designer è il fatto di non essere un'applicazione autonoma o una soluzione single-point, bensì parte della piattaforma Talend Data Fabric, che risolve alcuni degli aspetti più complessi legati alla catena del valore dei dati da un'estremità all'altra. Con Data Fabric gli utenti possono raccogliere dati dai vari sistemi, governarli per garantirne l'uso appropriato, trasformarli in nuovi formati, migliorarne la qualità e condividerli con soggetti interessati sia interni che esterni.

Pipeline Designer è gestito dalla stessa applicazione degli altri strumenti di Talend Cloud, ovvero da Talend Management Console. Questa continuità permette ai dipendenti IT di avere una visione completa della piattaforma Talend, assicurando così livelli di supervisione e governance raggiungibili solo con una piattaforma unificata come Talend Cloud. E naturalmente il reparto IT potrà beneficiare di tutti gli altri vantaggi offerti da Talend Data Fabric, come il controllo dell'utilizzo dei dati, per cui è semplice eseguire verifiche e garantire privacy, sicurezza e qualità dei dati.

I nuovi utenti di Talend possono iniziare a lavorare con Pipeline Designer sapendo che offre una suite di applicazioni appositamente realizzate per lavorare insieme, al fine di supportare una cultura di gestione completa dei dati che copre l'intera azienda. Quando le esigenze dell'azienda cresceranno, Talend sarà in grado di supportarla guidandola attraverso i cambiamenti che coinvolgono i suoi dati.

Siamo lieti di offrire una versione di prova gratuita del prodotto, che non richiede il download: potrai constatare come Pipeline Designer riesce a semplificare l'integrazione leggera. Puoi trovare maggiori dettagli sulle caratteristiche del prodotto nella relativa pagina qui o provarlo gratuitamente per 14 giorni!

Partecipa alla discussione

0 Comments

Scrivi una risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *