Guida di riferimento dettagliata di Talend Big Data and Machine Learning Sandbox

Prima di addentrarci in esempi pratici che spiegano come Talend Big Data and Machine Learning Sandbox può portare grandi vantaggi alla tua attività, vogliamo aiutarti a installarla correttamente.

Che cos'è la sandbox?

Talend Big Data and Machine Learning Sandbox è un ambiente virtuale che impiega container Docker per combinare Talend Real-time Big Data Platform con alcuni scenari campione, preconfigurati e pronti all'uso.

Ai link indicati di seguito, potrai trovare delle prove di fattibilità (POC) create a partire da casi d'uso reali che dimostrano come Talend, Spark, NoSQL e programmi di messaggistica in tempo reale possono essere facilmente integrati nella tua attività quotidiana. Sia che l'integrazione dei dati avvenga in batch, in streaming o in tempo reale, potrai iniziare a capire come è possibile utilizzare Talend per gestire le tue esigenze di gestione dei big data e traghettare la tua azienda nell'era basata sui dati.

Vai alle POC:

Per sfruttare al meglio la tua sandbox, ti offriamo una serie di scenari campione preconfigurati e pronti all'uso:

Motore di raccomandazioneManutenzione predittiva tramite l'IoT
Valutazione dei rischi in tempo realeOttimizzazione del data warehouse

Quali sono i requisiti di sistema per la sandbox?

La sandbox viene fornita come macchina virtuale (VM) e necessita pertanto di un player per macchine virtuali.

I player VM supportati sono:

  • VMWare
  • VMWare Fusion (per MAC)
  • VirtualBox

Per la macchina host, consigliamo:

  • Almeno 8-10 GB di RAM disponibile
  • 50 GB di spazio libero su disco

Una volta scaricato il player e installato seguendo le relative istruzioni, è possibile scaricare e installare Talend Big Data and Machine Learning Sandbox. Quindi puoi sfogliare le demo della sandbox (link di cui sopra) per integrare Apache Kafka, Spark, Spark Streaming, Hadoop e NoSQL.

Come si imposta e configura la sandbox?

Per portare a termine la procedura di installazione e configurazione di Talend Big Data and Machine Learning Sandbox è importante disporre di una connessione Internet costante e affidabile. Una volta completata la registrazione online e selezionato il file di download della sandbox desiderato, riceverai un piccolo file .dlm (Download Manager Application). Apri l'applicazione per gestire il resto del download della sandbox. Talend Big Data and Machine Learning Sandbox è disponibile come file .ova (Open Virtualization Format Archive) da 6 GB; in base alla velocità della connessione Internet, il download di questo file potrebbe richiedere un po' di tempo. Per questo motivo, è possibile usare l'app Download Manager Application per mettere in pausa e riavviare il processo di download.

Una volta completato il download e salvato il file .ova sul disco rigido locale (C:/TalendSandbox), segui le istruzioni per l'importazione in VirtualBox o in VMWare, a seconda del player VM e del file della sandbox corrispondente che stai utilizzando.

VirtualBox

  1. Apri l'applicazione VirtualBox.
  2. Nella barra dei menu, seleziona File > Import Appliance… (Importa dispositivo).
  3. Cerca il file .ova che hai scaricato. Selezionalo e fai clic su Next (Avanti).
  4. Accetta le impostazioni predefinite del dispositivo facendo clic su Import (Importa).

Talend Machine Learning Sandbox - Importazione in Virtualbox

VMWare

  1. Apri l'applicazione VMware Player.
  2. Fai clic su "Open a Virtual Machine" (Apri una macchina virtuale).
  3. Cerca il file .ova che hai scaricato. Selezionalo e fai clic su Open (Apri).
  4. Seleziona il percorso di storage della nuova macchina virtuale (ad es. C:/TalendSandbox/vmware), quindi fai clic su Import (Importa).

Talend Machine Learning Sandbox - Importazione in VMWare

Le macchine virtuali Talend Big Data and Machine Learning Sandbox sono preconfigurate per l'esecuzione con 8 GB di RAM e 2 CPU. Potresti dover regolare queste impostazioni in base alle capacità del tuo PC. Per eseguire gli scenari di esempio MapR, si consiglia di potenziare l'impostazione della RAM della macchina virtuale a 10 GB o più, se possibile.

Cosa ci si deve aspettare quando si esegue la macchina virtuale per la prima volta?

Alla prima esecuzione di Talend Big Data and Machine Learning Sandbox, la macchina virtuale inizierà a caricare una pagina web iniziale da cui è possibile monitorare la configurazione della sandbox. La procedura può richiedere 15-30 minuti, a seconda della velocità della connessione Internet e del traffico di rete. Dopo poco tempo, ti verrà chiesto di scegliere una piattaforma Hadoop. Puoi scegliere tra Cloudera, Hortonworks e MapR. Puoi anche scegliere di esplorare l'ambiente sandbox senza selezionare una piattaforma Hadoop. Se a un certo punto decidi di selezionare una piattaforma o di cambiare la piattaforma selezionata, puoi accedere alle piattaforme disponibili in qualsiasi momento facendo clic su "Choose a Hadoop Platform" (Scegli una piattaforma Hadoop) in alto a destra nella pagina di destinazione.

Selezione della piattaforma sandbox per i big data

Durante il caricamento, è importante attendere con pazienza che la sandbox porti a termine la procedura di configurazione. Non aprire Talend Studio durante la procedura di configurazione. Una volta ricevuta l'indicazione che la sandbox è pronta per l'uso, puoi iniziare a lavorare nell'ambiente virtuale.

Sandbox pronta

Quando la sandbox è ufficialmente pronta, puoi accedere a demo e risorse aggiuntive facendo scorrere verso il basso la pagina iniziale. Da questa sezione puoi accedere ad applicazioni web specifiche delle demo con istruzioni rapide per iniziare a eseguire le demo all'interno della sandbox. Potrai inoltre accedere all'interfaccia web di Hadoop Cluster Resource Manager selezionando "Hadoop Cluster" (Cluster Hadoop) e all'interfaccia web di HDFS selezionando "HDFS Browser" (Browser HDFS).

Con MapR Distribution, il browser HDFS ti indirizza a MapR Control System (MCS), dove puoi analizzare volumi, tabelle di dati e flussi. Per accedervi da Firefox, è necessario aggiungere un certificato di eccezione.

Come si lancia Talend Real-time Big Data Studio?

Ora che la sandbox è operativa, puoi lanciare Talend Studio. Fai clic sull'icona Talend nella barra di sinistra del desktop. Alla prima esecuzione, segui questa procedura:

  1. Per prima cosa, devi configurare una connessione. Fai clic su Manage Connection (Gestisci connessione) e inserisci il tuo indirizzo e-mail, quindi fai clic su OK.
  2. A questo punto, devi selezionare il progetto che desideri aprire. In base alla piattaforma per big data che hai scelto, avrai a disposizione le seguenti opzioni:
    • CLOUDERA_DEMOS
    • HORTONWORKS_DEMOS
    • MAPR_DEMOS
    • LOCAL_DEMOS (se hai scelto di non caricare una piattaforma per big data)

Machine Learning Sandbox - Selezione progetto

Nota: se hai scaricato più piattaforme per big data, avrai a disposizione diversi progetti. Effettua la tua selezione in base alla piattaforma per big data che hai scelto.

  1. All'apertura di Talend Studio ti verrà presentata una schermata di benvenuto. Chiudi la schermata per visualizzare una finestra pop-up per l'installazione di pacchetti aggiuntivi. Devi mantenere le Required third-Party libraries (Librerie di terze parti richieste) già selezionate e scegliere anche Optional third-party libraries (Librerie di terze parti opzionali), quindi fai clic su Finish (Fine).

  1. Accetta tutte le licenze di terze parti che devono essere accettate. Fai clic sul pulsante d'opzione "I accept the terms of the selected license agreement" (Accetto i termini del contratto di licenza selezionato), quindi su Accept All (Accetta tutto).
    Sandbox Talend Studio - Accettazione licenza
  2. Aspetta che i download vengano completati prima di continuare (la procedura di download può richiedere diverso tempo).

| Ultimo aggiornamento: giugno 26th, 2019