Didattica

Il corso ha una durata di 80 ore divise in 10 lezioni della durata di 8 ore.
Si svolge nella fascia oraria compresa tra le 9,30 e le 18,30.

Overview

Big Data è la nuova parola di moda nell'industria ed è citata come la tecnologia che cambierà il nostro modo di fare le cose.
Siamo agli albori della data driven economy: le grandi Società e persino i Governi stanno investendo molto in questa nuova tecnologia. Sempre più Aziende stanno capendo che i dati creano vantaggio competitivo e rimanere al passo in questo settore diventa essenziale.
E non sono solo queste Aziende e Governi che raccoglieranno i vantaggi di questa tecnologia, ma lo faremo anche a livello individuale.

Obiettivi formativi

Obiettivo del corso è acquisire una visione di dettaglio dell'universo Big Data, illustrandone alcune delle tecnologie più diffuse.

Destinatari

Il corso si rivolge a tutti i Professionisti interessati ad acquisire il set di competenze fondamentali per la creazione di valore dai dati, le logiche di recupero e le tecniche di correlazione.

Prerequisiti

Per seguire con profitto il corso è richiesta:

  • conoscenza basilare della lingua inglese tecnica

Programma

Big-Data: i fondamentali

  • Introduzione al Big Data ed il suo attuale ecosistema
  • Utilizzo del HDFS e differenze con il File System operativo
  • Interazioni tra FS ed HDFS
  • Utilizzo e scenari per la implementazione di soluzioni Big Data
  • Concetti legati a Volume, Velocità, Varietà dei dati
  • Basi dati acquisiti e gestiti come Data Lake

Cassandra
  • Concetti fondamentali di un database misto tra colonnare e documentale
  • Uso di KeySpace e Tabelle in Cassandra
  • Utilizzo delle Partizioni e dei nodi per le ridondanze
  • Column Family
  • Super Colonne
  • Chiave di partizionamento e chiavi cluster
  • Gestione degli indici secondari
  • Gestione del cluster in RING
  • Gestione file LOG, MemTable e SSTable
  • Comandi per inserimento, modifica, cancellazione e visualizzazione dei dati inseriti
  • Funzioni di aggregazione e di ordinamento del dato
  • Gestione dei dati in assenza di Join
  • Differenze con database transazionali
  • Punti di forza di Cassandra
  • Utilizzo per IoT
  • Possibili scenari di applicazione

Hadoop
  • Concetto di File System distribuito
  • Gestione dei nodi
  • Balancing
  • Ridondanze dati
  • Sicurezza
  • Map & Reduce
  • YARN per la velocizzazione di M & R
  • Gestione dell’HDFS da Shell
  • Trasferimento dati da e verso Linux

HBase
  • Concetti fondamentali di un database colonnare
  • Uso di database e tabella in Hbase
  • Utilizzo delle Region per le ridondanze
  • Concetto di Versioning
  • Column Family e settaggi particolari
  • Comandi per inserimento, modifica, cancellazione e visualizzazione dei dati inseriti
  • Funzioni di aggregazione del dato
  • Gestione dei dati in assenza di Join
  • Differenze con database transazionali
  • Punti di forza del colonnare
  • Possibili scenari di applicazione

Hive
  • Concetti fondamentali di Hive inteso come repository di Warehousing
  • Uso di Database e Tabelle in Hive
  • Differenza tra tabelle External ed Internal
  • Creazione ed utilizzo di indici
  • Comandi per inserimento, modifica, cancellazione e visualizzazione dei dati inseriti
  • Funzioni di aggregazione e di ordinamento del dato
  • Gestione dei dati con Join
  • Differenze con database transazionali
  • Punti di forza di Hive
  • Importazione dati da sorgenti eterogenee
  • Possibili scenari di applicazione

Impala
  • Concetti fondamentali di Impala
  • Velocità di elaborazione sui dati
  • File Parquet e Avro
  • Uso di Database e Tabelle
  • Comandi per inserimento e visualizzazione dei dati inseriti
  • Funzioni di aggregazione e di ordinamento del dato
  • Gestione dei dati con Join
  • Differenze con database transazionali
  • Punti di forza di Impala
  • Importazione dati da sorgenti eterogenee con Sqoop
  • Possibili scenari di applicazione

Kafka
  • Streaming dei dati
  • Intercettazione e smistamento dati
  • Logiche applicate agli alert in real-time
  • Scrittura dati in db nosql di stoccaggio

MongoDB
  • Concetti fondamentali di un database documentale
  • Uso di database e collection
  • Utilizzo degli Shard per le ridondanze
  • Array e Documenti nidificati
  • Comandi per inserimento, modifica, cancellazione e visualizzazione dei documenti inseriti
  • Funzioni di aggregazione del dato
  • Gestione dei dati in assenza di Join
  • Differenze con database transazionali
  • Punti di forza del documentale
  • Possibili scenari di applicazione

Neo4J
  • Concetti fondamentali di Neo4J
  • Definizione di Grafo ed Archi
  • Velocità di elaborazione sui dati
  • Uso di Database e Tabelle
  • Comandi per inserimento e visualizzazione dei dati inseriti
  • Funzioni di aggregazione e di ordinamento del dato
  • Differenze con database transazionali
  • Punti di forza di Neo4J
  • Possibili scenari di applicazione

Spark
  • Evoluzione del calcolo computazionale rispetto al Map e Reduce di Hadoop
  • Sparql per il prelievo dei dati da fonti esterne
  • Gestione del cluster in memory

Sqoop
  • Accesso a dati transazionali esterni per prelievo dati
  • Trasferimento dati da e verso database transazionali
  • Scrittura in FS e HDFS
  • Scrittura diretta in Hive
  • Gestione dei Job

Certificazioni

Il corso non prevede percorsi di certificazione specifici.