HDInsight Spark & Power BI : Analyse des incidents de sécurité SNCF

 

La famille HDInsight s’agrandit, en effet il existe désormais quatre configurations de cluster dans Azure, en plus de la capacité à les personnaliser par des scripts !

Voici les quatre versions de HDInsight :

  • Hadoop : Version adaptée du fameux Framework Big Data Hadoop. Aujourd’hui la version la plus récente est la HDInsight 3.2, elle se base sur la distribution Hortonworks Data Platform 2.2 (Hadoop 2.6) et est disponible sous Ubuntu 12.04 (UI Ambari !) comme sous Windows Server 2012 R2 !
  • HBase : Apache HBase est une base de données NoSQL open source basée sur Hadoop. Dans sa dernière version disponible (HDInsight 3.2), le cluster Hadoop intègre HBase 0.98.4.
  • Storm : Apache Storm est un système de calcul distribué et en temps réel permettant le traitement rapide de grandes volumétries de données. Dans sa dernière version disponible (HDInsight 3.2), le cluster Hadoop intègre Storm 0.9.3.
  • Spark : Le Framework Apache Spark offre un modèle de programmation plus simple que celui d’Hadoop et offre des temps d’exécution jusqu’à 100 fois plus courts. Cette version est actuellement en Preview, elle intègre la version 1.3.1 de Spark basé sur le cluster HDInsight 3.2. Actuellement, cette version est uniquement disponible sous Windows Server 2012 R2.

HDINSIGHT_SPARK

 

Analysons la tendance dans le monde sur ces outils depuis 2004 :

 

Il est clair que l’engouement pour Spark est aujourd’hui plus important que celui de Hadoop !

Dans cet article je vais présenter Spark, je mettrai en exergue les différences avec Hadoop, ses qualités et ses faiblesses puis je créerai un cluster HDInsight Spark afin de le tester. Pour finir nous analyserons les données du cluster avec Power BI ! Les données analysées concernent « Les incidents de sécurité de la SNCF depuis 2014 », données Open Source : https://ressources.data.sncf.com/explore/dataset/incidents-securite/

 

La suite de cet article est publiée sur le Blog Big Data de Microsoft France 😉 Voici le lien de la première partie : http://bit.ly/1KQjUXM et voici le lien de la seconde : http://bit.ly/1Unr0op

POWERBI