JSS2012 – Big Data : Hadoop & BI

 

Journée SQL Server 2012

Les 10 et 11 décembre prochains auront lieu au centre des conférences de Microsoft à Issy-les-Moulineaux (Paris), la 2e édition des Journées SQL Server. Les JSS c’est deux jours de conférences gratuites organisés par le GUSS, avec plus de 30 sessions sur l’univers SQL Server, décisionnel et base de données.

J’ai la chance d’être speaker lors de l’évènement 🙂

JSS2012

 

Notre session

Avec Benjamin Guinebertière nous animerons le lundi 10 décembre 2012 à partir de 17H une session sur l’offre Big Data de Microsoft. Nous verrons plus particulièrement comment utiliser Windows Azure, Hadoop, SSIS, SSAS, et Excel pour capturer, transformer, enrichir et visualiser des données issues de réseaux sociaux. Le scénario sera illustré à chaque étape par des démonstrations.

Voici en avance un petit résumé de la session :

  • Récupération de Tweets au format JSON (16Go) dans un Blob Storage Azure
  • DISTCP : Copie des Tweets dans notre cluster Hadoop
  • Hive External Table : Création d’une table externe sur les dossiers contenant les Tweets (environ 6 millions de lignes)
  • Hive Tables : Création de plusieurs tables Hive (filtrage/mise en forme/découpage des données)
  • SSIS : Récupération d’un million de Tweets dans une base de données locale (les Tweets des personnes ayant plus de 800 followers)
  • Sentiments140 : Récupération des sentiments des Tweets via une API en ligne

sentiment140

Découpage des Tweets en fichiers de 10 000 lignes (98 fichiers < 3Mo)

SSIS_SENTIMENT140

SSIS_ODS

Utilisation des composants SSIS de Rémi Olivier : Azure Blob Storage Components for SSIS Sample

  • DataWarehouse : Alimentation des Dimenssions et table de Faits

DWH

  • Dimensions Géographiques : Alimentation des dimensions City et Country depuis l’Azure Data Market

Ajout d’une colonne calculée et persistante de type ‘Geography’ : ([geography]::Point([CIT_LATITUDE],[CIT_LONGITUTE],(4326)))

Certains Tweets ont été géo localisée et possèdent une Latitude et une Longitude. Grâce à la procédure suivante, nous allons lier les Tweets aux villes les plus proches :

CREATE FUNCTION [dbo].[ReturnCity] (@longitude nvarchar(500), @latitude nvarchar(500))
 RETURNS Int
 BEGIN
 DECLARE @ID_CITY as Int
 SELECT TOP (1) @ID_CITY= [DIM_CITY].[PK_ID_CITY] FROM [DIM_CITY]
 WHERE [CIT_GEOGRAPHY].STDistance(geography::Point(@latitude,@longitude, 4326)) IS NOT NULL
 ORDER BY [CIT_GEOGRAPHY].STDistance(geography::Point(@latitude, @longitude, 4326))
 RETURN @ID_CITY
 END
  • SSAS : Création d’un cube de type Tabular, ajout de mesures et colonnes calculées en DAX

MPD_Tabular

  • Reporting dans Excel

EXCEL_TABULAR

  • Reporting avec PowerView

PowerView_Tabular

  • Bonus NodeXl…

 

Les inscriptions gratuites sont déjà ouvertes : http://jss2012.fr/programme-v2/

1 Comment

Leave a comment