Journée SQL Server 2012
Les 10 et 11 décembre prochains auront lieu au centre des conférences de Microsoft à Issy-les-Moulineaux (Paris), la 2e édition des Journées SQL Server. Les JSS c’est deux jours de conférences gratuites organisés par le GUSS, avec plus de 30 sessions sur l’univers SQL Server, décisionnel et base de données.
J’ai la chance d’être speaker lors de l’évènement 🙂
Notre session
Avec Benjamin Guinebertière nous animerons le lundi 10 décembre 2012 à partir de 17H une session sur l’offre Big Data de Microsoft. Nous verrons plus particulièrement comment utiliser Windows Azure, Hadoop, SSIS, SSAS, et Excel pour capturer, transformer, enrichir et visualiser des données issues de réseaux sociaux. Le scénario sera illustré à chaque étape par des démonstrations.
Voici en avance un petit résumé de la session :
- Récupération de Tweets au format JSON (16Go) dans un Blob Storage Azure
- DISTCP : Copie des Tweets dans notre cluster Hadoop
- Hive External Table : Création d’une table externe sur les dossiers contenant les Tweets (environ 6 millions de lignes)
- Hive Tables : Création de plusieurs tables Hive (filtrage/mise en forme/découpage des données)
- SSIS : Récupération d’un million de Tweets dans une base de données locale (les Tweets des personnes ayant plus de 800 followers)
- Sentiments140 : Récupération des sentiments des Tweets via une API en ligne
Découpage des Tweets en fichiers de 10 000 lignes (98 fichiers < 3Mo)
Utilisation des composants SSIS de Rémi Olivier : Azure Blob Storage Components for SSIS Sample
- DataWarehouse : Alimentation des Dimenssions et table de Faits
- Dimensions Géographiques : Alimentation des dimensions City et Country depuis l’Azure Data Market
Ajout d’une colonne calculée et persistante de type ‘Geography’ : ([geography]::Point([CIT_LATITUDE],[CIT_LONGITUTE],(4326)))
Certains Tweets ont été géo localisée et possèdent une Latitude et une Longitude. Grâce à la procédure suivante, nous allons lier les Tweets aux villes les plus proches :
CREATE FUNCTION [dbo].[ReturnCity] (@longitude nvarchar(500), @latitude nvarchar(500)) RETURNS Int BEGIN DECLARE @ID_CITY as Int SELECT TOP (1) @ID_CITY= [DIM_CITY].[PK_ID_CITY] FROM [DIM_CITY] WHERE [CIT_GEOGRAPHY].STDistance(geography::Point(@latitude,@longitude, 4326)) IS NOT NULL ORDER BY [CIT_GEOGRAPHY].STDistance(geography::Point(@latitude, @longitude, 4326)) RETURN @ID_CITY END
- SSAS : Création d’un cube de type Tabular, ajout de mesures et colonnes calculées en DAX
- Reporting dans Excel
- Reporting avec PowerView
- Bonus NodeXl…
Les inscriptions gratuites sont déjà ouvertes : http://jss2012.fr/programme-v2/
Merci pour ce post très intéressant !