Data Market & Azure MarketPlace

ChristmasBigData

A l’heure des fêtes et des cadeaux de Noël, je me suis intéressé non pas aux ventes de marchandises mais au marché de la donnée, le pétrole du 21eme siècle !

L’infographie de Rackspace représente bien l’incroyable quantité de données générée sur le web : ici.

Dans cet article je vais dans un premier temps présenter le Data Market, quels sont les principaux acteurs du marché puis nous verrons plus en détail l’offre Windows Azure MarketPlace. Dans un second temps je ferai un rapport à partir de données provenant du MaketPlace puis je publierai des données sur la plateforme afin de les rendre accessibles gratuitement (ou pas !) dans plus de 88 pays 😉

 

1 – Le marché de la donnée

Nous connaissons déjà les différents services suivants :Niveaux_de_service_cloud

  • IAAS : Infrastructure As A Service, le vendeur fournit une infrastructure : réseau, stockage, ressources de calcul et la technologie de virtualisation.
  • PAAS : Platform As A Service, le vendeur ne fournit pas seulement les ressources de l’infrastructure sous-jacentes, mais aussi la plate-forme de développement d’applications.
  • SAAS : Software As A Service, le vendeur fournit un logiciel hébergé sur des serveurs distants.

Un petit nouveau vient compléter cette liste : le DAAS, à ne pas confondre avec Desktop As A Service.

L’intérêt commercial du Data as a Service est de donner l’accès à des données de qualité, nettoyées et enrichies, pour lesquelles les utilisateurs sont prêts à payer.

Par ailleurs, certaines sociétés, collectivités ou services publics publient gratuitement des données, c’est l’émergence de l’Open Data. L’Open Data représente non seulement un nouveau paradigme d’accès à l’information mais aussi un moyen de s’affranchir des restrictions sur le droit d’accès aux données numériques.

 

1.1 – Des données payantes

On retrouve principalement deux modes de tarifications pour la vente de données:

  • En fonction de la quantité de données
  • En fonction du type des données

Voici quelques acteurs du marché, ils peuvent se catégoriser en plusieurs branches, certains font du Web Crawler, d’autres produisent de la donnée ou enrichissent des données existantes :

 

1.2 – Des données gratuites

En Europe et dans certains pays, des directives et lois imposent aux collectivités de publier certaines données publiques sous forme numérique. Malheureusement aujourd’hui en Europe comme en France, le nombre de données ouvertes répertoriées reste faible.

Une vidéo de présentation de l’Open Data : Les données ouvertes à la Loupe.

Voici quelques liens d’OData Européen :

 

2 – Azure MarketPlace

Windows Azure MarketPlace (initialement annoncé sous le projet Codename « Dallas ») est disponible depuis Novembre 2011. Il s’agit d’un marché en ligne pour l’achat et la vente de données.

Un Add-in Excel permet aux clients de découvrir, d’acheter et d’utiliser des groupes de données : Excel 2010. Mais les données peuvent aussi être rapatriées par Power Pivot, Power Query

Les sources de données gratuites comme payantes sont de plus en plus nombreuses :

Marketplace
La Gestion de votre compte Marketplace : http://msdn.microsoft.com/fr-fr/library/gg312157.aspx

Les clés de compte sont utilisées par les applications pour accéder à vos abonnements et à des groupes de données. Il est recommandé que chacune de vos applications utilise une clé différente :

Marketplace_Keys

 

2.1 – Analyser des données

Après avoir choisi un jeu de donné et m’y être abonné, je peux visualiser les données via l’explorateur de services DataMarket :
Marketplace_DATA

 

Je peux télécharger les données au format CSV, télécharger une chaine de connexion pour pouvoir les rapatrier dans un modèle tabulaire via Power Pivot ou encore utiliser Power Query :

ExcelPowerQuery

 
Se connecter et autoriser la connexion :
PowerQuerySignIn

MyMarketPlaceQuery

 
Et voici le résultat : Analyse de la répartition des bureaux de poste par code postal via Power Map :
PowerMap

 

2.2 – Publier des données

Je possède une base de données hébergée dans Azure ayant une dimension temps contenant les jours ouvrés, les vacances, les saisons… À titre d’exemple je vais la publier dans Azure MarketPlace.

Avant de pouvoir publier un jeu de donné, il faut dans un premier temps s’inscrire :
MarketplacePublish

MarketplaceMyOffering

 
Vous avez la possibilité de créer une connexion a :
– Une base de données SQL Server & SQL Azure Database
– Un Web Service (OData Service ou REST/SOAP Service)

Je vais créer une connexion à une base de données SQL Azure :

AzureMarketPlaceBDD

 

Il est possible de renommer, filtrer les champs de la table à publier :

DimTEMPS

Après configuration des détails de l’offre : prix, marché, le nombre de transactions maximales, …

Ma source de données est disponible dans l’Azure MarketPlace 🙂

MyAzureSource

MyAzureSource2

 

Remarque : toutes les colonnes de votre table doit être indexé sinon vous aurez l’erreur suivante :

MarketplaceValidate

Je vais peaufiner les données et essayer de rendre la source plus intéressante et attrayante 😉

 

Ma source de données est finalisée et soumise, il ne reste plus qu’à attendre sa validation…

AzurePublish

 

3 – Pour aller plus loin :

Voici une liste de service vous permettant de retrouver la donnée que vous cherchez :

 
Voici une liste de lien intéressant à lire :

 

Voici l’adresse de ma source Azure DataMarket : http://datamarket.azure.com/dataset/pulsweb/datedimension

 

Comments are closed.

En savoir plus sur Pulsweb - Romain Casteres

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Continue reading