HDInsight dans le portail Windows Azure

 

Depuis peu, une nouvelle version de HDInsight est disponible en version préliminaire dans le portail Windows Azure, je l’ai testé pour vous 🙂

 

Cette nouvelle version n’est pas une réorganisation de l’offre Preview Hadoop On Azure, mais elle comprend bel et bien un certain nombre d’améliorations et de mises à jour concernant le déploiement, les performances et la robustesse du cluster. Ainsi vous avez la possibilité de déployer un cluster de plus de 40 noeuds !

 

Création du Cluster

Il faut dans un premier temps se perdre dans les menues de Windows Azure pour trouver l’option activant le service de données HDInsight :

HDInsight_Preview

Cliquez sur « Try it now », sélectionnez votre type d’abonnement Windows Azure et validez la demande (les demandes seraient validées le mercredi ou le week-end @Philippe Beraud).

Une fois le mail de validation reçu, connectez-vous à votre compte et rendez-vous sur le portail de gestion Windows Azure pour créer le cluster :

HDInsight_Cluster_Creation

Remarque : Le Storage Account doit être situé à l’est des États-Unis ! (Non ça n’est pas une blague)

HDInsight_Cluster_History

 

Les nouveautées

 

Accès a l’Azure Blob Storage

Il est intéressant d’utiliser l’Azure Blob Storage (ASV : Azure Storage Vault) pour stocker nos données avant de les intégrer dans Hadoop.

Contrairement a la version Preview ou il fallait aller dans la tuile « Manage » pour configurer l’accès au blob, nous allons devoir nous connecter en bureau à distance au cluster et allé modifier le fichier « core-site.xml » présent dans le dossier « C:\apps\dist\hadoop-1.1.0-SNAPSHOT\conf » :

Il faut ajouter les lignes suivantes :

<property>
    <name>fs.azure.account.key.#VOTRE_ASV#.blob.core.windows.net</name>
    <value>#VOTRE_CLEF#<value>
</property>

Pour tester l’accès, exécuter la commande suivante depuis la console JavaScript du Cluster :

#ls asv://#Votre_Container#@#Votre_StorageAccount#.blob.core.windows.net/#Path#/

 

Hive ODBC

L’un des principaux avantages d’ HDInsight est la présence d’un pilote ODBC pour Hive. En effet cela permet aux applications clientes de se connecter au cluster et d’exécuter des requêtes HiveQL.

Contrairement à la version Preview où il fallait aller dans la tuile “Open Ports” pour ouvrir l’accès ODBC (port 10000), il faut désormais télécharger et installer le (bon) pilote ODBC (selon votre système 32-bit ou 64-bit) et s’y connecter via le port 563. Notez que le pilote installe également un add-in pour Excel, alors assurez-vous de choisir l’architecture du processeur qui correspond à votre installation de Microsoft Office.

HiveODBC

 

Monitoring

Une nouvelle tuile “Monitoring” est désormais disponible dans l’interface du cluster Hadoop. Celle-ci permet d’analyser la santé du cluster et de ses différents noeuds :

HDInsight_Monitoring

 

Je vais encore jouer avec le cluster et vous ferez part des nouveautés rencontrées…

D'ici là je vous invite à visiter le Blog MSDN Big Data

http://blogs.msdn.com/b/big_data_france/

Comments are closed.

En savoir plus sur Pulsweb - Romain Casteres

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Continue reading