Depuis peu, une nouvelle version de HDInsight est disponible en version préliminaire dans le portail Windows Azure, je l’ai testé pour vous 🙂
Cette nouvelle version n’est pas une réorganisation de l’offre Preview Hadoop On Azure, mais elle comprend bel et bien un certain nombre d’améliorations et de mises à jour concernant le déploiement, les performances et la robustesse du cluster. Ainsi vous avez la possibilité de déployer un cluster de plus de 40 noeuds !
Création du Cluster
Il faut dans un premier temps se perdre dans les menues de Windows Azure pour trouver l’option activant le service de données HDInsight :
Cliquez sur « Try it now », sélectionnez votre type d’abonnement Windows Azure et validez la demande (les demandes seraient validées le mercredi ou le week-end @Philippe Beraud).
Une fois le mail de validation reçu, connectez-vous à votre compte et rendez-vous sur le portail de gestion Windows Azure pour créer le cluster :
Remarque : Le Storage Account doit être situé à l’est des États-Unis ! (Non ça n’est pas une blague)
Les nouveautées
Accès a l’Azure Blob Storage
Il est intéressant d’utiliser l’Azure Blob Storage (ASV : Azure Storage Vault) pour stocker nos données avant de les intégrer dans Hadoop.
Contrairement a la version Preview ou il fallait aller dans la tuile « Manage » pour configurer l’accès au blob, nous allons devoir nous connecter en bureau à distance au cluster et allé modifier le fichier « core-site.xml » présent dans le dossier « C:\apps\dist\hadoop-1.1.0-SNAPSHOT\conf » :
Il faut ajouter les lignes suivantes :
<property> <name>fs.azure.account.key.#VOTRE_ASV#.blob.core.windows.net</name> <value>#VOTRE_CLEF#<value> </property>
Pour tester l’accès, exécuter la commande suivante depuis la console JavaScript du Cluster :
#ls asv://#Votre_Container#@#Votre_StorageAccount#.blob.core.windows.net/#Path#/
Hive ODBC
L’un des principaux avantages d’ HDInsight est la présence d’un pilote ODBC pour Hive. En effet cela permet aux applications clientes de se connecter au cluster et d’exécuter des requêtes HiveQL.
Contrairement à la version Preview où il fallait aller dans la tuile “Open Ports” pour ouvrir l’accès ODBC (port 10000), il faut désormais télécharger et installer le (bon) pilote ODBC (selon votre système 32-bit ou 64-bit) et s’y connecter via le port 563. Notez que le pilote installe également un add-in pour Excel, alors assurez-vous de choisir l’architecture du processeur qui correspond à votre installation de Microsoft Office.
Monitoring
Une nouvelle tuile “Monitoring” est désormais disponible dans l’interface du cluster Hadoop. Celle-ci permet d’analyser la santé du cluster et de ses différents noeuds :
Comments are closed.