Ça faisait longtemps que je n’avais pas parlé de HDInsight ! (préparation des #JSS2013).
Je vais profiter cette article pour vous présenter quelques nouveautés et les évolutions du service HDInsight.
Versions
Aujourd’hui deux versions de HDInsight sont disponibles : la 1.6 et la 2.1.
HDInsight 1.6 :
La distribution Hadoop dans Windows Azure HDInsight 1.6 est basée sur la plateforme de données Hortonworks 1.1.0. Voici la liste des composants et leurs versions respectives :
HDInsight 2.1 :
La distribution Hadoop dans Windows Azure HDInsight 2.1 est basée sur la plateforme de données Hortonworks 1.3.0. Voici la liste des composants et leurs versions respectives :
La version d’HortonWorks a encore un peu d’avance : HDP Windows 😉
Release Note : http://gettingstarted.hadooponazure.com/releaseNotes.html
Évolutions
En cette fin d’années, le service Hadoop dans Azure évolue, voici une courte liste des évolutions.
La fin du DashBoard 🙁
En effet, le Dashboard dans lequel nous pouvions exécuter des scripts, monitorer le cluster et exécuter des jobs disparait au profil d’une intégration dans le portail Azure :
Nouveauté SSIS :
Lors du dernier PASS Summit Matt Masson et Wee Hyong Tok ont présenté la Roadmap de SSIS, je vous invite à la revoir sur YouTube.
De nouvelles taches pour HDInsight vont bientôt être publiées sur Codeplex :
Pour se connecter en Hive ODBC depuis SSIS : http://www.mattmasson.com/2013/11/using-hive-odbc-from-ssis/
SQL Azure Database as a Hive Metastore :
Il est désormais possible dans les deux versions de HDInsight de stockées les méta données de Hive dans une base de données SQL Azure :
Pour ce faire, assurez-vous d’avoir un Login ayant les droits suivants :
CREATE LOGIN LoginHiveDBUser WITH PASSWORD='LoginHiveDBUser' CREATE USER HiveDBUser FROM LOGIN LoginHiveDBUser EXEC sp_addrolemember 'db_ddladmin', 'HiveDBUser' EXEC sp_addrolemember 'db_datawriter', 'HiveDBUser' EXEC sp_addrolemember 'db_datareader', 'HiveDBUser'
Vous devez également vous assurer que les services Windows Azure ont accès à votre serveur SQL Azure.
Cela me permet par exemple d’afficher les Métadonnée des tables et de leurs partitions :
Utilisation de Azure Blob storage :
Son utilisation a quelque peu évolué : http://www.windowsazure.com/en-us/manage/services/hdinsight/howto-blob-store/
Azure PowerShell :
Windows Azure PowerShell permet en script de contrôler et automatiser la gestion des services dans Windows Azure. Ainsi HDInsight ne déroge pas a la règles et de plus en plus de commandes Shell lui font références.
Télécharger Windows Azure HDInsight PowerShell : http://www.microsoft.com/en-us/download/details.aspx?id=40724
Pilote JDBC SQL Server :
Le pilote JDBC SQL Server est désormais utilisé en interne par HDInsight et pour Sqoop.
Remarque : Il faut toujours utiliser le pilote HDInsight ODBC pour se connecter depuis l’extérieur.
[…]
Bonus
- La liste des projets Apache : http://incubator.apache.org
- Blog de Matt Winkler : http://blogs.msdn.com/b/mwinkle/
- Microsoft .NET SDK For Hadoop : http://hadoopsdk.codeplex.com/
- Slides de la derniere Strata Conference : New York
- Get Started with Hive on HDInsight
Comments are closed.