8 grandes tendances en matière d’analyse de données volumineuses

Les technologies et les pratiques Big Data évoluent rapidement. Voici ce que vous devez savoir pour rester en tête du jeu.

Bill Loconzolo, vice-président de l’ingénierie de données chez Intuit, a sauté dans un lac de données avec les deux pieds. Dean Abbott, responsable informatique chez Smarter Remarketer, s’est lancé dans l’informatique en nuage. La technologie de pointe du big data et de l’analyse, qui comprend des réservoirs de données permettant de conserver de vastes réserves de données dans son format natif et, bien entendu, le cloud computing, constitue une cible mouvante, selon les deux. Et bien que les options technologiques soient loin d’être mûres, attendre n’est tout simplement pas une option.

«En réalité, les outils continuent à faire leur apparition et les promesses de la plate-forme [Hadoop] ne sont pas à la hauteur des attentes des entreprises, a déclaré Loconzolo. Mais les disciplines du big data et de l’analyse évoluent si rapidement que les entreprises doivent s’introduire sans risque, sinon elles risquent d’être laissées pour compte. «Dans le passé, les technologies émergentes pouvaient mettre des années à mûrir», dit-il. «Désormais, les gens parcourent et pilotent des solutions en quelques mois, voire quelques semaines.» Quelles sont donc les principales technologies et tendances émergentes qui devraient figurer sur votre liste de surveillance – ou dans votre laboratoire de test? Computerworld a demandé aux responsables informatiques, aux consultants et aux analystes du secteur d’intervenir. Voici leur liste.

1. Analyse de données volumineuses dans le nuage

Hadoop , un framework et un ensemble d’outils permettant de traiter de très grands ensembles de données, a été initialement conçu pour fonctionner sur des grappes de machines physiques. Ça a changé. «Un nombre croissant de technologies sont désormais disponibles pour traiter des données dans le cloud», déclare Brian Hopkins, analyste chez Forrester Research. Les exemples incluent l’entrepôt de données BI hébergé par Redshift d’Amazon, le service d’analyse de données BigQuery de Google, la plateforme cloud Bluemix d’IBM et le service de traitement de données Kinesis d’Amazon. «L’état futur du Big Data sera un hybride entre le local et le cloud», a-t-il déclaré.

Smarter Remarketer, fournisseur de services d’analyse, de segmentation et de marketing pour le commerce de détail en mode SaaS, a récemment quitté l’ infrastructure de base de données interne Hadoop et MongoDB pour passer en Amazon Redshift , un entrepôt de données en nuage. La société basée à Indianapolis collecte des données démographiques sur les ventes au détail et en ligne et en magasin, ainsi que des données comportementales en temps réel, puis les analyse pour aider les détaillants à créer une messagerie ciblée afin de susciter la réaction souhaitée des acheteurs. dans certains cas, en temps réel.

Selon M. Abbott, Redshift était plus rentable pour les besoins en données de Smart Remarketer, d’autant plus qu’il dispose de capacités de reporting étendues pour les données structurées. Et en tant qu’offre hébergée, elle est à la fois évolutive et relativement facile à utiliser. «Il est moins coûteux de développer des machines virtuelles que d’acheter des machines physiques pour nous gérer nous-mêmes», dit-il.

De son côté, Intuit, basé en Californie, basé à Mountain View, s’est prudemment orienté vers l’analyse sur le cloud, car il a besoin d’un environnement sécurisé, stable et pouvant être audité. Pour le moment, la société de logiciels financiers garde tout dans son cloud privé Intuit Analytics Cloud. «Nous travaillons en partenariat avec Amazon et Cloudera sur la manière de mettre en place un cloud analytique public-privé, hautement disponible et sécurisé pouvant couvrir les deux mondes, mais personne n’a encore résolu ce problème», déclare M. Loconzolo. Cependant, le passage au nuage est inévitable pour une société comme Intuit, qui vend des produits exécutés dans le nuage. «Le transfert de toutes ces données vers un cloud privé coûtera très cher, a-t-il déclaré.

2. Hadoop: le nouveau système d’exploitation de données d’entreprise

Les frameworks d’analyse distribués, tels que MapReduce , évoluent en gestionnaires de ressources distribuées qui transforment progressivement Hadoop en un système d’exploitation de données à usage général, explique M. Hopkins. Avec ces systèmes, explique-t-il, «vous pouvez effectuer de nombreuses opérations de manipulation et d’analyse de données en les connectant à Hadoop en tant que système de stockage de fichiers distribué».

Qu’est-ce que cela signifie pour l’entreprise? Comme SQL, MapReduce, le traitement de flux en mémoire, l’analyse de graphique et d’autres types de charges de travail peuvent s’exécuter sur Hadoop avec des performances adéquates, de plus en plus d’entreprises utiliseront Hadoop en tant que concentrateur de données d’entreprise. «La possibilité d’exécuter de nombreux types [de requêtes et d’opérations de données] sur des données dans Hadoop en fera un lieu peu coûteux et polyvalent pour la mise en place de données que vous souhaitez pouvoir analyser», déclare M. Hopkins.

Intuit s’appuie déjà sur sa fondation Hadoop. «Notre stratégie consiste à tirer parti du système de fichiers distribués Hadoop, qui fonctionne en étroite collaboration avec MapReduce et Hadoop, en tant que stratégie à long terme permettant toutes sortes d’interactions avec des personnes et des produits», déclare M. Loconzolo.

3. Grands lacs de données

La théorie de base de données traditionnelle dicte que vous concevez le jeu de données avant d’entrer des données. Chris Curran, principal et technologue en chef chez PricewaterhouseCoopers aux États-Unis, explique Chris Curran, un centre de données, également appelé centre de données d’entreprise ou centre de données d’entreprise. «Cela signifie que nous allons récupérer ces sources de données dans un grand référentiel Hadoop. Nous n’essaierons pas de concevoir un modèle de données à l’avance», déclare-t-il. Au lieu de cela, il fournit aux utilisateurs des outils pour analyser les données, ainsi qu’une définition détaillée des données existantes dans le lac. «Les gens intègrent les vues dans les données au fur et à mesure. C’est un modèle organique très incrémental pour la construction d’une base de données à grande échelle », déclare Curran. En revanche, les utilisateurs doivent être hautement qualifiés.

Selon Loconzolo, Intuit propose dans son nuage Intuit Analytics Cloud, un lac de données comprenant des données utilisateur clickstream et des données d’entreprise et tierces, mais l’accent est mis sur la «démocratisation» des outils qui l’entourent pour permettre aux gens d’affaires de l’utiliser efficacement. Loconzolo a déclaré que l’un des problèmes liés à la création d’un lac de données à Hadoop était que la plate-forme n’était pas vraiment adaptée aux entreprises. «Nous voulons les fonctionnalités des bases de données d’entreprise traditionnelles depuis des décennies: surveillance du contrôle d’accès, cryptage, sécurisation des données et traçage de la lignée des données de la source à la destination», a-t-il déclaré.

4. Plus d’analyse prédictive

Avec le Big Data, les analystes disposent non seulement de davantage de données, mais également de la puissance de traitement nécessaire pour gérer un grand nombre d’enregistrements comportant de nombreux attributs, explique M. Hopkins. L’apprentissage automatique traditionnel utilise une analyse statistique basée sur un échantillon d’un ensemble de données total. «Vous avez maintenant la possibilité de créer un très grand nombre d’enregistrements et un très grand nombre d’attributs par enregistrement», ce qui augmente la prévisibilité, explique-t-il.

La combinaison du Big Data et de la puissance de calcul permet également aux analystes d’explorer de nouvelles données comportementales tout au long de la journée, telles que les sites Web visités ou la localisation. Hopkins appelle cela des «données éparses», car pour trouver quelque chose d’intéressant, il faut parcourir beaucoup de données sans importance. «Essayer d’utiliser des algorithmes traditionnels d’apprentissage automatique contre ce type de données était impossible en termes de calcul. Nous pouvons maintenant apporter au problème une puissance de calcul bon marché », a-t-il déclaré. «Vous formulez les problèmes de manière complètement différente lorsque la vitesse et la mémoire cessent d’être des problèmes critiques», explique Abbott. «Désormais, vous pouvez déterminer quelles variables sont les meilleures sur le plan analytique en affectant d’énormes ressources informatiques au problème. C’est vraiment un changeur de jeu. ”

«Permettre l’analyse en temps réel et la modélisation prédictive à partir du même noyau Hadoop, c’est ce qui nous intéresse le plus», déclare Loconzolo. Le problème était la rapidité, Hadoop prenant jusqu’à 20 fois plus de temps pour obtenir des réponses aux questions que les technologies plus avancées. So Intuit teste donc Apache Spark , un moteur de traitement de données à grande échelle, et son outil de requête SQL associé, Spark SQL . «Spark dispose de cette requête interactive rapide ainsi que de services de graphes et de capacités de diffusion en continu. Nous conservons les données dans Hadoop, mais nous donnons suffisamment de performances pour réduire l’écart pour nous », déclare Loconzolo.

5. SQL sur Hadoop: plus rapide, mieux

Si vous êtes un codeur intelligent et un mathématicien, vous pouvez insérer des données et effectuer une analyse de tout ce qui se trouve dans Hadoop. C’est la promesse – et le problème, déclare Mark Beyer, analyste chez Gartner. «J’ai besoin de quelqu’un pour le mettre dans un format et une structure de langage que je connais bien», dit-il. C’est là que SQL pour les produits Hadoop entre en jeu, bien que n’importe quel langage familier puisse fonctionner, dit Beyer. Les outils prenant en charge les requêtes de type SQL permettent aux utilisateurs métier qui comprennent déjà SQL d’appliquer des techniques similaires à ces données. SQL sur Hadoop “ouvre la porte à Hadoop dans l’entreprise”, explique M. Hopkins, car les entreprises n’ont pas besoin d’investir dans des scientifiques et analystes des données haut de gamme capables de rédiger des scripts utilisant Java, JavaScript et Python – des utilisateurs de Hadoop ont traditionnellement besoin de faire.

Ces outils ne sont pas nouveaux. Apache Hive propose depuis longtemps un langage de requête structuré de type SQL pour Hadoop. Mais les alternatives commerciales de Cloudera, Pivotal Software, IBM et d’autres fournisseurs offrent non seulement des performances bien supérieures, mais elles s’accélèrent également. Cela fait de la technologie un outil approprié pour «l’analyse itérative», dans laquelle un analyste pose une question, reçoit une réponse, puis en pose une autre. Ce type de travail a traditionnellement nécessité la construction d’un entrepôt de données. La technologie SQL sur Hadoop ne va pas remplacer les entrepôts de données, du moins pas dans un avenir immédiat, déclare Hopkins, “mais elle offre une alternative aux logiciels et aux appliances plus coûteux pour certains types d’analyse.”

6. Plus, mieux NoSQL

Les alternatives aux bases de données relationnelles traditionnelles basées sur SQL, appelées bases de données NoSQL (abréviation de «Not Only SQL»), gagnent rapidement en popularité en tant qu’outils destinés à être utilisés dans des applications analytiques spécifiques, et cet élan continuera à se développer, déclare Curran. Il estime qu’il existe 15 à 20 bases de données NoSQL à code source ouvert, chacune avec sa propre spécialisation. Par exemple, un produit NoSQL avec une fonctionnalité de base de données de graphes, tel que ArangoDB, offre un moyen plus rapide et plus direct d’analyser le réseau de relations entre clients ou vendeurs qu’une base de données relationnelle. «Ces bases de données existent depuis un certain temps, mais elles prennent de l’ampleur à cause des analyses dont les gens ont besoin», dit-il. Un client de PwC sur un marché émergent a placé des capteurs sur les étagères des magasins afin de contrôler les produits disponibles, la durée de traitement par les clients et la durée pendant laquelle les clients restent devant des étagères spécifiques. «Ces capteurs génèrent des flux de données qui vont croître de manière exponentielle», déclare Curran. «Une base de données de paires clé / valeur NoSQL telle que Redis est l’endroit idéal, car elle est spécialement conçue, performante et légère.»

7. apprentissage en profondeur

L’apprentissage en profondeur , un ensemble de techniques d’apprentissage automatique basées sur la mise en réseau de neurones, continue d’évoluer, mais présente un potentiel considérable pour la résolution des problèmes de l’entreprise, explique M. Hopkins. “L’apprentissage en profondeur . . . permet aux ordinateurs de reconnaître des éléments d’intérêt dans de grandes quantités de données non structurées et binaires et de déduire des relations sans avoir besoin de modèles spécifiques ni d’instructions de programmation », a-t-il déclaré.

Dans un exemple, un algorithme d’apprentissage en profondeur analysant des données de Wikipedia a appris par lui-même que la Californie et le Texas sont deux États américains. «Il n’est pas nécessaire de le modéliser pour comprendre le concept d’État et de pays. différence entre l’apprentissage automatique plus ancien et les méthodes d’apprentissage en profondeur émergentes », déclare Mme Hopkins.

«Les mégadonnées font appel à des techniques analytiques avancées telles que l’apprentissage en profondeur pour aider d’une manière que nous commençons à peine à comprendre», explique M. Hopkins. Par exemple, il pourrait être utilisé pour reconnaître de nombreux types de données, telles que les formes, les couleurs et les objets dans une vidéo – ou même la présence d’un chat dans des images, comme un réseau de neurones construit par Google en 2012 . «Cette notion d’engagement cognitif, d’analyses avancées et de ce qu’elle implique. . . sont une tendance future importante », déclare Hopkins.

8. Analyse en mémoire

Selon M. Beyer, l’utilisation de bases de données en mémoire pour accélérer le traitement analytique est de plus en plus populaire et très bénéfique dans les bonnes conditions. En fait, de nombreuses entreprises utilisent déjà le traitement hybride des transactions / analyses (HTAP), permettant ainsi aux transactions et aux traitements analytiques de résider dans la même base de données en mémoire.

Mais il y a beaucoup de battage médiatique autour du HTAP, et les entreprises en ont trop utilisé, dit Beyer. Pour les systèmes où l’utilisateur a besoin de voir les mêmes données de la même manière plusieurs fois au cours de la journée – et il n’y a pas de changement significatif dans les données – en mémoire, c’est un gaspillage d’argent.

Et bien que vous puissiez effectuer des analyses plus rapidement avec HTAP, toutes les transactions doivent résider dans la même base de données. Le problème, explique Beyer, est que la plupart des efforts d’analyse actuels consistent à regrouper des transactions de nombreux systèmes différents. «Le fait de tout mettre dans une seule base de données remonte à la conviction infondée que si vous voulez utiliser HTAP pour toutes vos analyses, il faut que toutes vos transactions soient au même endroit», déclare-t-il. “Vous devez encore intégrer diverses données.”

De plus, l’introduction d’une base de données en mémoire signifie qu’il existe un autre produit à gérer, à sécuriser et à comprendre comment l’intégrer et la faire évoluer.

Pour Intuit, l’utilisation de Spark a dissipé l’envie d’embrasser des bases de données en mémoire. «Si nous pouvons résoudre 70% de nos cas d’utilisation avec une infrastructure Spark et qu’un système en mémoire pourrait en résoudre 100%, nous utiliserons les 70% dans notre nuage analytique», déclare Loconzolo. «Nous allons donc créer un prototype, voir s’il est prêt et faire une pause sur les systèmes en mémoire en interne en ce moment.»

Garder une longueur d’avance

Avec autant de tendances émergentes autour du big data et de l’analyse, les organisations informatiques doivent créer des conditions permettant aux analystes et aux scientifiques de données d’expérimenter. «Il faut un moyen d’évaluer, de prototyper et d’intégrer éventuellement certaines de ces technologies dans l’entreprise», déclare Curran.

«Les responsables informatiques et les responsables de la mise en œuvre ne peuvent pas utiliser le manque de maturité comme une excuse pour mettre fin à l’expérimentation», explique Beyer. Au départ, seules quelques personnes – les analystes et les scientifiques les plus qualifiés en matière de données – doivent expérimenter. Ensuite, ces utilisateurs avancés et le service informatique doivent déterminer conjointement quand fournir de nouvelles ressources au reste de l’organisation. Et l’informatique ne devrait pas nécessairement freiner les analystes qui veulent aller de l’avant à fond. Selon Beyer, le service informatique doit plutôt travailler avec des analystes pour «imposer une vitesse variable à ces nouveaux outils puissants».

Note cet article
Previous Article
Next Article

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Abonnez-vous à notre newsletter

Twitter