Connect with us

Technologie

Qu’est-ce qui se trouve au-delà de l’entrepôt de données ?

Published

on


Depuis les années 1990, les organisations collectent, traitent et analysent des informations commerciales dans des entrepôts de données.

Le terme « entrepôt de données » a été introduit dans le courant dominant de l’informatique par l’informaticien américain Bill Inmon en 1992, et le concept lui-même remonte à plus loin, avec la fondation de Teradata en 1979 et les travaux menés par IBM au début des années 1980.

Leur objectif était de permettre aux entreprises d’analyser les données commerciales pour améliorer la prise de décision, sans avoir besoin d’interroger peut-être des dizaines de bases de données commerciales différentes.

Depuis lors, la technologie a évolué, permettant aux organisations de traiter les données à plus grande échelle, vitesse et précision.

Mais certains commentateurs pensent maintenant que l’entrepôt de données a atteint la fin de sa vie utile.

Des volumes de données toujours plus importants, ainsi que la nécessité de traiter et d’analyser les informations plus rapidement, y compris potentiellement en temps réel, mettent à rude épreuve les architectures d’entrepôt de données conventionnelles.

Et les fournisseurs d’entrepôts de données sont confrontés à la concurrence du cloud. Un entrepôt de données sur site peut coûter des millions de dollars, prendre des mois à mettre en œuvre et, surtout, plus de mois à reconfigurer pour de nouvelles requêtes et de nouveaux types de données. Les DSI envisagent le cloud comme un foyer plus flexible pour les outils d’analyse.

Croissance exponentielle des données d’entreprise

Les entrepôts de données conventionnels sont aux prises avec une croissance exponentielle des données d’entreprise, explique Richard Berkley, expert en données et en analyse au sein du cabinet de conseil aux entreprises PA Consulting.

« Le cloud offre désormais beaucoup plus d’évolutivité et d’agilité que les entrepôts de données conventionnels », explique-t-il.

« Les technologies cloud peuvent évoluer de manière dynamique, en tirant la puissance de traitement nécessaire pour traiter rapidement les requêtes juste pour le temps de traitement. Vous ne payez plus pour une infrastructure inactive et vous pouvez obtenir de bien meilleures performances car le traitement des requêtes individuelles est mis à l’échelle bien au-delà de ce qui est faisable dans les services sur site.

Les volumes de données ne sont pas non plus le seul défi auquel l’entrepôt de données est confronté. Les organisations veulent éviter d’être enfermées dans une base de données ou une technologie d’entrepôt de données.

De plus en plus, les entreprises souhaitent tirer des enseignements des flux de données – des médias sociaux, du commerce électronique ou des capteurs et de l’Internet des objets (IoT). Les entrepôts de données, avec leurs schémas de données soigneusement conçus et leurs processus d’extraction, de transformation et de chargement (ETL), ne sont pas assez agiles pour gérer ce type de requête.

« Le marché a évolué », explique Alex McMullan, directeur de la technologie pour l’Europe, le Moyen-Orient et l’Afrique chez le fournisseur de stockage Pure.

« Il ne s’agit plus d’un rapport de lot du jour au lendemain que vous donnez ensuite au PDG sous forme d’impression couleur. Les gens font de l’analyse en temps réel et gagnent de l’argent dans l’espace. » Les applications, dit-il, vont du trading financier « boîte noire » à la surveillance de la sécurité.

Vue sur le lac

À un moment donné, les lacs de données semblaient prêts à prendre le relais des entrepôts de données. Dans un lac de données, les informations sont stockées sous leur forme brute, sur un stockage d’objets, principalement dans le cloud.

Les lacs de données sont plus rapides à configurer et à exploiter, car il n’y a pas de traitement ou de nettoyage préalable des données, et le lac peut contenir des données structurées et non structurées. Le traitement, et ETL, a lieu lorsqu’un analyste exécute une requête.

Les lacs de données sont de plus en plus utilisés en dehors de l’intelligence d’affaires traditionnelle, dans des domaines tels que l’intelligence artificielle et l’apprentissage automatique, et, parce qu’ils s’éloignent de la structure rigide de l’entrepôt de données, ils sont parfois cités comme démocratisant l’intelligence d’affaires.

Ils ont cependant leurs propres inconvénients. Les entrepôts de données ont utilisé leur structure pour créer des performances, et cette discipline peut être perdue avec un lac de données.

« Les entreprises peuvent accumuler plus de données qu’elles ne savent quoi en faire », explique Tony Baer, analyste chez dbInsight. « Ils n’ont pas cette discipline d’une approche d’architecture d’entreprise. Nous recueillons plus de données que nécessaire, et elles ne sont pas pleinement utilisées. »

Pour y faire face, les entreprises jettent plus de ressources sur le problème – trop facile à faire avec le cloud – et se retrouvent avec des performances « presque aussi bonnes qu’un entrepôt de données, par force brute », dit-il.

Contrôle des requêtes et des coûts

Cela peut être inefficace et coûteux. Baer souligne que les fournisseurs d’analyse cloud tels que Snowflake construisent plus de « garde-fous » pour contrôler les requêtes et les coûts. « Ils vont dans cette direction, mais il est toujours facile de continuer à ajouter des machines virtuelles. [virtual machines]», dit-il.

Des entrepôts de données et des lacs de données existent également pour répondre aux différentes exigences de l’entreprise. L’entrepôt de données est bon pour les requêtes reproductibles et répétées utilisant des données nettoyées de haute qualité, souvent exécutées en tant que baTch. Le lac de données prend en charge une approche plus ad hoc, voire spéculative, pour interroger les informations commerciales.

« Si vous effectuez des requêtes « et si », nous constatons l’utilisation de lacs de données ou de systèmes de gestion de documents », explique McMullan de Pure. Il décrit cela comme une analyse de « chasseurs-cueilleurs », tandis que les entrepôts de données sont utilisés pour l’analyse « agricole ». « L’analytique des chasseurs-cueilleurs cherche les questions à poser, plutôt que de répéter la même question », dit-il.

L’objectif pour l’industrie, cependant, est de combiner l’élasticité, la vitesse et la capacité de gérer les données diffusées en continu, et le traitement efficace des requêtes, le tout sur une seule plate-forme.

Nouvelles architectures

Cela indique un certain nombre de catégories nouvelles et émergentes, y compris le data lakehouse – l’approche adoptée par Databricks – l’architecture multi-clusters basée sur le cloud de Snowflake et Redshift Spectrum d’Amazon, qui connecte l’entrepôt de données Redshift du fournisseur à son stockage S3.

Et, bien que l’industrie se soit largement éloignée de la construction de lacs de données autour de Hadoop, d’autres outils open source, tels qu’Apache Spark, gagnent du terrain sur le marché.

Le changement est moins motivé par la technologie que par les changements dans les besoins d’analyse des entreprises.

« Les exigences en matière de données diffèrent de celles d’il y a cinq ou 10 ans », explique Noel Yuhanna, analyste couvrant la gestion et l’entreposage des données chez Forrester. « Les gens se penchent sur l’intelligence client, l’analyse du changement et l’analyse IoT.

« Il existe une nouvelle génération de sources de données, y compris les données de capteurs et d’IoT, et les entrepôts de données ont évolué pour y remédier. [by handling] données semi-structurées et non structurées.

Le cloud ajoute de l’élasticité et de l’évolutivité, et des économies de coûts d’au moins 20 %, avec des réductions de coûts de 50 % ou même de 70 % possibles dans certaines situations. Cependant, il avertit que peu d’entreprises exploitent réellement leurs systèmes d’analyse à l’échelle du pétaoctet : Forrester calcule que moins de 3% le font.

Ceux qui le font sont principalement dans la fabrication et d’autres entreprises hautement instrumentées. Ils pourraient, pour leur part, se tourner vers le traitement en périphérie et l’apprentissage automatique pour réduire les flux de données et accélérer la prise de décision.

L’autre changement est le passage au traitement en temps réel, avec des données de « flux de clics » dans le commerce électronique, le divertissement et les médias sociaux produisant des flux constants d’informations qui nécessitent une analyse immédiate, mais ont une valeur limitée à long terme. Les organisations, pour leur part, n’investiront dans l’analyse de flux que si l’entreprise peut réagir à l’information, ce qui nécessite à son tour des niveaux élevés d’automatisation.

Cela incite les fournisseurs à affirmer qu’ils peuvent chevaucher les deux marchés, combinant la flexibilité du lac de données avec le traitement structuré de l’entrepôt de données. Databricks, par exemple, affirme qu’il peut activer « l’intelligence d’affaires et l’apprentissage automatique sur toutes les données » dans son entrepôt de données, éliminant ainsi la nécessité pour ses clients d’exécuter des architectures d’entrepôt de données et de lac de données dupliquées.

Cependant, il n’est pas clair si cela signifie la disparition de l’entrepôt de données conventionnel.

« Sans cette maison lacustre, le monde est divisé en deux parties différentes », explique Ali Ghodsi, PDG de Databricks. « Il y a des entrepôts, qui concernent principalement le passé, et vous pouvez poser des questions sur « quel a été mon chiffre d’affaires au dernier trimestre ? » De l’autre côté, il y a l’IA et l’apprentissage automatique, qui concernent l’avenir. « Lequel de mes clients va disparaître ? Est-ce que ce moteur va tomber en panne ? » Ce sont des questions beaucoup plus intéressantes.

« Je pense que le lakehouse sera la voie de l’avenir, et dans 10 ans, vous ne verrez plus vraiment d’entrepôts de données utilisés comme ça », dit-il. « Ils seront là tout comme les mainframes, mais je pense que la catégorie des maisons lacustres va subsumer l’entrepôt. »

Retour vers le futur

Cependant, tout le monde ne croit en aucun cas que l’entrepôt de données a fait son temps. Comme le concède Ghodsi de Databricks, certains systèmes continueront tant qu’ils seront utiles. Et il y a des risques inhérents au passage à de nouvelles plates-formes, aussi grandes que soient leurs promesses. « Les lacs de données et les nouveaux modèles d’infrastructure peuvent être trop simplistes et ne pas résoudre le véritable défi de complexité de la gestion et de l’intégration des données », explique Berkley de PA Consulting.

Beaucoup dépendra des informations dont les organisations ont besoin à partir de leurs données. « Les entrepôts de données et DL sont très complémentaires », explique Jonathan Ellis, directeur de la technologie de Datastax. « Nous ne servons pas Twitter ou Netflix à partir d’un entrepôt de données, mais nous ne servons pas un tableau de bord BI à partir de Cassandra. [We] exécuter des applications en direct à partir de Cassandra et effectuer des analyses dans l’entrepôt de données. Ce qui est passionnant dans l’industrie, c’est la conjonction de la technologie de streaming et de l’entrepôt de données.

« Les bases de données sont collantes et bien que tout le mondedy dans l’espace d’entreposage de données soutient largement Sequel, le diable est dans les détails », dit-il. « La façon dont vous concevez des schémas pour des performances optimales diffère d’un fournisseur à l’autre. »

Il prédit un modèle hybride, comprenant des logiciels sur site et dans le cloud, des logiciels open source et propriétaires, pour créer un « entrepôt de données déconstruit » plus flexible que les offres conventionnelles et plus capable de gérer les données en temps réel.

D’autres acteurs de l’industrie sont d’accord. Nous sommes susceptibles de voir un marché plus diversifié, plutôt qu’une technologie remplaçant toutes les autres, même si cela pose un défi pour les DSI.

L’entrepôt de données est susceptible de continuer, pendant un certain temps au moins, comme la « copie d’or » des données d’entreprise.

McMullan de Pure Storage prédit que les organisations utiliseront des entrepôts, des lacs et des hubs pour afficher différents ensembles de données sous différents angles. « Ce sera beaucoup plus difficile qu’avant, avec des ensembles de données modernes et les exigences pour l’accompagner », dit-il. « Il ne s’agit plus de ce que vous pouvez faire dans votre rack 42U de 19 pouces. »

Click to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tendance