Connect with us

Technologie

Databricks dévoile son protocole de partage de données dans le cadre de data lakehouse

Published

on


Databricks, l’inventeur et distributeur commercial de la plate-forme de traitement Apache Spark, a annoncé le lancement d’un projet open source appelé Delta Sharing au Data + AI Summit.

Le fournisseur décrit Delta Sharing comme le « premier protocole ouvert pour le partage sécurisé des données entre les organisations en temps réel, complètement indépendant de la plate-forme sur laquelle les données résident ».

Il est inclus dans le projet Delta Lake, qui combine la technologie des lacs de données avec des attributs d’entreposage de données, et que l’entreprise a ouvert en 2019 lors de sa conférence, alors appelée Spark + AI Summit, à partir de son propre produit Delta.

En tant que terme, « data lakehouse » a une certaine monnaie au-delà de Databricks, attirant l’imprimatur du groupe de médias O’Reilly, bien qu’en association avec le fournisseur.

Delta Sharing est le cinquième grand projet open source lancé par Databricks, après Apache Spark, Delta Lake, MLflow et Koalas, et est donné à la Fondation Linux.

Il serait pris en charge par les fournisseurs de données Nasdaq, ICE, S&P, Precisely, Factset, Foursquare et SafeGraph, ainsi que par les fournisseurs de stockage et de logiciels Amazon Web Services (AWS), Microsoft, Google Cloud et Tableau.

Matei Zaharia, technologue en chef et co-fondateur de Databricks, a déclaré : « Le principal défi pour les fournisseurs de données aujourd’hui est de rendre leurs données facilement et largement consommables. La gestion de dizaines de solutions de diffusion de données différentes pour atteindre toutes les plateformes utilisateur est intenable. Une norme ouverte et interopérable pour le partage de données en temps réel améliorera considérablement l’expérience des fournisseurs de données et des utilisateurs de données.

« Delta Sharing normalisera la façon dont les données sont échangées en toute sécurité entre les entreprises, quelle que soit la plate-forme de stockage ou de calcul qu’elles utilisent, et nous sommes ravis de rendre cette innovation open source. »

Dans une interview avant le sommet, Joel Minnick, vice-président du marketing chez Databricks, a déclaré: « Le lacustre est en train de devenir la nouvelle architecture pour la façon dont les clients pensent à leurs données, en ce qu’il apporte leurs données et iA [artificial intelligence] initiatives sur la même plate-forme.

Il est, at-il dit, gagner la reconnaissance en tant que terme de l’industrie informatique, et en vedette à la conférence aws re:Invent, avec un accent sur Amazon Redshift.

Minnick a cité un blog récent de Bill Inmon, souvent décrit comme le père de l’entreposage des données, comme une validation importante pour le concept de la maison de données. Le blog décrit la maison du lac comme l’évolution naturelle de l’architecture des données. Inmon s’exprime au Sommet Data + AI.

« Dans la poursuite d’initiatives d’apprentissage automatique et d’IA, obtenir de la valeur à partir de données non structurées, ainsi que des données structurées, est quelque chose que les entrepôts de données ne peuvent pas faire. Et les lacs de données ne peuvent pas non plus. La maison du lac [concept] reconnaît que la grande majorité de vos données d’aujourd’hui atterrissent dans votre lac de données, et les lacs de données manquent de fiabilité, de capacité de performance et de gouvernance », a déclaré Minnick.

« Les lacs de données sont d’excellents endroits pour mettre des données, mais ils ne sont pas conçus pour avoir beaucoup d’utilisateurs simultanés exécutant des charges de travail analytiques, at-il ajouté. « Les entrepôts de données ont de grandes performances, fiabilité et gouvernance, mais ils ne sont pas conçus pour les types de données non structurés et sont généralement propriétaires. Il est plus facile de déplacer un lac de données et d’y apporter une gouvernance que d’amener un entrepôt de données pour traiter des types de données moins structurés.

Minnick a déclaré que la valeur du produit Delta Sharing a été posée dans les organisations qui veulent « poser de plus grandes questions » en mettant en commun les données de l’extérieur. « Les détaillants, par exemple, veulent partager des données avec d’autres détaillants et leurs fournisseurs, ce qui n’est pas facile à faire », a-t-il dit. « Même au sein des entreprises, différentes divisions ont leurs propres plateformes de données. Et ce n’est pas seulement [data in] tables traditionnelles que les entreprises veulent partager, mais des données non structurées.

Minnick a déclaré Delta Sharing a offert une solution à ce problème de partage de données. « Nous avons eu un grand soutien dans ce point de vue des fournisseurs de données, comme nasdaq, Standard and Poor’s, et AWS, et du côté des outils de données, comme Microsoft, Tableau, Looker et Qlik, en obtenant un format commun à aligner derrière pour partager des données avec leurs clients, at-il ajouté.

Le protocole établirait une norme commune pour le partage de tous les types de données qui peuvent être utilisés dans SQL, les outils d’analyse visuelle et les langages de programmation tels que Python et R. Delta Sharing permet également aux organisations de partager les ensembles de données existants à grande échelle dans les formats Apache Parquet et Delta Lake en temps réel sans les copier, et peut être implémenté dans les logiciels existants qui prend en charge parquet.

Click to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tendance