Temps de lecture : 1 Minutes

Qu’est-ce qu’un pipeline de données – Comment ça marche ?

Un pipeline de données est une série d’étapes de traitement de données. Chaque étape fournit une sortie qui est l’entrée de l’étape suivante, et cela continue jusqu’à ce que le pipeline soit terminé.

Le pipeline de données se compose de trois éléments clés : la source, les étapes de traitement et la destination. Alors que les organisations cherchent à créer des applications à l’aide d’une architecture de microservices, elles déplacent les données entre les applications, ce qui fait de l’efficacité du pipeline de données une considération essentielle dans leur planification et leur développement.

Les données générées dans un système ou une application source peuvent alimenter plusieurs pipelines de données, et ces pipelines peuvent avoir de nombreux autres pipelines ou applications qui dépendent de leurs sorties.

Prenons un exemple.

Vous écrivez un article d’opinion sur LinkedIn avec un tas de tags tendance. En supposant que vous êtes une personne célèbre, nous pouvons examiner les activités d’engagement suivantes :

  • Des centaines de personnes aimeraient la pièce
  • Des centaines de personnes commenteraient l’article – des sentiments positifs, négatifs et neutres sur votre opinion
  • Plusieurs personnes peuvent être taguées dans le cadre des commentaires et seront invitées à donner leur avis sur votre article
  • Des centaines de personnes partageraient votre pièce avec des balises supplémentaires dessus
  • Des centaines de personnes se référeraient à votre article et y ajouteraient leur point de vue

Bien que la source des données soit la même, les différentes métriques alimentent différents pipelines de données. Votre article d’opinion est visible sous votre profil, sous les profils des personnes qui ont interagi avec votre contenu et les innombrables balises utilisées pour définir le contenu.

Les étapes courantes des pipelines de données incluent la transformation, l’augmentation, l’enrichissement, le filtrage, la segmentation, l’agrégation et les algorithmes de données exécutés sur les données qui fournissent des informations à l’entreprise.

Prenons un autre exemple de big data.

Netflix est un maître lorsqu’il s’agit de vous donner des recommandations personnelles. C’est l’une des raisons pour lesquelles nous revenons sans cesse à Netflix pour tous nos besoins en contenu de divertissement.

Netflix est une entreprise axée sur les données et toutes ses décisions sont basées sur des informations issues de l’analyse des données. La charte du pipeline de données consiste à collecter, agréger, traiter et déplacer des données à l’échelle du cloud. Voici quelques statistiques sur le pipeline de données de Netflix :

  • 500 milliards d’événements, 1,3 Po par jour
  • 8 millions d’événements et 24 Go par seconde pendant les heures de pointe
  • Plusieurs centaines de flux d’événements circulent dans le pipeline de données – activités de visualisation vidéo, activités d’interface utilisateur, journaux d’erreurs, événements de performances, dépannage et événements de diagnostic.

Netflix effectue des analyses en temps réel (latence inférieure à la minute) avec les données qu’ils capturent et suit le traitement du flux. Les volumes dont nous parlons ici sont énormes et la croissance a été explosive.

Nous parlons de 150 clusters d’adoption de la recherche élastique, totalisant 3500 instances hébergeant 1,3 Po de données.

Comment fonctionne le pipeline de données ?

Pour savoir comment fonctionne un pipeline de données, pensez à un tuyau où quelque chose est ingéré à la source et transporté vers la destination. La manière dont les données sont traitées dans le canal dépend du cas d’utilisation métier et de la destination elle-même.

La source de données: Base de données relationnelle ou données d’applications. Cela peut être fait à l’aide d’un mécanisme push, d’un appel d’API, d’un webhook ou d’un moteur qui extrait les données à intervalles réguliers ou en temps réel.

Destination des données : la destination peut être un entrepôt de données sur site ou dans le cloud, ou il peut s’agir d’analyses ou d’une application de BI.

Transformation de données : La transformation fait référence aux opérations qui modifient les données : normalisation, tri, déduplication, validation et vérification. L’idée est de permettre d’analyser et de donner du sens aux données.

Traitement des données : le traitement comporte trois modèles.

Modèle #1 : traitement par lots, dans lequel les données source sont collectées périodiquement et envoyées aux systèmes de destination.

Modèle #2 : traitement de flux, dans lequel les données sont sourcées, manipulées et chargées dès qu’elles sont créées

Modèle n° 3 : architecture Lambda, qui combine le traitement par lots et par flux en une seule architecture. Ceci est populaire dans les environnements de Big Data et encourage le stockage des données au format brut pour exécuter de nouveaux pipelines de données en continu.

Flux de travail de données : le flux de travail implique le séquençage et la gestion des dépendances, et les dépendances peuvent être techniques ou orientées métier. Les dépendances techniques signifieraient une validation et une vérification avant de le déplacer vers la destination. La dépendance commerciale implique une vérification croisée des données provenant de différentes sources pour maintenir l’exactitude.

Surveillance des données : La surveillance est utilisée pour assurer l’intégrité des données. Les scénarios de défaillance potentiels incluent la congestion du réseau, la source ou la destination hors ligne, et il doit disposer de mécanismes d’alerte pour informer les administrateurs.

ZIO, la plateforme de pipeline de données

ZIO peut gérer toutes les sources de données et peut effectuer le traitement des données en fonction des dépendances techniques et commerciales et les vider dans la destination. Cela permettrait aux entreprises de générer des informations exploitables.

Vous voulez faire l’expérience de la puissance de ZIO dans votre entreprise ? Contactez l’équipe de développement.

Janaha Vivek

I write about fintech, data, and everything around it | Assistant Marketing Manager @ Zuci Systems.

Partagez ce blog, choisissez votre plateforme !

Leave A Comment

Articles Similaires