Reading Time: 8 mins

Wat is een datapijplijn – hoe werkt het?

What Is A Data Pipeline How Does It Work

Wat is een datapijplijn – hoe werkt het?

Een gegevenspijplijn is een reeks gegevensverwerkingsstappen. Elke stap levert een uitvoer op die de invoer is voor de volgende stap, en dit gaat door totdat de pijplijn is voltooid.

De gegevenspijplijn bestaat uit drie belangrijke elementen: bron, verwerkingsstappen en bestemming. Terwijl organisaties applicaties willen bouwen met behulp van microservices-architectuur, verplaatsen ze gegevens tussen applicaties, waardoor de efficiëntie van de datapijplijn een kritische overweging wordt bij hun planning en ontwikkeling.

Gegevens die in één bronsysteem of -toepassing worden gegenereerd, kunnen meerdere gegevenspijplijnen voeden, en die pijplijnen kunnen tal van andere pijplijnen of toepassingen hebben die afhankelijk zijn van hun output.

Laten we eens kijken naar een voorbeeld.

Je schrijft een opiniestuk op LinkedIn met een heleboel trending tags. Ervan uitgaande dat u een beroemd persoon bent, kunnen we kijken naar de volgende engagementactiviteiten:

  • Honderden mensen willen het stuk 
  • Honderden mensen zouden reageren op het stuk: positieve, negatieve en neutrale gevoelens over jouw mening 
  • Meerdere mensen kunnen worden getagd als onderdeel van de reacties die zouden worden uitgenodigd om hun mening over je stuk te geven 
  • Honderden mensen zouden je stuk delen met extra tags erop 
  • Honderden mensen verwijzen naar je artikel en voegen daar hun mening aan toe  

Hoewel de bron van de gegevens hetzelfde is, worden de verschillende metrische gegevens in verschillende gegevenspijplijnen ingevoerd. Uw opiniestuk is zichtbaar onder uw profiel, onder profielen van mensen die zich met uw inhoud hebben beziggehouden en de ontelbare tags die worden gebruikt om de inhoud te definiëren.

Veelvoorkomende stappen in gegevenspijplijnen zijn onder meer gegevenstransformatie, augmentatie, verrijking, filtering, segmentering, aggregatie en algoritmen die worden uitgevoerd tegen de gegevens die inzichten verschaffen aan het bedrijf.

Laten we nog een voorbeeld van big data bekijken.

Netflix is ​​een meester in het geven van persoonlijke aanbevelingen. Dit is een van de redenen waarom we terug blijven gaan naar Netflix voor al onze behoeften op het gebied van entertainmentcontent.

Netflix is ​​een datagedreven bedrijf en al haar beslissingen zijn gebaseerd op inzichten die zijn afgeleid van data-analyse. Het charter van de datapijplijn is het verzamelen, aggregeren, verwerken en verplaatsen van data op cloudschaal. Hier zijn enkele statistieken over de datapijplijn van Netflix:

  • 500 miljard gebeurtenissen, 1,3 PB per dag 
  • 8 miljoen gebeurtenissen en 24 GB per seconde tijdens piekuren  
  • Er stromen honderden gebeurtenisstromen door de gegevenspijplijn – video-kijkactiviteiten, UI-activiteiten, foutenlogboeken, prestatiegebeurtenissen, probleemoplossing en diagnostische gebeurtenissen.

Netflix voert realtime analyses uit (latentie van minder dan een minuut) met de gegevens die ze vastleggen en volgt de streamverwerking. De volumes waar we het hier over hebben zijn enorm, en de groei is explosief geweest.

We hebben het over 150 clusters van elastische zoekadoptie, in totaal 3500 instanties die 1,3 PB aan gegevens hosten.

Hoe werkt de datapijplijn?  

Om te weten hoe een datapijplijn werkt, denk aan een pijpleiding waar iets bij de bron wordt opgenomen en naar de bestemming wordt vervoerd. Hoe de gegevens in de pipe worden verwerkt, hangt af van de zakelijke use case en de bestemming zelf.

Gegevensbron: Relationele database of gegevens uit apps. Dit kan worden gedaan met behulp van een push-mechanisme, een API-aanroep, een webhook of een engine die met regelmatige tussenpozen of in realtime gegevens ophaalt.

Gegevensbestemming: Bestemming kan een lokaal of cloudgebaseerd datawarehouse zijn, of het kan een analyse- of een BI-toepassing zijn.

Gegevenstransformatie: Transformatie verwijst naar bewerkingen die gegevens wijzigen: standaardisatie, sortering, ontdubbeling, validatie en verificatie. Het idee is om het mogelijk te maken om de gegevens te analyseren en te begrijpen.

Gegevensverwerking: verwerking heeft drie modellen.

Model #1: Batchverwerking, waarbij brongegevens periodiek worden verzameld en naar de doelsystemen worden verzonden.

Model #2: streamverwerking, waarbij gegevens worden opgehaald, gemanipuleerd en geladen zodra ze zijn gemaakt

Model #3: Lambda-architectuur, die zowel batch- als streamverwerking combineert in één architectuur. Dit is populair in big data-omgevingen en stimuleert het opslaan van gegevens in onbewerkte indeling om voortdurend nieuwe gegevenspijplijnen uit te voeren.

Gegevensworkflow: Workflow omvat sequencing en afhankelijkheidsbeheer, en de afhankelijkheden kunnen technisch of bedrijfsgericht zijn. Technische afhankelijkheden zouden validatie en verificatie betekenen voordat het naar de bestemming wordt verplaatst. Bedrijfsafhankelijkheid omvat kruisverificatie van gegevens uit verschillende bronnen om de nauwkeurigheid te behouden.

Gegevensbewaking: controle wordt gebruikt om de gegevensintegriteit te waarborgen. Mogelijke storingsscenario’s omvatten netwerkcongestie, offline bron of bestemming, en het moet waarschuwingsmechanismen hebben om de beheerders te informeren.

ZIO, het datapijplijnplatform 

ZIO kan alle gegevensbronnen aan en kan gegevensverwerking doen op basis van de technische en zakelijke afhankelijkheden en deze op de bestemming dumpen. Dit zou bedrijven in staat stellen bruikbare inzichten te genereren.

Wilt u de kracht van ZIO ervaren in uw bedrijf? Neem contact op met het ontwikkelteam. 

Janaha

Janaha Vivek

I write about fintech, banking, and everything around it | Fintech Marketer @ Zuci Systems.