Reading Time: 6 mins

Wat is een datapijplijn – hoe werkt het?

Wat is een datapijplijn Hoe werkt het?

Wat is een datapijplijn – hoe werkt het?

Een gegevenspijplijn is een reeks gegevensverwerkingsstappen. Elke stap levert een uitvoer op die de invoer is voor de volgende stap, en dit gaat door totdat de pijplijn is voltooid.

De gegevenspijplijn bestaat uit drie belangrijke elementen: bron, verwerkingsstappen en bestemming. Terwijl organisaties applicaties willen bouwen met behulp van microservices-architectuur, verplaatsen ze gegevens tussen applicaties, waardoor de efficiëntie van de datapijplijn een kritische overweging wordt bij hun planning en ontwikkeling.

Gegevens die in één bronsysteem of -toepassing worden gegenereerd, kunnen meerdere gegevenspijplijnen voeden, en die pijplijnen kunnen tal van andere pijplijnen of toepassingen hebben die afhankelijk zijn van hun output.

Laten we een voorbeeld bekijken.

Je schrijft een opiniestuk op LinkedIn met een heleboel trending tags. Ervan uitgaande dat u een beroemd persoon bent, kunnen we kijken naar de volgende engagementactiviteiten:

  • Honderden mensen willen het stuk
  • Honderden mensen zouden commentaar geven op het stuk – positieve, negatieve en neutrale gevoelens over uw mening
  • Meerdere mensen kunnen worden getagd als onderdeel van de opmerkingen die zouden worden uitgenodigd om hun mening over uw stuk bij te dragen
  • Honderden mensen zouden je stuk delen met extra tags erop
  • Honderden mensen zouden naar uw artikel verwijzen en er hun mening aan toevoegen

Hoewel de bron van de gegevens hetzelfde is, worden de verschillende metrieken ingevoerd in verschillende gegevenspijplijnen. Uw opiniestuk is zichtbaar onder uw profiel, onder profielen van mensen die zich met uw inhoud hebben beziggehouden en de ontelbare tags die worden gebruikt om de inhoud te definiëren.

Veelvoorkomende stappen in gegevenspijplijnen zijn onder meer gegevenstransformatie, augmentatie, verrijking, filtering, segmentering, aggregatie en algoritmen die worden uitgevoerd tegen de gegevens die inzichten verschaffen aan het bedrijf.

Laten we eens kijken naar een ander big data-voorbeeld.

Netflix is een meester in het geven van persoonlijke aanbevelingen. Dit is een van de redenen waarom we terug blijven gaan naar Netflix voor al onze behoeften op het gebied van entertainmentcontent.

Netflix is een datagedreven bedrijf en al haar beslissingen zijn gebaseerd op inzichten die zijn afgeleid van data-analyse. Het charter van de datapijplijn is het verzamelen, aggregeren, verwerken en verplaatsen van data op cloudschaal. Hier zijn enkele statistieken over de datapijplijn van Netflix:

  • 500 miljard gebeurtenissen, 1,3 PB per dag
  • 8 miljoen gebeurtenissen en 24 GB per seconde tijdens piekuren
  • Enkele honderden gebeurtenisstromen stromen door de gegevenspijplijn – activiteiten voor het bekijken van video’s, UI-activiteiten, foutenlogboeken, prestatiegebeurtenissen, probleemoplossing en diagnostische gebeurtenissen.

Netflix doet realtime analyses (latentie van minder dan een minuut) met de gegevens die ze vastleggen en volgt de streamverwerking. De volumes waar we het hier over hebben zijn enorm, en de groei is explosief geweest.

We hebben het over 150 clusters van elastische zoekadoptie, in totaal 3500 instanties die 1,3 PB aan gegevens hosten.

Hoe werkt de datapijplijn?

Om te weten hoe een datapijplijn werkt, denk aan een pijplijn waar iets bij de bron wordt opgenomen en naar de bestemming wordt vervoerd. Hoe de gegevens in de pipe worden verwerkt, hangt af van de zakelijke use case en de bestemming zelf.

Databron: Relationele database of gegevens uit applicaties. Dit kan worden gedaan met behulp van een push-mechanisme, een API-aanroep, een webhook of een engine die gegevens met regelmatige tussenpozen of in realtime ophaalt.

Gegevensbestemming: de bestemming kan een on-premises of cloudgebaseerd datawarehouse zijn, of het kan analyse of een BI-toepassing zijn.

Gegevenstransformatie: Transformatie verwijst naar bewerkingen die gegevens wijzigen – standaardisatie, sortering, deduplicatie, validatie en verificatie. Het idee is om het mogelijk te maken om de gegevens te analyseren en te begrijpen.

Gegevensverwerking: Verwerking heeft drie modellen.

Model #1: Batchverwerking, waarbij brongegevens periodiek worden verzameld en naar de doelsystemen worden verzonden.

Model #2: Streamverwerking, waarbij gegevens worden opgehaald, gemanipuleerd en geladen zodra ze zijn gemaakt

Model #3: Lambda-architectuur, die zowel batch- als streamverwerking combineert in één architectuur. Dit is populair in big data-omgevingen en stimuleert het opslaan van gegevens in onbewerkte indeling om voortdurend nieuwe gegevenspijplijnen uit te voeren.

Gegevensworkflow: Workflow omvat sequencing en afhankelijkheidsbeheer, en de afhankelijkheden kunnen technisch of bedrijfsgericht zijn. Technische afhankelijkheden zouden validatie en verificatie betekenen voordat het naar de bestemming wordt verplaatst. Bedrijfsafhankelijkheid omvat kruisverificatie van gegevens uit verschillende bronnen om de nauwkeurigheid te behouden.

Gegevensbewaking: Monitoring wordt gebruikt om de gegevensintegriteit te waarborgen. Mogelijke storingsscenario’s zijn onder meer netwerkcongestie, offline bron of bestemming, en het moet waarschuwingsmechanismen hebben om de beheerders te informeren.

ZIO, het datapijplijnplatform

ZIO kan alle gegevensbronnen aan en kan gegevensverwerking doen op basis van de technische en zakelijke afhankelijkheden en deze in de bestemming dumpen. Dit zou bedrijven in staat stellen bruikbare inzichten te genereren.

De kracht van ZIO ervaren in uw bedrijf? Neem contact op met het ontwikkelteam.

Janaha Vivek

I write about fintech, data, and everything around it | Senior Marketing Specialist @ Zuci Systems.