Ontwikkeling van data mesh

Wat is het onlangs populaire data mesh-concept en wat zijn de voordelen?

Met het groeiende aantal databronnen en de behoefte aan flexibiliteit, kan een gedecentraliseerd data-architectuurconcept - Data Mesh - worden onderzocht om datakwaliteit en naleving van governance af te dwingen. Data Mesh bereikt dit door databeheer te decentraliseren naar domeinniveau en hoogwaardige getransformeerde data alleen als product beschikbaar te maken.

Door Jarvin Mutatiina en Ernst Blaauw

Elk jaar worden er wereldwijd meer gegevens geproduceerd. Dit geldt ook voor bedrijven: er worden meer gegevens dan ooit vastgelegd van klanten, partners, transacties, producten en de toeleveringsketen. Dit resulteert in meer data. Volgens IDC "zal het wereldwijde datavolume groeien van 45 zettabytes in 2019 tot 175 in 2025". Deze gegevens vormen het ruwe materiaal waaruit organisaties waardevolle, bruikbare inzichten halen. Maar het verzamelen, integreren en beheren van deze gegevens is nog steeds een van de grootste uitdagingen blijkt uit recent onderzoek van Deloitte.

Veel organisaties kijken nu naar een relatief nieuw concept genaamd "Data Mesh" om deze belangrijkste uitdagingen en belemmeringen te overwinnen. Ze realiseren zich dat flexibele toegang tot data met voordelen rond een kortere time-to-market kan worden gegarandeerd door zich te richten op domeinspecifieke dataproducten, mogelijk gemaakt door gemeenschappelijke ondersteunende functies. De Data Mesh maakt gebruik van concepten van nieuwere architecturale benaderingen (bijv. service mesh). Dit richt zich op datamanagement in plaats van op connectiviteit en orkestratie. Wat is Data Mesh en wat zijn de voordelen?

Waar datawarehouses overbelast raakten en data lakes in moerassen veranderden

Het eerste paradigma om tot een betrouwbare, geïntegreerde en centrale dataopslag te komen, was het datawarehouse. Datawarehouses kwamen in feite neer op het kopiëren van operationele data naar een gecentraliseerde en goed gedefinieerde gegevensopslagplaats die zou moeten leiden tot een "single source of truth". Dat bleek vooral inflexibel en niet echt geschikt voor het tijdperk van "Big Data", waarin de gegevens een groter volume, grotere verscheidenheid en een hogere snelheid kregen. Het Data Lake-concept is uitgevonden om onbewerkte data uit verschillende bronnen vast te leggen in één opslagplaats, om verschillende gegevenslagen te bouwen voor meerdere gebruiksscenario's. Het data lake was beter geschikt om een verscheidenheid aan "big data" te ondersteunen (bijv. datastreaming, NoSQL-databasetechnologieën... enz.).

Maar ook data lakes maakten hun belofte niet altijd waar. Naarmate ze steeds complexer werden met de enorme hoeveelheden data, kon het proces om nieuwe dataproducten te creëren die voldoen aan de bedrijfsnormen te veel tijd in beslag nemen. Bedrijven schakelden over op manieren om de centrale IT-organisatie te omzeilen, zodat hun projecten door konden gaan. Dit resulteerde echter in niet-conforme oplossingen – met andere woorden shadow-IT. Niet-conforme oplossingen kunnen sneller de eerste resultaten opleveren, maar zullen nooit duurzaam zijn voor productieomgevingen en belemmeren daarom de toepassing van analytische inzichten op schaal.

Data lakes en datawarehouses hebben gemeen dat de pipelines voor gegevensverwerking grotendeels worden beheerd door gecentraliseerde IT-teams en dat de gegevens op een centrale locatie worden opgeslagen. Naarmate de datavolumes groeien, zal ook de complexiteit van het datalandschap toenemen; Dit leidt er onvermijdelijk toe dat gecentraliseerde systemen niet voldoen aan de drastisch toegenomen schaalbaarheids- en wendbaarheidsbehoeften van de organisatie.

Dit model vertaalt zich niet altijd goed naar een doorsnee organisatie: verschillende bedrijfsfuncties weten het beste wat er in hun data staat, maar het is de bedoeling dat het centraal beheerd wordt. Centrale IT-teams hebben het erg druk om alle verzoeken van het bedrijf bij te houden - maar meestal groeien de achterstanden in plaats van te krimpen. Domeinkennis is niet beschikbaar wanneer het nodig is, wat leidt tot een afname van de kwaliteit van leveringen. Hier kan het concept van Data Mesh een oplossing zijn om de nadelen van datawarehouses/lakes aan te pakken zonder de tot nu toe gedane investeringen te verliezen.

Waarom is het nu zo populair?

Data Mesh is een vrij nieuw concept (ontstond rond 2019 en gemaakt door Zhamak Dehghani) en het wint aan populariteit. Data Mesh is zeer interessant gebleken voor ondernemingen die op zoek zijn naar een snelle time-to-market met groeiende databronnen/volumes. Dit wordt bereikt door de databeheer te decentraliseren naar domeinniveau en hoogwaardige getransformeerde data alleen als product beschikbaar te maken. De kennis van het bedrijfsdomein blijft behouden en de gegevens worden ook beschikbaar gesteld aan de rest van het bedrijf. Data-engineers hoeven geen onbekende gegevens door te spitten, die vaak uit meerdere bronnen in data lakes worden gedumpt. De voorgestelde architectuur is bedoeld om de vaak gespannen samenwerking tussen data-experts en data-eigenaren te vergemakkelijken met betrekking tot de groeiende specifieke domeinkennis die nodig is om waarde aan data te toevoegen.

Data Mesh uitgelegd

Het Data Mesh-concept is een gedemocratiseerde benadering van databeheer waarbij verschillende bedrijfsdomeinen hun eigen gegevens operationaliseren, ondersteund door een centrale en self-service data-infrastructuur . De infrastructuur bestaat uit datapijplijnengines, opslag- en rekenmogelijkheden die zijn gebundeld, zoals geïllustreerd in figuur 1.

In plaats van bedrijfsgegevens te zien als één enorme datapuinhoop, beschouwt data mesh het als een reeks opslagplaatsen van gegevensproducten. Een bedrijfsfunctie (bijv. "Finance") levert dus gegevens als een product; Klaar voor gebruik voor analysedoeleinden, vindbaar en betrouwbaar. Op deze manier is de eigenaar van het dataproduct de daadwerkelijke vertegenwoordiger van de bedrijfsfunctie met de diepgaande domeinkennis. Dit wordt geïllustreerd in de data product-laag in figuur 2. Zo gaat er geen specifieke domeinkennis verloren zoals bij de vertaling naar een datawarehouse of lake en ontstaat er geen bottleneck bij het centrale data engineering team.

Verschillende soorten dataverbruikers, zoals datawetenschappers en bedrijfsanalisten, hebben op basis van service level agreements rechtstreeks toegang tot relevante dataproducten.

De dataproducten spreken ook voor zich, in de zin dat het product vindbaar en beschreven kan worden, zodat het op een "plug and play" manier kan worden gebruikt zonder de noodzaak van complexe datatransformatiefuncties zoals we die kennen van de datawarehouse of lake-concepten . Door ervoor te zorgen dat alle dataproducten hetzelfde formaat hebben, worden richtlijnen voor databeheer afgedwongen in de domeingegevensproducten binnen de mesh. De industriestandaarden voor governance worden geïllustreerd in de federatieve datagovernancelaag in figuur 3.

De drie lagen; gedistribueerde dataproductlaag, federatief databeheer en selfservice-datainfrastructuur werken samen om de Data Mesh referentie-kaart te vormen, zoals in afbeelding 4:

Voordelen

Er zijn directe voordelen voor een organisatie die dit architectuurconcept adopteert;

Agility en schaalbaarheid; er is een aanzienlijke verbetering in de time-to-market, schaalbaarheid, agility van de bedrijfsfunctie en het helpt ook om de IT-achterstand weg te werken; Dit komt allemaal door de gedecentraliseerde gegevensbewerkingen en de ingerichte data-infrastructuur als een service. Dit is ook een gevolg van het feit dat agile projectteams zelfstandig kunnen opereren en zich kunnen richten op relevante dataproduct(en).
Sterke centrale governance om end-to-end compliance te controleren; met het snelgroeiende aantal databronnen en hun verschillende gegevensformaten, slagen traditionele architectonische opzetten met gecentraliseerde data lakes er niet in om de semantiek en het volume van de opgenomen data met elkaar in overeenstemming te brengen. Het decentraliseren van gegevensbewerkingen naar een domein en het afdwingen van wereldwijde richtlijnen voor gegevensbeheer bevordert de kwaliteit van de gegevenslevering en vergemakkelijkt ook de toegang tot data. Er zullen geen bulk-datadumps meer zijn in data lakes.
Cross-functionele domeinteams; in vergelijking met de traditionele data-architectuurbenaderingen die isolatie bevorderen van vaardigheidsteams die vaak lange achterstanden hebben, stelt Data Mesh een oplossing voor waarbij domeinexperts en -eigenaren de leiding hebben. Dit gebeurt door middel van meer domeinkennis, betere samenwerking tussen business- en IT-teams en flexibele virtuele teams.
Snellere levering van gegevens; Het opzetten van een data-infrastructuur (bijv. gegevensverwerking, gegevensopslag, logging, monitoring, identiteitsbeheer enz.) is vaak een belemmering voor databeheer. Data Mesh biedt een dergelijke beheerbare en gecentraliseerde infrastructuur op een selfservice-manier, waarbij de onderliggende complexiteit verborgen is voor een snellere levering van data.

Barrières die moeten worden overwonnen

Ondanks de voordelen van Data Mesh, brengt met name de decentralisatie-eigenschap een aantal uitdagingen met zich mee. Problemen met het beheer van de meerdere dataproducten en de bijbehorende metadata kunnen heel goed leiden tot een puinhoop van spaghetti-datapijplijnen. Hieronder staan enkele van de mogelijke verbeterpunten voor Data Mesh:

Duplicatie van data over verschillende domeinen; Naarmate gegevens worden hergebruikt om te voldoen aan de zakelijke behoeften van een nieuw domein die verschillen van het brondomein, volgt redundantie en kan dit een mogelijke impact hebben op het gebruik van resources en de kosten voor databeheer.
Handhaving van gefedereerd databeheer en kwaliteitsnaleving; Met de onafhankelijke, naast elkaar bestaande dataproducten en pijplijnen kunnen de kwaliteitsprincipes gemakkelijk worden verwaarloosd, wat leidt tot een enorme technische schuld. Deze verantwoordelijkheden en beginselen moeten op passende wijze worden geïdentificeerd en gefedereerd.
Er is een aanzienlijk niveau van verandermanagement bij betrokken; om over te stappen op gedecentraliseerde gegevensbewerkingen van Data Mesh, is een aanzienlijke hoeveelheid veranderingsinspanningen nodig.
Technologiekeuzes geven vorm aan de algehele datamogelijkheden van het dataplatform; Technologische keuzes, die zowel gestandaardiseerd zijn in de hele organisatie als toekomstbestendig zijn voor alle benodigde datamogelijkheden, moeten concreet worden aangepakt. Ongeschikte technologische beslissingen kunnen gemakkelijk leiden tot dataproducten die in de loop van de tijd een grotere technische schuld oplopen.
Analyse over domeinen heen; Er is niet expliciet een overkoepelend datamodel voor de hele onderneming gedefinieerd om de verschillende dataproducten samen te voegen en te consolideren in één rapport.

Wanneer is het zinvol om Data Mesh te gebruiken?

Een data mesh-strategie kan gunstig zijn voor organisaties met een divers datalandschap met verschillende bedrijfsdomeinen. Het kan organisaties helpen die sterk gedecentraliseerd zijn of dat willen worden, omdat de datamesh-structuur verschillende teams in staat stelt hun eigen gegevens te beheren en kwaliteitsgegevens alleen als product beschikbaar te stellen aan de rest van de organisatie.

Andere haalbare organisatorische/operationele use cases zijn; Snellere levering van data, een groot aantal databronnen, snelle verandering in bedrijfsdoelstellingen en eenvoudigere migraties tijdens fusies en overnames. Gedecentraliseerde eenheden kunnen worden gezien als operationele, functionele of regionale afdelingen die een gemeenschappelijk doel delen, ongeacht de grootte van de organisatie.

Naar aanleiding van de bespreking van het Data Mesh concept (de voordelen, impactpunten en overwegingen ervan) is het duidelijk welke waarde het aannemen van deze architectuur kan hebben voor het operationele en organisatorische concurrentievoordeel van uw organisatie.

Wil je meer weten over Data Mesh? Neem dan contact op met Stefan van Duin via +31 (0) 88 288 4754

Yes

Ontwikkeling van data mesh

Wat is het onlangs populaire data mesh-concept en wat zijn de voordelen?