Met het groeiende aantal databronnen en de behoefte aan flexibiliteit, kan een gedecentraliseerd data-architectuurconcept - Data Mesh - worden onderzocht om datakwaliteit en naleving van governance af te dwingen. Data Mesh bereikt dit door databeheer te decentraliseren naar domeinniveau en hoogwaardige getransformeerde data alleen als product beschikbaar te maken.
Door Jarvin Mutatiina en Ernst Blaauw
Elk jaar worden er wereldwijd meer gegevens geproduceerd. Dit geldt ook voor bedrijven: er worden meer gegevens dan ooit vastgelegd van klanten, partners, transacties, producten en de toeleveringsketen. Dit resulteert in meer data. Volgens IDC "zal het wereldwijde datavolume groeien van 45 zettabytes in 2019 tot 175 in 2025". Deze gegevens vormen het ruwe materiaal waaruit organisaties waardevolle, bruikbare inzichten halen. Maar het verzamelen, integreren en beheren van deze gegevens is nog steeds een van de grootste uitdagingen blijkt uit recent onderzoek van Deloitte.
Veel organisaties kijken nu naar een relatief nieuw concept genaamd "Data Mesh" om deze belangrijkste uitdagingen en belemmeringen te overwinnen. Ze realiseren zich dat flexibele toegang tot data met voordelen rond een kortere time-to-market kan worden gegarandeerd door zich te richten op domeinspecifieke dataproducten, mogelijk gemaakt door gemeenschappelijke ondersteunende functies. De Data Mesh maakt gebruik van concepten van nieuwere architecturale benaderingen (bijv. service mesh). Dit richt zich op datamanagement in plaats van op connectiviteit en orkestratie. Wat is Data Mesh en wat zijn de voordelen?
Het eerste paradigma om tot een betrouwbare, geïntegreerde en centrale dataopslag te komen, was het datawarehouse. Datawarehouses kwamen in feite neer op het kopiëren van operationele data naar een gecentraliseerde en goed gedefinieerde gegevensopslagplaats die zou moeten leiden tot een "single source of truth". Dat bleek vooral inflexibel en niet echt geschikt voor het tijdperk van "Big Data", waarin de gegevens een groter volume, grotere verscheidenheid en een hogere snelheid kregen. Het Data Lake-concept is uitgevonden om onbewerkte data uit verschillende bronnen vast te leggen in één opslagplaats, om verschillende gegevenslagen te bouwen voor meerdere gebruiksscenario's. Het data lake was beter geschikt om een verscheidenheid aan "big data" te ondersteunen (bijv. datastreaming, NoSQL-databasetechnologieën... enz.).
Maar ook data lakes maakten hun belofte niet altijd waar. Naarmate ze steeds complexer werden met de enorme hoeveelheden data, kon het proces om nieuwe dataproducten te creëren die voldoen aan de bedrijfsnormen te veel tijd in beslag nemen. Bedrijven schakelden over op manieren om de centrale IT-organisatie te omzeilen, zodat hun projecten door konden gaan. Dit resulteerde echter in niet-conforme oplossingen – met andere woorden shadow-IT. Niet-conforme oplossingen kunnen sneller de eerste resultaten opleveren, maar zullen nooit duurzaam zijn voor productieomgevingen en belemmeren daarom de toepassing van analytische inzichten op schaal.
Data lakes en datawarehouses hebben gemeen dat de pipelines voor gegevensverwerking grotendeels worden beheerd door gecentraliseerde IT-teams en dat de gegevens op een centrale locatie worden opgeslagen. Naarmate de datavolumes groeien, zal ook de complexiteit van het datalandschap toenemen; Dit leidt er onvermijdelijk toe dat gecentraliseerde systemen niet voldoen aan de drastisch toegenomen schaalbaarheids- en wendbaarheidsbehoeften van de organisatie.
Dit model vertaalt zich niet altijd goed naar een doorsnee organisatie: verschillende bedrijfsfuncties weten het beste wat er in hun data staat, maar het is de bedoeling dat het centraal beheerd wordt. Centrale IT-teams hebben het erg druk om alle verzoeken van het bedrijf bij te houden - maar meestal groeien de achterstanden in plaats van te krimpen. Domeinkennis is niet beschikbaar wanneer het nodig is, wat leidt tot een afname van de kwaliteit van leveringen. Hier kan het concept van Data Mesh een oplossing zijn om de nadelen van datawarehouses/lakes aan te pakken zonder de tot nu toe gedane investeringen te verliezen.
Waarom is het nu zo populair?
Data Mesh is een vrij nieuw concept (ontstond rond 2019 en gemaakt door Zhamak Dehghani) en het wint aan populariteit. Data Mesh is zeer interessant gebleken voor ondernemingen die op zoek zijn naar een snelle time-to-market met groeiende databronnen/volumes. Dit wordt bereikt door de databeheer te decentraliseren naar domeinniveau en hoogwaardige getransformeerde data alleen als product beschikbaar te maken. De kennis van het bedrijfsdomein blijft behouden en de gegevens worden ook beschikbaar gesteld aan de rest van het bedrijf. Data-engineers hoeven geen onbekende gegevens door te spitten, die vaak uit meerdere bronnen in data lakes worden gedumpt. De voorgestelde architectuur is bedoeld om de vaak gespannen samenwerking tussen data-experts en data-eigenaren te vergemakkelijken met betrekking tot de groeiende specifieke domeinkennis die nodig is om waarde aan data te toevoegen.
Het Data Mesh-concept is een gedemocratiseerde benadering van databeheer waarbij verschillende bedrijfsdomeinen hun eigen gegevens operationaliseren, ondersteund door een centrale en self-service data-infrastructuur . De infrastructuur bestaat uit datapijplijnengines, opslag- en rekenmogelijkheden die zijn gebundeld, zoals geïllustreerd in figuur 1.
In plaats van bedrijfsgegevens te zien als één enorme datapuinhoop, beschouwt data mesh het als een reeks opslagplaatsen van gegevensproducten. Een bedrijfsfunctie (bijv. "Finance") levert dus gegevens als een product; Klaar voor gebruik voor analysedoeleinden, vindbaar en betrouwbaar. Op deze manier is de eigenaar van het dataproduct de daadwerkelijke vertegenwoordiger van de bedrijfsfunctie met de diepgaande domeinkennis. Dit wordt geïllustreerd in de data product-laag in figuur 2. Zo gaat er geen specifieke domeinkennis verloren zoals bij de vertaling naar een datawarehouse of lake en ontstaat er geen bottleneck bij het centrale data engineering team.
Verschillende soorten dataverbruikers, zoals datawetenschappers en bedrijfsanalisten, hebben op basis van service level agreements rechtstreeks toegang tot relevante dataproducten.
De dataproducten spreken ook voor zich, in de zin dat het product vindbaar en beschreven kan worden, zodat het op een "plug and play" manier kan worden gebruikt zonder de noodzaak van complexe datatransformatiefuncties zoals we die kennen van de datawarehouse of lake-concepten . Door ervoor te zorgen dat alle dataproducten hetzelfde formaat hebben, worden richtlijnen voor databeheer afgedwongen in de domeingegevensproducten binnen de mesh. De industriestandaarden voor governance worden geïllustreerd in de federatieve datagovernancelaag in figuur 3.
De drie lagen; gedistribueerde dataproductlaag, federatief databeheer en selfservice-datainfrastructuur werken samen om de Data Mesh referentie-kaart te vormen, zoals in afbeelding 4:
Er zijn directe voordelen voor een organisatie die dit architectuurconcept adopteert;
Ondanks de voordelen van Data Mesh, brengt met name de decentralisatie-eigenschap een aantal uitdagingen met zich mee. Problemen met het beheer van de meerdere dataproducten en de bijbehorende metadata kunnen heel goed leiden tot een puinhoop van spaghetti-datapijplijnen. Hieronder staan enkele van de mogelijke verbeterpunten voor Data Mesh:
Wanneer is het zinvol om Data Mesh te gebruiken?
Een data mesh-strategie kan gunstig zijn voor organisaties met een divers datalandschap met verschillende bedrijfsdomeinen. Het kan organisaties helpen die sterk gedecentraliseerd zijn of dat willen worden, omdat de datamesh-structuur verschillende teams in staat stelt hun eigen gegevens te beheren en kwaliteitsgegevens alleen als product beschikbaar te stellen aan de rest van de organisatie.
Andere haalbare organisatorische/operationele use cases zijn; Snellere levering van data, een groot aantal databronnen, snelle verandering in bedrijfsdoelstellingen en eenvoudigere migraties tijdens fusies en overnames. Gedecentraliseerde eenheden kunnen worden gezien als operationele, functionele of regionale afdelingen die een gemeenschappelijk doel delen, ongeacht de grootte van de organisatie.
Naar aanleiding van de bespreking van het Data Mesh concept (de voordelen, impactpunten en overwegingen ervan) is het duidelijk welke waarde het aannemen van deze architectuur kan hebben voor het operationele en organisatorische concurrentievoordeel van uw organisatie.
Wil je meer weten over Data Mesh? Neem dan contact op met Stefan van Duin via +31 (0) 88 288 4754