We helpen onze klanten vaak met het ontwikkelen van de architectuur van hun dataplatform. Maar wat is een dataplatform en welke onderdelen moeten daar onderdeel van uitmaken? En waarom zou je een dataplatform moeten hebben?
Normaal gesproken wordt data gecreëerd en opgeslagen in verschillende IT-systemen, zoals het Enterprise Resource Planning (ERP)-systeem, het Customer Relationship Management (CRM)-systeem of het productiesysteem. Voor uw operationele processen is dit een goede aanpak, maar wanneer u de data beschikbaar wilt stellen voor andere doeleinden kan dit een last zijn. Zo is het lastig om data uit verschillende IT-systemen te combineren (zoals het combineren van data uit ERP- en CRM-systemen), of als je de data beschikbaar wilt stellen voor analytics of rapportages. Een dataplatform kan een verbeterd alternatief bieden waarbij je de data uit verschillende bronnen kunt ontsluiten, combineren, opslaan, analyseren en rapporteren over de gecombineerde data.
Het doel van een dataplatform is om data te verzamelen, op te slaan, te transformeren en te analyseren en die data beschikbaar te stellen aan (zakelijke) gebruikers of andere systemen. Het wordt vaak gebruikt voor business intelligence, (advanced) analytics (zoals machine learning) of als datahub.
Het platform bestaat uit verschillende componenten die kunnen worden onderverdeeld in gemeenschappelijke lagen die elk een bepaalde functie hebben. Deze lagen zijn: gegevensbronnen, integratielaag, verwerkingslaag, opslaglaag, analyselaag, visualisatielaag, beveiliging en databeheer (Afbeelding 1).
Figuur 1 – Lagen van een dataplatform
Het doel van de verschillende lagen wordt hieronder kort beschreven. Houd onze toekomstige blogs in de gaten, waar we elke laag van het dataplatform uitgebreid zullen bespreken.
Gegevensbronnen
Deze laag bevat de verschillende bronnen van het dataplatform. Dit kan elk informatiesysteem zijn, zoals ERP- of CRM-systemen, maar het kunnen ook andere bronnen zijn, zoals Excel-bestanden, tekstbestanden, afbeeldingen, audio, video of streamingbronnen zoals IOT-apparaten.
Opnamelaag
De opnamelaag is verantwoordelijk voor het laden van de gegevens uit de gegevensbronnen in het dataplatform. Deze laag gaat over het extraheren van data uit de bronsystemen, het controleren van de datakwaliteit en het opslaan van de data in de landing of staging-area van het dataplatform.
Verwerkinglaag
De verwerkingslaag is verantwoordelijk voor het transformeren van de data zodat deze in het juiste datamodel kan worden opgeslagen. De verwerking kan in batches worden gedaan (gepland op een specifieke tijd/dag) of in realtime, afhankelijk van het type gegevensbron en de vereisten voor de beschikbaarheid van gegevens.
Opslaglaag
De gegevens worden opgeslagen in de opslaglaag. Dit kan een relationele database zijn of andere opslagtechnologieën zoals cloudopslag, Hadoop, NoSQL-database of Graph-database.
Analyselaag
In de analyselaag wordt de data verder verwerkt (geanalyseerd). Dit kunnen allerlei (geavanceerde) analytics algoritmes zijn, bijvoorbeeld voor machine learning. Het resultaat van de analyse kan naar de visualisatielaag worden gestuurd of worden opgeslagen in de opslaglaag.
Visualisatielaag
De data wordt in de visualisatielaag aan de eindgebruiker gepresenteerd. Dit kan in de vorm van rapportages, dashboards, self-service BI tooling of API's zodat de data gebruikt kan worden door andere systemen.
Gecentraliseerd of niet?
Een belangrijke beslissing om te overwegen is of u een gecentraliseerd dataplatform (data fabric) of een gedecentraliseerd dataplatform (data mesh) wilt gebruiken.
In een datafabric worden alle bedrijfsgegevens opgeslagen, verwerkt en ontsloten vanuit een centraal dataplatform dat de data van alle afdelingen of datadomeinen bevat.
In een data mesh wordt data van de verschillende afdelingen of datadomeinen opgeslagen, verwerkt en ontsloten vanuit meerdere lokale (decentrale) platformen. In een data mesh is er niet één (gecentraliseerd) dataplatform, maar meerdere dataplatformen die de data voor een specifieke afdeling of domein aanleveren.
Beveiliging
Data Governance - Een van de belangrijke taken van een dataplatform is om te garanderen dat alleen gebruikers die de data mogen gebruiken, toegang hebben. Een veelgebruikte methode is gebruikersauthenticatie en -autorisatie, maar het kan ook vereist zijn dat de gegevens worden versleuteld (opslag en overdracht) en dat alle activiteiten op de gegevens worden gecontroleerd, zodat bekend is wie toegang heeft gehad tot welke gegevens of deze heeft gewijzigd.
Gegevensbeheer
Data governance gaat over het lokaliseren van de gegevens in een datacatalogus, het verzamelen en opslaan van metadata over de gegevens, het beheren van de stamgegevens en/of referentiegegevens en het verschaffen van inzicht in waar de gegevens in het dataplatform vandaan komen (d.w.z. dataherkomst).
Wanneer er een architectuur voor een dataplatform wordt ontwikkeld, is het vaak een brownfield-ontwikkeling. Dit betekent dat sommige componenten al aanwezig zijn of dat sommige componenten moeten worden verbeterd zodat het deel kan uitmaken van het dataplatform.
Een van de vele voordelen van een dataplatform is dat alle organisatiegegevens vanaf één centrale plek toegankelijk zijn; Eén holistische kijk op het bedrijf. Dit betekent niet dat alle data fysiek op één locatie moeten worden opgeslagen (er zijn verschillende concepten over hoe je wat voor soort gegevens moet opslaan), maar het betekent dat vanuit een logisch oogpunt alle data op één plek toegankelijk zijn.
In de komende blogs gaan we dieper in op de verschillende lagen van het dataplatform. De volgende blog gaat over Data Sources en Ingestion Layer. We nodigen u uit om de volgende blog te lezen om meer te weten te komen over de verschillende opties om gegevens uit verschillende databronnen op te nemen.
Het Data Modernization & Analytics-team van Deloitte helpt klanten bij het moderniseren van hun data-infrastructuur om de levering van analyses te versnellen, zoals self-service BI en AI-oplossingen. Dit wordt gedaan door best practices en bewezen oplossingen te combineren met innovatieve technologieën van de volgende generatie, zoals cloudgebaseerde platforms en big data-architecturen.
Brownfield versus greenfield
Een brownfield-ontwikkeling van een dataplatform is het gebruik maken van (delen) van de bestaande componenten.
Een greenfield-ontwikkeling van een dataplatform is een volledig nieuw platform zonder gebruik te maken van een van de bestaande componenten.
Wil je meer weten over het ontwikkelen van de architectuur van dataplatformen? Neem dan contact op met Martijn Blom via +31 (0)88 2880720 of Ingrid Lanting via +31 (0)88 288 04 98.