Skip to main content

Gelaagde architectuur voor dataplatforms: de plaats waar data wordt geanalyseerd

Data kan op veel verschillende manieren worden geanalyseerd. In deel 5 van de serie over de gelaagde architectuur voor dataplatforms bespreken we verschillende technologieën en technieken om data te visualiseren.

In de vorige blogs over de Gelaagde Architectuur voor Dataplatforms hebben we de gelaagde architectuur voor dataplatforms geïntroduceerd, dieper ingegaan op de data sources en de ingestie-laag, de oprocessing-laag besproken en de verschillende technologieën onderzocht die gebruikt kunnen worden om data op te slaan. In deze blog kijken we naar de analytics-laag, waar de data wordt geanalyseerd en voorbereid zodat deze gevisualiseerd en gerapporteerd kan worden in de visualisatie-laag (zie figuur 1).

We bespreken de verschillende categorieën van analytics, de methoden die kunnen worden gebruikt, hoe analytics een bepaald proces volgt, de technologieën die in het spel kunnen worden gebracht en de trends in analytics.

 

Figuur 1 - Lagen van een dataplatform

Wanneer gegevens worden opgenomen, getransformeerd en/of opgeslagen, kunnen deze vervolgens verder worden geanalyseerd om trends en antwoorden (op vragen) in de gegevens te vinden. Het doel van de analyticslaag is daarom om analytische modellen te ontwikkelen en uit te voeren op de data, en om dit te laten slagen is het belangrijk dat de brondata wordt opgeschoond en goed wordt voorbereid. Als de gegevens niet van uitstekende kwaliteit zijn, kunt u de resultaten van de analyses niet vertrouwen (garbage in is garbage out).

Analytics kan worden onderverdeeld in de twee categorieën: Business Intelligence en Advanced Analytics. Business Intelligence omvat rapportages en/of dashboards die de resultaten bevatten van KPI's (Key Performance Indicators) die gerelateerd zijn aan de prestaties van de onderneming; Advanced Analytics betekent vaak dat er meer geavanceerde algoritmen worden toegepast om de resultaten te krijgen.

Naast de twee hierboven beschreven categorieën kan er een onderscheid worden gemaakt tussen analytische doeleinden. Dit onderscheid gaat dieper in op iets over het type analyse dat nodig is, het soort gegevens, hoe de gegevens moeten worden opgeslagen en of analytische modellen nodig zijn. Een paar voorbeelden waarvoor analytics ingezet kan worden zijn:

  • Traditionele (beschrijvende) analytics: Het gebruik van analyses op huidige en/of historische gegevens om de huidige of eerdere prestaties te tonen.
  • Diagnostische analytics: Het gebruik van analyses op huidige en/of historische gegevens om informatie te geven over waarom bepaalde gebeurtenissen hebben plaatsgevonden.
  • Voorspellende analytics: Het gebruik van analyses in combinatie met huidige en historische gegevens om toekomstige resultaten te voorspellen.
  • Prescriptieve analytics: Analyses gebruiken om niet alleen te voorspellen wat er zal gebeuren en waarom het zal gebeuren, maar ook om opties voor te stellen om de risico's te beperken of om te profiteren van toekomstige kansen.
  • Geautomatiseerde analytics: Het gebruik van real-time gegevens in combinatie met analyses om de besluitvorming voor operationele processen te automatiseren.
  • Cognitieve analytics: Het gebruik van mensachtige intelligentie om structuur te geven aan ongestructureerde gegevens, zoals natuurlijke taal.
  • Analytics op basis van zoekopdrachten: Analyse gebruiken om natuurlijke taalverwerking te gebruiken om zinvolle informatie te vinden en uit de gegevens te halen.
  • Ad-hoc analytics: Analytics gebruiken om antwoorden te vinden op specifieke (vaak eenmalige) vragen met behulp van de beschikbare gegevens.

Methoden

 

Data-analyse kan op verschillende manieren worden uitgevoerd. Om je een idee te geven hoe uitgebreid deze kunnen zijn, volgen hier een paar: rapportage, dashboarding, self-service BI (Business Intelligence), ad-hoc query's, automatische monitoring en waarschuwingen, scorecards, online analytische verwerking (OLAP), statistische of kwantitatieve analyse, datamining, voorspellende modellering, machine learning, beeldherkenning, big data-analyse en natuurlijke taalverwerking.

Traditionele analytics worden meestal gedaan door de gegevens die zijn opgeslagen in een relationele database te verstrekken aan een rapportage- of dashboardtool. In sommige gevallen wordt een OLAP-laag gebruikt tussen de database en de rapportage-/dashboardingtool om de prestaties te verbeteren door reeds vooraf berekende geaggregeerde resultaten op te slaan. Vaak maakt deze OLAP-laag gebruik van in-memory technologie om de prestaties nog verder te verbeteren. OLAP-lagen kunnen met name nuttig zijn wanneer bekend is welke informatie getoond moet worden (en vooraf berekend kan worden), bijvoorbeeld bij het gebruik van vooraf ontwikkelde dashboards. Wanneer de informatiebehoefte minder bekend is, is het lastig te voorspellen welke gegevens vooraf berekend en opgeslagen moeten worden in de OLAP-laag.

Voor diagnostische, voorspellende, prescriptieve of geautomatiseerde analyses worden vaak meer geavanceerde analysemethoden gebruikt, zoals voorspellende monitoring, machine learning, big data analytics en/of natuurlijke taalverwerking. Een praktisch voorbeeld van predictive analytics is het 'Cognitive Deforestation Prevention' initiatief van de Deloitte Impact Foundation, dat voorspelt waar illegale ontbossing zal plaatsvinden.

Cognitieve analyse maakt meestal gebruik van natuurlijke taalverwerking om spraak of natuurlijke tekst te begrijpen, of past beeldherkenning toe om mensen te identificeren of emoties te detecteren. Een praktisch voorbeeld van het gebruik van beeldherkenning is onze AI4Animals-oplossing die de monitoring van dieren in slachthuizen verbetert.

Search-based analyse maakt ook meestal gebruik van natuurlijke taalverwerking, maar dan in combinatie met big data-analyse. Natuurlijke taalverwerking wordt gebruikt om de vraag van de gebruiker te begrijpen en big data-analyse wordt vervolgens gebruikt om de relevante informatie in een groot aantal documenten te vinden. Een praktisch voorbeeld van dit soort analyses zijn de chatbots die vaak op websites te vinden zijn.

Ad-hoc-analyse maakt meestal gebruik van ad-hocquery's of selfservice-BI om antwoorden te vinden op eenmalige vragen. Het is in dit geval belangrijk dat de analist toegang heeft tot alle relevante gegevens.

Praktische tips

Gebruik een gecentraliseerde modelopslagplaats voor uw analytische modellen om modelversies, status en trainingsresultaten bij te houden.

Zorg ervoor dat je analytische model transparant is, zodat iedereen kan begrijpen waarom het model tot een bepaalde uitkomst komt.

Bedenk zorgvuldig welke gegevens en parameters moeten worden gebruikt door rekening te houden met de privacy, gevoeligheid en politiek.

Houd de ontwikkel-, trainings- en productieomgeving gescheiden.

Autorisatie is belangrijk; Wie moet toegang hebben tot de modellen en gegevensbronnen?

Analyseproces

 

Afhankelijk van welke methoden worden gebruikt voor de analyse, volgen de meeste soorten analyses een bepaald proces. Een voorbeeld van zo'n proces is weergegeven in figuur 2.

 

Figuur 2 - Analyseproces

Ten eerste is het cruciaal om de zakelijke behoeften of use case te definiëren. Wat is het doel van de analyses? Zodra dat duidelijk is, moet u de vereiste gegevens vinden en verkrijgen. Waar worden de gegevens opgeslagen? Is het al opgeslagen in het dataplatform? Mogen de gegevens voor dit doel worden gebruikt? Als de gegevens beschikbaar zijn, moet de analist begrijpen wat de gegevens betekenen, zodat deze vervolgens kan worden voorbereid op de analyses. De analist moet een algoritme kiezen waarin het model zal worden gebouwd. Het analytische model moet vervolgens worden gebouwd en vervolgens worden gevalideerd. Nadat de gegevens zijn voorbereid en geanalyseerd, kunnen de resultaten worden gevisualiseerd en gecommuniceerd.

De stappen in dit proces die in figuur 2 grijs zijn, worden in feite uitgevoerd in andere lagen van de gelaagde architectuur. "Get the data" is gedaan in eerdere lagen (Data Sources, Ingestion, Processing en Storage) en "Communicate the results" is onderdeel van de visualisatielaag, die we in de volgende blog zullen behandelen.

Keuze van technologieën

 

We hebben besproken dat analyse op verschillende manieren kan worden gedaan en dat het een bepaald proces moet volgen. Analytics kan worden gedaan met een aantal verschillende technologieën van vele leveranciers, maar ook in de cloud of on-premise. De keuze van de technologie is afhankelijk van:

  • Technologieën van de andere lagen: de technologieën in de analyselaag moeten aansluiten bij de technologieën in de andere lagen van het dataplatform.
  • Batch of Real-time: moet de analyse in (near) real-time worden gedaan of kan het in batches worden uitgevoerd? Of heb je beide nodig?
  • Sandbox versus productieomgeving: is het nodig om een sandbox-achtige omgeving te gebruiken voor eenmalige acties of een productieomgeving voor herhaalbare analyses?
  • Cloud of On-Premise: moet je een cloudomgeving gebruiken voor de analytics? Vooral als je analytics workload erg onvoorspelbaar is, is de schaalbaarheid van de cloud een groot voordeel.
  • Software-as-a-Service (SaaS) oplossing: moet je een SAAS-oplossing gebruiken voor analytics? Cloudproviders bieden Machine Learning-as-a-Service of vooraf getrainde AI-modellen aan. SaaS heeft het voordeel dat je je geen zorgen hoeft te maken over de infrastructuur en dat er minimale tijd nodig is voor de setup. Dit betekent dat je vrijwel meteen aan de slag kunt met de analytische use case.
  • Schema-on-write vs. Schema-on-read: gebruikt u reeds gemodelleerde gegevens in een database (schema-on-write) voor de analyse of moet de modellering deel uitmaken van de analyse (schema-on-read)? Bijvoorbeeld bij het gebruik van data uit een data lake.
  • Containerisatie: moet de analyseoplossing worden verpakt, geïmplementeerd en in containers worden uitgevoerd?
  • Consumptie: hoe moeten de resultaten worden geconsumeerd door de (eind)gebruiker?

Er zijn veel overwegingen waarmee u rekening moet houden bij het kiezen van de beste technologie om te gebruiken, en het hangt echt af van uw use case, wat voor soort analyses nodig zijn en welke methoden moeten worden gebruikt.

Trends

 

We zien de volgende trends op het gebied van data analytics:

  • De laatste jaren is er veel aandacht gekomen voor de methoden om goede analytische modellen te bouwen. Nu gaat de aandacht meer uit naar het produceren van de analytische modellen.
  • Agile werkwijzen worden steeds populairder voor het ontwikkelen van analytische modellen. Een voorbeeld hiervan is de MLOps-methode die kan worden gebruikt om machine learning-modellen te ontwikkelen. Onze collega's hebben een artikel geschreven over MLOps voor de bancaire sector.
  • Het ontwikkelen van analytische modellen wordt steeds eenvoudiger door de mogelijkheden die worden geboden door de cloud-providers waar voor sommige oplossingen al vooraf getrainde analytische modellen zijn die gebruikt kunnen worden. Deze vooraf getrainde modellen hebben het voordeel dat u uw model niet hoeft te trainen, wat ook betekent dat u de gegevens niet nodig heeft die nodig zouden zijn om het model te trainen. Het is vaak moeilijk om voldoende gegevens van uitstekende kwaliteit te krijgen om een model te trainen, dus dit is een groot voordeel. Houd er echter rekening mee dat vooraf getrainde modellen alleen beschikbaar zijn voor een beperkt aantal veelvoorkomende gebruiksscenario's.
  • Vaak werken analytics use cases met data uit OLTP-applicaties, bijvoorbeeld ERP-, CRM- of productiesystemen. Maar tegenwoordig worden steeds vaker op gebeurtenissen gebaseerde gegevensbronnen zoals IOT-apparaten, sensoren of machines gebruikt als bron voor de analyse. Dit maakt gebruiksscenario's mogelijk zoals voorspellend onderhoud, optimalisatie van de prestaties van activa/installaties en verbeterde kwaliteitscontrole.
  • Analytics wordt nu gebruikt voor de datamanagementprocessen van dataplatformen. Dit wordt Augmented Data Management genoemd en kan helpen om datamanagementwerk met 45 procent te verminderen. Je kunt er hier meer over lezen.

Deloitte kan u helpen bij het kiezen van het soort analytics dat het beste gebruikt kan worden, met welke methoden en op welke technologieën, om ervoor te zorgen dat het past in het dataplatform. We kunnen ook helpen bij het ontwikkelen en implementeren van de analysemodellen. Onze volgende blog gaat over de visualisatielaag. Als je meer wilt weten over hoe gegevens kunnen worden gevisualiseerd, lees dan onze volgende blog in onze serie over de gelaagde architectuur.

Het Data Modernization & Analytics-team van Deloitte helpt klanten bij het moderniseren van hun data-infrastructuur om de levering van analyses te versnellen, zoals self-service BI en AI-oplossingen. Dit wordt gedaan door best practices en bewezen oplossingen te combineren met innovatieve technologieën van de volgende generatie, zoals cloudgebaseerde platforms en big data-architecturen.