In de vorige blogs over de Gelaagde Architectuur voor Dataplatforms hebben we de gelaagde architectuur voor dataplatforms geïntroduceerd, dieper ingegaan op de data sources en de ingestie-laag, de oprocessing-laag besproken en de verschillende technologieën onderzocht die gebruikt kunnen worden om data op te slaan. In deze blog kijken we naar de analytics-laag, waar de data wordt geanalyseerd en voorbereid zodat deze gevisualiseerd en gerapporteerd kan worden in de visualisatie-laag (zie figuur 1).
We bespreken de verschillende categorieën van analytics, de methoden die kunnen worden gebruikt, hoe analytics een bepaald proces volgt, de technologieën die in het spel kunnen worden gebracht en de trends in analytics.
Figuur 1 - Lagen van een dataplatform
Wanneer gegevens worden opgenomen, getransformeerd en/of opgeslagen, kunnen deze vervolgens verder worden geanalyseerd om trends en antwoorden (op vragen) in de gegevens te vinden. Het doel van de analyticslaag is daarom om analytische modellen te ontwikkelen en uit te voeren op de data, en om dit te laten slagen is het belangrijk dat de brondata wordt opgeschoond en goed wordt voorbereid. Als de gegevens niet van uitstekende kwaliteit zijn, kunt u de resultaten van de analyses niet vertrouwen (garbage in is garbage out).
Analytics kan worden onderverdeeld in de twee categorieën: Business Intelligence en Advanced Analytics. Business Intelligence omvat rapportages en/of dashboards die de resultaten bevatten van KPI's (Key Performance Indicators) die gerelateerd zijn aan de prestaties van de onderneming; Advanced Analytics betekent vaak dat er meer geavanceerde algoritmen worden toegepast om de resultaten te krijgen.
Naast de twee hierboven beschreven categorieën kan er een onderscheid worden gemaakt tussen analytische doeleinden. Dit onderscheid gaat dieper in op iets over het type analyse dat nodig is, het soort gegevens, hoe de gegevens moeten worden opgeslagen en of analytische modellen nodig zijn. Een paar voorbeelden waarvoor analytics ingezet kan worden zijn:
Data-analyse kan op verschillende manieren worden uitgevoerd. Om je een idee te geven hoe uitgebreid deze kunnen zijn, volgen hier een paar: rapportage, dashboarding, self-service BI (Business Intelligence), ad-hoc query's, automatische monitoring en waarschuwingen, scorecards, online analytische verwerking (OLAP), statistische of kwantitatieve analyse, datamining, voorspellende modellering, machine learning, beeldherkenning, big data-analyse en natuurlijke taalverwerking.
Traditionele analytics worden meestal gedaan door de gegevens die zijn opgeslagen in een relationele database te verstrekken aan een rapportage- of dashboardtool. In sommige gevallen wordt een OLAP-laag gebruikt tussen de database en de rapportage-/dashboardingtool om de prestaties te verbeteren door reeds vooraf berekende geaggregeerde resultaten op te slaan. Vaak maakt deze OLAP-laag gebruik van in-memory technologie om de prestaties nog verder te verbeteren. OLAP-lagen kunnen met name nuttig zijn wanneer bekend is welke informatie getoond moet worden (en vooraf berekend kan worden), bijvoorbeeld bij het gebruik van vooraf ontwikkelde dashboards. Wanneer de informatiebehoefte minder bekend is, is het lastig te voorspellen welke gegevens vooraf berekend en opgeslagen moeten worden in de OLAP-laag.
Voor diagnostische, voorspellende, prescriptieve of geautomatiseerde analyses worden vaak meer geavanceerde analysemethoden gebruikt, zoals voorspellende monitoring, machine learning, big data analytics en/of natuurlijke taalverwerking. Een praktisch voorbeeld van predictive analytics is het 'Cognitive Deforestation Prevention' initiatief van de Deloitte Impact Foundation, dat voorspelt waar illegale ontbossing zal plaatsvinden.
Cognitieve analyse maakt meestal gebruik van natuurlijke taalverwerking om spraak of natuurlijke tekst te begrijpen, of past beeldherkenning toe om mensen te identificeren of emoties te detecteren. Een praktisch voorbeeld van het gebruik van beeldherkenning is onze AI4Animals-oplossing die de monitoring van dieren in slachthuizen verbetert.
Search-based analyse maakt ook meestal gebruik van natuurlijke taalverwerking, maar dan in combinatie met big data-analyse. Natuurlijke taalverwerking wordt gebruikt om de vraag van de gebruiker te begrijpen en big data-analyse wordt vervolgens gebruikt om de relevante informatie in een groot aantal documenten te vinden. Een praktisch voorbeeld van dit soort analyses zijn de chatbots die vaak op websites te vinden zijn.
Ad-hoc-analyse maakt meestal gebruik van ad-hocquery's of selfservice-BI om antwoorden te vinden op eenmalige vragen. Het is in dit geval belangrijk dat de analist toegang heeft tot alle relevante gegevens.
Praktische tips
Gebruik een gecentraliseerde modelopslagplaats voor uw analytische modellen om modelversies, status en trainingsresultaten bij te houden.
Zorg ervoor dat je analytische model transparant is, zodat iedereen kan begrijpen waarom het model tot een bepaalde uitkomst komt.
Bedenk zorgvuldig welke gegevens en parameters moeten worden gebruikt door rekening te houden met de privacy, gevoeligheid en politiek.
Houd de ontwikkel-, trainings- en productieomgeving gescheiden.
Autorisatie is belangrijk; Wie moet toegang hebben tot de modellen en gegevensbronnen?
Afhankelijk van welke methoden worden gebruikt voor de analyse, volgen de meeste soorten analyses een bepaald proces. Een voorbeeld van zo'n proces is weergegeven in figuur 2.
Figuur 2 - Analyseproces
Ten eerste is het cruciaal om de zakelijke behoeften of use case te definiëren. Wat is het doel van de analyses? Zodra dat duidelijk is, moet u de vereiste gegevens vinden en verkrijgen. Waar worden de gegevens opgeslagen? Is het al opgeslagen in het dataplatform? Mogen de gegevens voor dit doel worden gebruikt? Als de gegevens beschikbaar zijn, moet de analist begrijpen wat de gegevens betekenen, zodat deze vervolgens kan worden voorbereid op de analyses. De analist moet een algoritme kiezen waarin het model zal worden gebouwd. Het analytische model moet vervolgens worden gebouwd en vervolgens worden gevalideerd. Nadat de gegevens zijn voorbereid en geanalyseerd, kunnen de resultaten worden gevisualiseerd en gecommuniceerd.
De stappen in dit proces die in figuur 2 grijs zijn, worden in feite uitgevoerd in andere lagen van de gelaagde architectuur. "Get the data" is gedaan in eerdere lagen (Data Sources, Ingestion, Processing en Storage) en "Communicate the results" is onderdeel van de visualisatielaag, die we in de volgende blog zullen behandelen.
We hebben besproken dat analyse op verschillende manieren kan worden gedaan en dat het een bepaald proces moet volgen. Analytics kan worden gedaan met een aantal verschillende technologieën van vele leveranciers, maar ook in de cloud of on-premise. De keuze van de technologie is afhankelijk van:
Er zijn veel overwegingen waarmee u rekening moet houden bij het kiezen van de beste technologie om te gebruiken, en het hangt echt af van uw use case, wat voor soort analyses nodig zijn en welke methoden moeten worden gebruikt.
We zien de volgende trends op het gebied van data analytics:
Deloitte kan u helpen bij het kiezen van het soort analytics dat het beste gebruikt kan worden, met welke methoden en op welke technologieën, om ervoor te zorgen dat het past in het dataplatform. We kunnen ook helpen bij het ontwikkelen en implementeren van de analysemodellen. Onze volgende blog gaat over de visualisatielaag. Als je meer wilt weten over hoe gegevens kunnen worden gevisualiseerd, lees dan onze volgende blog in onze serie over de gelaagde architectuur.
Het Data Modernization & Analytics-team van Deloitte helpt klanten bij het moderniseren van hun data-infrastructuur om de levering van analyses te versnellen, zoals self-service BI en AI-oplossingen. Dit wordt gedaan door best practices en bewezen oplossingen te combineren met innovatieve technologieën van de volgende generatie, zoals cloudgebaseerde platforms en big data-architecturen.