De kracht van cloud dataplatformen

Door Jerrold Stolk, Technology Lead Data & Analytics

Cloud dataplatformen zijn hot. Een goed voorbeeld hiervan is cloud-based data-warehousingbedrijf Snowflake. Dit bedrijf haalde vorig jaar, met de grootste beursgang van een softwarebedrijf ooit, maar liefst 3,4 miljard dollar op. Veel organisaties oriënteren zich momenteel op de implementatie van een dataplatform in de cloud vanwege de vele voordelen die zo’n platform biedt, zoals performance en een breed scala aan tools.

Ook Microsoft heeft in de markt van cloud dataplatformen een stevige positie. Zo zijn in de Microsoft Azure cloud twee dataplatformen beschikbaar: Databricks en Synapse. In deze blog vertel ik datagedreven professionals meer over de kracht van cloud dataplatformen en zoom ik in op Databricks en Synapse.

Wat is een cloud dataplatform?

Databricks en Synapse zijn beide cloud dataplatformen. Maar lang niet iedereen heeft hier hetzelfde beeld bij. Wat is het nu precies? Een cloud dataplatform voldoet aan vier kenmerken:

1. Het is een schaalbare cloud dienst waarbij opslag en rekenkracht gescheiden zijn;
2. Waar direct en interactief met data gewerkt kan worden;
3. Met ondersteuning voor diverse datastructuren en grote volumes;
4. En een toolset voor zowel Analytics als AI.

Een korte geschiedenis: de evolutie van data warehouses naar data lakes en cloud dataplatformen

Tijd voor een korte geschiedenis: de populariteit van cloud dataplatformen komt niet uit de lucht vallen. Het is dé volgende stap in de evolutie van de traditionele data warehouses. De term data warehouse dook rond 1980 op, als een centrale omgeving waar data uit verschillende systemen gecombineerd wordt voor rapportage.

Ongeveer tien jaar geleden was het tijd voor de volgende stap in de evolutie: de introductie van het data lake. In een data lake wordt alle data verzameld in een centrale data-opslag, waarop schaalbaar berekeningen uitgevoerd kunnen worden. De verwerkte data wordt vervolgens opgeslagen in data marts voor rapportage.

Na het data warehouse en het data lake is het nu tijd voor de huidige stap in de evolutie: de introductie van het cloud dataplatform. Met een cloud dataplatform is het mogelijk om data in het data lake direct te benaderen en te analyseren. Daarmee is de tijd van het verwerken van data van bron tot analyse omlaaggegaan van enkele dagen naar enkele minuten.

 

De kracht van Cloud Dataplatformen 9

Wat zijn de voordelen van een cloud dataplatform?

Werken met een cloud dataplatform heeft veel voordelen. Bij de keuze voor een cloud dataplatform zijn vaak twee voordelen doorslaggevend:

1. Direct werken op alle data

Met een cloud dataplatform wordt direct op alle data in het data lake gewerkt. Zo heeft u altijd toegang tot de meest recente data en kunt u met data aan de slag zonder deze eerst te downloaden of kopiëren. In een data lake wordt data vaak in drie verschillende structuren opgeslagen: ruwe data, direct uit de bron, opgeschoonde data en verwerkte data. Deze data wordt ook wel gelabeld als: bronze, silver en gold data. Analisten en data scientists kunnen hierbij de dataset gebruiken die voor hen geschikt is.

2. Alleen betalen voor gebruik

Cloud dataplatformen maken gebruik van de schaalbare en goedkope mogelijkheden voor data-opslag die de cloud biedt. Hierbij is de opslag (storage) gescheiden van de rekenkracht (compute), waardoor de rekenkracht opgeschaald maar ook gepauzeerd kan worden. U betaalt daarbij alleen voor wat u gebruikt. Zowel de prijs per opgeslagen gigabyte als de prijs per verwerkte gigabyte zijn hierdoor laag.

Hoe kies ik een cloud dataplatform?

Wellicht dat ook uw organisatie zich oriënteert op een cloud dataplatform. Maar hoe kiest u een cloud dataplatform? Belangrijk is om bij een succesvolle implementatie met meer rekening te houden dan alleen de techniek. Daarbij zijn er twee belangrijke vragen die beantwoord moeten worden voordat u daadwerkelijk een cloud dataplatform implementeert:

1. Voor welke strategische doelen wordt het ingezet?

Zetten we dit platform in om te optimaliseren of te innoveren?

De kracht van Cloud Dataplatformen 1

 

2. Wie hebben we nodig voor deze strategie en welke competenties hebben deze personen?

De kracht van Cloud Dataplatformen 2

Deze twee vragen vormen de belangrijkste twee ingrediënten van de platformselectie. Bij Motion10 is het beantwoorden van deze vragen daarom ook de eerste stap in projecten: onze Basis op Orde-aanpak.

 

De Microsoft-opties: Databricks en Synapse

Databricks en Synapse zijn cloud dataplatformen met elk hun eigen kracht, maar er zijn ook overeenkomsten. Wat het juiste platform voor uw organisatie is hangt af van veel facetten, een aantal hiervan zijn hieronder benoemd.

De kracht van Cloud Dataplatformen 3

Databricks

Dit door Microsoft zelf als ‘de premium Spark-omgeving’ bestempelde platform, is uitermate geschikt voor Data Science en Advanced Analytics. Door de voor data scientists bekende notebook interface kan data efficiënt verwerkt worden tot modellen en inzichten. Bovenop Apache Spark, de onderliggende technologie, levert Databricks aanvullende funcionaliteiten. Hiervoor is een breed scala aan modellen, libraries en voorbeelden beschikbaar. Dit maakt het mogelijk om snel kwalitatief goede modellen op te leveren.

Bovenstaande maakt Databricks een goede keuze voor organisaties waar innovatie centraal staat. Zeker voor organisaties waar medewerkers zelf analyses en data science workloads uitvoeren zal Databricks een slimme keuze zijn.

De kracht van Cloud Dataplatformen 4

Synapse

Het Synapse Analytics Platform is een combinatie van het hierboven genoemde Spark cluster en een Parallel Data Warehouse (PDW). PDW is een aaneenschakeling van

SQL Databases, die parallel werken om queries te verwerken. Hierdoor wordt het analyseren van data in databases oneindig schaalbaar en tegelijk herkenbaar voor medewerkers die gewend zijn in en met databases te werken.

Daarnaast bevat het Synapse platform een breed scala aan tools, waar Power BI en Data Factory onderdeel van zijn. Dit platform is dus goed te gebruiken voor eindgebruikers om rapportages en BI-omgevingen op te bouwen. Ook Machine Learning is mogelijk met Synapse, zowel met een integratie van Synapse met de Azure ML Service van Microsoft, als met de ingebouwde Spark notebooks in Synapse.

Dit maakt Synapse een mooie oplossing voor organisaties die hun processen willen optimaliseren met inzichten en rapportages. Wanneer de organisatie een groep ‘BI champions’ kent, die data omzetten in rapportages en inzichten, zal Synapse goed aansluiten op de gebruikers.

 

Hoe te starten

De eerste stap in de platformselectie is het achterhalen van de data-strategie en de ondersteunende data-cultuur. Daarnaast is het slim om ervaring op te doen met deze platformen. Dit kan bijvoorbeeld met pilots en proof of concepts.

Synapse heeft een pay-per-query model waarbij u betaald per gigabyte die u verwerkt. Dit maakt het mogelijk om kleinschalig en zonder grote investeringen te starten. Een technisch voorbeeld hiervan is te vinden in dit blog van mijn collega Arthur Steijn.

 

Meer weten over datagedreven werken in de cloud met de Motion10 PitWall

Databricks als Synapse kunnen beiden als afzonderlijk cloud dataplatform geïmplementeerd worden, maar ook als onderdeel van de PitWall, de data- en integratieoplossing van Motion10. Klik hieronder om de whitepaper met aanvullende informatie te downloaden of de video over de PitWall te bekijken.