Welk big dataplatform is van tel?
Gepubliceerd op 2025-10-28 door William Visterin
Welke (big) dataplatforms gebruiken Belgische bedrijven? Want veel data hebben is één ding. Het efficiënt beheren, is natuurlijk een ander verhaal.
Dit artikel verscheen oorspronkelijk in SAI Update, het digitaal magazine van SAI. Leden van SAI kunnen het magazine integraal lezen.
Bij onze rondvraag ging het om big data platformen. En dus niet zozeer om (klassieke) databasepartijen of -producten. Al duiken dan vaak wel dezelfde leveranciers op, hun oplossingen zijn doorgaans verschillend.
| Dataplatform | Percentage |
|---|---|
| Amazon Redshift | 7% |
| Azure Synapse | 16% |
| Databricks Delta Lake | 18% |
| Dremio | 2% |
| Google BigQuery | 2% |
| Oracle ADW | 4% |
| SAP Hana | 18% |
| Snowflake | 9% |
| Teradata Vantage | 2% |
| Andere | 2% |
| Geen dataplatform | 21% |
| Bron: SAI, N = 56, meerdere antwoorden mogelijk | |
Bij de namen die Belgische bedrijven naar voor schuiven vinden we verschillende categorieën: de klassieke enterprise software-spelers (SAP, Oracle) zijn goed voor een kwart, net als de hyperscalers (Azure, Google, AWS). En dan zijn er natuurlijk de opkomende partijen (Databricks, Snowflake,…). Bij ‘andere’ kan je onder meer namen terugvinden als SingleStore of Presto.
Zowat één op vijf geeft aan om geen dataplatform te gebruiken.
Van AWS tot Snowflake: overzicht met de belangrijkste namen
We overlopen de belangrijkste namen in de wereld van big data platformen, en we schatten ze in op zowel strategisch, lokaal als technisch vlak.
Amazon Redshift
AWS (Amazon Web Services) heeft een breed aanbod van beheerde databaseservices voor verschillende datamodellen en workloads. Hun diensten, zoals Amazon RDS, Amazon Aurora en Amazon Redshift, zijn bedoeld voor zowel startups als grote ondernemingen. Hun cloud data warehouse is Redshift. Maar hun reeks van zogenaamde on purpose database-engines ondersteunt een breed scala aan datamodellen en doeleinden. Bovendien beweegt AWS zich in de richting van een meer geïntegreerde set oplossingen.
De enorme breedte van AWS's aanbod, hoewel gunstig in functie van flexibiliteit en interoperabiliteit, wordt soms ook als een uitdaging aanzien. Hoewel AWS vooruitgang heeft geboekt in het vereenvoudigen van hun aanbod en integratieproces, blijft de complexiteit van het beheer van zijn uitgebreide cloudplatform bestaan. In vergelijking met buurlanden en met de VS, heeft AWS nog wel een weg te gaan inzake gebruik, al komt het wel opzetten.
Azure Synapse
Microsoft is zowel een toonaangevende cloudleverancier (met Azure) een vooraanstaande softwarepartij én aanbieder van datasystemen. Het bedrijf heeft ook voor Azure een uitgebreid ecosysteem en partnernetwerk voor data, en is in België sterk vertegenwoordigd. Hun big data platform/datawarehouse is Microsoft Azure Synapse Analytics en dat bevat, naast onder meer ook ontwikkeltools en BI-mogelijkheden, een koppeling met Microsoft's Dynamics 365 reeks applicaties.
Met zijn ontwikkelomgeving Microsoft Visual Studio biedt Microsoft overigens ondersteuning voor zijn brede portfolio van DBMS-engines. Zo biedt Microsoft Power Apps een low-code platform voor het werken met gegevens in zowel Azure SQL als Microsofts niet-relationele DBMS CosmosDB, dat open-source compatibele API's bevat voor andere DBMS-systemen. Volgens analisten als Gartner is governance, via hun Microsoft Purview-aanbod, nog wel een werkpunt. Data- en analyseprofessionals moeten bijvoorbeeld best nagaan welke componenten algemeen beschikbaar zijn en welke, zoals Data Quality en Data Policy, nog in preview zijn.
Databricks Delta Lake
Een platform dat intussen al zichtbaar is in het Belgische landschap, zoals ook blijkt uit de resultaten in de SAI-bevraging, is Databricks. Dit platform maakt gebruik van Delta Lake, de open source storagelaag die indertijd ontwikkeld is door Spark en die je over alle mogelijke data lakes kan gieten, zoals van AWS, Azure of andere. Delta Lake maakt het mogelijk om tegelijk verschillende opdrachten van en naar dezelfde directory of table te lezen of schrijven, zonder de integriteit van de data in gevaar te brengen.
Databricks, dat diepe wortels heeft in data science, staat ook bekend om zijn Lakehouse Platform, dat een mix van data lake en data warehouse mogelijkheden. Databricks springt eruit door zijn analytische use cases, ondersteund door innovaties als Unity Catalog en Delta Live Tables. De benadering van datamanagement, met de nadruk op open formaten en structuren, positioneert Databricks als partij voor organisaties die zich richten op data science en analytics op schaal.
De relationele mogelijkheden binnen het Databricks Lakehouse moeten nog de inhaalslag maken in vergelijking met sommige concurrenten, in het bijzonder voor traditionele relationele workloads. Ook kan het brede scala aan mogelijkheden van het gehele Databricks gebruikers wat overweldigen.
Dremio
Dremio is veruit de kleinste partij uit de lijst. Het is groot geworden door zijn snelle toegang tot alle soorten data lakes en de mogelijkheid om deze te visualiseren volgens de eigen behoefte van de eindgebruiker, zonder dat IT hiervoor steeds moet ingrijpen. Deze snelheid wordt voor een groot deel ontleend aan het gebruik van Apache Arrow.
Dremio is een volledig open source platform en de kracht zit hem in zijn computing power. Je kan vrij snel aan de slag met grote hoeveelheden in-memory data die je via SQL binnenhaalt om daarop verder te queryen en rapporteren. De brondata kunnen bovendien vanuit verschillende omgevingen komen. Je kan met Dremio bijvoorbeeld van oudsher een Hadoop- en Oracle-omgeving tegelijk bevragen en de resultaten van je queries bijvoorbeeld naar Tableau sturen.
Dremio zet hard in op een leveranciers-agnostisch ecosysteem. Ook met de recente aankondiging rond de ondersteuning van de Apache Iceberg REST Catalog Specification wil Dremio focussen op het stimuleren van een open gemeenschap rond Apache Iceberg.
Google BigQuery
Google Cloud is op zakelijk vlak een challenger in de Belgische markt, zowel inzake Infrastructure as a Service als met hun applicaties. Al tracht het bedrijf, onder meer door deals met SAP en (recent nog) Oracle, zijn plaats te vinden en hun ecosysteem uit te breiden. Het bedrijf heeft op technisch vlak ook al een lange voorgeschiedenis in domeinen als machine learning. We selecteren in dit big data overzicht Google voor BigQuery, zijn serverless datawarehouse service waarmee gebruikers big data kunnen analyseren met SQL en andere tools op Google Cloud Platform.
BigQuery Omni is dan weer een functie waarmee gebruikers query's kunnen uitvoeren op data die zijn opgeslagen op verschillende cloudplatforms, zoals AWS en Azure, met behulp van dezelfde interface en SQL-syntaxis. Zo kunnen ze data in verschillende clouds openen en analyseren zonder de data te verplaatsen of te kopiëren. Via BigQuery kunnen gebruikers machine learning modellen maken en implementeren met behulp van standaard SQL.
Oracle ADW
Wie big data en databases zegt, kan moeilijk om Oracle heen. En ADW staat hierbij voor Autonomous Data Warehouse en is er onderdeel van en beschikbaar in Oracle Cloud Infrastructure (OCI).
Oracle beschikt al lange tijd over een van de meer rijkere sets aan technologieën op de markt van databases en dataplatforms. In de cloud heeft het zijn mogelijkheden verbeterd door onder meer autonome tuning en uitgebreide beheermogelijkheden toe te voegen. Oracle heeft al tientallen jaren een sterke positie in de on-premises DBMS-wereld en heeft een reeks opties gecreëerd om oplossingen op locatie te integreren met zijn cloudoplossingen.
Aandachtspunten zijn hun klassieke beperkte ondersteuning op meerdere clouds, ook al heeft het bedrijf daar de voorbije jaren wel aan gewerkt. Want hoewel Oracle traag was met de overstap naar de cloud, is het er intussen wel klaar voor. Al heeft het gebrek aan klantbewustzijn in de cloudwereld het bedrijf wel lang parten gespeeld.
SAP Hana Cloud
België is een SAP-land, zo luidt de zegswijze, en dat blijkt ook uit dit SAI-onderzoek. Want SAP is goed vertegenwoordigd in ons land, ook met hun SAP Hana Cloud. Dat is een managed database service die zowel transactionele als analytische workloads ondersteunt vanuit één oplossing. SAP Hana Cloud en SAP Data Warehouse Cloud kunnen worden ingezet op verschillende clouds van cloudproviders: Alibaba, AWS, Azure en Google. De systemen kunnen op locatie draaien of in private clouds, en in hybride context.
SAP Hana is vrij compleet met zijn biedt functionaliteit voor zowel transactionele als analytische verwerking op dezelfde database. SAP Data Warehouse Cloud biedt een breed scala aan functies, zoals geïntegreerde data science-mogelijkheden. Er is uitgebreide integratie met andere (SAP-)ecosystemen. De mogelijkheden en opties van SAP worden nog steeds vaak gezien als zeer gevarieerd en breed, maar daardoor soms ook best verwarrend, vooral met betrekking tot het gebruik van SAP-data met niet-SAP data.
Snowflake
In de wereld van big data is ook Snowflake een partij die in de lift zit. De Snowflake Data Cloud richt zich op analytics, datawarehousing en data lake. Het investeert in zijn Snowpark-functie om AI/ML-ondersteuning te bieden, en valt hiervoor onder meer terug op Python en SQL. Die laatste is belangrijk. Snowflake heeft namelijk een stevige reputatie opgebouwd omdat ze destijds zowat de enige waren die de niche van big data bevragen vanuit SQL op een professionele manier konden invullen.
Gebruiksgemak wordt vaak genoemd als een van de belangrijkste redenen om voor Snowflake te kiezen. Het bedrijf heeft zijn portfolio van software- en servicepartners snel uitgebreid, met name op het gebied van data-integratie, metadatatools en professionele services. De aanbieder heeft geen on-premise aanbod, en zichzelf altijd bewust (en succesvol) in de markt gezet als (modern) ‘data cloud platform’ (intussen: ‘ai data cloud platform’). Het bedrijf is hierbij wel cloud agnostic: Snowflake draait zowel op AWS, Azure en Google Cloud Platforms. Cloudneutraliteit wordt hierbij ook vaak aangehaald als een andere belangrijke reden om voor Snowflake te kiezen. Klanten werken mogelijk al met meerdere cloudproviders, maar willen een standaardaanpak binnen deze providers.
