Een Data Warehouse (DWH) zonder ETL is ondenkbaar. Tenminste zo wordt dat nog steeds verkondigd door de Data Warehouse specialisten. Het ETL proces kent een logische volgorde: eerst de gevraagde gegevens uit de bronsystemen ophalen (E)xtract, dan de data omvormen naar business georiënteerde entiteiten (T)ransform waarna het (in de meeste gevallen) gegoten wordt in een dimensioneel datamodel (L)oad.

Deze methodiek is ontstaan in een tijd dat opslag van data duur was, het processen van data traag ging en dat de business op voorhand alle definities paraat had voor de gevraagde inzichten. Kortom, men ging toen zuinig om met het uitvoeren van BI projecten.
De noodzaak voor een Enterprise Data Warehouse (EDW) voor de bedrijfs-kritische verantwoordings-rapportage zal altijd blijven bestaan. De trend hierbij is het gebruik van een Data Vault. Hierbij praten we dan over de “system of record” gerelateerde data. Data die qua structuur nauwelijks meer veranderd en de basis vormt voor de dagelijkse gang van zaken binnen het bedrijf. Hierbij is het van belang dat het Data Warehouse betrouwbaar is en historisch verantwoord (auditable).

Met de komst van Big Data wil men grotere volumes data kunnen verwerken met een grote mate van variatie in structuur en herkomst. Als men deze grote variatie aan data gemodelleerd in een geconformeerd DWH model wil gieten, dan zal de implementatie doorlooptijd te lang worden voor de business en is beoogde responsetijd op veranderingen en trends in de business te traag.

Bij Big Data oplossingen waarbij Hadoop gerelateerde technologie wordt gebruikt of in-memory databases worden gebruikt spreekt men over ELT. De data wordt dan streaming binnengehaald, (on)gestructureerd opgeslagen en in een later stadium getransformeerd naar de gewenst informatie. Dit kan een analytic zijn of een (ad-hoc) rapportage. Het aan elkaar knopen van diverse bronnen gebeurt dan on-the-fly na het laden van de data op het moment dat men data wil analyseren. Dus zonder vooraf te gaan modelleren zoals dat traditioneel gebeurd als men bijvoorbeeld met kubussen wil werken. Deze ELT methodiek zien we toegepast in bedrijfstakken die veel met sensor gestuurde data werken.

ELT kent een opmars van tools die goed inspelen op de vraag naar streaming analitics. Echter is de traditionele manier van ETL wel aan vervanging toe. Om sneller in te kunnen spelen op verandering in de organisatie is het snel herstructureren van onderdelen in het EDW wel noodzakelijk. Dit is een doorn in het oog voor veel BI architecten. ETL processen zijn vaak slecht gedocumenteerd, modellering vindt buiten de ETL tools plaats en organisatorisch zijn de taken redelijk versnipperd. Hierdoor komen projecten maar mondjesmaat van de grond en duren te lang voor de business. “Data Warehouse Automation” kan hiervoor een uitkomst zijn. Dit houd in dat life-cycle management mogelijk wordt gemaakt via metadata gestuurde (her)structurering van het DWH. De keten vanaf het ontwerpen van een logisch model t/m de implementatie van het fysieke model met bijbehorende ETL processen verloopt geautomatiseerd. Het handmatig coderen van ETL processen wordt hierbij tot een minimum beperkt waardoor de doorlooptijd van het project drastisch wordt verkort.

Kortom, er is zeker een toekomst voor ETL alleen de manier van werken is aan verandering toe. Life-cycle management bij een Enterprise Data Warehouse moet een snellere omloopsnelheid krijgen. Agile BI en Data Warehouse Automation kan daar een helpende hand bieden. De traditionele manier van werken zal dan ook aan verandering onderhevig zijn.

ELT als tweede vorm is meer van toepassing op Big Data projecten en kent nu een enorme vlucht in kant-en-klare toepassingen zoals zogenaamde DWH appliances. Dit zijn (alles-in-een) hardware plus software oplossingen die met hoge snelheid grote volumes data kunnen verwerken en ingezet worden voor hele specifieke analyse doeleinden.


Post tags:

Xavier van Goch

Xavier is werkzaam bij Systemation als Solution Consultant. Zijn passie gaat uit naar Business Intelligence en Data Warehousing. Xavier startte zijn BI carrière in ‘99 bij Business Objects als trainer/consultant waar hij ca. 10 jaar werkzaam is geweest. Xavier heeft veel ervaring opgedaan in de bancaire sector. Vervolgens heeft hij diverse functies op BI architectuur niveau ingevuld bij o.a. PostNL en Pink Elephant.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *