Deze website maakt gebruik van cookies. Lees meer of klik hier om te accepteren. Accepteren Lees meer

VCMB - Verbonden door creditmanagement kennis!
VCMB

Verliest Big Data de oorlog?

Enkele jaren geleden werd ‘Big Data’ big business. Tenminste, dat had het moeten worden. Want elk zichzelf respecterend bedrijf organiseerde congressen en elke bèta-opleiding verfraaide het curriculum met (een beetje) Big Data. Maar waar is Big Data gebleven? Verliest het de oorlog?

Inmiddels is het 2014. Maar de afdelingen marketing en business intelligence van verzekeraars, banken en gespecialiseerde analyseondernemingen gebruiken de pakketten van SAS, net als in 1980. Ze lijken nog altijd de voorkeur te geven aan de oude statistische methoden. Een kijkje in de keuken bij deze bedrijven toont aan dat er wel over Big Data gepraat wordt, maar dat de moderne machine learning algoritmes niet worden gebruikt om de analyses uit te voeren.

“Ja, wij hebben ook een keer een congres over Big Data bijgewoond”, vertelde een directeur van een grote verzekeraar* mij eens tijdens een etentje, “maar na een week van extase was het weer business as usual.”

Ik verwijt niemand dat de moderne manier om Big Data te analyseren niet echt omarmd wordt. Immers, als de oude techniek om data te analyseren nog prima werkt, waarom zou je dan overstappen op een nieuwe techniek? Bovendien is de data-analist van oudsher onderwezen in de statistiek en niet in de machine learning technieken die nodig zijn voor moderne Big Data analyse.

“Onze studenten mogen bij hun masterscripties wel machine learning algoritmes toepassen voor Big Data analyse, maar wij doceren voornamelijk statistiek.”, aldus een hoogleraar Marketing Intelligence*.

Geen oude statistiek pakketten

Ik heb geluk gehad, want net als nagenoeg elke student heb ik tijdens mijn opleiding het magnum opus van statistiekgrootheden Moore en McCabe van kaft tot kaft moeten doorlopen. Mijn scriptiebegeleider gaf ons echter vrij spel bij het analyseren van grote hoeveelheden (Twitter)data. En aangezien ik al vroegtijdig een gezonde aversie tegen statistiek had ontwikkeld (veel voorwerk), heb ik voor de modernere aanpak kunnen kiezen. Met machine learning software kon de ruwe Twitterdata direct geanalyseerd worden; geen complexe statistische methodologie en vooral geen extensieve datazuiveringsprocessen. Het was een kwestie van data verzamelen, een bestand opmaken en een algoritme runnen.

“Wij hebben onze eigen algoritmes gemaakt en beter dan dit kan het niet”, vertelde de expert van een marketingbedrijf* tijdens een pitch, “en wij gebruiken SAS.”

SAS is naar verluid een prachtig statistiekpakket. Maar het heeft niets te maken met moderne Big Data analyse. Statistiek is geen machine learning en SAS is een statistiekpakket, niet een machine learning pakket. Met statistiek kun je bijvoorbeeld klantwaarde voorspellen. Met machine learning ook. Op een fiets kun je rijden. In een auto ook. Toch is een fiets geen auto (en een fiets is meestal langzamer, maar dat terzijde). Zolang SAS wordt gebruikt, kun je ervan uitgaan dat er ‘oude statistiek’ wordt bedreven, ook bij de Big Data analyses.

Waarom Big Data analyse en niet gewoon statistiek?

Statistiek werkt, heeft zich bewezen en bewijst zich telkens weer. Big Data analyse met machine learning is een nieuwkomer, het is een nieuwe vorm van statistiek, maar waarom zou je erop overstappen? Het belangrijkste antwoord is: efficiëntie. Big Data analyse door middel van machine learning is snel, razendsnel zelfs. Voor een verzekeraar voorspelde ik welke klanten een pensioentekort hebben (en welke niet). De verzekeraar leverde een dataset aan en binnen een dag stond er een rudimentair systeem waarmee met 72% nauwkeurigheid kon worden voorspeld of een klant een pensioentekort heeft. En dat alleen met de data die de verzekeraar zelf al had. Hetzelfde geldt voor het maken van churnmodellen (tot 81% correcte voorspellingen), profielverrijkingen en andersoortige correlatiemodellen. Verzamel de ruwe, onbewerkte data en het machine learning algoritme doet, bij goed gebruik, de rest.

De methodologie voor gedegen bevindingen bij statistiek is aanzienlijk bewerkelijker. De steekproef bijvoorbeeld moet idealiter aselect gekozen worden en de data moet meestal worden gezuiverd (gepruned) om overfitting te voorkomen. Dit zijn slechts twee voorbeelden van vele vereiste handelingen bij statistisch onderzoek. Dergelijke handmatige/kunstmatige ingrepen zijn bewerkelijk.

Alle informatie benutten

Een bijkomend nadeel van zulke ingrepen is dat ze ervoor zorgen dat een deel van de data ongebruikt blijft; namelijk de data die wordt verwijderd of aangepast voor het maken van een statistisch model. De op deze manier verwijderde data kan allerlei waardevolle informatie bevatten. Zo kan in grote lijnen iemands salaris ‘bepalend’ zijn voor een pensioentekort (hoe hoger, hoe minder kans op een tekort), maar kunnen uitschieters als ‘drie- of viermaal modaal’ in combinatie met een bepaalde leeftijd en gezinssituatie er juist voor zorgen dat iemand waarschijnlijk wél een pensioentekort heeft. Dergelijke uitschieters worden voor lineaire voorspelmodellen bij statistiek vaak verwijderd ten bate van het lineaire model. Er gaat dus waardevolle informatie verloren.

De toekomst van Big Data is onzeker en dat vind ik jammer en frustrerend. Ik vind het jammer, omdat het mijn vakgebied is en omdat er veel mogelijkheden zijn die met ‘oude’ statistiek niet mogelijk zijn (zoals het gebruiken van de uitschieters). Ik vind het bovendien frustrerend, omdat ik zie hoe een data-analist soms weken ploetert om een resultaat te behalen dat met behulp van machine learning vrijwel ogenblikkelijk verkregen had kunnen worden.

De conclusie is dat echte Big Data analyse door middel van machine learning de eerste slag verloren heeft. Moderne machine learning software pakketten (van het jaar 2000 of later) worden niet of nauwelijks gebruikt en oude statistiekpakketten pronken met de term ‘Big Data’, maar blijven op basis van ouderwetse statistiek werken. Hopelijk komt er een tweede slag, waarbij Big Data met machine learning geanalyseerd gaat worden.

De eerste slag is verloren, de oorlog nog niet.

Gerelateerde artikelen

Blockchain en de invloed op finance

Blockchain en de invloed op finance

Wanneer we zaken met elkaar doen, moeten we elkaar vertrouwen. We willen niet dat het misgaat en dit is de reden dat we werken met contracten en r...

‘Flop dreigt met digitale rechtspraak’

‘Flop dreigt met digitale rechtspraak’

De digitalisering van de rechtspraak blijkt een veelvoud te kosten van wat de bedoeling was. De digitalisering van de rechtspraak dreigt te mislukken...

© 2018 VCMB Maatwerk software door Way2Web

Wanneer onderneemt u actie bij het signalen van betalingsachterstanden?

Laden ... Laden ...