Valse patronen in grote databestanden leiden tot wetenschappelijke flaters. Gezond verstand en de intuïtie van experts kunnen voorkomen dat we ons voor de gek laten houden door big data.
Uit gigagrote databases halen computers soms verrassende informatie. Zwangere vrouwen kopen het liefst geurloze shampoo. In bestelwagentjes trillen specifieke onderdelen harder voordat ze kapot gaan. Bierkopers slaan vaak ook luiers in. En oranje tweedehandsauto’s begeven het eerder dan andere.
De lijst is eindeloos. Patroonherkenning in grote bestanden, big data, helpt bedrijven om klanten op het juiste moment te benaderen. Dit soort correlaties wordt ook gebruikt om auto’s op het kritieke moment naar de garage te brengen. Of om betrouwbare klanten te onderscheiden van mogelijke wanbetalers.
Met zulke inzichten valt geld te verdienen. Niet voor niets zijn Facebook, Twitter en LinkedIn, bedrijven die ons internetgebruik dagelijks vastleggen, op de aandelenbeurs miljarden waard. Toch is niet elke correlatie die een computer ontdekt waardevol. Is het eigenlijk wel logisch dat oranje auto’s minder goed zouden zijn?
Kwesties als deze, de vragen naar een oorzakelijk verband, kunnen computers niet beantwoorden. Na een jarenlange hype, waarin big data werden gezien als de ruwe olie van de nieuwe wereldeconomie, daalt de realiteitszin langzaam maar zeker in. Mede dankzij enkele faliekante mislukkingen. Want correlaties interpreteren begint met gezond verstand. En ook de intuïtie en ervaring van experts zijn onmisbaar om het kaf van het koren te scheiden.
Hieronder een interview met statisticus Nate Silver over de fouten die worden gemaakt door big data:
Dit is het begin van een artikel te vinden in KIJK 11/2014. Dit nummer ligt in de winkel van 18 september tot en met 15 oktober.
Meer informatie:
Tekst: Michiel van Nieuwstadt
Beeld: Kacper Pempel/Reuters