— On Comms Design. From London

Big Data, acum cu pro si contra

Ma stiti pasionata de Big Data si convinsa ca ne poate ajuta sa rezolvam o gramada de probleme. Cel mai interesant la aceste probleme de rezolvat cu Big Data, si de unde se naste si entuziasmul meu, este ca ele se refera numai la chestiuni comunitare si mai putin la chestiuni individuale: tehnic, there just isn’t enough relevant big data about one particular individual, indiferent de cate postari pe Facebook poti sa scoti in timp ca sa scoti ceva realmente util ptr acesta.

[Case in point, si evident aici divaghez major, un episod din Black Mirror discuta exact aceasta posibilitate, anume de a parsa TOATE interactiunile unui individ online – un fel de management de Big Data individual – pentru a genera o clona cvasi identica cu originalul dupa ce acesta, adica omul, moare. Vedeti despre episod aici si spoiler alert pentru ca n-am cum sa imi finalizez argumentul fara sa fac asta, e destul de evident ca ce iese este o entitate complet imperfecta si dubioasa.]

Acum, in cazul Big Data de cele mai multe ori rezultatele sunt relevante ptr ca se aplica unor multimi (comunitati) unde specificitatea nu este necesara. Ce este necesar este cel mai mic numitor comun, respectiv ceva care sa se aplice universal si sa poate fi segmentat ptr a trage niste concluzii functionale.

Buuun, vine insa un om pe care nu ai cum sa nu-l citesti cu respect, anume Nassim Taleb (Black Swan, Fooled by Randomness) si scrie un editorial in Wired unde ataca Big Data tocmai la punctul forte: big data is too big to be correct. Zice Taleb:

“Well, if I generate (by simulation) a set of 200 variables — completely random and totally unrelated to each other — with about 1,000 data points for each, then it would be near impossible not to find in it a certain number of “significant” correlations of sorts. But these correlations would be entirely spurious. And while there are techniques to control the cherry-picking (such as the Bonferroni adjustment), they don’t catch the culprits — much as regulation didn’t stop insiders from gaming the system. You can’t really police researchers, particularly when they are free agents toying with the large data available on the web. I am not saying here that there is no information in big data. There is plenty of information. The problem — the central issue — is that the needle comes in an increasingly larger haystack.”

Mai simplu deci, cand ai atat de multe date e imposibil sa gasesti o singura coordonata care delimiteaza o concluzie clara. Cel mai probabil poti segmenta datele in asa fel incat sa iti dea diverse concluzii cu diverse baze esantionale care, a  la rigueur, pot sa se bata chiar cap in cap.

N-ai cum sa il contrazici pe Taleb. In teorie pana acum ceva vreme, cercetarea a lucrat cu esantioane ptr ca era imposibil sa strangi TOATE datele. Acum insa avem prea multe date, lucru care ne da exact inversul relevantei unui esantion, respectiv ca din cauza volumului imens, orice esantion este valabil.

Introduc aici insa, ca sa imi protejez simpatia fata de Big Data, doua ajustari care pot totusi sa clarifice putin aceasta problema:

1. Geo – orice nivel de big data cand este mapat pe coordonate geografice (care de cele mai multe ori vin, la randul lor, cu niste background socio economic) poate fi mai usor interpretat cu oarecare relevanta pentru zonele de mapare. Pentru ca interpretarea nu se face in vacuum, pe computer ci in legatura cu ceva fizic si indubitabil. De aceea proiect gen harta fricii in Bucuresti nu sufera de problema claritatii (ma tem ca acolo tot o problema de esantion a fost ridicata)

2. Timp – cum bine zice omul asta aici, problema cu Big Data este ca trebuie interpretata relativ la timp (ha, joc de cuvinte), adicatelea si in relatie cu si cu atentie si echilibru in functie de acesta. Zice el:

“Why does the time dimension matter if we’re only interested in current or future phenomena? Because many of the things that affect us today and will affect us tomorrow have changed slowly over time: sometimes over the course of a single lifetime, and sometimes over generations or even eons. Datasets of long timescales not only help us understand how the world is changing, but how we, as humans, are changing it — without this awareness, we fall victim to shifting baseline syndrome. This is the tendency to shift our “baseline,” or what is considered “normal” — blinding us to shifts that occur across generations (since the generation we are born into is taken to be the norm).”

adica, ceea ce ne intereseaza si ne ajuta sunt modificarile si modificarile valoroase au o componenta temporala puternica.

Il respect pe Taleb. Cred sincer ca a nimerit-o cu teoria lui despre evenimentele impredictibile. Mai cred de asemenea ca Big Data poate fi interpretata in avantajul comunitatilor indiferent de cat de prone to bias este.