Coisas que a era Big Data não inventou
Em 1985, foi publicado nos
Cadernos de Saúde Pública (Fundação Oswaldo Cruz, RJ) um artigo sobre a
turbeculose no Brasil. O trabalho relacionava a condição social e econômica de
uma população com a incidência de casos e mortes pela doença.
O resultado da pesquisa não
interessa aqui. Aliás, a informação do parágrafo acima que mais interessa aqui é
que a pesquisa foi feita em 1985, antes da popularizaçao da internet, porque só
vou utilizá-la para ilustrar algumas observações muito simples e óbvias que
podem nos ajudar a organizar nossas ideias a respeito de Big Data.
Talvez a maior utilidade do Big
Data seja a elaboração de modelos preditivos efetivos e com certeza essa
aplicação é a mais polêmica também. Questiona-se não apenas a ameaça à
privacidade, mas também a própria pretensão de se prever o futuro.
As questões são pertinentes e
nunca existirá consenso, mas desde quando impossibilidade de convergência nos impede
de discutir? Então vamos lá.
Usando a pesquisa citada como exemplo,
vejamos o que a era Big Data NÃO inventou:
Utilização de dados pessoais:
A pesquisa sobre tuberculose informou a incidência de mais de 650 mil casos entre
1973 e 1983. Todos os dados foram retirados de relatórios de notificação da
doença feitos pelos hospitais.
Ameaça à privacidade: Dados
pessoais foram utilizados sem que nenhuma informação que identificasse os
pacientes fosse divulgada, embora os hospitais tivessem todas elas registradas.
Correlação de dados: Os
pesquisadores procuraram relacionar turbeculose com dados socioeconômicos na
tentativa de identificar condições para a incidência da doença.
Utilização de dados públicos:
Os dados sociais e econômicos foram retirados de pesquisas demográficas
oficiais e qualquer um pode usar.
Modelos preditivos: A pesquisa
também utiliza dados de uma ferramenta chamada “inquérito de prevalência” que
calcula a probabilidade de um indivíduo contrair determinada doença. A partir daí
foi construído um modelo preditivo para a população por região.
Utilização de modelos
preditivos: a Fundação Oswaldo Cruz tem o objetivo de promover a saúde e o
desenvolvimento social, portanto os modelos preditivos gerados fundamentam elaboração
de planos de ação para reverter a previsão feita.
Importância da dinâmica nos
estudos complexos: a pesquisa reconhece a impossibilidade de atribuir
apenas uma causa à transmissão e distribuição da doença e busca correlação com dados
dinâmicos (sociais).
O que muda com Big Data então?
A primeira resposta que vem para
essa pergunta está no próprio nome Big Data. A pesquisa da Fundação Oswaldo
Cruz destaca que a amostra utilizada (toda informação que existia) não é
representativa da população e o curto período de tempo que ela cobre dificulta
um calculo de tendência. Esses dois problemas são resolvidos quando os dados
utilizados são resultado de uma ampla e longa utilização de processos digitais
(o universo de dados passa a ter escala web).
Também podemos afirmar que a
correlação proposta pelos pesquisadores entre tuberculose e condição socioeconômica
foi um insight possível dada a existência de dados dos dois sistemas. Correlações
inusitadas podem surgir quando o banco de dados utilizado inclui dados de
natureza bastante diversificada como Big Data.
Ainda em relação à correlação de
dados, se em pesquisas amostrais o objetivo é explicar um fenômeno, na era
Big Data a ideia principal é apontar tendências. Em muitas situações saber
que uma coisa acontece, mesmo sem saber o porquê, é suficiente para tomar uma decisão.
Dados sociais coletados
periodicamente através de pesquisas qualitativas levam a mais duas limitações de
utilização: por serem periódicos, ficam estáticos no período entre as coletas
que, quando acontece, revela uma dinâmica de degraus, incompatível com um
sistema real; e pesquisas qualitativas apresentam um viés considerável que pode
comprometer a veracidade dos dados. Dados sociais digitais podem ser analisados dinamicamente e têm maior potencial de veracidade porque são
coletados a partir de utilização da rede por seus usuários.
Propositadamente utilizei uma
pesquisa cientifica como base de comparação porque, por ter uma causa nobre,
facilita a aceitação dos argumentos.
No entanto, pode transportar todo
o raciocínio para pesquisas de marketing, por exemplo. Quer a causa seja nobre
ou não, quer você queira ou não aceitar que dados pessoais possam ser usados
para desenvolvimento de produtos e direcionamento de propagandas e promoções, o
fato é que isso sempre foi feito.
Portanto, no que diz respeito à
privacidade e à utilização de modelos preditivos, o que diferencia e qualifica
o que chamamos de Big Data, é a possibilidade de fazer com mais eficiência e
eficácia o que sempre foi feito.
Acredito que o que o Big Data traz de inovação e os verdadeiros impactos em nossas vidas estão em outras questões. Você pode antecipar o
que pensa comentando esse texto, ou falamos sobre isso depois.
Ao contrário do que pensa o senso comum, o futuro não está escrito nas estrelas... Nem na nuvem! Será o resultado do que fizermos com ele. O Big Data pode nos abrir novas possibilidades, novos caminhos, mas não é, por si só, capaz de nos levar ao céu ou ao inferno. Muita gente vai querer "demonizar" o big data, esquecendo - como mostra o post - que muitas das coisas que tememos que aconteçam por causa do big data, na realidade, já acontecem.
ResponderExcluirÉ bom pensar assim: Big Data é um campo de estudo cientifico e cientistas nao acreditam em demônios... Vão encarar de frente. Quanto ao resto da sociedade, terá que decidir o melhor modelo para se apropriar do valor gerado. Porque se nao escolher o melhor modelo, vai pelo pior mesmo. É o famoso point of no return.
ExcluirJá li alguns artigos e assisti palestras sobre o tema, porém ainda nao ficou claro se o termo Bigdata está associado à conjuntura, que é a explosão do dado/informação a partir das tecnologias de comunicação ou se trata-se de uma tecnologia mais sofisticada que permite processar grandes volumes de dados/informação com resultados analíticos e estratégicos.É um feômeno, é uma metodologia ou uma tecnologia?
ResponderExcluirRenate, obrigada pelo comentário. Por tudo que já estudei sobre o assunto, gosto de definir Big Data como o campo empírico da Ciencia das Redes. Voce leu o segundo post, sobre isso? Se quiser se aprofundar mais, leia Albert Laszlo Barabasi. Qualquer artigo introduzindo a Ciência das Redes, ou o livro Linked, dele tambem, já publicado no Brasil em português. Voce nao so vai entender como passamos a enxergar valor no dados digitais gerados pelo uso da rede, como tambem seus impactos, possibilidades, limitações, ameaças etc. Se tiver que escolher entre as 3 opções que voce me deu, Big Data é um fenômeno (substantivo e adjetivo!). O terceiro post, que fala sobre o valor dos dados digitais, dá a ideia de que é preciso muita inteligência para transformar Big Data em valor. Portanto nao é metodologia nem tecnologia (que já sao inteligência em ação). Será que respondi sua pergunta? Voce concorda comigo?
Excluir