A ciência por traz dos dados

Opinion is  the mistress of error;  she cannot make us wise,  only content
(Blaise  Pascal)

Data science, um dos temas mais recorrentes em todas as empresas hoje em dia. A força dessa corrente de trabalho pode ser medida pela profusão de novas empresas que são criadas todos os anos buscando solucionar temas específicos ligados à utilização dos dados nas empresas: saída de cliente, entrada de clientes, como os clientes utilizam os produtos. Todos estes temas têm sido amplamente abordados através de dados e de algoritmos matemáticos.

Acredito que nos últimos anos a maior parte das discussões têm sido focadas justamente no entendimento desses algoritmos. Grandes avanços na identificação de imagens, sons, texto, criação de soluções autônomas de navegação de carros e sugestão de produtos têm revirado todas as indústrias e hoje consideramos que vivemos uma nova revolução industrial, a dos dados. Tais soluções nos trazem encantamento, possivelmente por endereçar questões que antes acreditávamos serem só possíveis através da atuação de seres humanos. Dificilmente pensaríamos, fora em obras de ficção científica, que poderíamos ver algoritmos aprendendo a pintar, criar músicas ou mesmo filmes.

Mas não é sobre os algoritmos esse texto. Não é sobre grandes avanços das redes neurais profundas ou de técnicas de árvores de decisão. Gostaria de retomar ao tema que está no próprio nome dessa área, a ciência. A ciência não visa a aplicação de algoritmos ou da construção de soluções, a ciência é um método de pensamento.

Uma das frases que mais lembro da época de minha graduação (da segunda) foi de um professor de controle não linear. Sinceramente, é uma matéria foda difícil, ela mescla séries temporais não lineares e multivariadas e equações não lineares para que processos complexos obtenham resultados esperados (!!!). Só para dar uma ideia, imagine se um piloto de helicóptero precisasse pensar na compensação necessária de todos os rotores que compõem essa máquina complexa? Gostaria de discorrer sobre a engenhosidade dessa solução (pois é extremamente bela), mas não é sobre as equações o texto. Ele dizia, “ciência não é feita de bom senso”.

A ciência por traz dos dados
O rotor traseiro compensa o torque do rotor principal impedindo que o helicóptero gire

É uma afirmação extremamente simples, mas que expõe a base do que é o pensamento científico. Tenho certeza que todos nós levados pelo bom senso não conseguimos aceitar que estamos em uma estrutura rochosa razoavelmente esférica que se desloca no vácuo à uma velocidade de 250Km/s (ou algo do tipo, não fui a fundo nas referências me desculpem). Que, apesar de nossa capacidade ímpar de resolver problemas complexos incluindo pilotar helicópteros construidos utilizando sistemas de equações não-lineares variantes no tempo, somos descendentes de um animal semelhante aos chimpanzés e que antes deles já fomos animais semelhantes à répteis e antes peixes e antes… até que em algum ponto fomos algo como uma ameba que engoliu algo como uma bactéria e que por qualquer motivo aleatório não digerimos. Hoje essa “bactéria” é responsável por toda (maior parte) da energia necessária para que nosso cérebro crie todos algoritmos necessários para pilotar helicópteros, criar quadros, músicas e que invariavelmente conclua que o bom senso nos permite chegar em respostas complexas a respeito do formato da terra ou como nossos clientes se relacionam com nossos produtos ou qual motivo foi responsável por ele cancelar nosso serviço. Desculpe voltar ao tema, mas eu acho algo lindo, essa “bactéria” nos é passada apenas por nossas mães, se não a agradeceu o faça pela linda mitocôndria que você tem.

A ciência por traz dos dados
Microscopia eletrônica evidenciando duas mitocôndrias

Na real mesmo a ciência é um saco, dá muito trabalho. Em primeiro lugar não podemos afirmar nada com absoluta certeza, o que é o maior saco de todos. A ciência é baseada em ciclos de hipóteses e paradigmas, que nada mais é que uma hipótese bem boa de briga que tem o cinturão da categoria. O processo científico funciona nos mesmos moldes do MMA/Boxe: tem um teoria boa, ela vai ganhando algumas brigas pelo caminho e vai subindo nos ranks. Chega uma hora que ela entra no octógono com o paradigma, se a hipótese nova ganha ela vira o novo paradigma. Como no MMA/Boxe, ou qualquer esporte, tem um pessoal que fica meio bravo quando isso acontece, imagina como fica o patrocinador do paradigma antigo nessa hora.

A ciência por traz dos dados
O paradigma parece invencível…
A ciência por traz dos dados
Mas pode ser derrotado

O que ocorre na verdade é o esperado, todo mundo que estava junto com o paradigma antigo começa a olhar por todos os lados a hipótese nova para ver se ela não estava roubando. Será que ela foi construída corretamente? Será que os dados que foram utilizados não estavam enviesados? Basicamente o que acaba acontecendo nesse MMA de artigos científicos são uns remaches: a hipótese nova tem que mostrar que não foi um golpe de sorte (aí mora a necessidade da reprodutibilidade das análises). Ela volta para o ringue algumas vezes e se no final sair vitoriosa mesmo, bom coitado do patrocinador do paradigma antigo. Esse vai ter que mudar para a hipótese nova ou ficar enchendo todo mundo com remaches até que ninguém mais dê mais audiência para isso.

Depois disso tudo, a ideia geral é que sim estamos em uma revolução de dados. Antes o que não era mensurável, hoje encontra-se disponível em APIs documentadas em pacotes no github. Ainda estamos encantados com os dados, ficamos nadando nesta piscina nos deliciando com todas as informações disponíveis. Gostaria de saber… quando vai começar o MMA.