Quem é o Cientista de Dados?

A indústria vive reinventando nomes, quando migrei do mundo acadêmico para o empresarial a palavra da moda para descrever a implementação de métodos analíticos era Data Mining. Éramos chamados de mineradores de dados numa tentativa de descrever nosso trabalho como extração de ouro dos dados. Nos últimos tempos, com a popularização destas soluções surge uma nova palavra: Data Science… subimos então de nível!?

A palavra cientista realmente combina mais com nosso perfil profissional, mesmo que as vezes chegue a ser vulgarizada. Recentemente, em um evento de Big Data, quando perguntado sobre os métodos de Data Science, o palestrante respondeu que -basicamente- se resumia em “conectar uma serie de caixinhas e escolher qual era a melhor”… Doeu nos ouvidos!, se é para trocar caixinhas bastaríamos ser operadores de empilhadeiras!!!… O Data Science é sinônimo de método científico, é o processo contínuo de aprendizagem, é previsão e otimização de decisões… 

 “O Data Science é o processo contínuo de aprendizagem”

Sempre que surge o debate sobre qual seria o perfil adequado para desenvolver o Data Science, encontramos quatros principais características que deveria ter o profissional que deixa ele um verdadeiro unicórnio.

  1. Saber teoria matemática e estatística.
  2. Ser um bom programador e conhecedor de bancos de dados.
  3. Entender do tema ou negócio que está sendo estudado.
  4. Saber comunicar.

E quando conferimos as profissões a comparação clássica sempre é entre o estatístico versus o especialista em computação, mas existem outros….

Estatístico domina profundamente a teoria, sobretudo a medição das incertezas que é fundamental para separar o sinal do ruído, já que facilmente caímos na armadilha de estarmos encontrando padrões no próprio ruído. Geralmente não são bons programadores, por isso uma complementação deixaria o perfil muito completo. 

Em contraposição estão os especialistas em computação, os chamados Programadores (pensam em algoritmos). São muito hábeis em implementar estruturas complexas de machine learning e métodos paralelos do Big Data. Mas observamos dificuldades em relação à teoria e na hora de resumir uma extração de conhecimento de negócio ou responder sobre eventuais desvios nos modelos. 

Matemáticos (os “aplicados”) são um perfil bem completo. Frequentemente são bons programadores e com pensamento abstrato tão agudo que às vezes vira um problema quando é preciso explicar o modelo de forma simples a um cliente.

Físicos (a ciência mãe): gosto deles!, que enxergam tudo como um fenômeno, com sua origem, desenvolvimento e abrangência. Problemas clássicos de abandono de clientes são vistos com o mesmo prisma da mecânica quântica, no final cada cliente pode ser observado como partícula e onda ao mesmo tempo. Também gosto pela beleza que procuram nas equações, modelo bom tem que ser bonito! – todo físico sabe disso…

Biólogos (ou físicos da vida): adoro a visão de incorporar analogias do comportamento dos seres vivos nas análises… no final quase sempre estamos modelando seres vivos! A quem ocorre a ideia de modelar o efeito da frequência de exposição da mídia utilizando uma forma funcional do efeito do fertilizante sobre numa planta?…

Engenheiros ( práticos: 2+2=3.9 pode ser uma ótima solução). Muitos dos métodos usados no Data Science foram criados por engenheiros diante da necessidade de resolver problemas concretos. O cientista de dados tem que ser sempre um pouco engenheiro, ao final lidamos com projetos e tempos e como qualquer profissão precisamos ser rentáveis. Aqueles engenheiros provenientes de áreas de controle ou processamento de sinais já trazem uma bagagem em técnicas bastante completa para o Data Science.

Economistas. As vezes muito criticados, mas são eles que têm a coragem de explicar as coisas que ninguém se atreve… incorporam a visão filosófica das teorias econômicas fundamental na modelagem, especialmente se são bons em econometria. 

Psicólogos. Depois que Daniel Kahneman – psicólogo ganhador do Nobel em Economia – acho que é próximo perfil que estará de moda no mundo do Data Science, já que a maioria dos projetos é precisamente prever o comportamento humano. O entendimento do ser humano com suas decisões irracionais será fundamental para o melhoramento dos modelos.

Independentemente da palavra de moda para designar o trabalho da análise de dados, uma coisa estou seguro, todos seremos Centauros!… Data Centauros!

Nos últimos tempos leio centenas de matérias sobre a avalanche da inteligência artificial (AI), alguns inclusive em tons alarmistas de como ela se converterá em diferencial competitivo nas empresas. Mas pensemos bem, os algoritmos em algum momento serão facilmente reproduzíveis e estarão comoditizados…. Qual vai ser então o diferencial?

Sem dúvida, a Inteligência Natural (NI) será a chave, ela será cada vez mais valorizada, ela sim é que não é barata, precisa ser concebida, alimentada, educada e treinada. Mas sem equívoco, ela será amplificada com a AI, criando um novo tipo de inteligência híbrida. Seremos centauros, como nos campeonatos de xadrez de Garry Kasparov, onde competem – homem & máquina – contra -homem & máquina. Neste campeonato, pressupõe-se que a pessoa tenha que ser um ótimo jogador de xadrez, e não adianta ser apenas um mero operador de computador. 

Para nos prepararmos para o futuro não basta empregar os algoritmos de inteligência artificial como simples caixas pretas sem saber questionar, criticar e modificar seus resultados.

Muito novos perfis serão atraídos a este fascinante mundo: administradores, jornalistas, médicos, inclusive já surgem faculdades específicas sobre a profissão. De qualquer maneira, é na interseção de fronteiras de conhecimento onde a inovação prevalece… por isso acreditamos na mescla de perfis e na contraposição de visões de pensamento, baseadas sempre no método científico.