Data Science – ciência ou engenharia?

Data Science – ciência ou engenharia?
Ciência de Dados / Data Analytics

Data Science – ciência ou engenharia?

O termo Data Science, normalmente traduzido para Ciência de Dados, tornou-se viral nos últimos anos, quase sempre envolto num clima de reverência e mistério. Na maioria das vezes em que é usado, aparece conjugado, para não dizer confundido, com os termos Inteligência Artificial e Machine Learning (Aprendizagem Automática). Na verdade, o furor associado aos termos é merecido, mas carece de esclarecimento.

 

O que é a Ciência de Dados?

A ciência de dados aborda “o processo de extração não trivial de informação implícita, previamente desconhecida e potencialmente útil subjacente a grandes quantidades de dados” [1], como foi proposto na década de 90, sob a égide de outra nomenclatura, nomeadamente knowledge discovery in databases ou simplesmente data mining.

Nasce da confluência de todas as atividades de manipulação de dados no contexto organizacional, desde o desenho e criação de bases de dados (data engineering) até à descoberta de informação (data mining), passando pela sua análise (data analysis) e preparação (data wrangling). Ora, a natureza distinta das várias tarefas exige a utilização de ferramentas diferentes.

É desta necessidade que a ciência de dados aparece frequentemente como a interseção da Engenharia Informática (em particular da Aprendizagem Automática), da Matemática (em particular da Estatística) e do conhecimento específico do domínio de aplicação.

 

Mas a ciência de dados é arte, ciência ou engenharia?

A relevância económica da ciência de dados na generalidade das atividades produtivas, mas também a falta de engenheiros informáticos em geral, e especializados nesta área, em particular, tem levado a que a ciência de dados seja aplicada por não-engenheiros muitas vezes, para não dizer demasiadas.

É assim habitual vermos definições de ‘cientista de dados’ como sendo um engenheiro informático que sabe mais de estatística do que o habitual, ou um estatístico que sabe melhor programar do que a maioria. Aliado a este facto, a necessidade de conhecimento do domínio para avaliar e validar os resultados, tem contribuído significativamente para manter a aura de ‘arte de descobrir o que não sabemos sobre os dados’ [2]

Mas a engenharia de dados, a sua transformação e posterior manipulação para descoberta de informação, são inequivocamente operações de engenharia e não tarefas que possam ser eficazmente abordadas apenas com ciência ou perícia. Em particular, a descoberta de informação advém quase exclusivamente da aplicação de algoritmos de Aprendizagem Automática, propostos e desenvolvidos pela comunidade de Inteligência Artificial, quase todos há décadas. O desafio não é, portanto, científico, mas sobretudo de engenharia, com a escolha e parametrização mais adequada dos algoritmos para o problema em análise, mas também pela adoção das metodologias mais avançadas de engenharia informática para abordar as tarefas mais eficientemente, e de modo a reutilizar os processos. De facto, a falta de princípios de engenharia por detrás da aplicação da ciência de dados tem originado um conjunto de ineficiências e resultados aquém das expetativas.

Na verdade, começa agora a surgir uma nova profissão – a de Machine Learning engineer, cujas características evidenciam a necessidade de engenheiros para levar a tarefa a bom porto. A par deste novo movimento, começam a surgir vozes a pedir profissionais capazes de desenhar e implementar processos sistemáticos para transformar dados em informação, seguindo os princípios fundamentais de engenharia.

 

[1] Frawley 1992, ‘Knowledge Discovery in Databases: An Overview’. AI Magazine Volume 13 Number 3 (1992) (© AAAI)

[2] Carlos Somohano, founder of Data Science London

 

Este artigo de opinião foi publicado na Ingenium – Revista da Ordem dos Engenheiros

PROGRAMA DE ESPECIALIZAÇÃO

Data Science para Engenheiros (DaSh)

Esta pós-graduação em data science destina-se a todos os profissionais licenciados que entendam os fundamentos básicos de linguagens de programação, como o phyton, permitindo-lhes dar os primeiros passos no vasto mundo do data science.

Esta caminhada inicia-se com a aquisição dos conceitos fundamentais na área, as suas práticas essenciais e os seus mecanismos de avaliação mais seguros. Este programa é constituído por vários Cursos de Especialização, de forma a poder ser adaptado a cada tipo de conhecimento e percurso nesta área, além de serem em formato 100% online, permitindo-o(a) realizá-los ao seu ritmo e em qualquer parte do mundo. Estes cursos têm uma abordagem muito prática, pelo que a pós-graduação permite uma aprendizagem eficaz e capacitadora para entrar numa nova profissão.

Categorias:

Subscreva a nossa newsletter

Receba informações sobre cursos, artigos e eventos do Técnico+

GDPR

PROCURAR CURSOS E PROGRAMAS

BEM-VINDO!

A sua subscrição foi efetuada com sucesso!

Verifique o e-mail de boas-vindas na sua caixa de correio.