Data Science – Uma forma inteligente de análise da informação

19 de jan. de 2018
2 min de leitura

Vivemos atualmente uma nova e diferente realidade de qualquer outra já vivida anteriormente, grandes volumes de dados são anualmente produzidos saltamos de Petabyte para o Zettabyte num piscar de olhos. Essa imensidão de dados esconde uma realidade: assim como fazemos com o nosso lixo, não estamos tratando de forma correta as informações que armazenamos, não analisamos os dados que produzimos, o que torna esse grande volume de dados "lixo não tratado".

Porque essa comparação com "lixo" já que uma soma importante de dinheiro é gasta anualmente pra produzir e armazenar dados? Justamente pra tentar dar uma ótica do quão falho é o ser humano na maioria das coisas que produz, chegando um dia a desprezar tudo aquilo que foi acumulado durante o tempo.

Em Junho de 2016 uma reportagem do Jornal Econômico já destacava: "As empresas têm um manancial de informação da qual não conseguem retirar valor. São dados, muitas vezes não estruturados, guardados em servidores", continua a reportagem "Em 2013, o volume de dados gerado anualmente era de “apenas” 4,4 zetabytes. Em 2020, deverá ascender a 44 zetabytes, segundo um estudo da IDC.A maioria destes dados é não estruturada, mas cerca de metade têm valor em termos de negócio e está inacessível.".

"Um Zettabyte é uma unidade de informação ou memória. Ele corresponde a 1.000.000.000.000.000.000.000 (1021) ou 1180591620717411303424 (270) Bytes, dependendo do contexto. Para não haver confusão, foi criada uma nova nomenclatura para diferenciar valores em base 10 e os em base 2. Acima dessa apenas temos o Yottabyte" (fonte: Wikipédia)

A cada dois anos, a humanidade duplica os dados criados desde sempre, é óbvio que precisamos dar resposta a este desafio de negócio. Para Fernando Dias, solutions director da Oracle Portugal, isso é mais que um desafio, é “uma oportunidade única que as empresas têm de se diferenciarem no mercado”

Sob a luz desse desafio, surgiu uma nova área de desenvolvimento focada em analisar e fazer previsões a partir de dados.

Como podemos verificar na figura acima, existe uma enorme variedade de conceitos que compõem o campo de Ciência de Dados. Entre elas podemos citar:

Machine Learning (Aprendizado de Máquina)
Reconhecimento de Padrões
Análise Preditiva
Big Data
Inteligência Artificial
Algoritmos Genéticos
Otimização

Estes são alguns exemplos interessantes de aplicações que requerem estudos de Data Science, o que nos leva a concluir que: Data Science não é uma ferramenta, é um conjunto de métodos, que eu diria que foi evidenciado pelo Big Data.

Data Science, que podemos traduzir para português diretamente como “Ciência de Dados”, é um campo interdisciplinar. Que seria uma forma de conseguir extrair conhecimento ou Insights de dados, usando maneiras variadas. O cientista Jim Gray alegava que a ciência direcionada por dados era o quarto e novo paradigma da ciência.

“O Impacto do pensamento de Jim Gray está continuamente levando pessoas a pensar em novas maneiras sobre como dados e software estão redefinindo o que significa fazer ciência.” — Bill Gates, Microsoft Corporation

Mas o que faz essa tal "Ciência de Dados"? A resposta seria, coleta dados de várias fontes, analisando e ajudando na tomada de decisões de forma preditiva e em grandes quantidades, ou seja, prever, planejar, mas é importante ressaltar que planejamento não é certeza nunca.

Próximo post falaremos sobre