Fundamentos de Data Science
- 30 de jan. de 2018
- 2 min de leitura
Fundamentos de Data Science
A ciência de dados apresenta como fundamentos analisar volumes de dados e produzir alguma informação a partir disso. Tais análises usam de artifícios matemáticos para gerar resultados, e Storytelling[1] para analisar os resultados e criar conclusões a partir deles.
Existem 3 tipos básicos de problemas a serem resolvidos em Data Science: Problemas de Classificação, Problemas de Regressão e Problemas de Previsão.
Problemas de Classificação
Os Problemas de Classificação são fáceis de compreender.
Imagine que você tenha objetos de diferentes cores, e tenha que agrupá-los por cor. Contudo, ninguém te contou qual é o padrão de separação. A única referência que você tem são caixas que já possuem os objetos separados por cor.
Para organizar esses grupos então, você parte do princípio de observar conjuntos que já estão previamente separados, com isso você compreende e aprende qual é o padrão de separação utilizado anteriormente. Você utiliza a sua visão que recebe os dados de cor de cada objeto, e seu cérebro reconhece o padrão. Esse padrão é então aplicado para separar novos objetos.
Quando utilizamos computadores, os dados podem ser eventualmente transformados em dados numéricos. Logo, existem ferramentas matemáticas que reconhecem alguns tipos de padrões. Esse tipo de solução pode ser usada, por exemplo, na classificação de tumores benignos ou malignos com base em dados de autópsia.
Problemas de Regressão e Previsão
Os Problemas de Regressão procuram encontrar como se relacionam determinadas informações. Isso significa: buscar uma função matemática que correlaciona essas informações ou dados. Uma expansão importante dos problemas de Regressão são os Problemas de Previsão. No caso dos problemas de previsão, também procura-se uma função matemática que correlacione os dados. A expansão desses problemas é que procura-se prever quais seriam os próximos dados a partir disso. Ou seja, você analisa seus dados antigos determina um padrão e com isso tenta prever acontecimentos futuros, um exemplo seria prever desastres naturais baseados em condições mensuráveis, ou mesmo qual time de futebol deverá ter um bom desempenho durante a temporada.
Onde começar a aprender?
E agora? Por onde começar a estudar antes de se meter a fazer cursos oferecidos no Coursera/edX/etc, como o da USP e de universidades internacionais, e que oferecem conteúdos ainda mais especializados em Data Science?
A Ciência de Dados precisa de vários conhecimentos de áreas diferentes. É necessário ter base de Programação, Estatística, Cálculo e Álgebra linear. Ainda que não use profundamente todas os conceitos e teorias no início, saber o máximo que puder vai facilitar a vida e imersão na área de Ciência de Dados.
Existem vários sites onde podemos aprender os fundamentos de Data Science.
Se você está começando nessa aventura eu indico o site https://www.bigdatauniversity.com.br/
Vale lembrar que o Coursera possui um curso bem completo oferecido pela Johns Hopkins University.
Para testar seu conhecimento podemos usar como playground e participar de competições no site Kaggle.
Divirta-se e se aproxime da profissão mais sexy do século XXI.
[1] Storytelling é uma palavra em inglês, que está relacionada com uma narrativa e significa a capacidade de contar histórias relevantes. Em inglês a expressão "tell a story" significa "contar uma história" e storyteller é um contador de histórias.
Até a próxima...







Comentários