Learning Data Science – Episode 1 – What am I trying?

So, here is my new(and first one) series “learning data science” and it’s all about me, felipe bormann, an undergraduate student on his first year of University, trying to learn a new field which no ones has interest on it (in my University, if it wasn’t relevant nowadays I wouldn’t even hear about it in the first place).

So, I’m doing a course in my University called “Support Decision Systems and Data Mining” (Free translation) and I’ll tell you all the challenges I face through it. And I’m inviting you, from a proper/or not data scientist to a high school student interested on the topic, to help me out with resources or learn form the ones I post here.

I’d appreciate if I could find someone to cooperate on this learning proccess, I hope you find my resources and stuff really useful.

And the first one is: visit http://www.kdnuggets.com , see you all.

Aprendendo Data Science – episódio 3 – R, o que posso fazer?

Então pessoal, neste semestre eu irei pagar uma cadeira chamada Estatística , e ela tem uma linguagem, muito utilizada dentro de alguns processos da mineração ,  chamada R.

Eu vou tentar mostrar à vocês alguns pequenos gráficos que construirei na aula de estatística e em casa, aplicando alguns conceitos, espero que curtam e me ajudem nessa. Para começar à aprender , resolvi utilizar alguns datasets online e ler o livro “Using R for Statistics”.

O dataset utilizado foi o RcmdrTestDrive , baixado em: http://cran.r-project.org/web/packages/RcmdrPlugin.IPSUR/ , o processo é bem simples. Tentarei fazer algumas medidas estatística simples e necessárias que(quase) sempre fazem parte do processamento de dados.

A função summary() nos dá uma boa ideia dos dados que o nosso data.frame possui, dependendo do como o R interpretou os dados que recebeu , o que é história para outro post. Ao chamar summary(RcmdrTestDrive) isto é o que recebo como visualização:

Screen Shot 2015-03-22 at 1.24.47 AM

É fácil de perceber que além de distinguir variáveis categóricas das númericas, ele consegue trazer valores simples como mínimos, máximos, classes(um conceito de R para diferenciar as categorias), enfim, um “summary” do dataset que eu tenho.

Essa e algumas outras funções estatísticas simples estão espalhadas por todo o R, vou mostrar mais algumas nos próximos episódios, espero que vocês tenham curtido um pouco do que R pode fazer, no próximo post trarei novos scripts, após pesquisar na amazon achei os livros mais bem citados e aqui vai uma lista pra quem se interessar:

“SELECT link FROM Books ORDER BY Rating DESC”:

http://www.amazon.com/The-Art-Programming-Statistical-Software/dp/1593273843

 

Abraços!

 

 

Aprendendo DataScience – Episódio 2

Espero que esta série de episódios der certo, deu para perceber sou fã de séries númericas (hehe) , enfim, no episódio 2 irei falar um pouco sobre o que eu vejo sobre Data Science e porque decidir estudar esta área.

Porque estudar data science?

Primeiro vamos entender o que é Data Science: “Extrair conhecimento (knowledge) a partir de uma quantidade enorme ou não, de informação”. Sim, and what? Basicamente, perguntar a “pergunta certa”, entender o que queremos ou descobrir, esses são os deveres e funções de um Data Scientist.

Porque eu irei estudar data science?

Primeiro, gosto de saber das coisas e ter informação mas jornalismo é uma profissão muito tendenciosa aqui no Brasil, mas sempre tive um pé na tecnologia e Data Science une os dois(e muitas outras áreas) o que me atrai significativamente, além disso uma pesquisa do McKinsey Global Institute indica que haverão entre 4 e 5 milhões de postos de trabalho para data scientists. E trabalhos muito bem pagos por sinal (em torno de 110k/ano).

Então é isto pessoal, Data Science é uma área interessante, quem quiser saber mais sobre Data Science aqui vai um link: http://goo.gl/Qwe8mK.