Aprendendo Data Science – Episódio 6 – onde achar aquilo que procuro?

Google. Esta é a ferramenta número 1 de um bom pesquisador hoje em dia, é inegável o quanto de informação está contida dentro desta ferramenta. Mas não acho que você está aqui para pesquisar “Gatos tocando piano” , certo? O nosso foco estão em dados que (talvez) possamos extrair algum conhecimento. E neste post irei mostrar pra vocês algumas fontes de dados públicos que podemos utilizar para aprimorar nossas técnicas.

dados.gov.br

Então, o que é o dados.gov.br? Nas próprias palavras do portal: “O Portal Brasileiro de Dados Abertos é a ferramenta disponibilizada pelo governo para que todos possam encontrar e utilizar os dados e as informações públicas. O portal preza pela simplicidade e organização para que você possa encontrar facilmente os dados e informações que precisa. O portal também tem o objetivo de promover a interlocução entre atores da sociedade e com o governo para pensar a melhor utilização dos dados em prol de uma sociedade melhor.”

Nereus

Este site possui uma lista bem interessante de fontes de dados públicos e sumariza bem o que quero abranger neste post.

E por último, este link, para aqueles que gostam de ir way beyond:

https://www.opensciencedatacloud.org/publicdata/

Adoraria ouvir a contribuição de vocês para conhecer novas fontes de dados.

Eu ainda estou esperando os dados do SINAN para prosseguir com meu projeto, e tenho um prazo de uma semana e meia para realizar um plano B caso os dados não cheguem antes disso, me desejem sorte pessoal, que a situação está complicada. Abraços à todos.

 

Aprendendo Data Science – Episódio 5 – Os 3 passos básicos para definir um problema binário

Alguma vez você já parou para pensar quais os problemas que existem em um determinado domínio(saúde, educação, segurança, financeiro)? Se você já parou para pensar em algum problema, possivelmente você já parou para pensar se aquilo que você propos de fato é um problema que atende algumas destas características:

1. É relevante?

Se o seu problema somente interessa à um grupo pequeno de pessoas( sua família, você , seus amigos próximos), muito provavelmente seu problema é irrelevante cientificamente, o que não agrega valor algum ao seu trabalho, logo, existem alguns questionamentos que podem levar a uma maior clareza sobre a relevância do seu projeto e são bem “senso-comum”:

– Este problema já foi abordado em algum artigo científico?

– A mesma área possui problemas distintos mas que você possa utilizar uma abordagem semelhante?( ex: Classificar se existe um surto de tuberculose em determinada região através da mineração da timeline do Twitter

– O problema está em alta nas discussões da grande massa e ainda não existe projetos divulgados?

– Quem isto ajudará? (lembre-se que somos um “projeto meio” , estamos aqui para mostrar caminhos e ajudar na tomada de decisões).

2 . É atingível?

Ok, no caso das pessoas que cursam uma cadeira na sua Universidade de mineração , isto é, de fato, um problema relevante tendo em vista que temos pouco tempo para conseguir uma base de dados e ler sobre, aprender o que cada variável representa, etc. Contudo, novamente, o conhecimento da literatura do problema ajuda a entender melhor o domínio e esclarecer o que é atingível e se os dados conseguem nos contar alguma coisa, além do fato que, se você pesquisar por novas bases , você poderá agregar novos dados à sua base inicial.

3 . É Binário?

Definir um problema Binário é extremamente complicado e parece ser um desafio presente em todos que estão à aprender o que é mineração (eu mesmo pensei que um “descriptive analyses” era mineração! which is not!), então, mesmo que seu sistema faça o Jiraya das predições, se você propôs resolver um problema binário, que ele pelo menos seja Binário!

Exemplos : “Houve uma acidente em uma via , e existem dois tipos de ambulâncias, uma para acidente graves e outra para acidentes não-graves, eu devo ajudar na decisão sobre qual ambulância levar, então o meu sistema avalia: o acidente é grave ou não é?”.

 

Espero que vocês tenham pensado um pouco sobre o processo de encontrar um problema e caso exista alguma crítica, correção ou elogio ao texto, agradeço o feedback. Abraços!

Learning Data Science – Episode 2 – Addressing a problem

Hey guys, as I said on the last post “What Am I Trying?” , I’m trying to become a data scientist, but I need DATA for it, so I was looking as crazy for good datasets around to see If I could some a health problem or research something about it. I’m trying to look at papers from around the word such as this one : http://ac.els-cdn.com/S1532046415000362/1-s2.0-S1532046415000362-main.pdf?_tid=02c3a27e-dad0-11e4-93bc-00000aab0f27&acdnat=1428154946_0fd4965497770bd1aeaa62c0dca87e2a

But it’s rather difficult to find appropriate data here in Brazil to support my objectives ( but I won’t give up too soon ) , indeed, I’m looking for some instituitons and their research to ask if they can provide me something, I can’t tell anything about it now. The problem is, I don’t know which kind of problem to address, which to me, seems way harder than I thought it would be. But I think it’s great to find those challenges soon because I can understand better what is coming next anyways.

Another thing is: If you address a problem, then you have to look for data to support it, and that’s always come in an usual way. I’m thinking about using social media data to gather information (using Text Mining) , maybe I can make? Who knows? I’m just looking for help everywhere I can to learn more about health problems that face my society and try to apply data mining to solve something.

Maybe I am at the right way?

 

 

Aprendendo Data Science – episódio 4 – DATASETS, DATASETS!

Saber onde começar é uma das partes mais difíceis em qualquer processo, especialmente os criativos, então tive um grande problema quando achei a área de mineração de dados e quis estudar sobre ela. Tive a sorte de estudar no CIn – Centro de Informática, aqui na UFPE, e encontrei uma cadeira chamada “Mineração de Dados” ministrada pelo professor Jorge Paulo Adeodato.

E estou decidido à trabalhar com data mining voltado para saúde ou atividade física, infelizmente minha primeira tentativa não foi tão bem sucedida, achei que conseguiria indiciar onde “seria o melhor bairro para colocar uma academia da cidade” , contudo, o grão “Bairro” possui poucas unidades (utilizando a base de academia da cidade ,e os dados do samu),   então não possui significância estatística para mineração. Mas segundo o professor posso escolher datasets estrangeiros e propor problemas relevantes que eles abordaram e abordar aqui no Brasil de uma forma diferente( um copy-cat), veremos o que sai.  Mas com esta pesquisa achei bons datasets como:

https://catalog.data.gov/dataset (Dados do governo americano,simplesmente 124k+ DATASETS!!!)

http://datahub.io/dataset ( um GitHub somente para datasets? sort of, tem muito missing dataset mas parece ser um projeto promissor.)

http://www.nlm.nih.gov/hsrinfo/datasites.html#524Federal (Um Index de datasets sobre saúde, pode ser interessante pesquisar sobre)

E finalmente, alguns bons artigos que achei:

http://journals.plos.org/plosntds/article?id=10.1371/journal.pntd.0001258

http://www.cs.jhu.edu/~mdredze/publications/twitter_health_icwsm_11.pdf

Ambos utilizam data mining em análise de SMN(Social Media Networks) para prever surtos de doença, espero que vocês curtam as aplicações de IA.

Espero vocês que curtam as novidades deste post, abraços.