Aprendendo Data Science – Episódio 5 – Os 3 passos básicos para definir um problema binário

Alguma vez você já parou para pensar quais os problemas que existem em um determinado domínio(saúde, educação, segurança, financeiro)? Se você já parou para pensar em algum problema, possivelmente você já parou para pensar se aquilo que você propos de fato é um problema que atende algumas destas características:

1. É relevante?

Se o seu problema somente interessa à um grupo pequeno de pessoas( sua família, você , seus amigos próximos), muito provavelmente seu problema é irrelevante cientificamente, o que não agrega valor algum ao seu trabalho, logo, existem alguns questionamentos que podem levar a uma maior clareza sobre a relevância do seu projeto e são bem “senso-comum”:

– Este problema já foi abordado em algum artigo científico?

– A mesma área possui problemas distintos mas que você possa utilizar uma abordagem semelhante?( ex: Classificar se existe um surto de tuberculose em determinada região através da mineração da timeline do Twitter

– O problema está em alta nas discussões da grande massa e ainda não existe projetos divulgados?

– Quem isto ajudará? (lembre-se que somos um “projeto meio” , estamos aqui para mostrar caminhos e ajudar na tomada de decisões).

2 . É atingível?

Ok, no caso das pessoas que cursam uma cadeira na sua Universidade de mineração , isto é, de fato, um problema relevante tendo em vista que temos pouco tempo para conseguir uma base de dados e ler sobre, aprender o que cada variável representa, etc. Contudo, novamente, o conhecimento da literatura do problema ajuda a entender melhor o domínio e esclarecer o que é atingível e se os dados conseguem nos contar alguma coisa, além do fato que, se você pesquisar por novas bases , você poderá agregar novos dados à sua base inicial.

3 . É Binário?

Definir um problema Binário é extremamente complicado e parece ser um desafio presente em todos que estão à aprender o que é mineração (eu mesmo pensei que um “descriptive analyses” era mineração! which is not!), então, mesmo que seu sistema faça o Jiraya das predições, se você propôs resolver um problema binário, que ele pelo menos seja Binário!

Exemplos : “Houve uma acidente em uma via , e existem dois tipos de ambulâncias, uma para acidente graves e outra para acidentes não-graves, eu devo ajudar na decisão sobre qual ambulância levar, então o meu sistema avalia: o acidente é grave ou não é?”.

 

Espero que vocês tenham pensado um pouco sobre o processo de encontrar um problema e caso exista alguma crítica, correção ou elogio ao texto, agradeço o feedback. Abraços!

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s