Aprendizado Supervisionado vs. Aprendizado Não-Supervisionado em machine learning

Em machine learning, a ideia básica é utilizar um grande volume de dados — de preferência de qualidade para a finalidade a que se destinam — para que se possa “ensinar” modelos computacionais a tirar conclusões a partir de novos dados.

Este “aprendizado” realizado pela máquina — que, na verdade, exige um árduo trabalho humano, altamente capacitado e específico –, pode ser dividido em 2 tipos: Aprendizado Supervisionado vs. Aprendizado Não-Supervisionado.

Aprendizado Supervisionado

No Aprendizado Supervisionado, os dados de treino utilizados para construir os algoritmos já estão devidamente categorizados com o desfecho de interesse ou com o valor que se quer predizer. Em outras palavras, para cada sujeito, já temos a informação (que se supõe ser verdadeira) ideal, o “output“.

Por exemplo, suponha que nossa intenção seja obter um modelo preditivo de risco de infarto em 1 ano, a partir de dados clínicos pré-definidos. Para tal, devemos alimentar nosso algoritmo com dados de um grande volume populacional, já tendo a correta classificação dos indíviduos quanto à ocorrência de infarto ou não. Outro exemplo de Aprendizado Supervisionado seria um modelo preditivo de peso corporal, a partir de informações como hábitos de vida. Novamente, os dados de treino já devem conter a informação do peso dos indivíduos, para que o algoritmo “aprenda” a chegar neste output ideal.

De modo geral, podemos dizer que no Aprendizado Supervisionado, informamos o “input” (dados de entrada) e o “output” (desfecho), e a missão do algoritmo é chegar a uma função com a máxima acurácia preditiva possível, para que se possa compreender as relações complexas entre as variáveis de “input” (também chamadas de “features“), de modo a chegar ao “output“.

As aplicações do Aprendizado Supervisionado geralmente se concentram em 2 tipos: problemas de classificação e problemas de regressão.

Na classificação, objetiva-se taguear adequadamente os sujeitos de teste em determinada categoria de interesse (grupos “alto risco de infarto” e “baixo risco de infarto”, no exemplo anterior), e na regressão, objetiva-se chegar a um valor numérico contínuo como resultado (valor do peso corporal, no exemplo anterior).

Aprendizado Não-Supervisionado

No Aprendizado Não-Supervisionado, os dados de treino não contêm nenhuma informação de desfecho ou valor numérico como “output“. Apenas são fornecidos os dados de “input” e o objetivo do algoritmo é justamente identificar os padrões de agrupamento entre os indivíduos.

Assim, temos que o objetivo dos modelos baseados em Aprendizado Não-Supervisionado quase sempre é a “clusterização” (agrupamento) dos indivíduos. Mesmo em estudos envolvendo Aprendizado Supervisionado, frequentemente se utilizam técnicas de Aprendizado Não-Supervisionado numa etapa de análise exploratória de dados, para que se compreenda a estrutura básica dos dados de trabalho.

Aplicação do Aprendizado Não-Supervisionado. Adaptado de: https://cmdlinetips.com/2019/05/k-means-clustering-in-python/

Outra aplicação do Aprendizado Não-Supervisionado é a redução de dimensionalidade, que consiste em reduzir a quantidade de “features” utilizadas na modelagem subsequente dos algoritmos, de modo a poupar tempo e recursos computacionais — tipicamente intensivos e diretamente relacionados ao volume de dados de treino.

Resumo

A figura abaixo sintetiza graficamente os principais tópicos abordados neste artigo:

Na Lean Saúde, trabalhamos tanto com Aprendizado Supervisionado como com Aprendizado Não-Supervisionado, ao longo da construção e refino dos modelos preditivos aplicados à gestão de saúde.