Lean News

Aprendizado Supervisionado vs. Aprendizado Não-Supervisionado em machine learning

O aprendizado supervisionado e o aprendizado não-supervisionado são os dois tipos principais de treinamento usados em machine learning. No primeiro, os dados de treino já vêm rotulados com o resultado que se quer prever. No segundo, os dados não têm rótulo, e o algoritmo busca sozinho os padrões de agrupamento. Em saúde, ambos sustentam modelos preditivos aplicados à gestão clínica e operacional.

Em machine learning, a ideia básica é usar um grande volume de dados, de preferência de qualidade para a finalidade a que se destinam. Com isso, conseguimos “ensinar” modelos computacionais a tirar conclusões a partir de novos dados.

Esse “aprendizado” realizado pela máquina, que na verdade exige um árduo trabalho humano, altamente capacitado e específico, divide-se em dois tipos. Assim, temos o aprendizado supervisionado vs aprendizado não-supervisionado, que as seções a seguir detalham.

O que é aprendizado supervisionado?

No aprendizado supervisionado, os dados de treino que constroem os algoritmos já estão devidamente categorizados com o desfecho de interesse ou com o valor que se quer predizer. Em outras palavras, para cada sujeito, já temos a informação ideal, que se supõe ser verdadeira, ou seja, o “output“.

Por exemplo, suponha que a intenção seja obter um modelo preditivo de risco de infarto em um ano, a partir de dados clínicos pré-definidos. Para isso, devemos alimentar o algoritmo com dados de um grande volume populacional. Nesse caso, esses dados já trazem a correta classificação dos indivíduos quanto à ocorrência de infarto ou não.

Outro exemplo dessa técnica seria um modelo preditivo de peso corporal, a partir de informações como hábitos de vida. Novamente, os dados de treino já devem conter a informação do peso dos indivíduos. Dessa maneira, o algoritmo “aprende” a chegar nesse output ideal.

No geral, podemos dizer que nessa modalidade informamos o “input” (dados de entrada) e o “output” (desfecho). A missão do algoritmo é chegar a uma função com a máxima acurácia preditiva possível. Assim, conseguimos compreender as relações complexas entre as variáveis de “input“, também chamadas de “features“, de modo a chegar ao “output“.

As aplicações desse modelo de treino geralmente se concentram em dois tipos: problemas de classificação e problemas de regressão.

Na classificação, o objetivo é taguear adequadamente os sujeitos de teste em determinada categoria de interesse. No exemplo anterior, seriam os grupos “alto risco de infarto” e “baixo risco de infarto”. Na regressão, por outro lado, o objetivo é chegar a um valor numérico contínuo como resultado, como o valor do peso corporal já citado.

Em resumo, o aprendizado supervisionado treina o algoritmo com exemplos já rotulados para prever classes ou valores numéricos em dados novos.

O que é aprendizado não-supervisionado?

No aprendizado não-supervisionado, os dados de treino não contêm nenhuma informação de desfecho ou valor numérico como “output“. Nesse caso, o algoritmo recebe apenas os dados de “input“. Portanto, seu objetivo é justamente identificar os padrões de agrupamento entre os indivíduos.

Assim, o objetivo dos modelos baseados nessa técnica quase sempre é a “clusterização”, ou agrupamento, dos indivíduos. Além disso, mesmo em estudos que envolvem aprendizado supervisionado, os pesquisadores frequentemente aplicam técnicas não-supervisionadas numa etapa de análise exploratória de dados. Dessa forma, compreendem a estrutura básica dos dados de trabalho.

Outra aplicação dessa abordagem é a redução de dimensionalidade. Ela consiste em reduzir a quantidade de “features” que alimentam a modelagem subsequente dos algoritmos. Por isso, economiza tempo e recursos computacionais, tipicamente intensivos e diretamente relacionados ao volume de dados de treino.

Em resumo, o aprendizado não-supervisionado encontra padrões e agrupamentos em dados sem rótulo, sem que ninguém informe um desfecho de antemão.

Qual a diferença entre os dois tipos de aprendizado?

A diferença central está na presença de rótulos nos dados de treino. No supervisionado, o algoritmo conhece o “output“, que recebe de antemão. No não-supervisionado, por outro lado, esse desfecho não existe, e o próprio algoritmo precisa identificar a estrutura dos dados. Por isso, o primeiro serve para previsão, e o segundo, para exploração e agrupamento.

Resumo

Na Lean Saúde, trabalhamos tanto com aprendizado supervisionado quanto com aprendizado não-supervisionado. Aplicamos ambos ao longo da construção e do refino dos modelos preditivos aplicados à gestão de saúde. Além disso, essas técnicas também apoiam soluções como a gestão de pacientes internados e do tempo de permanência. Para aprofundar outros temas de predição e inteligência artificial em saúde, vale acompanhar o blog da Lean Saúde.