TIPOS DE APRENDIZADO DE
MÁQUINA

Luis Tobler Garcia

AGRICULTURA 4.0

Em um de meus artigos, abordei o tema Inteligência Artificial, onde foram descritos os conceitos e
bases desta área de conhecimento, tão atual para os dias de hoje e que envolve subáreas, entre as quais, temos o Aprendizado de máquina”. O aprendizado de máquina é uma subárea da inteligência
artificial que se apropriou de diversos métodos matemáticos e estatísticos em busca de gerar aprendizado através do processamento de dados que descrevem algum fenômeno. Para atingir esse objetivo, são feitos uma enorme quantidade de cálculos, na tentativa de realizar uma determinada tarefa, promovendo o aprendizado como consequência da análise dos resultados e dos erros gerados.
Dentro da área de aprendizado de máquina, há diversos tipos de algoritmos. Entre eles, os algoritmos de classificação, agrupamento, regressão, busca por padrões e predição, os quais podem
ser divididos em algoritmos supervisionados, algoritmos não supervisionados e algoritmos de aprendizagem por reforço. Como tema deste artigo, irei discorrer sobre algoritmos de classificação, os quais fazem parte da classe dos algoritmos supervisionados.
Os algoritmos supervisionados aprendem processando amostras de dados que apresentam características de determinados fenômenos e também apresentam as informações que desejamos fazer o computador aprender a identificar sozinho. Como exemplo, imaginaremos uma amostra de dados contendo as larguras e os comprimentos das sépalas e das pétalas de três espécies de flores. Nesta amostra, cada indivíduo será representado por uma linha contendo quatro características e a espécie da planta associada a estas características. Entre os algoritmos supervisionados, citaremos o caso dos algoritmos de classificação, cujo objetivo é separar as linhas de uma amostra de dados em diferentes classes, de acordo com as características de cada indivíduo da amostra.
Para obter esse resultado, a amostra de dados é separada em duas partes, sendo a primeira parte usada para uma tarefa chamada de “treinamento”, durante a qual, o algoritmo usa uma estratégia,
reproduzida através de cálculos matemáticos, feitos pelo computador, com o propósito de desenvolver a habilidade de identificar as espécies conhecidas através de suas características de forma automática.
Na sequência, a segunda parte da amostra é utilizada para uma tarefa chamada de “teste”, durante a qual o algoritmo processa essa segunda amostra com o objetivo de identificar a espécie de cada indivíduo, utilizando as características destes indivíduos e o aprendizado adquirido na etapa anterior. A separação da amostra em duas partes é necessária para que o algoritmo possa validar a performance dos resultados obtidos com dados que não foram usados para o treino e, portanto, não irão viciar os resultados.

“Aprendizado de máquina é uma subárea da inteligência artificial que se apropriou de diversos métodos matemáticos e estatísticos em busca de gerar aprendizado através do processamento de dados que descrevem algum fenômeno”

Ainda nesta etapa todos os resultados obtidos são comparados com as informações das espécies contidas na amostra de dados e o total de acertos é armazenado para ser usado na etapa de validação. Ou seja, nesta etapa o algoritmo testa se o aprendizado adquirido através do processamento anterior consegue reproduzir a tarefa de classificação de forma eficiente. A terceira etapa, chamada de “validação” é a verificação dos resultados obtidos na etapa de teste, momento em que o profissional responsável pela implementação do algoritmo de classificação verifica pessoalmente se a porcentagem de acertos obtida foi boa ou ruim.
Caso a porcentagem de acerto seja ruim, é possível rever partes do processo inicial, incluindo detalhes dos dados, quantidades de indivíduos da amostra de treino e da amostra de teste, ou mesmo alterar parâmetros do algoritmo de classificação, e então executar uma nova tentativa de treino, teste e validação. A este processo de rever os passos iniciais e fazer uma nova tentativa de execução dos algoritmos, damos o nome de “mineração de Dados”. Caso a porcentagem de acertos obtida seja boa, consideramos o algoritmo treinado, passando a usá-lo em produção, ou seja, executando o algoritmo para que o computador processe novas amostras de dados que contenham
somente as medidas de comprimento e largura das sépalas e pétalas de novos indivíduos e indique de forma eficiente a espécie destes indivíduos.
Esta amostra de dados que usamos como exemplo existe e é conhecida como “conjunto de dados flor íris”, a qual é um conjunto de dados multivariados citado pela primeira vez pelo estatístico e biólogo britânico Ronald Fisher, em seu artigo de 1936, “O uso de múltiplas medições em problemas
taxonômicos, como um exemplo de análise discriminante linear”. Esse conjunto de dados tem sido usado como base para estudos da área da Estatística e consequentemente da área de Aprendizado de Máquina. Finalizo este artigo incentivando todos os leitores interessa- dos neste tema a voltarem a visitar esta coluna daqui três meses, pois pretendo escrever uma série de artigos trazendo explicações didáticas sobre o funcionamento dos demais algoritmos desta área tão interessante, chamada “Aprendizado de Máquina”.

Graduado em Ciência da Computação, mestre e doutor em Engenharia Mecânica, professor e coordenador do curso superior de Tecnologia em Big Data no Agronegócio da FATEC Shunji Nishimura

Fonte: Revista A Granja – Atuante, Atualizada, Agrícola – Abril/2022 nº880 Ano 78