| Resumo: | No Brasil, segundo o Instituto Nacional de Câncer (INCA), o câncer de mama, depois do
câncer de pele, é o mais frequente, tendo uma taxa ajustada de incidência de 41,89 casos por 100.000
mulheres, em 2025, a estimativa é de 66,54. Para o êxito em seu tratamento, é fundamental que muito
precocemente se descubra o carcinoma. Contudo, o diagnóstico precoce está condicionado a recursos
médicos avançados e a uma avaliação criteriosa de múltiplos exames, o que pode dificultar o
tratamento (Pereira et al., 2024). Deste modo, considerando a importância do descobrimento precoce,
este trabalho apresenta os resultados obtidos utilizando algoritmos de aprendizado de máquina no
conjunto de dados intitulado Breast Cancer Wisconsin (Diagnostic) Data Set, contém 569 amostras,
sendo 357 benignas e 212 malignas, e cada amostra é descrita por 10 parâmetros extraídos das imagens
de biópsias de massas mamárias. As simulações foram feitas no Google Colab utilizando Scikit
Learning (Pedregosa et al., 2011). Os algoritmos utilizados foram o K-Nearest Neighbors (KNN),
Multilayer Perceptron (MLP) e Random Forest (RF) (Hastie et al., 2009). Para a busca dos melhores
hiperparâmetros foi utilizado o Grid Search. Os resultados obtidos para a acurácia, a sensibilidade e
especificidade, respectivamente, foram: KNN=94,73%, 85,71% e 100%; MLP=91,81%, 99,07 e 85,71;
RF=96,49%, 95,37% e 92,06%. Esses resultados sugerem o RF é um modelo satisfatório para se
utilizar neste problema, tendo em vista que apresentou os melhores resultados dos modelos testados
tanto em relação à acurácia quanto à sensibilidade, obtendo um desempenho menor que o KNN em
relação à especificidade. No entanto, este foi o melhor resultado, pois evita que pacientes com câncer
retardem o início do tratamento, ademais, a especificidade apresentada também foi alta. Além disso,
esse modelo é interpretável, ou seja, consegue-se ter acesso à árvores de decisão com todas as
características do modelo treinado e essas informações podem auxiliar o médico na tomada.
|