Evaluación de la aplicación de embeddings para el agrupamiento automático de textos en español

Autores/as

  • Anthony Wainer Cachay-Guivin Pontificia Universidad Católica del Perú

Palabras clave:

Análisis de modelos, Inteligencia artificial, Datasets

Resumen

La gran cantidad de información en Internet, compuesta principalmente por textos, hace que agrupar información confiable sea una tarea complicada. Esta investigación tiene como objetivo mejorar el agrupamiento automático de textos en español mediante la aplicación de embeddings y algoritmos de aprendizaje no supervisado. Se utilizaron cinco conjuntos de datos y se aplicaron técnicas de generación de embeddings como Word2Vec, FastText, Glove, BERT y GPT-2. Para el agrupamiento, se emplearon modelos de K-means, HDBSCAN y AutoEncoder combinado con K-means. Los resultados mostraron que el modelo de AutoEncoder combinado con K-means utilizando embeddings de Glove obtuvo un rendimiento superior con una precisión de 0,92, NMI de 0,79 y ARI de 0,81 en el conjunto de datos de BBC News. En otros conjuntos de datos, los resultados variaron, pero el modelo de AutoEncoder con K-means consistentemente superó a los otros métodos. Concluimos que los modelos de redes neuronales con AutoEncoder y capa de K-means son altamente efectivos para el agrupamiento automático de textos en español, especialmente cuando se utilizan embeddings de alta calidad como Glove.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Anthony Wainer Cachay-Guivin, Pontificia Universidad Católica del Perú

Pontificia Universidad Católica del Perú

Escuela de Postgrado

 

Descargas

Publicado

2025-01-07

Cómo citar

[1]
A. W. Cachay-Guivin, «Evaluación de la aplicación de embeddings para el agrupamiento automático de textos en español», Ingeniare, Rev. chil. ing., vol. 32, ene. 2025.