Evaluación de la aplicación de embeddings para el agrupamiento automático de textos en español
Palabras clave:
Análisis de modelos, Inteligencia artificial, DatasetsResumen
La gran cantidad de información en Internet, compuesta principalmente por textos, hace que agrupar información confiable sea una tarea complicada. Esta investigación tiene como objetivo mejorar el agrupamiento automático de textos en español mediante la aplicación de embeddings y algoritmos de aprendizaje no supervisado. Se utilizaron cinco conjuntos de datos y se aplicaron técnicas de generación de embeddings como Word2Vec, FastText, Glove, BERT y GPT-2. Para el agrupamiento, se emplearon modelos de K-means, HDBSCAN y AutoEncoder combinado con K-means. Los resultados mostraron que el modelo de AutoEncoder combinado con K-means utilizando embeddings de Glove obtuvo un rendimiento superior con una precisión de 0,92, NMI de 0,79 y ARI de 0,81 en el conjunto de datos de BBC News. En otros conjuntos de datos, los resultados variaron, pero el modelo de AutoEncoder con K-means consistentemente superó a los otros métodos. Concluimos que los modelos de redes neuronales con AutoEncoder y capa de K-means son altamente efectivos para el agrupamiento automático de textos en español, especialmente cuando se utilizan embeddings de alta calidad como Glove.
Descargas
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2024 Revista Ingeniare

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.