De 'Computadora' a 'Ordenador': El Impacto de los Dialectos del Español en la Varianza de Clasificación de los LLM

Kevin Gyovani RAMÍREZ-VITE; José Daniel RUPERTO-VILLALPANDO; Dulce Arisbeth CÓRDOBA-BELTRÁN; Elizabeth VÁZQUEZ-MUNIVE

PDF

Publicado: nov 27, 2025

Palabras clave:

LLMs, Variación dialectal, Clasificación, PLN, Corpus

Kevin Gyovani RAMÍREZ-VITE

TecNM- Tecnológico de Estudios Superiores de Chalco

https://orcid.org/0009-0006-5886-2123

José Daniel RUPERTO-VILLALPANDO

TecNM- Tecnológico de Estudios Superiores de Chalco

https://orcid.org/0009-0002-7691-8435

Dulce Arisbeth CÓRDOBA-BELTRÁN

TecNM- Tecnológico de Estudios Superiores de Chalco

https://orcid.org/0009-0000-7274-4875

Elizabeth VÁZQUEZ-MUNIVE

TecNM- Tecnológico de Estudios Superiores de Chalco

https://orcid.org/0009-0009-7944-3958

Resumen

Este estudio investiga el impacto de la variación dialectal del español en el desempeño y la reproducibilidad de los Modelos de Lenguaje de Gran Escala (LLMs) en tareas de clasificación de texto. En particular, se comparan el español peninsular y el español de México utilizando conjuntos de datos de referencia para análisis de sentimientos y detección de noticias falsas. La metodología sigue el marco CRISP-DM, con énfasis en la normalización de datos, la adaptación dialectal y la evaluación controlada de los modelos mediante múltiples ejecuciones de entrenamiento. Se ajustaron y probaron modelos como RoBERTa para cuantificar la varianza intra-modelo e interdialectal. Los resultados muestran que los modelos entrenados con español peninsular alcanzaron mayor estabilidad y precisión en análisis de sentimientos, mientras que los entrenados con español mexicano obtuvieron mejores resultados en detección de noticias falsas. Estas diferencias evidencian que la variación dialectal influye significativamente en el comportamiento de los modelos y subrayan las limitaciones de basarse en una sola variante del español para tareas de PLN. Los hallazgos destacan la importancia de desarrollar conjuntos de datos equilibrados y representativos que reflejen la diversidad lingüística del español, contribuyendo así a modelos más justos y confiables.

Cómo citar

RAMÍREZ-VITE, K. G., RUPERTO-VILLALPANDO, J. D., CÓRDOBA-BELTRÁN, D. A., & VÁZQUEZ-MUNIVE, E. (2025). De ’Computadora’ a ’Ordenador’: El Impacto de los Dialectos del Español en la Varianza de Clasificación de los LLM. REVISTA INTERNACIONAL SOCIO-INNOVA-TEC DEL ALTIPLANO (REISITAL), 1(12), 38. Recuperado a partir de https://revista.reisital.org.mx/index.php/reisital/article/view/54

Número

Vol. 1 Núm. 12 (2025): REVISTA INTERNACIONAL SOCIO-INNOVA-TEC DEL ALTIPLANO (REISITAL)

Sección

Artículos

Citas

Aguaded, I., Pilo, M. A., Romero, J. M., & de-Casas, P. (2024). El impacto de la inteligencia artificial en comunicación: Revisión sistematizada de la producción científica española en Scopus (2020–2023). Revista Publicaciones, 28(119), 65–79. https://doi.org/10.26807/rp.v28i119.2098

Amaratunga, T. (2023). Understanding large language models: Learning their underlying concepts and technologies. Apress. https://doi.org/10.1007/979-8-8688-0017-7

Bourriot, S., Garnier, C., & Doublier, J. L. (1999). Phase separation, rheology and microstructure of micellar casein–guar gum mixtures. Food Hydrocolloids, 7, 90–95. https://doi.org/10.1016/S0268-005X(98)00068-X

Company Company, C. (2019). Jerarquías dialectales y conflictos entre teoría y práctica: Perspectivas desde la Asociación de Academias de la Lengua Española (ASALE). Journal of Spanish Language Teaching, 6(2), 96–105. https://doi.org/10.1080/23247797.2019.1668179

Faisal, F., Ahia, O., Srivastava, A., Ahuja, K., Chiang, D., Tsvetkov, Y., & Anastasopoulos, A. (2024). DIALECTBENCH: A benchmark for dialects, varieties, and closely-related languages. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 14004–14027).

Kong, Y., Nie, Y., Dong, X., Mulvey, J. M., Poor, H. V., Wen, Q., & Zohren, S. (2024). Large language models for financial and investment management: Applications and benchmarks. The Journal of Portfolio Management: Quantitative Tools, 51(2), 162–210. https://doi.org/10.3905/jpm.2024.1.645

Lazo, V. R. (2022). Clasificación de la personalidad utilizando procesamiento de lenguaje natural y aprendizaje profundo para detectar patrones de notas de suicidio en redes sociales (Tesis de licenciatura). Universidad Católica San Pablo, Arequipa. https://renati.sunedu.gob.pe/handle/sunedu/3359968

Merchán, E. L. (2024). Aplicación de modelos Transformers para clasificar textos en idioma español (Tesis de pregrado). Universidad Estatal Península de Santa Elena (UPSE). Repositorio Institucional UPSE.

Portal Administración Electrónica. (2024, 27 de febrero). El Gobierno anuncia la construcción de un modelo de lenguaje de IA entrenado en español y las lenguas cooficiales. https://administracionelectronica.gob.es/pae_Home/pae_Actualidad/pae

Schröer, C. (2021). A systematic literature review on applying CRISP-DM. Procedia Computer Science, 526–534. https://doi.org/10.1016/j.procs.2021.01.199

Sierra, G., Montaño, C., Bel-Enguix, G., Córdova, D., & Mota, M. (2020). CPLM, a parallel corpus for Mexican languages: Development and interface. In Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 2947–2952). European Language Resources Association.

Udacity. (2025). CRISP-DM explained: A proven data mining methodology. Udacity Blog. https://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-mining-data-science-projects.html

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. arXiv. https://doi.org/10.48550/arXiv.1706.03762

Xue, Y., Cao, X., Yang, X., Wang, Y., Wang, R., & Li, J. (2023). We need to talk about reproducibility in NLP model comparison. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (pp. 9544–9557). Association for Computational Linguistics.

Barra lateral del artículo

Contenido principal del artículo

Resumen

Detalles del artículo

Citas

Artículos similares