Capacidad de aprendizaje en contexto de GPT-4 con ejemplos semántica y sintácticamente similares en ruso
DOI:
https://doi.org/10.30827/meslav.24.33411Palabras clave:
GPTs, capacidad de aprendizaje en contexto, lenguaje figurado, elementos no composicionales, rusoResumen
En el rendimiento en modo zero-shot con un conjunto de datos que contiene más de 2.200 frases y oraciones en ruso, GPT-4 presenta dificultades para identificar correctamente el significado de algunos ejemplos. Por ello, los ejemplos “problemáticos” se seleccionan para una investigación más profunda. Para abordar estos desafíos, se puede aprovechar la capacidad de aprendizaje en contexto empleada en los GPT para mejorar los resultados insatisfactorios. Este enfoque supone proporcionar previamente ejemplos semántica y sintácticamente similares. El experimento demuestra que, incluso con un solo ejemplo en contexto, el rendimiento de GPT-4 se vuelve más sólido en casi todos los casos problemáticos. Sin embargo, los ejemplos que siguen siendo mal interpretados podrían indicar que el modelo tiene un rendimiento deficiente debido a la falta de patrones en sus datos de entrenamiento.Descargas
Citas
Achiam, J., et al. (2023). GPT-4 technical report. arXiv preprint arXiv:2303.08774.
Ahuja, K., Hada, R., Ochieng, M., Jain, P., Diddee, H., Maina, S., Ganu, T., Segal, S., Axmed, M., Bali, K., & Sitaram, S. (2023). MEGA: Multilingual Evaluation of Generative AI. https://doi.org/10.48550/arXiv.2303.12528 DOI: https://doi.org/10.18653/v1/2023.emnlp-main.258
Bang, Y., Cahyawijaya, S., Lee, N., Dai, W., Su, D., Wilie, B., Lovenia, H., Ji, Z., Yu, T., Chung, W., Do, Q. V., Xu, Y., & Fung, P. (2023). A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity. In Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 675–718). Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2023.ijcnlp-main.45
Bast, R., et al. (2021). The Russian Constructicon. An Electronic Database of the Russian Grammatical Constructions. Accessed October 10, 2024. Retrieved from https://constructicon.github.io/russian/
Brown, T. B. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
ChatUiT. (n.d.). Retrieved October 19, 2024, from https://chat.uit.no/
Gao, K., He, S., He, Z., Lin, J., Pei, Q., Shao, J., & Zhang, W. (2023). Examining user-friendly and open-sourced large gpt models: A survey on language, multimodal, and scientific gpt models. arXiv preprint arXiv:2308.14149.
Goldberg, A. (2006). Constructions at work: The nature of generalization in language. Oxford University Press. DOI: https://doi.org/10.1093/acprof:oso/9780199268511.001.0001
Kalyan, K. S. (2023). A survey of GPT-3 family large language models including ChatGPT and GPT-4. Natural Language Processing Journal, 100048. DOI: https://doi.org/10.2139/ssrn.4593895
Kotek, H., Dockum, R., & Sun, D. (2023). Gender bias and stereotypes in Large Language Models. In Proceedings of The ACM Collective Intelligence Conference (CI ‘23) (pp. 12–24). Association for Computing Machinery. https://doi.org/10.1145/3582269.3615599 DOI: https://doi.org/10.1145/3582269.3615599
Lai, V. D., Ngo, N. T., Veyseh, A. P. B., Man, H., Dernoncourt, F., Bui, T., & Nguyen, T. H. (2023). Chatgpt beyond english: Towards a comprehensive evaluation of large language models in multilingual learning. arXiv preprint arXiv:2304.05613. DOI: https://doi.org/10.18653/v1/2023.findings-emnlp.878
Langacker, R. W. (1986). An Introduction to Cognitive Grammar. Cognitive Science, 10(1), 1-40. DOI: https://doi.org/10.1207/s15516709cog1001_1
Liu, J., Shen, D., Zhang, Y., Dolan, B., Carin, L., & Chen, W. (2021). What makes good in-context examples for gpt-3? arXiv preprint arXiv:2101.06804. DOI: https://doi.org/10.18653/v1/2022.deelio-1.10
Lyngfelt, B. (2018). Introduction: constructicons and constructicography. In B. Lyngfelt, L. Borin, K. H. Ohara, & T. T. Torrent (Eds.), Constructicography. Constructicon Development across Languages (pp. 1–18). John Benjamins. DOI: https://doi.org/10.1075/cal.22.01lyn
Pannatier, A., Courdier, E., & Fleuret, F. (2024). GPTs: A New Approach to Autoregressive Models. arXiv preprint arXiv:2404.09562. DOI: https://doi.org/10.1007/978-3-031-70368-3_9
Piantadosi, S. T. (2024). Modern language models refute Chomsky’s approach to language. In E. Gibson & M. Poliak (Eds.), From fieldwork to linguistic theory: A tribute to Dan Everett (Empirically Oriented Theoretical Morphology and Syntax 15) (pp. 353–414). Language Science Press.
Plotnikov, T. (2024). Replication Data for: Analyzing GPT-4 Misinterpretations of Russian Grammatical Constructions. DataverseNO, V1. https://doi.org/10.18710/8CAPJM DOI: https://doi.org/10.21747/16466195/ling19a7
Qiu, Z., Duan, X., & Cai, Z. G. (2023). Pragmatic Implicature Processing in ChatGPT. https://doi.org/10.31234/osf.io/qtbh9 DOI: https://doi.org/10.31234/osf.io/qtbh9
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training. Retrieved from https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
Ray, P. P. (2023). ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. *Internet of Things and Cyber-Physical Systems, 3*, 121-154. https://doi.org/10.1016/j.iotcps.2023.04.003 DOI: https://doi.org/10.1016/j.iotcps.2023.04.003
Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. In Conference on Empirical Methods in Natural Language Processing. DOI: https://doi.org/10.18653/v1/D19-1410
Ye, J., Chen, X., Xu, N., Zu, C., Shao, Z., Liu, S., Cui, Y., et al. (2023). A comprehensive capability analysis of gpt-3 and gpt-3.5 series models. arXiv preprint arXiv:2303.10420.
Yenduri, G., Murugan, R., Govardanan, C., Supriya, Y., Srivastava, G., Reddy, P., Raj, D., Jhaveri, R., Prabadevi, B., Wang, W., Vasilakos, A., & Gadekallu, T. (2024). GPT (Generative Pre-Trained Transformer) – A Comprehensive Review on Enabling Technologies, Potential Applications, Emerging Challenges, and Future Directions. IEEE Access, PP, 1-1. https://doi.org/10.1109/ACCESS.2024.3389497 DOI: https://doi.org/10.1109/ACCESS.2024.3389497
Zhu, Q., & Luo, J. (2022). Generative Pre-Trained Transformer for Design Concept Generation: An Exploration. Proceedings of the Design Society, 2, 1825–1834. https://doi.org/10.1017/pds.2022.185 DOI: https://doi.org/10.1017/pds.2022.185
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2025 Timofei

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Los autores conservan los derechos de autor sobre sus trabajos y garantizan a la revista el derecho de ser la primera publicación del mismo. Los artículos se publican bajo la licencia Creative Commons Atribución-NoComercial 4.0 Internacional (CC BY-NC-SA 4.0), lo que permite a los lectores y otros investigadores copiar, redistribuir, remezclar, transformar y construir a partir del material, siempre que se respeten las condiciones establecidas.






