Predecir torneos de tenis de mesa: una comparación de técnicas de modelización estadística
Palabras clave:
análisis de torneo, bosque aleatorio, aprendizaje estadístico, tenis de mesa, regresión LASSOResumen
Este trabajo tiene dos objetivos principales: 1) comparar los diferentes modelos estadísticos que se aplican a torneos históricos para encontrar un modelo estadístico adecuado, es decir, el modelo con el mejor rendimiento predictivo, y 2) entender cuáles factores son importantes para una buena predicción. Cada año se celebra al menos uno de los cuatro torneos importantes y recurrentes de tenis de mesa en los que compiten los mejores jugadores. Esos torneos son el Campeonato Mundial de Tenis de Mesa, la Copa del Mundo de Tenis de Mesa, los Juegos Olímpicos, y el Circuito Mundial de Tenis de Mesa. En otras áreas del deporte, es común analizar torneos importantes y predecir los futuros. Este trabajo pretende traer ese aspecto del análisis al mundo del tenis de mesa al evaluar las competencias recientes en la Copa del Mundo y las Grandes Finales del Circuito Mundial, ambas en la categoría masculina. Los resultados demuestran que es posible aplicar métodos estadísticos de aprendizaje automático a los torneos de tenis de mesa para predecir con una tasa de clasificación correcta de alrededor del 75% a través de un bosque aleatorio y del 74% con un modelo logit lineal generalizado penalizado. Aunque ambos modelos basan su poder predictivo principalmente en las clasificaciones oficiales de tenis de mesa y puntos, las variables como la edad, la destreza en el juego o la fuerza individual también fueron factores importantes.
Descargas
Citas
Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32
Breiman, L., Friedman, J., Stone, C. J., & Olshen, R. A. (1984). Classification and regression trees. Boca Raton, Florida: CRC Press.
Brier, G. W. (1950). Verification of forecasts expressed in terms of probability. Monthly weather review, 78(1), 1-3.
Brunner, S., & Groll, A. (2018). Modellierung und Vorhersage von Tennisspielen bei Grand Slam Turnieren. Dortmund
Ceriani Lidia, P. V. (2012). The origins of the Gini index: extracts from Variabilitá e Mutabilitá (1912) by Corrado Gini. The Journal of Economic Inequality, 10(3), 421-443. https://doi.org/10.1007/s10888-011-9188-x
Ekstrøm, C. T., Van Eetvelde, H., Ley, C., & Brefeld, U. (2021). Evaluating one-shot tournament predictions. Journal of Sports Analytics, 7(1), 37-46. https://doi.org/10.3233/JSA-200454
Fahrmeir, L., & Tutz, G. (2001). Multivariate Statistical Modelling Based on Generalized Linear Models (2nd ed.). New York: Springer.
Fawcett, T. (2006). An introduction to ROC analysis. Pattern recognition letters, 27(8), 861-874. https://doi.org/10.1016/j.patrec.2005.10.010
Friedman, J., Hastie, T., & Tibshirani, R. (2010). Regularization paths for generalized linear models via coordinate descent. Journal of statistical software, 33(1), 1-22. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2929880/
Grand View Research. (2021). Sports Betting Market Size, Share & Trends Analysis Report By Platform (Online, Offline), By Type (Fixed Odds Wagering, eSports Betting), By Sports Type (Football, Basketball), By Region, And Segment Forecasts, 2021 - 2028. Grand View Research. https://www.grandviewresearch.com/industry-analysis/sports-betting-market-report
Groll, A., Heiner, J., Schauberger, G., & Uhrmeister, J. (2020). Prediction of the 2019 IHF World Men’s Handball Championship–A sparse Gaussian approximation model. Journal of Sports Analytics (Preprint), 6(3), 187-197. http://doi.org/10.3233/JSA-200384
Groll, A., Ley, C., Schauberger, G., & Van Eetvelde, H. (2019a). A hybrid random forest to predict soccer matches in international tournaments. Journal of quantitative analysis in sports, 15(4), 271-287. https://doi.org/10.1515/jqas-2018-0060
Groll, A., Ley, C., Schauberger, G., Van Eetvelde, H., & Zeileis, A. (2019b). Hybrid Machine Learning Forecasts for the FIFA Women's World Cup 2019. arXiv preprint arXiv:1906.01131. https://doi.org/10.48550/arXiv.1906.01131
Groll, A., Schauberger, G., & Tutz, G. (2015). Prediction of major international soccer tournaments based on team-specific regularized Poisson regression: An application to the FIFA World Cup 2014. Journal of Quantitative Analysis in Sports, 11(2), 97-115. https://doi.org/10.1515/jqas-2014-0051
Gu, W., & Saaty, T. (2019). Predicting the Outcome of a Tennis Tournament: Based on Both Data and Judgments. Journal of Systems Science and Systems Engineering, 28, 317-343. https://doi.org/10.1007/s11518-018-5395-3
ITTF Archive. (2019). Retrieved from https://results.ittf.link/index.php?option=com_content&view=featured&Itemid=101
Liaw, A., & Wiener, M. (2002). Classification and regression by randomForest. R news, 2(3), 18-22. https://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf
McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). New York: Chapman & Hall.
Peters, M., & Murphey, K. (1992). Cluster analysis reveals at least three, and possibly five distinct handedness groups. Neuropsychologia, 30(4), 373-380. https://doi.org/10.1016/0028-3932(92)90110-8
R Core Team. (2019). R: A language and environment for statistical computing. (R. F. Computing, Producer). R Core Team. https://www.R-project.org/
Robin, X. (2021). pROC (R-Package). Display and Analyze ROC Curves. Expasy. http://expasy.org/tools/pROC/
Schauberger, G., & Groll, A. (2018). Predicting matches in international football tournaments with random forests. Statistical Modelling, 18(5-6), 460-482. https://doi.org/10.1177/1471082X18799934
Theodoridis, S. (2015). Machine Learning - A Bayesian and Optimization Perspective. Amsterdam: Elsevier Ltd.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267-288. https://doi.org/10.1111/j.2517-6161.1996.tb02080.x
World Cup Playing System. (2019). Retrieved from https://ittf.cdnomega.com/eu/2019/02/