4.4 Sobreadaptación a la IA del oponente específico Incluso cuando el agente DRL podía competir con éxito contra un oponente diseñado a mano, a menudo se desempeñaba mucho peor contra un oponente diseñado a mano diferente o contra un oponente humano a medida que se encontraban nuevos estados que nunca aparecieron durante el entrenamiento. En un esfuerzo por abordar esto, se creó un nuevo entorno en el que el agente tiene la tarea de jugar contra una portería vacía mientras las bolas aparecen con posiciones y velocidades aleatorias desde el otro lado de la pantalla. Este problema y los experimentos relacionados se analizan con mayor detalle en la sección 3.1. 5. Conclusión Presentamos las siguientes contribuciones: • Un nuevo entorno de Pong con un grado de configuración mucho mayor que el estándar actual, incluida la capacidad de competir contra un oponente humano. • Una herramienta de visualización capaz de ofrecer información interesante sobre el comportamiento de pequeñas redes neuronales totalmente conectadas en tiempo real. • Un modelo denso con sólo 200 neuronas ocultas capaces de generalizarse lo suficientemente bien como para competir contra oponentes humanos o de IA. • Los conocimientos necesarios para perfeccionar aún más nuestro modelo e informar futuras investigaciones. Referencias [1] Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D. y Riedmiller, M. (2013). Jugar a Atari con aprendizaje por refuerzo profundo. ArXiv:1312.5602 [Cs]. http:// arxiv.org/abs/1312.5602 [2] Karpathy, A. (31 de mayo de 2016). Aprendizaje por refuerzo profundo: Pong de Pixels. Obtenido en 2020, de https://karpathy.github.io/2016/05/31/rl/ [3] Hendrickson, S. (13 de junio de 2015). MarI/O - Aprendizaje automático para videojuegos. Obtenido en 2019, de https://www.youtube.com/watch?v=qv6UVOQ0F44 [4] Centro de Historia de la Computación. (Dakota del Norte). Historia de la informática de la consola de juegos Atari Pong. Obtenido en 2020, de http://www.computinghistory.org.uk/det/4007/Atari-PONG/ [5]OpenAI. (Dakota del Norte). Un conjunto de herramientas para desarrollar y comparar algoritmos de aprendizaje por refuerzo. Obtenido en 2019, de https://gym.openai.com/ [6] Chollet, F. y otros. (2015). Keras. https://keras.io. [7]Wang, T. (sin fecha). Aprendizaje por refuerzo Aprendizaje por aprendizaje REFORZAR. Obtenido en 2019, de http://www.cs.toronto.edu/~tingwuwang/REINFORCE.pdf [8]Fundación de software Python. (Dakota del Norte). tkinter: interfaz Python para Tcl/Tk. Obtenido en 2020, de https://docs.python.org/3/library/tkinter.html 10