Modelo de entrenamiento de un sistema experto basado en reglas mediante aprendizaje por refuerzo aplicado a la generación de trayectorias
Fecha
Fecha
2021-10-20
Autores
Director
Colaboradores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Altmetric
Descripción
En robótica móvil la tarea de generación de trayectorias hacía un punto de destino ha sido abordada desde diversos ángulos con diferentes algoritmos. Entre ellos pueden encontrarse búsquedas heurísticas, grafos hasta redes neuronales y algoritmos de enjambre. Para algunos de estos es necesaria la generación de un conjunto de nodos los cuales pueden estar organizados de múltiples formas a lo largo del entorno por el cual se desplazará el robot. Otro tipo de enfoque se centra en la naturaleza del entorno que puede ser total o parcialmente conocido, estático o dinámico, lo que hace que la ruta pueda ser planeada con antelación o deba ser trazada y ajustada al momento de realizar el recorrido hacia el punto de destino.
La inteligencia artificial es un campo relativamente nuevo que nació en los años cincuenta. En la actualidad una de sus ramas más interesantes es el aprendizaje por refuerzo. Esta rama consiste en un tipo de aprendizaje en el cual el sistema de inteligencia artificial interactúa con un ambiente a partir del cual se puede generar conocimiento de manera automática y paulatina.
En la actualidad existe un sin número de sistemas de inteligencia artificial que funcionan mediante complejas redes neuronales, en los cuales no es fácil determinar si el modelo detrás de sus decisiones presenta algún tipo de sesgo a la hora de analizar los datos. Por ejemplo, la clasificación del riesgo crediticio de una persona en función de variables tales como su raza o género, dada la poca interpretabilidad de dicho modelo. Por otro lado, existen otras metodologías que tienen una gran explicabilidad del modelo, como los árboles de decisión o sistemas expertos basados en reglas.
En la navegación estratosférica, resulta todo un reto orientar un vehículo en la fase de descenso teniendo en cuenta su velocidad de caida, así como el comportamiento aleatorio de las variables ambientales a las que se enfrenta.
Por esto, se desarrolló un sistema de entrenamiento de un sistema experto basado en reglas, el cual es entrenado mediante aprendizaje por refuerzo. Con ello en mente, fue necesario generar un contexto de entrenamiento que implemente la tarea que se pretende resolver mediante el sistema experto. Este entorno genera los desafíos que aprenderá el sistema experto. El sistema propuesto presentaría una ventaja sobre otros modelos: la posible intervención humana en el conjunto resultante de reglas, y, por ende, en el modelo que controla el sistema experto que toma las decisiones. Sin embargo, la posibilidad de realizar una auditoría al sistema y una posible modificación derivará en un cambio en la capacidad del sistema para resolver la tarea.
Como resultado se obtuvo un sistema de entrenamiento por refuerzo mediante el cual se obtiene un conjunto de reglas. Estas reglas contienen el conocimiento requerido por el sistema experto para establecer la trayectoria desde el punto de inicio hasta el punto de destino evitando salir del entorno, y esquivando los obstáculos en un 76.2% de los episodios de validación ejecutados.
Resumen
In mobile robotics, the task of generating trajectories to a destination point has been approached from various angles with different algorithms. These include heuristic search, graphs, neural networks, and swarm algorithms. Some of these require the generation of a set of nodes that can be organized in multiple ways throughout the environment through which the robot will move. Another type of approach focuses on the nature of the environment which may be fully or partially known, static or dynamic, which means that the route may be planned in advance or must be plotted and adjusted as it makes its way to the destination point.
Artificial intelligence is a relatively new field that was born in the 1950s. Currently, one of its most interesting branches is reinforcement learning. This branch consists of a type of learning in which the artificial intelligence system interacts with an environment from which knowledge can be generated automatically and gradually.
There are currently a large number of artificial intelligence systems that work by means of complex neural networks, in which it is not easy to determine whether the model behind their decisions presents some kind of bias when analyzing the data. For example, the classification of a person's credit risk based on variables such as race or gender, given the poor interpretability of such a model. On the other hand, there are other methodologies that have high model explainability, such as decision trees or rule-based expert systems.
In stratospheric navigation, it is a challenge to guide a vehicle in the descent phase taking into account its fall speed, as well as the random behavior of the environmental variables it faces.
Therefore, a rule-based expert system training system was developed, which is trained by reinforcement learning. With this in mind, it was necessary to generate a training context that implements the task to be solved by the expert system. This environment generates challenges to be learned by the expert system. The proposed system would present an advantage over other models: the possible human intervention in the resulting set of rules, and, therefore, in the model that controls the expert system that makes the decisions. However, the possibility of auditing the system and possible modification will result in a change in the system's ability to solve the task.
As a result, a reinforcement training system was obtained through which a set of rules is obtained. These rules contain the knowledge required by the expert system to establish the trajectory from the starting point to the destination point, avoiding leaving the environment and avoiding obstacles in 76.2% of the validation episodes executed.
Palabras clave
Inteligencia artificial, Aprendizaje por refuerzo, Sistemas expertos, Generación de trayectorias