Herramienta computacional para la traducción de la lengua de señas colombiana a texto

Fecha

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Compartir

Altmetric

Resumen

According to the most recent study by the National Institute for the Deaf (INSOR), Colombia does not have enough political and institutional tools to guarantee adequate inclusion of people with hearing impairments in both academic and job-related fields. The ongoing development of new technologies plays an important role in social inclusion of people with different impairments; As a result, this paper aims to design a computational tool for the translation of sign language into text, based on the evaluation of different models built on the deep learning concept with the ability to perform classifications of Colombian Sign Language (CSL) video expressions through the implementation of four different pre-trained architectures (DenseNet, MobileNet, Inception and Efficiencies), MobileNet, Inception and EfficienNet), and a customized one with three-dimensional convolutional layers (Conv 3d), in order to define which of the models provides the best results when identifying the different LSC signs representing the 12 different months of the year, and to use it as the core of the translation tool. The performance evaluation showed that the best model was the personalized one, as it managed to recognize most of the signs with a 79% accuracy in the validation set.

Descripción

Según los resultados reflejados en el estudio más reciente del Instituto Nacional para Sordos (INSOR), se plantea que en Colombia no se cuenta con las suficientes herramientas políticas e institucionales para garantizar una adecuada inclusión en ámbitos laborales y académicos de aquellos que padecen dificultades auditivas. El desarrollo constante de nuevas tecnologías desempeña un papel importante en el área de la inclusión social de las personas con diferentes discapacidades; debido a esto, el presente trabajo tiene como propósito diseñar una herramienta computacional de traducción de la lengua de señas a texto escrito, en función de la evaluación de distintos modelos basados en el concepto de deep learning con la capacidad de realizar clasificaciones sobre videos de expresiones de la lengua de señas colombiana (LSC) a partir de la implementación de cuatro diferentes arquitecturas previamente entrenadas (DenseNet, MobileNet, Inception y EfficienNet), y una personalizada con capas convoluciones de tres dimensiones (Conv 3d), con el fin de establecer cuál de los modelos es el que proporciona los mejores resultados a la hora de identificar las diferentes señas correspondientes a los 12 meses del año expresadas en LSC, e incluirla como el eje central de la herramienta de traducción. La evaluación del rendimiento mostró que el mejor modelo fue el personalizado, pues logró reconocer la mayoría de las señas con una exactitud del 79% en el conjunto de validación.

Palabras clave

Aprendizaje profundo, Clasificación de videos, Accesibilidad, Modelo, Capas Convolucionales, Lengua de señas Colombiana

Materias

Ingeniería de Sistemas - Tesis y disertaciones académicas , Lengua de señas - Traducción e interpretación , Redes de neuronas artificiales , Enseñanza con ayuda de computadores , Aprendizaje - Aspectos tecnológicos

Citación