Análisis de redes neuronales convolucionales para Eye-Tracking

Miranda Torres, Antonio Jesús

Master Thesis

Análisis de redes neuronales convolucionales para Eye-Tracking

Files

Acceso documento (PDF) (4.22 MB)

URI

https://hdl.handle.net/10334/8167

Fecha de publicación

2023

Fecha de depósito

2023-12-21

Editorial

Universidad Internacional de Andalucía

Resumen

Trabajo Fin de Máster en Big Data. Tutores: D. Diego Marín Santos; D. Manuel E. Gegúndez Arias. El Eye-tracking o detección de la mirada ha sido históricamente un problema ampliamente analizado por métodos de Inteligencia Artificial debido a sus numerosas integraciones posibles en los sistemas cotidianos. Sin embargo, las tecnologías que han mostrado resultados suficientemente buenos para ser aplicadas en el mundo real son costosas y requieren de equipamiento adicional. En este trabajo se analizan los resultados sobre dos arquitecturas entrenadas del estado del arte de Deep Learning como son VGG-16 y ResNet-50, comparando sus resultados con respecto a una nueva arquitectura propuesta más sencilla, que obtiene resultados tan buenos como la mejor de las anteriores, consiguiendo una precisión del 99,86% sobre un dataset formado por 14.400 imágenes pertenecientes a cuatro categorías (ojo cerrado, mirando hacia adelante, mirando hacia la izquierda y mirando hacia la derecha), que se ha dividido en 80 %, 10% y 10% para entrenamiento, validación y prueba. En base a los resultados obtenidos en la experimentación, se propone la extensión del problema a cualquier entorno de imágenes similares, con el fin de generar una tecnología que sea capaz de clasificar imágenes en tiempo real. No obstante, los resultados alcanzados para este segundo objetivo no son tan prometedores, y son indicadores de que sería necesario entrenar los modelos sobre un conjunto de imágenes tomadas por un dispositivo de las mismas características que la salida final para lograr resultados óptimos en una aplicación como la propuesta.

Eye-tracking or gaze detection has historically been a problem widely analyzed by Artificial Intelligence methods due to its numerous possible integrations into everyday systems. However, technologies that have shown good enough results to be applied in the real world are expensive and require additional equipment. In this work, the results are analyzed on two trained architectures of the state of the art of Deep Learning such as VGG-16 and ResNet-50, comparing their results with respect to a new, simpler architecture proposed, which obtains such good results as the best of the previous ones, achieving a precision of 99.86% on a dataset made up of 14,400 images belonging to four categories (eye closed, forward looking, left looking and right looking), which has been divided into 80 %, 10% and 10% for training, validation and testing. Based on the results obtained in the experimentation, the extension of the problem to any environment of similar images is proposed, in order to generate a technology that is capable of classifying images in real time. Nonetheless, the results reached for this second objective are not so promising, and are indicators that it would be necessary to train the models on a set of images taken by a device with the same characteristics as the final output in order to achieve optimal results in an application such as the one proposed.