Análisis de redes neuronales convolucionales para Eye-Tracking
Date
Publisher
Abstract
Trabajo Fin de Máster en Big Data. Tutores: D. Diego Marín Santos; D. Manuel E. Gegúndez Arias. El Eye-tracking o detección de la mirada ha sido históricamente un problema ampliamente analizado por métodos de Inteligencia Artificial debido a sus numerosas integraciones posibles en los sistemas cotidianos. Sin embargo, las tecnologías que han mostrado resultados suficientemente buenos para ser aplicadas en el mundo real son costosas y requieren de equipamiento adicional. En este trabajo se analizan los resultados sobre dos arquitecturas entrenadas del estado del arte de Deep Learning como son VGG-16 y ResNet-50, comparando sus resultados con respecto a una nueva arquitectura propuesta más sencilla, que obtiene resultados tan buenos como la mejor de las anteriores, consiguiendo una precisión del 99,86% sobre un dataset formado por 14.400 imágenes pertenecientes a cuatro categorías (ojo cerrado, mirando hacia adelante, mirando hacia la izquierda y mirando hacia la derecha), que se ha dividido en 80 %, 10% y 10% para entrenamiento, validación y prueba. En base a los resultados obtenidos en la experimentación, se propone la extensión del problema a cualquier entorno de imágenes similares, con el fin de generar una tecnología que sea capaz de clasificar imágenes en tiempo real. No obstante, los resultados alcanzados para este segundo objetivo no son tan prometedores, y son indicadores de que sería necesario entrenar los modelos sobre un conjunto de imágenes tomadas por un dispositivo de las mismas características que la salida final para lograr resultados óptimos en una aplicación como la propuesta.
Trabajo Fin de Máster en Big Data. Tutores: D. Diego Marín Santos; D. Manuel E. Gegúndez Arias. El Eye-tracking o detección de la mirada ha sido históricamente un problema ampliamente analizado por métodos de Inteligencia Artificial debido a sus numerosas integraciones posibles en los sistemas cotidianos. Sin embargo, las tecnologías que han mostrado resultados suficientemente buenos para ser aplicadas en el mundo real son costosas y requieren de equipamiento adicional. En este trabajo se analizan los resultados sobre dos arquitecturas entrenadas del estado del arte de Deep Learning como son VGG-16 y ResNet-50, comparando sus resultados con respecto a una nueva arquitectura propuesta más sencilla, que obtiene resultados tan buenos como la mejor de las anteriores, consiguiendo una precisión del 99,86% sobre un dataset formado por 14.400 imágenes pertenecientes a cuatro categorías (ojo cerrado, mirando hacia adelante, mirando hacia la izquierda y mirando hacia la derecha), que se ha dividido en 80 %, 10% y 10% para entrenamiento, validación y prueba. En base a los resultados obtenidos en la experimentación, se propone la extensión del problema a cualquier entorno de imágenes similares, con el fin de generar una tecnología que sea capaz de clasificar imágenes en tiempo real. No obstante, los resultados alcanzados para este segundo objetivo no son tan prometedores, y son indicadores de que sería necesario entrenar los modelos sobre un conjunto de imágenes tomadas por un dispositivo de las mismas características que la salida final para lograr resultados óptimos en una aplicación como la propuesta.