Basados en modelo
Basados en modelo
Estos sistemas utilizan un modelo de la persona para realizar la detección y el seguimiento (tracking) de sus movimientos. Así, en estos sistemas la complejidad reside en emparejar (matching) un modelo conocido con la información percibida.
Extracción de movimientos a partir de imágenes monoculares.
En las imágenes inferiores, tomadas de un artículo de Agarwal y Triggs, se puede observar cómo se emplea un modelo, construido a base de cubos, para ayudar en la extracción de la pose de una persona a partir de secuencias monoculares (capturadas con una sóla cámara). El algoritmo que se utiliza, en este caso, trata de emparejar iterativamente la pose del modelo con la imagen de la persona. Requiere etiquetar manualmente las partes de la persona en las primeras imágenes (no se hace detección, sólo seguimiento), y no puede ser usado en aplicaciones on-line porque tarda mucho en procesar cada imagen. Con todo, los resultados obtenidos, si se compara el precio de una sola cámara cotidiana con el de un sistema basado en marcadores, son muy relevantes.

Existen más sistemas que, como el anterior, obtienen la pose a partir de una única imagen de color. Dichos sistemas suelen presentar problemas de ambigüedad, son lentos, e imprecisos. Una variante de estos sistemas, no obstante, es la que se emplea para detectar el movimiento de personas en sistemas de seguridad y videovigilancia. En este caso la pose concreta de la persona no es relevante, pero sí el patrón de movimiento global que sigue. Por ejemplo, la siguiente figura muestra la ejecución de una de estas aplicaciones, publicada aquí y basada en un modelo de partes parecido al de la imagen anterior pero en 2D.

Como puede verse, es posible detectar y seguir el desplazamiento de cada persona. Analizando estas trayectorias se pueden detectar comportamientos sospechosos o erráticos, analizar flujos de usuarios en estaciones de metro o aeropuertos, etc.
Extracción de movimientos a partir de imágenes RGB-D.
Las imágenes en color, como se vió en la unidad B1_UD3, no proporcionan información sobre la profundidad, a no ser que ésta pueda extraerse del análisis de una secuencia de imágenes, lo que implica procesos computacionalmente costosos y de resultados imprecisos.
De entre los diferentes métodos disponibles para obtener la información de profundidad en la imagen, el más usado en aplicaciones de HMC ha sido, hasta hace poco, el de la visión estéreo, por su precio y por su capacidad de ofrecer un mapa de profundidad completo en cada instante de muestreo.
La aparición de la Kinect© ha supuesto un cambio importante en esta tendencia: este sensor, con un precio similar al de los sistemas estéreo más baratos, es sin embargo mucho más preciso y robusto a la hora de obtener el mapa de profundidad.
Sea cual sea el sensor empleado, los sistemas HMC ópticos sin marcadores basados en modelo que utilizan una imagen RGB-D se benefician de la información adicional que supone la profundidad para realizar el emparejado del modelo de forma más rápida y precisa. Como ejemplo, se describe a continuación el método HMC empleado en la Tesis del autor para capturar los movimientos de una persona en entornos no controlados, usando visión estéreo (el método puede aplicarse igualmente a un sistema basado en el sensor Kinect©).
Algoritmo de detección de pose en imágenes RGB-D.
- Detección de la cara de la persona en la imagen de color.

- Extracción de silueta a partir del mapa de profundidad. Conociendo la distancia a la que está la cara, se extrae la silueta umbralizando por distancia (en torno a la distancia a la que se ha detectado la cara) y aplicando componentes conectadas (ninguna parte del cuerpo estará separada del cuerpo).

- Detección de manos en la silueta, buscando zonas de color piel en esa zona de la imagen RGB-D.

- Utilización de un modelo para adoptar la pose definida a partir de la silueta, y las centroides 3D de la cara y las manos. El modelo adopta una pose válida a partir de estos datos utilizando algoritmos de Cinemática Inversa analíticos.
- Refinamiento de la pose hasta encontrar una configuración anatómicamente correcta.

El uso de un modelo, en definitiva, aporta una serie de ventajas a estos sistemas de HMC. También presentan una serie de inconvenientes, que se detallan a continuación:
Ventajas de los sistemas HMC ópticos sin marcadores basados en modelo:
- No requieren el uso de marcadores sobre la persona.
- No requieren entornos controlados.
- Son baratos.
- El modelo proporciona robustez frente a ruidos y errores de percepción, ya que permite detectar, y hasta evitar, poses anatómicamente incorrectas.
- No requieren mucha preparación para empezar a funcionar: no son necesarios ni largos procesos de calibración, ni largas fases previas de entrenamiento.
Inconvenientes de los sistemas HMC ópticos sin marcadores basados en modelo:
- Precisión limitada.
- Sensibles a oclusiones.
- Velocidad limitada, aunque tradicionalmente son más rápidos que los sistemas HMC ópticos basados en características (que se verán a continuación).