Introducción

Introducción

El sistema Kinect, que se empezó a comercializar en Febrero de 2010 para la videoconsola XBox360, supuso una revolución en el mundo de los videojuegos. Por primera vez, era posible interactuar con el juego sin necesidad de usar ningún tipo de mando, sin tener que colocarse en ningún entorno en concreto, sin tener que hacer calibración de ninguna clase.

La publicidad indicaba 'Tú eres el mando', y realmente el sistema Kinect es capaz de capturar los movimientos de la persona, y utilizarlos para controlar las acciones realizadas en un videojuego. Se llega así a la interfaz hombre-máquina más sencilla de todas: la que comunica directamente a la persona con la computadora sin ningún tipo de elemento intermedio.

Para alcanzar este resultado, como se puede imaginar, fue necesario un largo proceso de investigación y desarrollo. La tecnología del sensor, de hecho, estaba inventada desde 2005. Por otra parte, la investigación en sistemas de captura de movimientos on-line, que no usen marcas, y que no requieran entornos controlados, ha sido objeto de gran atención por parte de la comunidad científica en la última década. Microsoft utilizó todos estos conocimientos y tecnologías como base para su Proyecto Natal, anunciado en la Electronic Entertainment Expo de 2009 (E3 2009), y que culminó en el lanzamiento de la Kinect.

Tras la aparición de la Kinect, pronto resultó evidente que su uso no estaba restringido al mundo del videojuego. Por una parte, la comunidad científica internacional aceptó con entusiasmo el sensor PrimeSense, capaz de proporcionar una imagen RGB-D (imagen de color + distancias a objetos) con una precisión elevada, y a un precio muy reducido. Por otro lado, surgieron librerías de libre distribución (como OpenNI) que fueron ampliamente utilizadas para desarrollar nuevas aplicaciones para la Kinect. Finalmente, comenzaron a aparecer otros sistemas dotados de sensores parecidos tales como el Xtion de ASUS (que, de hecho, internamente usa el mismo sensor PrimeSense que usa la Kinect) o el Leap Motion. Estos sistemas se muestran en las siguientes figuras. 

En Febrero de 2012, Microsoft lanza su última versión de Kinect, la Kinect para Windows, que puede conectarse a un PC y capturar gestos precisos de las manos cerca de la pantalla (igual que hace el Leap Motion, anunciado en Mayo del 2012). Ya no es necesaria pose de inicilalización, ni alejarse del sensor. Y se empieza a dar uso a los micrófonos, que ya llevaba la primera Kinect, pero que ahora se unen a algoritmos de detección y reconocimiento de voz. Maś de 350 compañías están actualmente trabajando en el desarrollo de aplicaciones para este sistema.

Las características del sensor PrimeSense utilizado tanto por la Kinect como por la Xtion Pro de ASUS son las siguientes:

  • Conexión a través del interfaz USB2.0.
  • Incorpora una cámara estándar que proporciona imagen en color a 30 fotogramas por segundo.
  • Incorpora una cámara infrarroja y un emisor que proporcionan mapa de profundidad (ver Unidad B1_UD3, más adelante) a 30 fotogramas por segundo.
  • Incorpora 4 micrófonos.
  • Es robusto frente a cambios en la iluminación, aunque no funciona bien en exteriores (la luz directa del sol interfiere con el sensor debido a su alta componente infrarroja).
  • Acceso a los datos en crudo: Imagen en color, mapa de profundidad (ver Unidad B1_UD3), y sonido grabado por los cuatro micrófonos que el sensor incorpora.
  • Captura del esqueleto de las personas: El sistema es capaz de detectar la pose de las personas, asociándoles un esqueleto básico. Se puede así reconocer la posición de las manos, o de los codos, o de la cabeza, a una velocidad de 30 imágenes por segundo y sin necesidad de marcas de ningún tipo.

La última versión de SDK del sensor Kinect para Windows incorpora, además, las siguientes funciones:

  • Utilización de dos formatos de detección: cercano y lejano (anteriormente sólo se usaba el formato lejano).
  • Posibilidad de utilizar varios sensores Kinect en el mismo entorno.
  • Detección y reconocimiento de caras.
  • Procesado de audio avanzado, que incluye supresión del eco, reducción del ruido de fondo y reconocimiento de voz. 
Imagen de ejemplo mostrando el esqueleto de un usuario detectado con un sistema formado por Kinect + librería OpenNI + extensión NITE. En este caso concreto, la imagen se corresponde con una captura de un juego que se desarrollará en una Unidad Didáctica posterior de este curso.

 

 

Obra publicada con Licencia Creative Commons Reconocimiento 3.0