RGB-D
RGB-D
Una Kinect ofrece una imagen en color, y un mapa de profundidad.
- En la imagen en color, cada píxel contiene tres componentes (o subpíxeles): rojo, verde y azul. Las mezclas, en diferente proporción, de estos tres colores dan el color final del píxel.
- En el mapa de profundidad, cada píxel contiene una medida de distancia.
Al conjunto de imagen de color + mapa de profundidad se lo conoce como imagen RGB-D (Red, Green, Blue, Distance).
La imagen RGB-D permite crear una representación 3D de la escena más completa que la que se consigue con un mapa de profundidad, ya que, además de saber dónde está cada punto percibido en el espacio 3D, una imagen RGB-D también indica de qué color es dicho punto. Así, a partir de una imagen RGB-D se puede reconstruir un volumen 3D como se indica en la figura (referencia):

El problema principal para crear una imagen RGB-D adecuada es el alineamiento de la cámara infrarroja con la cámara de color. Este problema, sin embargo, es muy similar al de calibración que se vió para imagen estéreo, y se resuelve de forma muy parecida. En el caso de la imagen RGB-D, el alineamiento o calibración calcula la matriz de transformación que empareja los píxeles de la imagen de color con los de la imagen infrarroja.
Calibración en la Kinect.
En la Kinect, las cámaras de color e infrarrojo ya están alineadas de fábrica, con lo que se pueden emparejar píxeles infrarrojos y de color sin necesidad de realizar procesos extra de calibración.
Con todo, y dado que al montar el dispositivo se cometen pequeños errores mecánicos, es posible mejorar los resultados de la Kinect calibrando ambas cámaras. Ésto, si bien permite tener resultados más precisos, también reduce la tasa de imágenes por segundo que nos proporciona el sistema, ya que es necesario multiplicar cada píxel por la matriz de transformación antes de montar la imagen RGB-D.