Aprendizaje a nivel de máquina

Aprendizaje a nivel de máquina

Una de las estrategias más habituales para que un computador aprenda a reconocer determinados objetos en una imagen consiste en replicar el modelo que usamos los seres humanos, es decir, optamos por enseñarle a la máquina qué objetos queremos que reconozca.

Una aproximación que puede funcionar razonablemente bien es presentar al programa muestras exactas de lo que se quiere reconocer. El problema que tiene representar objetos reales con este modelo es que, generalmente, un objeto tendrá diferentes perspectivas según el punto de vista de la cámara que efectúa la captura, como por ejemplo se puede observar en esta imagen:

 

Además, hay que tener en cuenta que un mismo objeto podrá aparecer con diferentes tamaños (en función no sólo de la perspectiva, sino también de la distancia que haya entre cámara y objeto observado), y además, puede ocurrir que objetos diferentes pero parecidos que entendemos deberían ser del mismo tipo (por ejemplo, un coche) puedan ser aprendidos como distintos por el computador (por ejemplo, si la máquina no ha observado ningún coche morado como parte de sus muestras de entrenamiento, podría ocurrir que no reconociera como tal un coche de ese color).

Un sistema más complejo para realizar aprendizajes en relación al reconocimiento de objetos consiste en definir descriptores que almacenan información relevante de cara a dicha detección. En este sentido, no se pretende tanto memorizar el trozo de imagen exacto que se quiere reconocer, sino que se busca alcanzar un conjunto de datos extraídos de las muestras de entrenamiento que permitan identificar rasgos distintivos de los objetos que se desea poder identificar. Aplicado a un flujo de imágenes, también es posible definir descriptores que reconozcan cambios entre imágenes sucesivas. Por ejemplo, si queremos detectar a un usuario en nuestra escena capturada, es razonable que los píxeles que se estén moviendo en un momento dado tengan una alta probabilidad de pertenecer a un usuario.

Una vez se ha conseguido identificar el objeto de interés, se realiza un seguimiento del mismo (teniendo en cuenta, por ejemplo, que si una persona se mueve, es más probable que se modifiquen los píxeles vecinos a su última posición y a un nivel de profundidad similar que otros más lejanos).

Algunos ejemplos de casos  reales:

 

Obra publicada con Licencia Creative Commons Reconocimiento 3.0