Introducción
Ojo artificial
Ilustración 1: Ojo artificial
Uno de los sentidos más importantes de los seres humanos es la visión. Ésta es empleada para obtener la información visual del entorno físico. Según Aristóteles, “Visión es saber que hay y donde mediante la vista”. De hecho, se calcula que más de 70% de las tareas del cerebro son empleadas en el análisis de la información visual. El refrán popular de “Una imagen vale más que mil palabras” tiene mucho que ver con los aspectos cognitivos de la especie humana. Casi todas las disciplinas científicas emplean utillajes (conjunto de utensilios y materiales necesarios para llevar a cabo una tarea) gráficos para transmitir conocimiento. Por ejemplo, en Ingeniería Electrónica se emplean esquemas de circuitos, a modo gráfico, para describirlos. Se podría hacerlo mediante texto, pero para la especie humana resulta mucho más eficiente procesar imágenes que procesar texto. La visión humana es el sentido más desarrollado y el que menos se conoce debido a su gran complejidad. Es una actividad inconsciente y difícil de saber cómo se produce. De hecho, hoy en día, se carece de una teoría que explique cómo los humanos perciben el exterior a través de la vista.

 Definición de visión artificial.
La visión artificial es una rama de la inteligencia artificial (ver esquema 1) que tiene por objetivo modelar matemáticamente los procesos de percepción visual en los seres vivos y generar programas que permitan simular estas capacidades visuales por computadora. La visión artificial permite la detección automática de la estructura y propiedades de un posible mundo dinámico en 3 dimensiones a partir una o varias imágenes bidimensionales del mundo. Las imágenes pueden ser monocromáticas o a color; pueden ser capturadas por una o varias cámaras, y cada cámara puede ser estacionaria o móvil. La estructura y propiedades del mundo tridimensional que se intentan deducir en la visión artificial incluyen no sólo propiedades geométricas (tamaños, formas, localización de objetos, etc.), sino también propiedades del material (sus colores, sus texturas, la composición, etc.) y la luminosidad u oscuridad de las superficies.
Ramas de la inteligencia artificial
Esquema 1: Ramas de la inteligencia artificial
Los sistemas de percepción computacional, como también se conoce a la visión artificial, van más allá de medir o detectar, estos sistemas perciben, es decir descifran o reconocen el mensaje sensorial (ver esquema 2). La información visual es una proyección bidimensional de objetos tridimensionales y, por tanto, la imagen que capta el ojo humano o una cámara digital tiene infinitas interpretaciones posibles. La percepción es un proceso que se distribuye a lo largo del espacio y del tiempo.
fases de la visión artificial
Esquema 2: Fases de la visión artificial
La Visión Artificial, pretende capturar la información visual del entorno físico para extraer características relevantes visuales, utilizando procedimientos automáticos. Según Marr, “Visión es un proceso que a partir de imágenes del mundo exterior produce una descripción útil para el observador y no tiene información irrelevante”.
La visión artificial aplicada a la industrial abarca la informática, la óptica, la ingeniería mecánica y la automatización industrial. A diferencia de la visión artificial académica, que se centra principalmente en máquinas basadas en el procesamiento de imágenes, las aplicaciones de visión artificial industrial integran sistemas de captura de imágenes digitales, dispositivos de entrada/salida y redes de ordenador para el control de equipos destinados a la fabricación tales como brazos robóticos. Los sistemas de visión artificial se destinan a realizar inspecciones visuales que requieren alta velocidad, gran aumento, funcionamiento las 24 horas del día o la repetitividad de las medidas.
El objetivo de un sistema de inspección por visión artificial suele ser comprobar la conformidad de una pieza con ciertos requisitos, tales como las dimensiones, números de serie, la presencia de componentes, etc.
1.2.1 Definiciones que los investigadores dieron a la visión artificial a lo largo de la historia.
[Ballard&Brown82]: La Visión Artificial es la construcción de descripciones de objetos físicos, llenas de significado y explícitas, a partir de imágenes, pg. xiii. Incluyen el procesamiento de imágenes (no pensamos que sea acertado en la actualidad).
[Horn86] en “Robot Vision” página 4: la entrada a un sistema de visión por máquina es una imagen o varias imágenes mientras que la salida es una descripción que debe cumplir dos criterios: estar relacionada con la imagen observada y contener toda la información que se necesita para realizar una tarea determinada. El procesamiento de imágenes es una parte de esta tarea.
[Nalwa93] La Visión Artificial describe la deducción automática de las estructuras y propiedades de un mundo tridimensional, posiblemente dinámico, a partir de una o varias imágenes bidimensionales de él.
El autor excluye de su libro el reconocimiento de objetos basado en modelos, ya que, según él, este reconocimiento es un proceso cognitivo y no de percepción.
[Trucco&Verri98] La búsqueda de propiedades del mundo 3-D a partir de una o más imágenes digitales. Es importante notar que en este texto sí se incluye el reconocimiento de objetos.
[Hoffman98], página 160, tal vez estemos en una época en la que el reconocimiento de objetos sea parte de la VA, pero no sería extraño que en el futuro asistiéramos a una separación de esta materia de la VA como ya la hubo del procesamiento de imágenes y el análisis de imágenes. El mundo de la VA es fundamentalmente un mundo 3-D 

Visión humana vs visión artificial
partes del ojo humano
Ilustración 2: Partes del ojo humano
El ojo tiene una forma, aproximadamente, esférica de unos 2.5 cm de diámetro. El ojo está formado por una óptica y una zona sensorial (ver ilustración 2). La óptica está constituida por la córnea, el iris o pupila y el cristalino. La córnea es un material transparente y funciona como lente fija. La pupila regula la cantidad de luz que entra en el interior y el cristalino hace las veces de lente variable, permitiendo el enfoque dependiendo de la distancia de los objetos. Los músculos que sujetan al cristalino provocan su deformación, cuya consecuencia es el enfoque del campo visual. La misión de la óptica del ojo es conducir la radiación electromagnética, del espectro visible, hacia la retina. La retina se encuentra en la parte posterior del glóbulo ocular y es donde se ubican las células fotosensibles: los conos y los bastones.
El hombre ha imitado muchas veces, en la construcción de sus artefactos, a la Naturaleza. En este caso también se cumple. Las cámaras de vídeo con sus ópticas hacen las veces del globo ocular, mientras el computador realizará las tareas de procesamiento, emulando el comportamiento del cerebro. Cuando se establecieron en la década de los 50, los objetivos de la Inteligencia Artificial, se suponía que con la llegada del siglo XXI habría máquinas que serían capaces de describir, con información de alto nivel, las escenas capturadas. Con el paso del tiempo se vio que aquel anhelo se iba desvaneciendo. Hoy en día, todavía no hay una teoría de la visión. No se conoce los mecanismos que el cerebro utiliza para obtener la información de la percepción. El cerebro es capaz, de manera inconsciente, de determinar la distancia a los objetos, de reconocerlos en diferentes posiciones, aunque se encuentren rotados y con información parcialmente oculta. En definitiva, el cerebro presenta una sofisticación en la percepción que ni ahora ni en mucho tiempo habrá posibilidad de implementar artificialmente.
Lo que si hace la Visión Artificial es construir nuevos y más sofisticados algoritmos que sean capaces de obtener información de bajo nivel visual. Y aunque todavía se esté años luz de la percepción visual de los seres vivos, la Visión Artificial es muy eficaz en tareas visuales repetitivas y alienantes para el hombre. Por ejemplo, en el campo de la inspección de productos en la industria o en contar células en una imagen de microscopía o en determinar la trayectoria de un vehículo en una autopista, etc.
El sentido de la vista nos proporciona el 75% de la información que recibimos los seres humanos en nuestro cerebro. Si las máquinas dispusieran de esta fuente de información con un sistema de percepción artificial, se les proporcionaría una mejora significativa en su funcionamiento y operación. El sistema de visión humano es maravilloso, sin embargo, no es infalible, en ciertas circunstancias puede ocasionar ilusiones que nos hace ver cosas que no son. Además, puede ser ambiguo pues nos da mas de una interpretación posible y puede ser inconsistente informándonos de objetos y figuras imposibles en mundo real. A pesar del gran avance científico y tecnológico en este campo, los sistemas de visión artificial aun están muy lejos de alcanzar a los sistemas de visión humana, aunque no es necesario que se emule en todos los aspectos a este. Sin embargo, en los procesos tecnológicos y dentro de estos los procesos de producción, los sistemas de visión artificial pueden hacer cosas de manera mucho más efectivas y adecuadas que la visión humana, tal es el caso de los siguientes aspectos:
1 - Dentro del espectro electromagnético (ver ilustración 3) la visión humana solamente capta un pequeño rango de frecuencias y amplitudes, conocido como “rango de luz visible”, los sistemas de visión artificial pueden captar todo el espectro, es decir, además del rango de luz visible puede captar ondas de radio, de televisión, microondas, infrarrojos, ultravioletas, rayos X, rayos gamma y rayos cósmicos.
espectro electromagnético
Ilustración 3: Espectro electromagnético
2 - La velocidad de respuesta de la visión humana es de 0,06 segundos, mientras que en las cámaras de estado sólido es de 0,00001 segundos y este tiempo se va reduciendo según se mejora la electrónica de estos sistemas.
3 - La visión humana se cansa y se ve afectada por las emociones, en los sistemas de visión artificial no.
4 - El ser humano puede discernir entre 10 ó 20 niveles de gris, los sistemas de visión artificial tienen una definición muy superior.
5 - La visión humana tiene muy poca precisión apoyándose en instrumentos de medida, los sistemas de visión artificial tienen gran precisión en la medición, dependiendo solamente de la resolución espacial de los componentes del sistema.
6 - La visión humana es poco consistente por la fatiga y las distracciones, en cambio la visión artificial mantiene su nivel de rendimiento constante a lo largo de su vida útil.
7 - Los sistemas de visión artificial pueden trabajar en entornos muy peligrosos, con riesgos radioactivos, químicos, biológicos, ruido, polución, temperaturas muy altas y muy bajas.

Las principales ventajas de la visión humana respecto a la artificial son:
  • Mejor reconocimiento de objetos.
  • Mejor adaptación a situaciones imprevistas.
  • Mejor en tareas de alto nivel de proceso.
  • Mayor resolución, 576Mpíxeles frente a los 50Mpíxeles de una cámara.
Usos
Con el incremento de potencia de los microprocesadores, las aplicaciones que pueden resolverse con éxito utilizando sistemas de visión están creciendo rápidamente. Una aplicación puede exigir una o más funciones de procesamiento de imágenes, que cuando se combinan crean una solución.
La utilización de la visión artificial en la industria abarca un amplio espectro de aplicaciones que, de manera simplificada, pueden agruparse en cinco áreas principales:
  • Control de procesos.
  • Control de calidad.
  • Aplicaciones no industriales.
Prácticamente cualquier sector industrial puede beneficiarse de este tecnología para acelerar sus procesos, para reducir sus costes de producción o para mejorar la calidad de sus productos finales.
La visión artificial también es usada en aplicaciones no industriales como, por ejemplo, para el control del tráfico, guiado de robots, etc.
Los objetivos típicos de la visión artificial incluyen:
  • La detección, segmentación, localización y reconocimiento de ciertos objetos en imágenes (por ejemplo, caras humanas).
  • La evaluación de los resultados.
  • Registro de diferentes imágenes de una misma escena u objeto, esto es, hacer concordar un mismo objeto en diversas imágenes.
  • Seguimiento de un objeto en una secuencia de imágenes.
  • Mapeo de una escena para generar un modelo tridimensional de la escena; tal modelo podría ser usado por un robot para navegar por la escena.
  • Estimación de las posturas tridimensionales de humanos.
  • Búsqueda de imágenes digitales por su contenido.
  • Estos objetivos se consiguen por medio de reconocimiento de patrones, aprendizaje estadístico, geometría de proyección, procesado de imágenes, teoría de gráficos y otros campos. La visión artificial cognitiva está muy relacionada con la psicología cognitiva y la computación biológica.
Control de procesos
moneda con defecto de fabricación
Ilustración 4: Moneda con un defecto de fabricación
Forma o apariencia. Control de la conformidad.
Los sistemas actuales, por lo general, comienzan con una operación de medición bidimensional para establecer el desplazamiento necesario para que el objeto se encuentre en una posición ideal. Posteriormente, se llevan a cabo las operaciones de comparación con un objeto patrón o la caracterización geométrica de su forma. De esta manera, se puede decidir si el objeto analizado cumple o no con los requisitos preestablecidos. La monea de la ilustración 4 sería un claro ejemplo de defecto de fabricación que se podría detectar mediante visión artificial.
Control por colores.
La inspección por color se utiliza ampliamente en la industria farmacéutica para confirmar que la tableta o píldora de color se ha colocado en el embalaje correcto.
Reconocimiento de piezas o componentes del producto.
El reconocimiento de piezas o componentes puede ser usado para identificar qué partes deben ser sometidas a que proceso. Por ejemplo, un sistema de visión puede discernir entre las diferentes piezas de un elemento e instruir a un robot para el correcto montaje del elemento.
escaner de código de barras
Ilustración 5: Escáner láser leyendo un código de barras
Reconocimiento de caracteres.
Los sistemas de visión también pueden ser usados para leer códigos de barras con un mayor grado de confianza que un escáner láser (ver ilustración 4). Incluso si una gran parte del código de barras está oculto por suciedad, un sistema de visión, por lo general, puede leerlo, mientras que un lector de códigos de barras convencional no.
Además de códigos de barras, los sistemas de visión también se usan para leer códigos matriciales de dos dimensiones, donde los códigos pueden contener mucha más información que un código de barras unidimensional.


Control de calidad
Hoy en día, en muchos procesos de fabricación, los límites de detección de defectos han superado la percepción del ojo humano; por esta razón las empresas del mundo moderno han visto la necesidad de crear un sistema que permita controlar en forma precisa y acertada la calidad de sus productos. Todo proceso industrial es evaluado por la calidad de su producto final, esto hace de la etapa de control de calidad una fase crucial del proceso. Los mecanismos utilizados para establecer la calidad de un producto varían dependiendo de los parámetros que tengan relevancia en el mismo. Cuando el parámetro relevante es la geometría o forma del objeto fabricado se suele dejar a la vista del operario que lleve a cabo tal función tanto de inspección como de verificación para el control de calidad, sin embargo pueden existir errores en la geometría de un objeto que escapen de la vista de un operario y que luego impidan el buen funcionamiento de dicho objeto. En un caso como éste, surge como una buena alternativa el utilizar un sistema de visión artificial capaz de detectar aquellos errores que un operario pudiera pasar por alto. Los beneficios que se obtienen con esta tecnología hablan por si solos:
  • Mejora de la calidad.
  • Menor nivel de rechazo del producto acabado.
  • Reducción del costo de mano de obra.
  • Agrupación en lotes según diferentes niveles de calidad.
  • Análisis detallado de los fallos.
  • Fácil adaptación a modificaciones en el producto o ritmo de fabricación.
Detección de defectos. Elementos discretos.
La detección de defectos puede ser considerada como un caso especial de control de la conformidad, en el que los objetos no ofrecen formas especificas caracterizables. Como ejemplos, citaremos la inspección de baldosas cerámicas en la etapa previa al esmaltado para detectar defectos en la superficie como rugosidades, o el uso de infrarrojos para la inspección de defectos de botellas de vidrio.
Detección de defectos. Tejidos o laminados.
La característica de muchos sistemas de este tipo es que se debe examinar grandes áreas a gran velocidad, en busca de defectos relativamente pequeños. El material producido en bobinas incluye la chapa de acero, papel, películas fotográficas, vidrio, hoja de plástico y los textiles. Algunos de estos sistemas utilizan el escaneado láser en lugar de cámaras lineales para formar la imagen.
Medidas unidimensionales o bidimensionales.
Las mediciones bidimensionales se pueden realizar mediante la superposición de calibres ópticos sobre la imagen del producto. La medición por este método es muy rápida porque no hay movimiento mecánico, y el posicionamiento exacto del objeto a medir no es crítico (el sistema puede determinar el desplazamiento X e Y del objeto y el grado de rotación).
Algunos sistemas ofrecen interpolación subpixel que, en condiciones adecuadas, hace que el sistema sea capaz de medir y, en particular, detectar cambios o diferencias en la medición, de milésimas en lugar de las centésimas que ofrecen otros métodos de metrología (ver ejemplo 1). El número de píxeles de la imagen se puede aumentar mediante el uso de cámaras de muy alta resolución y obtener así mediciones aun más precisas.
Ejemplo 1: Aplicación de interpolación subpixel:
imagen interpolada de 128x64 a partir de una imagen 32x16
Reconstrucción con una imagen de baja resolución
Reconstrucción con dos imágenes de baja resolución
Imagen interpolada de 128x64 a partir de una imagen 32x16
Reconstrucción con una imagen de baja resolución
Reconstrucción con dos imágenes de baja resolución
Reconstrucción con cuatro imágenes de baja resolución
Reconstrucción con 8 imágenes de baja resolución
Reconstrucción con 16 imágenes de baja resolución
Reconstrucción con 4 imágenes de baja resolución
Reconstrucción con 8 imágenes de baja resolución
Reconstrucción con 16 imágenes de baja resolución
Aplicaciones no industriales
Guiado predeterminado.
Robot soldando mediante arco eléctrico
Ilustración 6: Robot soldando mediante arco eléctrico
El guiado predeterminado se caracteriza por una situación en la que una cámara acimutal (que le permite moverse en horizontal y vertical) toma una instantánea de la escena y el sistema de visión dirige un robot para que recoja o deje un objeto en una posición concreta. A continuación, el robot obra a ciegas. Una aplicación típica incluye tareas de paletización (colocar mercancía sobre un palé) de objetos pesados, tales como bloques de motor y cigüeñales, pero también puede incluir trabajos mucho más ligeros tales como el embalaje de chocolates.
Guiado continuo.
El guiado continuo implica una cámara montada sobre el brazo o la mano del robot y el camino del robot está continuamente corregido por el sistema de visión. Una aplicación común es el guiado de la soldadura por arco (ver ilustración 6), pero la técnica puede utilizarse también para controlar el camino en la aplicación de selladores o pegamentos por robots.

Componentes de un sistema de visión artificial
Sistema de iluminación
Ilustración 7: Sistema de iluminación
Un moderno sistema de visión artificial consta de:
Un sistema de iluminación.
Es un aspecto de vital importancia ya que debe de proporcionar unas condiciones de iluminación uniformes e independientes del entorno, facilitando además, si es posible, la extracción de los rasgos de interés para una determinada aplicación.
Las variaciones en la iluminación son percibidas por el sistema como variaciones en los objetos. Es necesario conseguir una iluminación estable que resalte (incremente el contraste) de los elementos a detectar y evite sombras y reflejos. Intentar resolver tareas de alta precisión mediante una imagen de baja calidad es un problema que se suele intentar compensar con complejos algoritmos que ralentizan el sistema y no acaban resolviendo del todo el problema de base.
Una buena iluminación es especialmente importante para la toma de imágenes de los productos en una línea rápida de producción, aunque algunas aplicaciones pueden utilizar la luz ambiente. En la ilustración 7 se puede ver el foco que es empleado por la vídeo cámara como sistema de iluminación.
La lente de la cámara.
Su correcta elección debe tener en cuenta la distancia de trabajo y el campo de visión necesarios. La utilización de filtros ópticos que resalten los elementos a analizar garantizará el éxito de la tarea. La correcta selección de lentes es importante para alcanzar una solución óptima. Un ejemplo de dicha importancia se puede ver en la ilustración 8 en la que se muestra la misma imagen capturada con dos tipos de ópticas distintas.
Diferencia entre el uso de dos tipos de ópticas
Ilustración 8: Diferencia entre el uso de dos tipos de ópticas
Una o más cámaras para adquirir las imágenes.
Cámara de alta resolución
Ilustración 9: Cámara de alta resolución
Conjunto encargado de recoger las características del objeto en estudio y proporcionar los datos para su procesado, por medio de una imagen digital. El tipo de sensor, su tamaño y su resolución deben escogerse en función de los elementos que se desea ver. Las cámaras pueden ser analógicas, pero el precio de las cámaras digitales está disminuyendo, de modo que estas se están usando más a menudo. En la ilustración 9 podemos ver una cámara de la familia Stingray una serie de cámaras empleadas en la visión artificial con un gran número de funciones de alto nivel.
Algunos sistemas de visión no utilizan una cámara bidimensional, en su lugar se usa una cámara lineal que produce una sola línea o fila de píxeles. La imagen bidimensional se genera a medida que el objeto pasa bajo la cámara lineal, aprovechando su movimiento, normalmente generado por una cinta transportadora. Uniendo las distintas filas de píxeles obtenidas a diferentes intervalos de paso, se obtiene una imagen bidimensional.
cámara lineal
Ilustración 10: Cámara lineal
En la ilustración 10 vemos un ejemplo de cámara lineal empleada en visión artificial. Se trata de una cámara trilineal de color de hasta 4.000 píxels de resolución (4096 x 3 píxels) con salida CameraLink y velocidades de hasta 18.000 líneas por segundo.
Tarjeta de captura o adquisición de imágenes.
Es la interfaz entre el sensor y el ordenador o módulo de proceso que permite al mismo tiempo disponer de la información capturada por el sensor de imagen. La imagen de entrada -una matriz bidimensional de niveles energéticos (por ejemplo, luz)- se divide en elementos de imagen, conocidos como píxeles. Estos forman filas y columnas que abarcan toda la zona de la imagen y representan los niveles de gris en una imagen monocromática o la codificación de color en una imagen en color. Un píxel no puede ser subdividido en regiones de menor nivel de gris o color. Este proceso es un tipo de digitalización espacial. Para cada píxel, la información del nivel de energía también debe ser digitalizada, es decir, los niveles analógicos (variable continua) producidos por la cámara deben ser representados por un número finito de pasos. En muchas aplicaciones es suficiente digitalizar una imagen monocroma con 8 bits por píxel, lo que equivale a 256 pasos, para representar el nivel de gris de cada píxel. En aplicaciones más exigentes puede ser necesario digitalizar a 14 bits (o 16384 niveles). Las imágenes en color son más complejas y pueden ser representados en diferentes formatos. La imágenes en color normalmente contienen tres veces más información que una imagen monocromática.
Algoritmos de análisis de imagen.
Es la parte “inteligente” del sistema. Su misión consiste en aplicar las necesarias transformaciones y extracciones de información de las imágenes capturadas, con el fin de obtener los resultados para los que haya sido diseñado Un ejemplo de este elemento constituye el paquete computacional SIVA (Sistema Inteligente de Visión Artificial), y el Toolbox correspondiente del Matlab.
Cámara inteligente
Ilustración 11: Cámara inteligente
Un procesador de imagen, ordenador o cámara inteligente.
Es el sistema que analiza las imágenes recibidas por el sensor para extraer la información de interés en cada uno de los casos implementando y ejecutando los algoritmos diseñados para la obtención de los objetivos.
El procesado puede ser realizado por un ordenador u otra opción es utilizar cámaras inteligentes que integran el procesamiento de imágenes dentro de la propia cámara, evitando la necesidad de transferir imágenes a un ordenador externo. La velocidad de proceso de estas cámaras es inferior a la de un ordenador y existen aplicaciones en las que estas no son adecuadas.
En la ilustración 11 podemos ver una cámara inteligente. Esta cámara se suministra con un potente software de desarrollo que permite realizar todo tipo de aplicaciones de visión. Contiene un DSP de Texas Instruments TMS320C64xx a 1GHz y 8000 MIPS. Cuenta con 64MB de Memoria SDRAM y 4 MB de memoria Flash Eprom, conexión Ethernet 100Mbit y Puerto RS-232 Una interfaz para notificar el resultado del análisis o sistema de respuesta en tiempo real.
Con la información extraída se puede mostrar el resultado mediante un monitor, una señal acústica, luminosa, etc., para que un operario realice la tarea correspondiente en función de los datos recibidos o también los sistemas de visión artificial pueden
tomar decisiones ellos mismos que afecten al sistema productivo con el fin de mejorar la calidad global de la producción.

El sistema de iluminación.
Dado que la imagen se forma a partir de la luz que reflejan los objetos, la única posibilidad de obtener una imagen con características constantes en la que se resalten los aspectos de interés y se atenúen los intrascendentes permitiendo o facilitando la resolución del problema es controlando las condiciones de iluminación.
Para ello, se emplea el sistema de iluminación (ver ejemplo en la ilustración 12), que se encuentra formado por la fuente de luz según entre un determinado esquema de iluminación, lo que en conjunto proporciona unas condiciones de iluminación determinadas.
Hay que tener en cuenta que el problema de iluminación no resulta trivial y su coste supone una parte importante del total del proyecto.

Fuentes de luz
Entre la multitud de fuentes de luz existentes, las más utilizadas son:

luz fluorescente
Ilustración 13: Luz fluorescente
Fluorescente de alta frecuencia: no ofrece demasiada luz y presenta deriva con el tiempo, pero su precio económico y su adaptabilidad tanto en forma como en color los hacen atractivos.
Luz alógena
Ilustración 14: Luz alógena
Halógena: presenta gran luminosidad, pero desprende calor, su luz es caliente y su precio es caro. Además, presentan envejecimiento.
Luz xenón
Ilustración 15: Luz xenón.
Xenón: presenta aún mayor luminosidad, aunque los mismos inconvenientes, y un precio aún mayor.
Luz led
Ilustración 16: Luz led
LED: admite multitud de configuraciones y están disponibles en multitud de colores, son estables, duraderos, funcionan en baja tensión, aunque su precio es elevado.
Luz laser
Ilustración 17: Luz laser
LÁSER: La iluminación mediante láser o luz estructurada se utiliza normalmente para resaltar o determinar la tercera dimensión de un objeto. El método utilizado es colocar la fuente de luz láser en un ángulo conocido con respecto al objeto a iluminar y con respecto a la cámara. Viendo la distorsión de la luz puede interpretarse la profundidad de los objetos a medir.
Fibra óptica
Ilustración 18: Fibra óptica
Fibra óptica: la iluminación por fibra óptica, es actualmente, la que puede proporcionar la luz más intensa de todos los tipos de iluminación que se utilizan en visión artificial. La idea básica es conducir la luz procedente de una bombilla halógena, o de xenón, que se encuentra en una fuente de iluminación, a través de un haz de fibras ópticas que termina en una adaptador específico para cada tipo de aplicación. Estos adaptadores pueden tener forma circular, lineal, puntual o de panel, y puede ser de distintos tamaños y dimensiones.

Esquemas de iluminación
Iluminación posterior difusa
Iluminación difusa direccional
Iluminación omni-direccional difusa
Iluminación direccional lateral
Iluminación posterior difusa
Iluminación difusa direccional
Iluminación omni-direccional difusa
Iluminación direccional lateral
Iluminación posterior difusa (Backlight): mediante la iluminación difusa por la parte posterior del objeto se obtiene una imagen de alto contraste, donde la silueta oscura de los objetos se ve resaltada frente al fondo blanco, y por tanto resulta adecuado para medir la forma de los objetos.
Iluminación difusa direccional: emulando a la luz natural pero sin variaciones se emiten los rayos paralelos y en una dirección determinada para lograr una iluminación uniforme.
Iluminación omni-direccional difusa: La cámara consigue una imagen libre de sombras y con gran contraste, gracias a que el objeto es iluminado desde todas direcciones con luz difusa. Para ello se emplea una superficie reflectante de forma semiesférica llamada domo, que actúa como fuente de iluminación al reflejar la luz, con lo que se logra eliminar las sombras y reflejos, y se aumenta el contraste, suavizando las texturas y minimizando la influencia de las rayas, el polvo y los relieves, así como de las curvaturas que pueda tener el objeto inspeccionado. Se emplea en la detección de marcas de diferentes colores, caracteres y detección de todo lo que suponga un cambio de color tanto en superficies lisas, esféricas, rugosas o con brillo.
Iluminación direccional lateral (Grazing): resalta la textura de los objetos o aquellas características salientes, dado que al incidir la luz con un ángulo muy pequeño sólo será reflejada hacia la cámara cuando se encuentre algún saliente. Por tanto, resulta útil para resaltar protuberancias y hendiduras de la superficie del objeto.
Iluminación estructurada
Iluminación estructurada
Iluminación con luz polarizada: puede servir para eliminar brillos de objetos brillantes, como en el caso de una bolsa de patatas, dado que los filtros que se instalan en la iluminación y en la cámara impedirán que la luz que no provenga de la fuente de iluminación, y que por tanto presentará distinta polarización, sea capturada por la cámara.
Iluminación estructurada: mediante la proyección de puntos, franjas o rejillas de luz sobre la superficie de trabajo se establece un patrón que permite extraer las características dimensionales del objeto por medio de la medición de la distorsión que sufre dicho patrón de luz ante la presencia de un objeto. Uno de los sistemas más conocidos consiste en la iluminación con un haz láser plano, de modo que al situarse en un ángulo conocido respecto a la cámara, la línea proyectada y distorsionada por la presencia de un objeto presentará un determinado desplazamiento según la profundidad a la que se encuentre el punto, permitiendo de este modo conocer su posición en el espacio, y finalmente reconstruir el objeto 3D mediante técnicas de computación.

La cámara
En la captura de imagen intervienen las cámaras y las tarjetas de adquisición de imagen, estando las cámaras, al igual que el ojo humano, formadas por una lente convergente que proyecta la imagen sobre una superficie sensible a la luz denominada sensor de imagen.

Sensores digitales de imagen
Los sensores digitales de imagen están formados por una serie de elementos foto sensores (sensibles a la luz) que modifican su señal eléctrica según la intensidad luminosa que reciben, lo que permite la captura de los puntos que conforman la imagen. Estos sensores suelen estar configurados en forma matricial de modo que proporcionan una imagen bidimensional. A nivel industrial también se emplean los sensores con configuración en línea, dada sus altas resoluciones, cuando los objetos se sitúan en superficies en movimiento para aplicaciones de medida (metrología).
Sensor de una cámara digital
Sensor de una cámara digital
Con objeto de reducir costes suelen existir en el mercado multitud de cámaras que emplean lo que se conoce como imagen entrelazada, donde se capturan por un lado las líneas pares y por otro las impares, con lo que al hacerse en instantes de tiempo diferentes no pueden ser empleadas con objetos en movimiento.
A nivel industrial también se emplean los sensores con configuración en línea, dada sus altas resoluciones, cuando los objetos se sitúan en superficies en movimiento para aplicaciones de medida (metrología).
Con objeto de reducir costes suelen existir en el mercado multitud de cámaras que emplean lo que se conoce como imagen entrelazada, donde se capturan por un lado las líneas pares y por otro las impares, con lo que al hacerse en instantes de tiempo diferentes no pueden ser empleadas con objetos en movimiento.
Los sensores son realizados en dos tecnologías, principalmente en CCD y en CMOS.
Sensor CCD
Sensor CCD
Sensor CCD
La tecnología CCD (Charge Coupling Device) es la que proporciona una mejor imagen, sobre todo en el caso de las cámaras profesionales en las que se emplea un sensor para cada color, mientras que en las de consumo se emplea un único sensor, de modo que este está constituido como un mosaico de detectores de colores y por tanto captura una menor densidad de puntos. Cuando el sensor ha capturado la imagen envía la información completa serializada fila a fila.



Sensor CMOS
Sensor CMOS
Sensor CMOS
La tecnología CMOS es la más económica, y ofrece un menor tamaño, gracias a su grado de integración electrónica. Además, puede capturar partes de la imagen, no teniendo que transmitirla completamente. Al contrario que en los sensores de tecnología CCD, las celdas de la matriz CMOS son totalmente independientes de sus vecinas. La principal diferencia radica en que en estos sensores la digitalización se realiza píxel a píxel dentro del mismo sensor, por lo que la circuitería del sensor es mucho más sencilla.


Características de los sensores.
A la hora de seleccionar una cámara hay que tener en cuenta una serie de características, y entre las principales se destacan:
Resolución: número de píxeles que conforman la imagen capturada.
Sensibilidad: nivel mínimo de iluminación que puede capturar el sensor.
Rango dinámico: margen de luz (intensidad luminosa) que puede capturar el sensor, o sea, diferencia máxima entre luz y oscuridad que puede distinguir.
Señal/ruido y Smear: influencia entre píxeles.
Velocidad: velocidad máxima a la que puede capturar imágenes, siendo su medida en frames por segundo [fps].

Objetivos
Objetivo de alta resolución
Objetivo de alta resolución
El objetivo tiene como función concentrar los rayos de luz, provenientes de los objetos a visualizar, en un plano donde se formará la imagen para ser captada por el sensor. Está formado por el diafragma, que controla la apertura y por tanto limita el haz de rayos entrante, la lente, que enfoca el objeto, y el zoom, que permite variar la distancia focal (distancia al objeto).
El diafragma permite regular la apertura del objetivo y con ello la luminosidad de la imagen. Además, aunque al cerrar el diafragma los rayos salen enfocados independientemente de la distancia al objeto, entrará menos luz y por tanto la escena será más oscura, con lo que se requerirá un mayor tiempo de exposición.
La lente viene caracterizada por la distancia focal (f), que es la distancia desde su centro hasta el punto en el que convergen los rayos que llegan paralelos a ella. Así, el aumento de la distancia focal disminuye el campo visible y con ello la distancia de trabajo de la misma.
Objetivos telecéntricos
Objetivos telecéntricos
De este modo, el desenfoque se produce según el objeto se aleja o acerca de la posición ideal, dado que la imagen dejará de formarse sobre el sensor, y por tanto cada punto de la imagen no se corresponderá con su elemento correspondiente del sensor. Para corregirlo, se cambia la distancia focal de la lente, lo que se traduce en variar la distancia entre lente y sensor.
Existen una clase de objetivos, llamados telecéntricos, que permiten ver los objetos en proyección ortográfica; siempre y cuando sean más pequeños que el diámetro de la propia lente.
Características de los objetivos
Campo visible (FOV): es el área visible por la lente para una cierta distancia de trabajo en la que los objetivos aparecen enfocados.
Profundidad de campo (DOF): es el rango de distancias a las cuales los objetos se encuentran enfocados.

Como funciona la visión artificial
Elementros empleados en una aplicación de visión artificial
Elementros empleados en una aplicación de visión artificial
Aunque cada aplicación de visión artificial tiene sus especificidades, se puede decir que existe un tronco común de etapas entre ellas. No necesariamente debe cubrirse todas en una implementación concreta. Hay algunas veces que sólo se tiene un subconjunto de las fases que se van a citar. Por otro lado, aunque la exposición muestra un encadenamiento temporal de una etapa sobre otra, no es real esta simplificación; se hace para facilitar la comprensión y en la puesta en práctica siempre se encuentra realimentación entre las distintas fases.
Los dos pilares del sistema físico de visión artificial son: el sistema de formación de las imágenes y el sistema de procesamiento de éstas. En el primer apartado estaría constituido por el subsistema de iluminación, de captación de la imagen y de adquisición de la señal en el computador. Una vez introducida la señal en el computador, ésta es procesada mediante los algoritmos para transformarla en información de alto nivel. La cual puede ser utilizada para su representación visual, para actuar en el planificador de un robot o ser fuente de datos para un autómata programable. En definitiva, múltiples periféricos pueden ser receptores de esta información y vincularse con el sistema de procesamiento de las imágenes.
Etapas de una aplicacion de visión artificial
Etapas de una aplicacion de visión artificial

Adquisición de la imagen
La primera etapa es la construcción del sistema de formación de las imágenes. Su objetivo es realzar, mediante técnicas fotográficas (iluminación, óptica, cámaras, filtros, pantallas,...), las características visuales de los objetos (formas, texturas, colores, sombras,...). El éxito de muchas aplicaciones depende de un buen diseño en esta primera etapa.

Preprocesado
Una vez adquirida la imagen se pasará a la etapa de preprocesado. El objetivo es mejorar la calidad informativa de la imagen adquirida. Se incluyen operaciones de mejora de la relación señal-ruido (denoising), SNR, de atenuar las imperfecciones de la adquisición debido a la función de transferencia del sistema de captación de imágenes (deconvolution), de regularizar la imagen, de mejorar el contraste o de optimizar la distribución de la intensidad (enhancement) o de realzar algunas características de la imagen, como bordes o áreas.

Segmentación
En esta fase se divide la imagen en áreas con significado. Se trata de decidir qué partes de la imagen necesitan interpretación o análisis y cuáles no. A menudo es posible y necesario refinar la segmentación. Por ejemplo, si la aplicación debe encontrar arañazos o grietas en un vidrio, la primera fase de segmentación suele encontrar elementos que son las propias grietas o arañazos además de suciedad y polvo. Otro ejemplo, en una imagen de satélite se determina las zonas de agua, de cultivo, urbanas, carreteras, ... A menudo se perfecciona este resultado para eliminar de la imagen la suciedad y el polvo de los elementos a analizar.
Existen varias técnicas: umbralizaciones, discontinuidades, crecimiento de regiones, uso del color o de movimiento, etc.

Representación y descripción (extracción de características)
Una vez dividida la imagen en zonas con características de más alto nivel se pasará a su extracción de las características. Básicamente son de tipo morfológico, tales como área, perímetro, excentricidad, momentos de inercia, esqueletos, pero también se puede emplear características basadas en la textura o en el color.
Fíjese que se ha pasado de una información visual primaria a algo más elaborado. Con las características analizadas ahora cada región se debe de clasificar e interpretar. Por tanto, se diseñarán clasificadores que le dé a cada área segmentada una etiqueta de alto nivel, como por ejemplo, en una imagen aérea qué zonas son tierras de cultivo, áreas urbanas, etc. Existe un elenco de técnicas de clasificación, como redes neuronales, sistemas expertos, lógica difusa, clasificadores estadísticos, etc.

Reconocimiento e interpretación
Una vez que la imagen ha sido satisfactoriamente segmentada y han sido extraídas las características, el procesador puede hacer una serie de pruebas y mediciones en los elementos de interés que aparecen en la escena. Existen multitud de algoritmos que nos ayudan a obtener los resultados deseados. Entre ellos, cabe destacar sus funcionalidades:
  • Detección de formas
  • Análisis geométrico
  • Comparación con patrones
  • Medición de objetos
  • Detección de objetos difusos
Estos algoritmos, usados estratégicamente, nos permiten decidir si una pieza se ha fabricado correctamente o no, guiar un robot hacia un objeto concreto o reajustar la maquinaria de producción automáticamente.

Justificación de la inversión en visión artificial
En las industrias productivas la visión artificial se está convirtiendo rápidamente en un factor clave en el desarrollo de la calidad total dentro de los diferentes procesos de automatización industrial. Su implementación en una empresa genera un aumento en el nivel de producción y una reducción en los costos de fabricación, elevando los niveles de competitividad en el mercado nacional e internacional. La visión artificial permite inspeccionar el proceso de producción sin fatigas ni distracciones, facilitando la cuantificación de las variables de calidad traduciéndose en un mejoramiento continuo.
Las inspecciones realizadas por los seres humanos, a menudo no pueden cumplir con los requisitos de la industria moderna respecto a la velocidad de producción, calidad de producto y costes de producción. Los humanos se cansan, cometen errores y los criterios que se aplican durante las inspecciones son inevitablemente subjetivos. En algunos casos, no es humanamente posible llevar a cabo las tareas de inspección debido a las condiciones ambientales. Las cámaras y el resto de componentes de un sistema de visión artificial, por el contrario, llevan a cabo las mediciones con una precisión constante y a un ritmo que es establecido por el propio proceso de producción. Estas ventajas han llevado a una creciente aceptación de la visión por industrias de todo el mundo.

Costes de los materiales
En la mayoría de las aplicaciones, evitar la producción de piezas defectuosas mediante el uso de un sistema de visión industrial tendrá un período de amortización muy corto. Para evitar que se fabriquen piezas defectuosas, el sistema de inspección automática, ya sea muestreando el 100% en la línea de producción o bien usado fuera de línea tomando muestras, debe formar parte del control estadístico de procesos (SPC) del sistema productivo. Esto significa que el sistema indica cuando un parámetro de control deriva hacia el límite de tolerancia, o es simplemente demasiado errático. El sistema de visión puede tomar medidas correctivas antes de que el límite sea superado.

Costes de la mano de obra
La reducción de la mano de obra es también un importante ahorro de costes, ya que muchas de las tareas realizadas por la visión industrial pueden sustituir a personas directamente. Además, deben ser considerados los ahorros en selección de personal, prestaciones sociales y los aumentos salariales anuales.

Costes de la calidad
La creciente conciencia del costo de la calidad a través de las normas IS09001, significa que el uso de la visión artificial puede ofrecer un estándar más objetivo, fiable y consistente en la inspección de productos.
El ahorro en la optimización del uso de materiales, seguimiento de la calidad de los proveedores y garantía de calidad de los productos acabados pueden llevar a ahorros tanto tangibles como intangibles. El costo de los trabajos de reparación en garantía se puede reducir y además se mejora la confianza de los clientes consiguiendo pedidos recurrentes y una mayor cuota de mercado.