Introducción
![]() |
Ilustración 1: Ojo artificial
|
Uno de los sentidos más
importantes de los seres humanos es la visión. Ésta es empleada para
obtener la información visual del entorno físico. Según Aristóteles,
“Visión es saber que hay y donde mediante la vista”. De hecho, se
calcula que más de 70% de las tareas del cerebro son empleadas en el
análisis de la información visual. El refrán popular de “Una imagen vale
más que mil palabras” tiene mucho que ver con los aspectos cognitivos
de la especie humana. Casi todas las disciplinas científicas emplean
utillajes (conjunto de utensilios y materiales necesarios para llevar a
cabo una tarea) gráficos para transmitir conocimiento. Por ejemplo, en
Ingeniería Electrónica se emplean esquemas de circuitos, a modo gráfico,
para describirlos. Se podría hacerlo mediante texto, pero para la
especie humana resulta mucho más eficiente procesar imágenes que
procesar texto. La visión humana es el sentido más desarrollado y el que
menos se conoce debido a su gran complejidad. Es una actividad
inconsciente y difícil de saber cómo se produce. De hecho, hoy en día,
se carece de una teoría que explique cómo los humanos perciben el
exterior a través de la vista.
Definición de visión artificial.
La visión artificial es una rama
de la inteligencia artificial (ver esquema 1) que tiene por objetivo
modelar matemáticamente los procesos de percepción visual en los seres
vivos y generar programas que permitan simular estas capacidades
visuales por computadora. La visión artificial permite la detección
automática de la estructura y propiedades de un posible mundo dinámico
en 3 dimensiones a partir una o varias imágenes bidimensionales del
mundo. Las imágenes pueden ser monocromáticas o a color; pueden ser
capturadas por una o varias cámaras, y cada cámara puede ser
estacionaria o móvil. La estructura y propiedades del mundo
tridimensional que se intentan deducir en la visión artificial incluyen
no sólo propiedades geométricas (tamaños, formas, localización de
objetos, etc.), sino también propiedades del material (sus colores, sus
texturas, la composición, etc.) y la luminosidad u oscuridad de las
superficies.
![]() |
Esquema 1: Ramas de la inteligencia artificial
|
Los sistemas de percepción
computacional, como también se conoce a la visión artificial, van más
allá de medir o detectar, estos sistemas perciben, es decir descifran o
reconocen el mensaje sensorial (ver esquema 2). La información visual es
una proyección bidimensional de objetos tridimensionales y, por tanto,
la imagen que capta el ojo humano o una cámara digital tiene infinitas
interpretaciones posibles. La percepción es un proceso que se distribuye
a lo largo del espacio y del tiempo.
![]() |
Esquema 2: Fases de la visión artificial
|
La Visión Artificial, pretende
capturar la información visual del entorno físico para extraer
características relevantes visuales, utilizando procedimientos
automáticos. Según Marr, “Visión es un proceso que a partir de imágenes
del mundo exterior produce una descripción útil para el observador y no
tiene información irrelevante”.
La visión artificial aplicada a
la industrial abarca la informática, la óptica, la ingeniería mecánica y
la automatización industrial. A diferencia de la visión artificial
académica, que se centra principalmente en máquinas basadas en el
procesamiento de imágenes, las aplicaciones de visión artificial
industrial integran sistemas de captura de imágenes digitales,
dispositivos de entrada/salida y redes de ordenador para el control de
equipos destinados a la fabricación tales como brazos robóticos. Los
sistemas de visión artificial se destinan a realizar inspecciones
visuales que requieren alta velocidad, gran aumento, funcionamiento las
24 horas del día o la repetitividad de las medidas.
El objetivo de un sistema de
inspección por visión artificial suele ser comprobar la conformidad de
una pieza con ciertos requisitos, tales como las dimensiones, números de
serie, la presencia de componentes, etc.
1.2.1 Definiciones que los investigadores dieron a la visión artificial a lo largo de la historia.
[Ballard&Brown82]: La Visión
Artificial es la construcción de descripciones de objetos físicos,
llenas de significado y explícitas, a partir de imágenes, pg. xiii.
Incluyen el procesamiento de imágenes (no pensamos que sea acertado en
la actualidad).
[Horn86] en “Robot Vision” página
4: la entrada a un sistema de visión por máquina es una imagen o varias
imágenes mientras que la salida es una descripción que debe cumplir dos
criterios: estar relacionada con la imagen observada y contener toda la
información que se necesita para realizar una tarea determinada. El
procesamiento de imágenes es una parte de esta tarea.
[Nalwa93] La Visión Artificial
describe la deducción automática de las estructuras y propiedades de un
mundo tridimensional, posiblemente dinámico, a partir de una o varias
imágenes bidimensionales de él.
El autor excluye de su libro el
reconocimiento de objetos basado en modelos, ya que, según él, este
reconocimiento es un proceso cognitivo y no de percepción.
[Trucco&Verri98] La búsqueda
de propiedades del mundo 3-D a partir de una o más imágenes digitales.
Es importante notar que en este texto sí se incluye el reconocimiento de
objetos.
[Hoffman98], página 160, tal vez
estemos en una época en la que el reconocimiento de objetos sea parte de
la VA, pero no sería extraño que en el futuro asistiéramos a una
separación de esta materia de la VA como ya la hubo del procesamiento de
imágenes y el análisis de imágenes. El mundo de la VA es
fundamentalmente un mundo 3-D
Visión humana vs visión artificial
![]() |
Ilustración 2: Partes del ojo humano
|
El ojo tiene una forma,
aproximadamente, esférica de unos 2.5 cm de diámetro. El ojo está
formado por una óptica y una zona sensorial (ver ilustración 2). La
óptica está constituida por la córnea, el iris o pupila y el cristalino.
La córnea es un material transparente y funciona como lente fija. La
pupila regula la cantidad de luz que entra en el interior y el
cristalino hace las veces de lente variable, permitiendo el enfoque
dependiendo de la distancia de los objetos. Los músculos que sujetan al
cristalino provocan su deformación, cuya consecuencia es el enfoque del
campo visual. La misión de la óptica del ojo es conducir la radiación
electromagnética, del espectro visible, hacia la retina. La retina se
encuentra en la parte posterior del glóbulo ocular y es donde se ubican
las células fotosensibles: los conos y los bastones.
El hombre ha imitado muchas
veces, en la construcción de sus artefactos, a la Naturaleza. En este
caso también se cumple. Las cámaras de vídeo con sus ópticas hacen las
veces del globo ocular, mientras el computador realizará las tareas de
procesamiento, emulando el comportamiento del cerebro. Cuando se
establecieron en la década de los 50, los objetivos de la Inteligencia
Artificial, se suponía que con la llegada del siglo XXI habría máquinas
que serían capaces de describir, con información de alto nivel, las
escenas capturadas. Con el paso del tiempo se vio que aquel anhelo se
iba desvaneciendo. Hoy en día, todavía no hay una teoría de la visión.
No se conoce los mecanismos que el cerebro utiliza para obtener la
información de la percepción. El cerebro es capaz, de manera
inconsciente, de determinar la distancia a los objetos, de reconocerlos
en diferentes posiciones, aunque se encuentren rotados y con información
parcialmente oculta. En definitiva, el cerebro presenta una
sofisticación en la percepción que ni ahora ni en mucho tiempo habrá
posibilidad de implementar artificialmente.
Lo que si hace la Visión
Artificial es construir nuevos y más sofisticados algoritmos que sean
capaces de obtener información de bajo nivel visual. Y aunque todavía se
esté años luz de la percepción visual de los seres vivos, la Visión
Artificial es muy eficaz en tareas visuales repetitivas y alienantes
para el hombre. Por ejemplo, en el campo de la inspección de productos
en la industria o en contar células en una imagen de microscopía o en
determinar la trayectoria de un vehículo en una autopista, etc.
El sentido de la vista nos
proporciona el 75% de la información que recibimos los seres humanos en
nuestro cerebro. Si las máquinas dispusieran de esta fuente de
información con un sistema de percepción artificial, se les
proporcionaría una mejora significativa en su funcionamiento y
operación. El sistema de visión humano es maravilloso, sin embargo, no
es infalible, en ciertas circunstancias puede ocasionar ilusiones que
nos hace ver cosas que no son. Además, puede ser ambiguo pues nos da mas
de una interpretación posible y puede ser inconsistente informándonos
de objetos y figuras imposibles en mundo real. A pesar del gran avance
científico y tecnológico en este campo, los sistemas de visión
artificial aun están muy lejos de alcanzar a los sistemas de visión
humana, aunque no es necesario que se emule en todos los aspectos a
este. Sin embargo, en los procesos tecnológicos y dentro de estos los
procesos de producción, los sistemas de visión artificial pueden hacer
cosas de manera mucho más efectivas y adecuadas que la visión humana,
tal es el caso de los siguientes aspectos:
1 - Dentro del espectro
electromagnético (ver ilustración 3) la visión humana solamente capta un
pequeño rango de frecuencias y amplitudes, conocido como “rango de luz
visible”, los sistemas de visión artificial pueden captar todo el
espectro, es decir, además del rango de luz visible puede captar ondas
de radio, de televisión, microondas, infrarrojos, ultravioletas, rayos
X, rayos gamma y rayos cósmicos.
2 - La velocidad de
respuesta de la visión humana es de 0,06 segundos, mientras que en las
cámaras de estado sólido es de 0,00001 segundos y este tiempo se va
reduciendo según se mejora la electrónica de estos sistemas.
3 - La visión humana se cansa y se ve afectada por las emociones, en los sistemas de visión artificial no.
4 - El ser humano puede
discernir entre 10 ó 20 niveles de gris, los sistemas de visión
artificial tienen una definición muy superior.
5 - La visión humana tiene
muy poca precisión apoyándose en instrumentos de medida, los sistemas de
visión artificial tienen gran precisión en la medición, dependiendo
solamente de la resolución espacial de los componentes del sistema.
6 - La visión humana es
poco consistente por la fatiga y las distracciones, en cambio la visión
artificial mantiene su nivel de rendimiento constante a lo largo de su
vida útil.
7 - Los sistemas de visión
artificial pueden trabajar en entornos muy peligrosos, con riesgos
radioactivos, químicos, biológicos, ruido, polución, temperaturas muy
altas y muy bajas.
|
Las principales ventajas de la visión humana respecto a la artificial son:
|
Usos
Con el incremento de potencia de
los microprocesadores, las aplicaciones que pueden resolverse con éxito
utilizando sistemas de visión están creciendo rápidamente. Una
aplicación puede exigir una o más funciones de procesamiento de
imágenes, que cuando se combinan crean una solución.
La utilización de la visión
artificial en la industria abarca un amplio espectro de aplicaciones
que, de manera simplificada, pueden agruparse en cinco áreas
principales:
|
Prácticamente cualquier sector
industrial puede beneficiarse de este tecnología para acelerar sus
procesos, para reducir sus costes de producción o para mejorar la
calidad de sus productos finales.
La visión artificial también es
usada en aplicaciones no industriales como, por ejemplo, para el control
del tráfico, guiado de robots, etc.
Los objetivos típicos de la visión artificial incluyen:
|
Control de procesos
![]() |
Ilustración 4: Moneda con un defecto de fabricación
|
Forma o apariencia. Control de la conformidad.
Los sistemas actuales, por lo
general, comienzan con una operación de medición bidimensional para
establecer el desplazamiento necesario para que el objeto se encuentre
en una posición ideal. Posteriormente, se llevan a cabo las operaciones
de comparación con un objeto patrón o la caracterización geométrica de
su forma. De esta manera, se puede decidir si el objeto analizado cumple
o no con los requisitos preestablecidos. La monea de la ilustración 4
sería un claro ejemplo de defecto de fabricación que se podría detectar
mediante visión artificial.
Control por colores.
La inspección por color se
utiliza ampliamente en la industria farmacéutica para confirmar que la
tableta o píldora de color se ha colocado en el embalaje correcto.
Reconocimiento de piezas o componentes del producto.
El reconocimiento de piezas o
componentes puede ser usado para identificar qué partes deben ser
sometidas a que proceso. Por ejemplo, un sistema de visión puede
discernir entre las diferentes piezas de un elemento e instruir a un
robot para el correcto montaje del elemento.
![]() |
Ilustración 5: Escáner láser leyendo un código de barras
|
Reconocimiento de caracteres.
Los sistemas de visión también
pueden ser usados para leer códigos de barras con un mayor grado de
confianza que un escáner láser (ver ilustración 4). Incluso si una gran
parte del código de barras está oculto por suciedad, un sistema de
visión, por lo general, puede leerlo, mientras que un lector de códigos
de barras convencional no.
Además de códigos de barras, los
sistemas de visión también se usan para leer códigos matriciales de dos
dimensiones, donde los códigos pueden contener mucha más información que
un código de barras unidimensional.
Control de calidad
Hoy en día, en muchos procesos de
fabricación, los límites de detección de defectos han superado la
percepción del ojo humano; por esta razón las empresas del mundo moderno
han visto la necesidad de crear un sistema que permita controlar en
forma precisa y acertada la calidad de sus productos. Todo proceso
industrial es evaluado por la calidad de su producto final, esto hace de
la etapa de control de calidad una fase crucial del proceso. Los
mecanismos utilizados para establecer la calidad de un producto varían
dependiendo de los parámetros que tengan relevancia en el mismo. Cuando
el parámetro relevante es la geometría o forma del objeto fabricado se
suele dejar a la vista del operario que lleve a cabo tal función tanto
de inspección como de verificación para el control de calidad, sin
embargo pueden existir errores en la geometría de un objeto que escapen
de la vista de un operario y que luego impidan el buen funcionamiento de
dicho objeto. En un caso como éste, surge como una buena alternativa el
utilizar un sistema de visión artificial capaz de detectar aquellos
errores que un operario pudiera pasar por alto. Los beneficios que se
obtienen con esta tecnología hablan por si solos:
|
Detección de defectos. Elementos discretos.
La detección de defectos puede
ser considerada como un caso especial de control de la conformidad, en
el que los objetos no ofrecen formas especificas caracterizables. Como
ejemplos, citaremos la inspección de baldosas cerámicas en la etapa
previa al esmaltado para detectar defectos en la superficie como
rugosidades, o el uso de infrarrojos para la inspección de defectos de
botellas de vidrio.
Detección de defectos. Tejidos o laminados.
La característica de muchos
sistemas de este tipo es que se debe examinar grandes áreas a gran
velocidad, en busca de defectos relativamente pequeños. El material
producido en bobinas incluye la chapa de acero, papel, películas
fotográficas, vidrio, hoja de plástico y los textiles. Algunos de estos
sistemas utilizan el escaneado láser en lugar de cámaras lineales para
formar la imagen.
Medidas unidimensionales o bidimensionales.
Las mediciones bidimensionales se
pueden realizar mediante la superposición de calibres ópticos sobre la
imagen del producto. La medición por este método es muy rápida porque no
hay movimiento mecánico, y el posicionamiento exacto del objeto a medir
no es crítico (el sistema puede determinar el desplazamiento X e Y del
objeto y el grado de rotación).
Algunos sistemas ofrecen
interpolación subpixel que, en condiciones adecuadas, hace que el
sistema sea capaz de medir y, en particular, detectar cambios o
diferencias en la medición, de milésimas en lugar de las centésimas que
ofrecen otros métodos de metrología (ver ejemplo 1). El número de
píxeles de la imagen se puede aumentar mediante el uso de cámaras de muy
alta resolución y obtener así mediciones aun más precisas.
Ejemplo 1: Aplicación de interpolación subpixel:
![]() |
![]() |
![]() |
Imagen interpolada de 128x64 a partir de una imagen 32x16
|
Reconstrucción con una imagen de baja resolución
|
Reconstrucción con dos imágenes de baja resolución
|
![]() |
![]() |
![]() |
Reconstrucción con 4 imágenes de baja resolución
|
Reconstrucción con 8 imágenes de baja resolución
|
Reconstrucción con 16 imágenes de baja resolución
|
Aplicaciones no industriales
Guiado predeterminado.
![]() |
Ilustración 6: Robot soldando mediante arco eléctrico |
El guiado predeterminado se
caracteriza por una situación en la que una cámara acimutal (que le
permite moverse en horizontal y vertical) toma una instantánea de la
escena y el sistema de visión dirige un robot para que recoja o deje un
objeto en una posición concreta. A continuación, el robot obra a ciegas.
Una aplicación típica incluye tareas de paletización (colocar mercancía
sobre un palé) de objetos pesados, tales como bloques de motor y
cigüeñales, pero también puede incluir trabajos mucho más ligeros tales
como el embalaje de chocolates.
Guiado continuo.
El guiado continuo implica una
cámara montada sobre el brazo o la mano del robot y el camino del robot
está continuamente corregido por el sistema de visión. Una aplicación
común es el guiado de la soldadura por arco (ver ilustración 6), pero la
técnica puede utilizarse también para controlar el camino en la
aplicación de selladores o pegamentos por robots.
Componentes de un sistema de visión artificial
![]() |
Ilustración 7: Sistema de iluminación |
Un moderno sistema de visión artificial consta de:
Un sistema de iluminación.
Es un aspecto de vital
importancia ya que debe de proporcionar unas condiciones de iluminación
uniformes e independientes del entorno, facilitando además, si es
posible, la extracción de los rasgos de interés para una determinada
aplicación.
Las variaciones en la iluminación
son percibidas por el sistema como variaciones en los objetos. Es
necesario conseguir una iluminación estable que resalte (incremente el
contraste) de los elementos a detectar y evite sombras y reflejos.
Intentar resolver tareas de alta precisión mediante una imagen de baja
calidad es un problema que se suele intentar compensar con complejos
algoritmos que ralentizan el sistema y no acaban resolviendo del todo el
problema de base.
Una buena iluminación es
especialmente importante para la toma de imágenes de los productos en
una línea rápida de producción, aunque algunas aplicaciones pueden
utilizar la luz ambiente. En la ilustración 7 se puede ver el foco que
es empleado por la vídeo cámara como sistema de iluminación.
La lente de la cámara.
Su correcta elección debe tener
en cuenta la distancia de trabajo y el campo de visión necesarios. La
utilización de filtros ópticos que resalten los elementos a analizar
garantizará el éxito de la tarea. La correcta selección de lentes es
importante para alcanzar una solución óptima. Un ejemplo de dicha
importancia se puede ver en la ilustración 8 en la que se muestra la
misma imagen capturada con dos tipos de ópticas distintas.
![]() |
Ilustración 8: Diferencia entre el uso de dos tipos de ópticas |
Una o más cámaras para adquirir las imágenes.
![]() |
Ilustración 9: Cámara de alta resolución |
Conjunto encargado de recoger las
características del objeto en estudio y proporcionar los datos para su
procesado, por medio de una imagen digital. El tipo de sensor, su tamaño
y su resolución deben escogerse en función de los elementos que se
desea ver. Las cámaras pueden ser analógicas, pero el precio de las
cámaras digitales está disminuyendo, de modo que estas se están usando
más a menudo. En la ilustración 9 podemos ver una cámara de la familia
Stingray una serie de cámaras empleadas en la visión artificial con un
gran número de funciones de alto nivel.
Algunos sistemas de visión no
utilizan una cámara bidimensional, en su lugar se usa una cámara lineal
que produce una sola línea o fila de píxeles. La imagen bidimensional se
genera a medida que el objeto pasa bajo la cámara lineal, aprovechando
su movimiento, normalmente generado por una cinta transportadora.
Uniendo las distintas filas de píxeles obtenidas a diferentes intervalos
de paso, se obtiene una imagen bidimensional.
![]() |
Ilustración 10: Cámara lineal |
En la ilustración 10 vemos un
ejemplo de cámara lineal empleada en visión artificial. Se trata de una
cámara trilineal de color de hasta 4.000 píxels de resolución (4096 x 3
píxels) con salida CameraLink y velocidades de hasta 18.000 líneas por
segundo.
Tarjeta de captura o adquisición de imágenes.
Es la interfaz entre el sensor y
el ordenador o módulo de proceso que permite al mismo tiempo disponer de
la información capturada por el sensor de imagen. La imagen de entrada
-una matriz bidimensional de niveles energéticos (por ejemplo, luz)- se
divide en elementos de imagen, conocidos como píxeles. Estos forman
filas y columnas que abarcan toda la zona de la imagen y representan los
niveles de gris en una imagen monocromática o la codificación de color
en una imagen en color. Un píxel no puede ser subdividido en regiones de
menor nivel de gris o color. Este proceso es un tipo de digitalización
espacial. Para cada píxel, la información del nivel de energía también
debe ser digitalizada, es decir, los niveles analógicos (variable
continua) producidos por la cámara deben ser representados por un número
finito de pasos. En muchas aplicaciones es suficiente digitalizar una
imagen monocroma con 8 bits por píxel, lo que equivale a 256 pasos, para
representar el nivel de gris de cada píxel. En aplicaciones más
exigentes puede ser necesario digitalizar a 14 bits (o 16384 niveles).
Las imágenes en color son más complejas y pueden ser representados en
diferentes formatos. La imágenes en color normalmente contienen tres
veces más información que una imagen monocromática.
Algoritmos de análisis de imagen.
Es la parte “inteligente” del
sistema. Su misión consiste en aplicar las necesarias transformaciones y
extracciones de información de las imágenes capturadas, con el fin de
obtener los resultados para los que haya sido diseñado Un ejemplo de
este elemento constituye el paquete computacional SIVA (Sistema
Inteligente de Visión Artificial), y el Toolbox correspondiente del
Matlab.
![]() |
Ilustración 11: Cámara inteligente |
Un procesador de imagen, ordenador o cámara inteligente.
Es el sistema que analiza las
imágenes recibidas por el sensor para extraer la información de interés
en cada uno de los casos implementando y ejecutando los algoritmos
diseñados para la obtención de los objetivos.
El procesado puede ser realizado
por un ordenador u otra opción es utilizar cámaras inteligentes que
integran el procesamiento de imágenes dentro de la propia cámara,
evitando la necesidad de transferir imágenes a un ordenador externo. La
velocidad de proceso de estas cámaras es inferior a la de un ordenador y
existen aplicaciones en las que estas no son adecuadas.
En la ilustración 11 podemos ver
una cámara inteligente. Esta cámara se suministra con un potente
software de desarrollo que permite realizar todo tipo de aplicaciones de
visión. Contiene un DSP de Texas Instruments TMS320C64xx a 1GHz y 8000
MIPS. Cuenta con 64MB de Memoria SDRAM y 4 MB de memoria Flash Eprom,
conexión Ethernet 100Mbit y Puerto RS-232
Una interfaz para notificar el resultado del análisis o sistema de
respuesta en tiempo real.
Con la información extraída se
puede mostrar el resultado mediante un monitor, una señal acústica,
luminosa, etc., para que un operario realice la tarea correspondiente en
función de los datos recibidos o también los sistemas de visión
artificial pueden
tomar decisiones ellos mismos que afecten al sistema productivo con el fin de mejorar la calidad global de la producción.
El sistema de iluminación.
Dado que la imagen se forma a
partir de la luz que reflejan los objetos, la única posibilidad de
obtener una imagen con características constantes en la que se resalten
los aspectos de interés y se atenúen los intrascendentes permitiendo o
facilitando la resolución del problema es controlando las condiciones de
iluminación.
Para ello, se emplea el sistema de
iluminación (ver ejemplo en la ilustración 12), que se encuentra formado
por la fuente de luz según entre un determinado esquema de iluminación,
lo que en conjunto proporciona unas condiciones de iluminación
determinadas.
Hay que tener en cuenta que el
problema de iluminación no resulta trivial y su coste supone una parte
importante del total del proyecto.
Fuentes de luz
Entre la multitud de fuentes de luz existentes, las más utilizadas son:
![]() |
Ilustración 13: Luz fluorescente |
Fluorescente de alta frecuencia:
no ofrece demasiada luz y presenta deriva con el tiempo, pero su precio
económico y su adaptabilidad tanto en forma como en color los hacen
atractivos.
![]() |
Ilustración 14: Luz alógena |
Halógena: presenta gran luminosidad, pero desprende calor, su luz es caliente y su precio es caro. Además, presentan envejecimiento.
![]() |
Ilustración 15: Luz xenón.
|
Xenón: presenta aún mayor luminosidad, aunque los mismos inconvenientes, y un precio aún mayor.
![]() |
Ilustración 16: Luz led
|
LED: admite multitud de
configuraciones y están disponibles en multitud de colores, son
estables, duraderos, funcionan en baja tensión, aunque su precio es
elevado.
![]() |
Ilustración 17: Luz laser |
LÁSER: La iluminación
mediante láser o luz estructurada se utiliza normalmente para resaltar o
determinar la tercera dimensión de un objeto. El método utilizado es
colocar la fuente de luz láser en un ángulo conocido con respecto al
objeto a iluminar y con respecto a la cámara. Viendo la distorsión de la
luz puede interpretarse la profundidad de los objetos a medir.
![]() |
Ilustración 18: Fibra óptica |
Fibra óptica: la
iluminación por fibra óptica, es actualmente, la que puede proporcionar
la luz más intensa de todos los tipos de iluminación que se utilizan en
visión artificial. La idea básica es conducir la luz procedente de una
bombilla halógena, o de xenón, que se encuentra en una fuente de
iluminación, a través de un haz de fibras ópticas que termina en una
adaptador específico para cada tipo de aplicación. Estos adaptadores
pueden tener forma circular, lineal, puntual o de panel, y puede ser de
distintos tamaños y dimensiones.
Esquemas de iluminación
![]() |
![]() |
![]() |
![]() |
Iluminación posterior difusa
|
Iluminación difusa direccional
|
Iluminación omni-direccional difusa
|
Iluminación direccional lateral
|
Iluminación posterior difusa (Backlight):
mediante la iluminación difusa por la parte posterior del objeto se
obtiene una imagen de alto contraste, donde la silueta oscura de los
objetos se ve resaltada frente al fondo blanco, y por tanto resulta
adecuado para medir la forma de los objetos.
Iluminación difusa direccional:
emulando a la luz natural pero sin variaciones se emiten los rayos
paralelos y en una dirección determinada para lograr una iluminación
uniforme.
Iluminación omni-direccional difusa:
La cámara consigue una imagen libre de sombras y con gran contraste,
gracias a que el objeto es iluminado desde todas direcciones con luz
difusa. Para ello se emplea una superficie reflectante de forma
semiesférica llamada domo, que actúa como fuente de iluminación al
reflejar la luz, con lo que se logra eliminar las sombras y reflejos, y
se aumenta el contraste, suavizando las texturas y minimizando la
influencia de las rayas, el polvo y los relieves, así como de las
curvaturas que pueda tener el objeto inspeccionado. Se emplea en la
detección de marcas de diferentes colores, caracteres y detección de
todo lo que suponga un cambio de color tanto en superficies lisas,
esféricas, rugosas o con brillo.
Iluminación direccional lateral (Grazing):
resalta la textura de los objetos o aquellas características salientes,
dado que al incidir la luz con un ángulo muy pequeño sólo será
reflejada hacia la cámara cuando se encuentre algún saliente. Por tanto,
resulta útil para resaltar protuberancias y hendiduras de la superficie
del objeto.
![]() |
Iluminación estructurada |
Iluminación con luz polarizada:
puede servir para eliminar brillos de objetos brillantes, como en el
caso de una bolsa de patatas, dado que los filtros que se instalan en la
iluminación y en la cámara impedirán que la luz que no provenga de la
fuente de iluminación, y que por tanto presentará distinta polarización,
sea capturada por la cámara.
Iluminación estructurada:
mediante la proyección de puntos, franjas o rejillas de luz sobre la
superficie de trabajo se establece un patrón que permite extraer las
características dimensionales del objeto por medio de la medición de la
distorsión que sufre dicho patrón de luz ante la presencia de un objeto.
Uno de los sistemas más conocidos consiste en la iluminación con un haz
láser plano, de modo que al situarse en un ángulo conocido respecto a
la cámara, la línea proyectada y distorsionada por la presencia de un
objeto presentará un determinado desplazamiento según la profundidad a
la que se encuentre el punto, permitiendo de este modo conocer su
posición en el espacio, y finalmente reconstruir el objeto 3D mediante
técnicas de computación.
La cámara
En la captura de imagen
intervienen las cámaras y las tarjetas de adquisición de imagen, estando
las cámaras, al igual que el ojo humano, formadas por una lente
convergente que proyecta la imagen sobre una superficie sensible a la
luz denominada sensor de imagen.
Sensores digitales de imagen
Los sensores digitales de imagen
están formados por una serie de elementos foto sensores (sensibles a la
luz) que modifican su señal eléctrica según la intensidad luminosa que
reciben, lo que permite la captura de los puntos que conforman la
imagen. Estos sensores suelen estar configurados en forma matricial de
modo que proporcionan una imagen bidimensional.
A nivel industrial también se emplean los sensores con configuración en
línea, dada sus altas resoluciones, cuando los objetos se sitúan en
superficies en movimiento para aplicaciones de medida (metrología).
![]() |
Sensor de una cámara digital |
Con objeto de reducir costes
suelen existir en el mercado multitud de cámaras que emplean lo que se
conoce como imagen entrelazada, donde se capturan por un lado las líneas
pares y por otro las impares, con lo que al hacerse en instantes de
tiempo diferentes no pueden ser empleadas con objetos en movimiento.
A nivel industrial también se
emplean los sensores con configuración en línea, dada sus altas
resoluciones, cuando los objetos se sitúan en superficies en movimiento
para aplicaciones de medida (metrología).
Con objeto de reducir costes
suelen existir en el mercado multitud de cámaras que emplean lo que se
conoce como imagen entrelazada, donde se capturan por un lado las líneas
pares y por otro las impares, con lo que al hacerse en instantes de
tiempo diferentes no pueden ser empleadas con objetos en movimiento.
Los sensores son realizados en dos tecnologías, principalmente en CCD y en CMOS.
![]() |
Sensor CCD
|
Sensor CCD
La tecnología CCD (Charge
Coupling Device) es la que proporciona una mejor imagen, sobre todo en
el caso de las cámaras profesionales en las que se emplea un sensor para
cada color, mientras que en las de consumo se emplea un único sensor,
de modo que este está constituido como un mosaico de detectores de
colores y por tanto captura una menor densidad de puntos. Cuando el
sensor ha capturado la imagen envía la información completa serializada
fila a fila.
![]() |
Sensor CMOS
|
Sensor CMOS
La tecnología CMOS es la más
económica, y ofrece un menor tamaño, gracias a su grado de integración
electrónica. Además, puede capturar partes de la imagen, no teniendo que
transmitirla completamente. Al contrario que en los sensores de
tecnología CCD, las celdas de la matriz CMOS son totalmente
independientes de sus vecinas. La principal diferencia radica en que en
estos sensores la digitalización se realiza píxel a píxel dentro del
mismo sensor, por lo que la circuitería del sensor es mucho más
sencilla.
Características de los sensores.
A la hora de seleccionar una cámara hay que tener en cuenta una serie de características, y entre las principales se destacan:
Resolución: número de píxeles que conforman la imagen capturada.
Sensibilidad: nivel mínimo de iluminación que puede capturar el sensor.
Rango dinámico: margen de luz
(intensidad luminosa) que puede capturar el sensor, o sea, diferencia
máxima entre luz y oscuridad que puede distinguir.
Señal/ruido y Smear: influencia entre píxeles.
Velocidad: velocidad máxima a la que puede capturar imágenes, siendo su medida en frames por segundo [fps].
Objetivos
![]() |
Objetivo de alta resolución |
El objetivo tiene como función
concentrar los rayos de luz, provenientes de los objetos a visualizar,
en un plano donde se formará la imagen para ser captada por el sensor.
Está formado por el diafragma, que controla la apertura y por tanto
limita el haz de rayos entrante, la lente, que enfoca el objeto, y el
zoom, que permite variar la distancia focal (distancia al objeto).
El diafragma permite regular la
apertura del objetivo y con ello la luminosidad de la imagen. Además,
aunque al cerrar el diafragma los rayos salen enfocados
independientemente de la distancia al objeto, entrará menos luz y por
tanto la escena será más oscura, con lo que se requerirá un mayor tiempo
de exposición.
La lente viene caracterizada por
la distancia focal (f), que es la distancia desde su centro hasta el
punto en el que convergen los rayos que llegan paralelos a ella. Así, el
aumento de la distancia focal disminuye el campo visible y con ello la
distancia de trabajo de la misma.
![]() |
Objetivos telecéntricos |
De este modo, el desenfoque se
produce según el objeto se aleja o acerca de la posición ideal, dado que
la imagen dejará de formarse sobre el sensor, y por tanto cada punto de
la imagen no se corresponderá con su elemento correspondiente del
sensor. Para corregirlo, se cambia la distancia focal de la lente, lo
que se traduce en variar la distancia entre lente y sensor.
Existen una clase de objetivos,
llamados telecéntricos, que permiten ver los objetos en proyección
ortográfica; siempre y cuando sean más pequeños que el diámetro de la
propia lente.
Características de los objetivos
Campo visible (FOV): es el área
visible por la lente para una cierta distancia de trabajo en la que los
objetivos aparecen enfocados.
Profundidad de campo (DOF): es el rango de distancias a las cuales los objetos se encuentran enfocados.
Como funciona la visión artificial
![]() |
Elementros empleados en una aplicación de visión artificial
|
Aunque cada aplicación de visión
artificial tiene sus especificidades, se puede decir que existe un
tronco común de etapas entre ellas. No necesariamente debe cubrirse
todas en una implementación concreta. Hay algunas veces que sólo se
tiene un subconjunto de las fases que se van a citar. Por otro lado,
aunque la exposición muestra un encadenamiento temporal de una etapa
sobre otra, no es real esta simplificación; se hace para facilitar la
comprensión y en la puesta en práctica siempre se encuentra
realimentación entre las distintas fases.
Los dos pilares del sistema
físico de visión artificial son: el sistema de formación de las imágenes
y el sistema de procesamiento de éstas. En el primer apartado estaría
constituido por el subsistema de iluminación, de captación de la imagen y
de adquisición de la señal en el computador. Una vez introducida la
señal en el computador, ésta es procesada mediante los algoritmos para
transformarla en información de alto nivel. La cual puede ser utilizada
para su representación visual, para actuar en el planificador de un
robot o ser fuente de datos para un autómata programable. En definitiva,
múltiples periféricos pueden ser receptores de esta información y
vincularse con el sistema de procesamiento de las imágenes.
![]() |
Etapas de una aplicacion de visión artificial
|
Adquisición de la imagen
La primera etapa es la
construcción del sistema de formación de las imágenes. Su objetivo es
realzar, mediante técnicas fotográficas (iluminación, óptica, cámaras,
filtros, pantallas,...), las características visuales de los objetos
(formas, texturas, colores, sombras,...). El éxito de muchas
aplicaciones depende de un buen diseño en esta primera etapa.
Preprocesado
Una vez adquirida la imagen se
pasará a la etapa de preprocesado. El objetivo es mejorar la calidad
informativa de la imagen adquirida. Se incluyen operaciones de mejora de
la relación señal-ruido (denoising), SNR, de atenuar las imperfecciones
de la adquisición debido a la función de transferencia del sistema de
captación de imágenes (deconvolution), de regularizar la imagen, de
mejorar el contraste o de optimizar la distribución de la intensidad
(enhancement) o de realzar algunas características de la imagen, como
bordes o áreas.
Segmentación
En esta fase se divide la imagen
en áreas con significado. Se trata de decidir qué partes de la imagen
necesitan interpretación o análisis y cuáles no. A menudo es posible y
necesario refinar la segmentación. Por ejemplo, si la aplicación debe
encontrar arañazos o grietas en un vidrio, la primera fase de
segmentación suele encontrar elementos que son las propias grietas o
arañazos además de suciedad y polvo. Otro ejemplo, en una imagen de
satélite se determina las zonas de agua, de cultivo, urbanas,
carreteras, ... A menudo se perfecciona este resultado para eliminar de
la imagen la suciedad y el polvo de los elementos a analizar.
Existen varias técnicas: umbralizaciones, discontinuidades, crecimiento de regiones, uso del color o de movimiento, etc.
Representación y descripción (extracción de características)
Una vez dividida la imagen en
zonas con características de más alto nivel se pasará a su extracción de
las características. Básicamente son de tipo morfológico, tales como
área, perímetro, excentricidad, momentos de inercia, esqueletos, pero
también se puede emplear características basadas en la textura o en el
color.
Fíjese que se ha pasado de una
información visual primaria a algo más elaborado. Con las
características analizadas ahora cada región se debe de clasificar e
interpretar. Por tanto, se diseñarán clasificadores que le dé a cada
área segmentada una etiqueta de alto nivel, como por ejemplo, en una
imagen aérea qué zonas son tierras de cultivo, áreas urbanas, etc.
Existe un elenco de técnicas de clasificación, como redes neuronales,
sistemas expertos, lógica difusa, clasificadores estadísticos, etc.
Reconocimiento e interpretación
Una vez que la imagen ha sido
satisfactoriamente segmentada y han sido extraídas las características,
el procesador puede hacer una serie de pruebas y mediciones en los
elementos de interés que aparecen en la escena. Existen multitud de
algoritmos que nos ayudan a obtener los resultados deseados. Entre
ellos, cabe destacar sus funcionalidades:
|
Estos algoritmos, usados
estratégicamente, nos permiten decidir si una pieza se ha fabricado
correctamente o no, guiar un robot hacia un objeto concreto o reajustar
la maquinaria de producción automáticamente.
Justificación de la inversión en visión artificial
En las industrias productivas la
visión artificial se está convirtiendo rápidamente en un factor clave en
el desarrollo de la calidad total dentro de los diferentes procesos de
automatización industrial. Su implementación en una empresa genera un
aumento en el nivel de producción y una reducción en los costos de
fabricación, elevando los niveles de competitividad en el mercado
nacional e internacional. La visión artificial permite inspeccionar el
proceso de producción sin fatigas ni distracciones, facilitando la
cuantificación de las variables de calidad traduciéndose en un
mejoramiento continuo.
Las inspecciones realizadas por
los seres humanos, a menudo no pueden cumplir con los requisitos de la
industria moderna respecto a la velocidad de producción, calidad de
producto y costes de producción. Los humanos se cansan, cometen errores y
los criterios que se aplican durante las inspecciones son
inevitablemente subjetivos. En algunos casos, no es humanamente posible
llevar a cabo las tareas de inspección debido a las condiciones
ambientales. Las cámaras y el resto de componentes de un sistema de
visión artificial, por el contrario, llevan a cabo las mediciones con
una precisión constante y a un ritmo que es establecido por el propio
proceso de producción. Estas ventajas han llevado a una creciente
aceptación de la visión por industrias de todo el mundo.
Costes de los materiales
En la mayoría de las
aplicaciones, evitar la producción de piezas defectuosas mediante el uso
de un sistema de visión industrial tendrá un período de amortización
muy corto. Para evitar que se fabriquen piezas defectuosas, el sistema
de inspección automática, ya sea muestreando el 100% en la línea de
producción o bien usado fuera de línea tomando muestras, debe formar
parte del control estadístico de procesos (SPC) del sistema productivo.
Esto significa que el sistema indica cuando un parámetro de control
deriva hacia el límite de tolerancia, o es simplemente demasiado
errático. El sistema de visión puede tomar medidas correctivas antes de
que el límite sea superado.
Costes de la mano de obra
La reducción de la mano de obra
es también un importante ahorro de costes, ya que muchas de las tareas
realizadas por la visión industrial pueden sustituir a personas
directamente. Además, deben ser considerados los ahorros en selección de
personal, prestaciones sociales y los aumentos salariales anuales.
Costes de la calidad
La creciente conciencia del costo
de la calidad a través de las normas IS09001, significa que el uso de
la visión artificial puede ofrecer un estándar más objetivo, fiable y
consistente en la inspección de productos.
El ahorro en la optimización del
uso de materiales, seguimiento de la calidad de los proveedores y
garantía de calidad de los productos acabados pueden llevar a ahorros
tanto tangibles como intangibles. El costo de los trabajos de reparación
en garantía se puede reducir y además se mejora la confianza de los
clientes consiguiendo pedidos recurrentes y una mayor cuota de mercado.