Una imagen binaria es una imagen digital que tiene solo dos valores posibles para cada píxel. Normalmente, los dos colores utilizados para una imagen binaria son blanco y negro. El color utilizado para el objeto (s) en la imagen es el color de primer plano, mientras que el resto de la imagen es el color de fondo. En la industria de escaneo de documentos, esto se conoce como «bi-tonal».
Las imágenes binarias también se llaman de dos niveles o de dos niveles. Esto significa que cada píxel se almacena como un solo bit, es decir, un 0 o 1. Los nombres en blanco y negro, en blanco y negro, monocromáticos o monocromáticos se utilizan a menudo para este concepto, pero también pueden designar cualquier imagen que tenga solo una muestra por píxel, como imágenes en escala de grises. En el lenguaje de Photoshop, una imagen binaria es lo mismo que una imagen en el modo «Mapa de bits».
Las imágenes binarias a menudo surgen en el procesamiento de imágenes digitales como máscaras o como resultado de ciertas operaciones como la segmentación, el umbral y el difuminado. Algunos dispositivos de entrada / salida, como impresoras láser, máquinas de fax y pantallas de computadora de dos niveles, solo pueden manejar imágenes de dos niveles.
Una imagen binaria se puede almacenar en la memoria como un mapa de bits, una matriz empaquetada de bits. Una imagen de 640 × 480 requiere 37.5 KiB de almacenamiento. Debido al pequeño tamaño de los archivos de imagen, las soluciones de administración de documentos y máquinas de fax generalmente usan este formato. La mayoría de las imágenes binarias también se comprimen bien con esquemas simples de compresión de longitud de recorrido.
Las imágenes binarias se pueden interpretar como subconjuntos de la retícula de enteros bidimensional Z2; el campo del procesamiento de imágenes morfológicas se inspiró en gran medida en esta visión.
Operaciones en imágenes binarias
Una clase completa de operaciones en imágenes binarias opera en una ventana de 3 × 3 de la imagen. Esto contiene nueve píxeles, por lo que 512 (2 ^ 9) valores posibles. Considerando solo el píxel central, es posible definir si permanece establecido o no, en función de los píxeles circundantes. Algunos ejemplos de tales operaciones son el adelgazamiento, la dilatación, la búsqueda de puntos de ramificación y puntos finales, la eliminación de píxeles aislados, el cambio de la imagen a un píxel en cualquier dirección y la ruptura de las conexiones en H. El Juego de la vida de Conway es también un ejemplo de una operación de ventana 3 × 3.
Otra clase de operaciones se basa en la noción de filtrado con un elemento estructurador. El elemento de estructuración es una imagen binaria, generalmente pequeña, que se pasa sobre la imagen de destino, de manera similar a un filtro en el procesamiento de imágenes a escala de grises. Como los píxeles solo pueden tener dos valores, las operaciones morfológicas son erosión (cualquier píxel no ajustado dentro del elemento estructurador hace que el píxel se desarme) y la dilatación (cualquier conjunto de píxeles dentro del elemento estructurador hace que el píxel se establezca). Las operaciones importantes son la apertura morfológica y el cierre morfológico que consisten en erosión seguida de dilatación y dilatación seguidas por erosión, respectivamente, utilizando el mismo elemento estructurante. La apertura tiende a agrandar agujeros pequeños, eliminar objetos pequeños y separar objetos. El cierre retiene objetos pequeños, elimina agujeros y une objetos.
Una característica muy importante de una imagen binaria es la transformación de distancia. Esto proporciona la distancia de cada píxel establecido desde el píxel no ajustado más cercano. La transformada de distancia se puede calcular de manera eficiente. Permite un cálculo eficiente de los diagramas de Voronoi, donde cada píxel de una imagen se asigna al más cercano de un conjunto de puntos. También permite la esqueletización, que difiere del raleo en que los esqueletos permiten la recuperación de la imagen original. La transformación de distancia también es útil para determinar el centro del objeto y para hacer coincidir el reconocimiento de imágenes.
Otra clase de operaciones es recopilar métricas sin orientación. Esto a menudo es importante en el reconocimiento de imágenes donde la orientación de la cámara necesita ser eliminada. Las métricas sin orientación de un grupo de píxeles conectados o rodeados incluyen el número de Euler, el perímetro, el área, la compacidad, el área de agujeros, el radio mínimo, el radio máximo.
Segmentación de imagen
Las imágenes binarias se producen a partir de imágenes en color por segmentación. La segmentación es el proceso de asignar cada píxel en la imagen de origen a dos o más clases. Si hay más de dos clases, el resultado habitual es varias imágenes binarias. La forma más simple de segmentación es probablemente el método de Otsu, que asigna píxeles al primer plano o al fondo en función de la intensidad de la escala de grises. Otro método es el algoritmo de cuenca hidrográfica. La detección de bordes también suele crear una imagen binaria con algunos píxeles asignados a los píxeles de borde, y también es un primer paso en una mayor segmentación.
Esqueletos
El adelgazamiento o esqueletización produce imágenes binarias que consisten en líneas de píxeles de ancho. Los puntos de enlace y puntos finales se pueden extraer y la imagen convertida en un gráfico. Esto es importante en el reconocimiento de imágenes, por ejemplo en el reconocimiento óptico de caracteres.
Interpretación
La interpretación del valor binario del píxel también depende del dispositivo. Algunos sistemas interpretan el valor de bit de 0 como negro y 1 como blanco, mientras que otros invierten el significado de los valores. En la interfaz de PC estándar TWAIN para escáneres y cámaras digitales, el primer sabor se llama vainilla y el chocolate invertido.
El difuminado a menudo se usa para mostrar imágenes de medios tonos.
Imágenes binarias de captura de sensor de imagen
El sensor de imagen binaria sobremuestreado es un nuevo sensor de imagen que recuerda a la película fotográfica tradicional. Cada píxel en el sensor tiene una respuesta binaria, dando solo una medida cuantizada de un bit de la intensidad de la luz local.