Percepción visual

La percepción visual es la capacidad de interpretar el ambiente circundante utilizando luz en el espectro visible reflejado por los objetos en el ambiente.

La percepción resultante también se conoce como percepción visual, vista, visión o visión (forma adjetival: visual, óptica u ocular). Los diversos componentes fisiológicos involucrados en la visión se conocen colectivamente como el sistema visual, y son el foco de mucha investigación en lingüística, psicología, ciencia cognitiva, neurociencia y biología molecular, a los que se hace referencia colectivamente como ciencia de la visión.

Sistema visual
El sistema visual en animales permite a las personas asimilar información de su entorno. El acto de ver comienza cuando la córnea y luego la lente del ojo enfoca la luz de su entorno hacia una membrana sensible a la luz en la parte posterior del ojo, llamada retina. La retina es en realidad parte del cerebro que está aislada para servir como un transductor para la conversión de la luz en señales neuronales. Basado en los comentarios del sistema visual, la lente del ojo ajusta su grosor para enfocar la luz en las células fotorreceptoras de la retina, también conocidas como las varillas y los conos, que detectan los fotones de la luz y responden produciendo impulsos neuronales. Estas señales se procesan a través de complejos procesos de feedforward y feedback por diferentes partes del cerebro, desde la retina aguas arriba hasta los ganglios centrales en el cerebro.

Tenga en cuenta que hasta ahora gran parte del párrafo anterior podría aplicarse a los pulpos, moluscos, gusanos, insectos y cosas más primitivas; cualquier cosa con un sistema nervioso más concentrado y mejores ojos que una medusa. Sin embargo, lo siguiente se aplica a mamíferos en general y aves (en forma modificada): la retina en estos animales más complejos envía fibras (el nervio óptico) al núcleo geniculado lateral, a la corteza visual primaria y secundaria del cerebro. Las señales de la retina también pueden viajar directamente desde la retina al colículo superior.

La percepción de los objetos y la totalidad de la escena visual se logra mediante la corteza de asociación visual. La corteza de asociación visual combina toda la información sensorial percibida por la corteza estriada que contiene miles de módulos que forman parte de redes neuronales modulares. Las neuronas en la corteza estriada envían axones a la corteza extraestriada, una región en la corteza de asociación visual que rodea la corteza estriada.

El sistema visual humano percibe luz visible en el rango de longitudes de onda entre 370 y 730 nanómetros (0.00000037 a 0.00000073 metros) del espectro electromagnético.

Estudiar
El principal problema en la percepción visual es que lo que las personas ven no es simplemente una traducción de estímulos retinianos (es decir, la imagen en la retina). Por lo tanto, las personas interesadas en la percepción han luchado durante mucho tiempo para explicar qué hace el procesamiento visual para crear lo que realmente se ve.

Estudios tempranos

Se muestran la corriente dorsal visual (verde) y la corriente ventral (púrpura). Gran parte de la corteza cerebral humana está involucrada en la visión.
Había dos escuelas griegas antiguas importantes, proporcionando una explicación primitiva de cómo se lleva a cabo la visión en el cuerpo.

El primero fue la «teoría de las emisiones» que sostenía que la visión ocurre cuando los rayos emanan de los ojos y son interceptados por objetos visuales. Si se veía un objeto directamente, era por medio de «rayos» que salían de los ojos y volvían a caer sobre el objeto. Sin embargo, una imagen refractada se vio también por «medio de rayos», que salió de los ojos, atravesó el aire y, después de la refracción, cayó sobre el objeto visible que fue avistado como resultado del movimiento de los rayos. del ojo. Esta teoría fue defendida por eruditos como Euclides y Ptolomeo y sus seguidores.

La segunda escuela abogó por el llamado enfoque de «intro-misión» que considera que la visión proviene de algo que entra en los ojos representativo del objeto. Con sus principales propagadores, Aristóteles, Galeno y sus seguidores, esta teoría parece tener algún contacto con las teorías modernas sobre lo que realmente es la visión, pero siguió siendo solo una especulación que carece de fundamento experimental. (En el siglo XVIII Inglaterra , Isaac Newton, John Locke y otros, llevaron adelante la teoría intromisión / intromisión insistiendo en que la visión involucraba un proceso en el cual los rayos compuestos de materia corporal real emanaban de objetos vistos y entraban en la mente / sensorio del vidente a través de la apertura del ojo. )

Ambas escuelas de pensamiento confiaban en el principio de que «como solo se conoce por» como «, y por lo tanto en la noción de que el ojo estaba compuesto por algún» fuego interno «que interactuaba con el» fuego externo «de la luz visible y posibilitaba la visión. Platón hace esta afirmación en su diálogo Timeo, como lo hace Aristóteles, en su De Sensu.

Leonardo da Vinci: El ojo tiene una línea central y todo lo que llega al ojo a través de esta línea central se puede ver claramente.
Alhazen (965 – c. 1040) llevó a cabo muchas investigaciones y experimentos sobre la percepción visual, extendió el trabajo de Ptolomeo sobre la visión binocular y comentó sobre las obras anatómicas de Galeno. Fue la primera persona en explicar que la visión ocurre cuando la luz rebota en un objeto y luego se dirige a los ojos.

Se cree que Leonardo da Vinci (1452-1519) es el primero en reconocer las cualidades ópticas especiales del ojo. Él escribió: «La función del ojo humano … fue descrita por un gran número de autores de cierta manera, pero me pareció completamente diferente». Su principal hallazgo experimental fue que solo hay una visión clara y distinta a la vista: la línea óptica que termina en la fóvea. Aunque no usó estas palabras literalmente, en realidad es el padre de la distinción moderna entre foveal y visión periférica.

Issac Newton (1642-1726 / 27) fue el primero en descubrir a través de la experimentación, aislando colores individuales del espectro de luz que pasaba a través de un prisma, que el color de los objetos visualmente aparecía debido al carácter de la luz reflejaba los objetos, y que estos colores divididos no podían cambiarse a ningún otro color, lo que era contrario a las expectativas científicas del día.

Inferencia inconsciente
Hermann von Helmholtz se acredita a menudo con el primer estudio de la percepción visual en los tiempos modernos. Helmholtz examinó el ojo humano y concluyó que, ópticamente, era bastante pobre. La información de mala calidad reunida a través del ojo le pareció que le impedía la visión. Por lo tanto, concluyó que la visión solo podía ser el resultado de alguna forma de inferencias inconscientes: una cuestión de hacer suposiciones y conclusiones a partir de datos incompletos, basados ​​en experiencias previas.

La inferencia requiere experiencia previa del mundo.

Ejemplos de suposiciones bien conocidas, basadas en la experiencia visual, son:

la luz viene de arriba
los objetos normalmente no se ven desde abajo
las caras se ven (y se reconocen) en posición vertical.
los objetos más cercanos pueden bloquear la vista de objetos más distantes, pero no viceversa
las figuras (es decir, los objetos en primer plano) tienden a tener bordes convexos

El estudio de las ilusiones visuales (casos en los que el proceso de inferencia falla) ha arrojado mucha información sobre qué tipo de suposiciones hace el sistema visual.

Otro tipo de hipótesis de inferencia inconsciente (basada en probabilidades) ha sido recientemente revivida en los llamados estudios Bayesianos de percepción visual. Los defensores de este enfoque consideran que el sistema visual realiza alguna forma de inferencia bayesiana para derivar una percepción de los datos sensoriales. Sin embargo, no está claro cómo los proponentes de esta visión derivan, en principio, las probabilidades relevantes requeridas por la ecuación bayesiana. Los modelos basados ​​en esta idea se han utilizado para describir diversas funciones visuales de percepción, como la percepción del movimiento, la percepción de la profundidad y la percepción de la figura y el suelo. La «teoría de la percepción totalmente empírica» ​​es un enfoque relacionado y más reciente que racionaliza la percepción visual sin invocar explícitamente los formalismos bayesianos.

Teoría Gestalt
Los psicólogos de la Gestalt que trabajaron principalmente en las décadas de 1930 y 1940 plantearon muchas de las preguntas de investigación que hoy estudian los científicos de la visión.

Las Leyes Gestalt de Organización han guiado el estudio de cómo las personas perciben los componentes visuales como patrones organizados o totalidades, en lugar de muchas partes diferentes. «Gestalt» es una palabra alemana que se traduce parcialmente en «configuración o patrón» junto con «estructura completa o emergente». Según esta teoría, hay ocho factores principales que determinan cómo el sistema visual agrupa automáticamente los elementos en patrones: Proximidad, Similitud, Cierre, Simetría, Destino común (es decir, movimiento común), Continuidad y Buena Gestalt (patrón que es regular, simple y ordenado) y experiencia pasada.

Análisis del movimiento del ojo
Durante la década de 1960, el desarrollo técnico permitió el registro continuo del movimiento de los ojos durante la lectura en la visualización de imágenes y más tarde en la resolución de problemas visuales y cuando las cámaras de los auriculares estuvieron disponibles, también durante la conducción.

La imagen de la derecha muestra lo que puede suceder durante los primeros dos segundos de inspección visual. Mientras que el fondo está desenfocado, representando la visión periférica, el primer movimiento del ojo va a las botas del hombre (solo porque están muy cerca de la fijación inicial y tienen un contraste razonable).

Las siguientes fijaciones saltan de cara a cara. Incluso podrían permitir comparaciones entre caras.

Se puede concluir que la cara del icono es un ícono de búsqueda muy atractivo dentro del campo de visión periférico. La visión foveal agrega información detallada a la primera impresión periférica.

También se puede observar que existen cuatro tipos diferentes de movimientos oculares: fijaciones, movimientos de vergencia, movimientos sacádicos y movimientos de persecución. Las fijaciones son puntos comparativamente estáticos donde descansa el ojo. Sin embargo, el ojo nunca está completamente quieto, pero la posición de la mirada se desplazará. Estas derivas son a su vez corregidas por microsacadas, pequeños movimientos oculares fijos. Los movimientos de Vergence implican la cooperación de ambos ojos para permitir que una imagen caiga en la misma área de ambas retinas. Esto resulta en una sola imagen enfocada. Los movimientos sacádicos son el tipo de movimiento ocular que hace saltos de una posición a otra y se usa para escanear rápidamente una escena / imagen particular. Por último, el movimiento de búsqueda es un movimiento suave del ojo y se usa para seguir objetos en movimiento.

Reconocimiento de rostros y objetos
Existe considerable evidencia de que el reconocimiento facial y de objetos se logra mediante sistemas distintos. Por ejemplo, los pacientes con prosopagnosia muestran déficits en la cara, pero no procesamiento de objetos, mientras que los pacientes con agnosis objetiva (más notablemente, la CK del paciente) muestran déficits en el procesamiento de objetos con el procesamiento de la cara preservada. Desde el punto de vista del comportamiento, se ha demostrado que las caras, pero no los objetos, están sujetas a efectos de inversión, lo que lleva a afirmar que las caras son «especiales». Además, el procesamiento de rostros y objetos recluta distintos sistemas neuronales. Notablemente, algunos han argumentado que la aparente especialización del cerebro humano para el procesamiento facial no refleja la verdadera especificidad del dominio, sino más bien un proceso más general de discriminación a nivel de experto dentro de una clase dada de estímulo, aunque esta última afirmación es objeto de sustanciales debate. Usando fMRI y electrofisiología, Doris Tsao y sus colegas describieron las regiones del cerebro y un mecanismo para el reconocimiento facial en monos macacos.

Los enfoques cognitivos y computacionales
En la década de 1970, David Marr desarrolló una teoría de la visión de múltiples niveles, que analizaba el proceso de visión en diferentes niveles de abstracción. Para enfocarse en la comprensión de problemas específicos en la visión, identificó tres niveles de análisis: los niveles computacionales, algorítmicos e implementativos. Muchos científicos de la visión, incluido Tomaso Poggio, han adoptado estos niveles de análisis y los han utilizado para caracterizar aún más la visión desde una perspectiva computacional.

El nivel computacional aborda, a un alto nivel de abstracción, los problemas que el sistema visual debe superar. El nivel algorítmico intenta identificar la estrategia que se puede usar para resolver estos problemas. Finalmente, el nivel de implementación intenta explicar cómo se realizan las soluciones a estos problemas en los circuitos neuronales.

Marr sugirió que es posible investigar la visión en cualquiera de estos niveles de forma independiente. Marr describió la visión como procedente de una matriz visual bidimensional (en la retina) a una descripción tridimensional del mundo como salida. Sus etapas de visión incluyen:

Un boceto 2D o primitivo de la escena, basado en la extracción de características de los componentes fundamentales de la escena, incluidos bordes, regiones, etc. Tenga en cuenta la similitud en el concepto con un dibujo a lápiz dibujado rápidamente por un artista como una impresión.
Un boceto de 2½ D de la escena, donde se reconocen las texturas, etc. Tenga en cuenta la similitud en el concepto con el escenario en el que el artista resalta o sombrea las áreas de una escena para proporcionar profundidad.
Un modelo 3 D, donde la escena se visualiza en un mapa tridimensional continuo.
El dibujo 2.5D de Marr asume que se construye un mapa de profundidad, y que este mapa es la base de la percepción de la forma 3D. Sin embargo, tanto la percepción estereoscópica como la pictórica, así como la visión monocular, dejan en claro que la percepción de la forma 3D precede, y no depende de, la percepción de la profundidad de los puntos. No está claro cómo se podría construir, en principio, un mapa de profundidad preliminar, ni cómo se abordaría la cuestión de la organización figurativa o agrupación. El papel de las limitaciones organizativas perceptivas, pasadas por alto por Marr, en la producción de perceptos de formas tridimensionales desde objetos tridimensionales vistos por binoculares ha sido demostrado empíricamente para el caso de objetos tridimensionales, p. Ej. Para una discusión más detallada, ver Pizlo (2008).

Transducción
La transducción es el proceso a través del cual la energía de los estímulos ambientales se convierte en actividad neuronal para que el cerebro la pueda comprender y procesar. La parte posterior del ojo contiene tres capas de células diferentes: capa de fotorreceptores, capa de células bipolares y capa de células ganglionares. La capa de fotorreceptores está en la parte posterior y contiene fotorreceptores de varilla y fotorreceptores de cono. Los conos son responsables de la percepción del color. Hay tres conos diferentes: rojo, verde y azul. Roces, son responsables de la percepción de objetos con poca luz. Los fotorreceptores contienen dentro de ellos una sustancia química especial llamada fotopigmento, que están incrustados en la membrana de las lamelas; una sola barra humana contiene aproximadamente 10 millones de ellos. Las moléculas fotopigmentos constan de dos partes: una opsina (una proteína) y la retina (un lípido). Hay 3 fotopigmentos específicos (cada uno con su propio color) que responden a longitudes de onda de luz específicas. Cuando la longitud de onda de luz apropiada llega al fotorreceptor, su fotopigmento se divide en dos, lo que envía un mensaje a la capa de células bipolares, que a su vez envía un mensaje a las células ganglionares que envían la información al nervio óptico. Si el fotopigmento apropiado no está en el fotorreceptor apropiado (por ejemplo, un fotopigmento verde dentro de un cono rojo), se producirá una condición llamada deficiencia de visión de color.

Proceso opuesto
La transducción implica mensajes químicos enviados desde los fotorreceptores a las células bipolares a las células ganglionares. Varios fotorreceptores pueden enviar su información a una célula ganglionar. Hay dos tipos de células ganglionares: rojo / verde y amarillo / azul. Estas células neuronales constantemente disparan, incluso cuando no son estimuladas. El cerebro interpreta diferentes colores (y con mucha información, una imagen) cuando la velocidad de disparo de estas neuronas se altera. La luz roja estimula el cono rojo, que a su vez estimula la célula ganglionar roja / verde. Del mismo modo, la luz verde estimula el cono verde, que estimula la célula ganglionar roja / verde y la luz azul estimula el cono azul que estimula la célula ganglionar amarilla / azul. La velocidad de disparo de las células ganglionares aumenta cuando se señaliza con un cono y disminuye (inhibida) cuando el otro cono lo señala. El primer color en el nombre de la célula ganglionar es el color que lo excita y el segundo es el color que lo inhibe. es decir: un cono rojo excitaría la célula ganglionar roja / verde y el cono verde inhibiría la célula ganglionar roja / verde. Este es un proceso oponente. Si aumenta la velocidad de disparo de una célula ganglionar roja / verde, el cerebro sabría que la luz era roja; si la frecuencia disminuyera, el cerebro sabría que el color de la luz era verde.

Percepción visual artificial
Las teorías y observaciones de la percepción visual han sido la fuente principal de inspiración para la visión por computadora (también llamada visión artificial o visión computacional). Las estructuras de hardware y los algoritmos de software especiales proporcionan a las máquinas la capacidad de interpretar las imágenes procedentes de una cámara o un sensor. La Percepción Visual Artificial se ha utilizado durante mucho tiempo en la industria y ahora está entrando en los dominios de la automoción y la robótica.