컴퓨터 비전은 컴퓨터가 디지털 이미지 또는 비디오를 통해 높은 수준의 이해를 얻는 방법을 다루는 학제 간 분야입니다. 엔지니어링 관점에서 볼 때 인간 시각 시스템이 할 수있는 작업을 자동화하려고합니다.

컴퓨터 비전 작업에는 디지털 이미지를 수집, 처리, 분석 및 이해하는 방법과 현실 세계에서 고차원 데이터를 추출하여 숫자 또는 기호 정보 (예 : 의사 결정의 형태로)를 생성하는 방법이 포함됩니다. 이 문맥에서의 이해는 시각적 이미지 (망막의 입력)를 다른 사고 프로세스와 상호 작용하고 적절한 행동을 도출 할 수있는 세계에 대한 묘사로 변환하는 것을 의미합니다. 이 이미지 이해는 기하학, 물리학, 통계 및 학습 이론의 도움을 받아 구축 된 모델을 사용하여 이미지 데이터에서 상징적 인 정보를 풀어내는 것으로 볼 수 있습니다.

과학 분야로서의 컴퓨터 비전은 이미지에서 정보를 추출하는 인공 시스템의 이론에 관한 것입니다. 이미지 데이터는 비디오 시퀀스, 여러 카메라의 뷰 또는 의료 스캐너의 다차원 데이터와 같은 다양한 형식을 취할 수 있습니다. 기술적 인 분야로서 컴퓨터 비전은 컴퓨터 비전 시스템 구축을위한 이론과 모델을 적용하려고합니다.

컴퓨터 비전의 하위 영역에는 장면 재구성, 이벤트 감지, 비디오 추적, 물체 인식, 3D 포즈 추정, 학습, 인덱싱, 모션 추정 및 이미지 복원이 포함됩니다.

정의
컴퓨터 비전은 컴퓨터가 디지털 이미지 또는 비디오를 통해 높은 수준의 이해를 얻는 방법을 다루는 학제 간 분야입니다. 엔지니어링 관점에서 볼 때 인간 시각 시스템이 할 수있는 작업을 자동화하려고합니다. “컴퓨터 비전은 단일 이미지 또는 일련의 이미지에서 유용한 정보를 자동으로 추출, 분석 및 이해하는 것과 관련이 있으며 자동 시각적 이해를 달성하기위한 이론 및 알고리즘 기반을 개발하는 것과 관련이 있습니다.” 과학 분야로서의 컴퓨터 비전은 이미지에서 정보를 추출하는 인공 시스템의 이론에 관한 것입니다. 이미지 데이터는 비디오 시퀀스, 여러 카메라의 뷰 또는 의료 스캐너의 다차원 데이터와 같은 다양한 형식을 취할 수 있습니다. 기술적 인 분야로서 컴퓨터 비전은 컴퓨터 비전 시스템 구축을위한 이론과 모델을 적용하려고합니다.

역사
1960 년대 후반, 컴퓨터 비전은 인공 지능을 개척 한 대학에서 시작되었습니다. 그것은 지능적인 행동으로 로봇을 부여하는 디딤돌 인 인간 시각 시스템을 모방하기위한 것이 었습니다. 1966 년에는 여름 프로젝트를 통해 컴퓨터에 카메라를 연결하고 “보고있는 것을 묘사”하도록함으로써 이것이 가능할 것으로 믿었습니다.

그 당시의 디지털 이미지 프로세싱의 보편적 인 분야에서 컴퓨터 비전과 구별되는 점은 전체 장면을 이해하는 목표로 이미지에서 3 차원 구조를 추출하고자하는 것이 었습니다. 1970 년대의 연구는 오늘날 존재하는 컴퓨터 비전 알고리즘의 초기 기초를 이루었습니다. 여기에는 이미지에서 가장자리 추출, 선 레이블 지정, 비 다면체 및 다면체 모델링, 더 작은 구조의 상호 연결로서의 객체 표현, 광학 흐름 및 모션 추정.

다음 10 년 동안보다 엄격한 수학적 분석과 컴퓨터 비전의 양적 측면에 기반한 연구가있었습니다. 여기에는 스케일 공간의 개념, 쉐이딩, 텍스처 및 포커스, 뱀이라는 컨투어 모델과 같은 다양한 큐의 모양 추론이 포함됩니다. 연구원은 또한 이러한 수학적 개념 중 많은 부분이 정규화 및 마르코프 랜덤 필드와 동일한 최적화 프레임 워크 내에서 처리 될 수 있음을 깨달았습니다. 1990 년대에는 이전 연구 주제 중 일부가 다른 연구 주제보다 활발 해졌다. 투영 3 차원 재구성 연구는 카메라 보정에 대한 더 나은 이해를 이끌어 냈습니다. 카메라 보정을위한 최적화 방법의 출현과 함께 많은 아이디어가 이미 사진 측량 분야의 번들 조정 이론에서 탐구되었다는 것을 깨달았습니다. 이로 인해 여러 이미지의 장면을 3 차원으로 재구성하는 방법이 생겨났습니다. 진보 된 스테레오 대응 문제와 더 많은 멀티 뷰 스테레오 기술에 대한 진전이있었습니다. 동시에, 그래프 분할의 변형이 이미지 세분화를 해결하는 데 사용되었습니다. 이 10 년은 통계 학습 기술이 실제 얼굴에서 이미지를 인식하는 데 처음으로 사용 된 첫 번째 사례이기도합니다 (Eigenface 참조). 1990 년대 말, 컴퓨터 그래픽과 컴퓨터 비전 분야의 상호 작용이 커짐에 따라 중요한 변화가 생겼습니다. 여기에는 이미지 기반 렌더링, 이미지 모핑, 뷰 보간, 파노라마 이미지 스티칭 및 초기 라이트 필드 렌더링이 포함됩니다.

최근의 연구는 기계 학습 기술 및 복잡한 최적화 프레임 워크와 함께 사용되는 피쳐 기반 방법의 부활을 보았습니다.

관련 분야

인공 지능
인공 지능 분야에서는 로봇 시스템이 환경을 탐색 할 수 있도록 자율적 인 계획 또는 심의를 처리합니다. 이러한 환경을 탐색하려면 이러한 환경을 자세히 이해해야합니다. 환경에 관한 정보는 비전 센서 역할을하며 환경과 로봇에 대한 상위 정보를 제공하는 컴퓨터 비전 시스템에 의해 제공 될 수 있습니다.

인공 지능과 컴퓨터 시각은 패턴 인식 및 학습 기술과 같은 다른 주제를 공유합니다. 결과적으로, 컴퓨터 비전은 종종 인공 지능 분야 또는 컴퓨터 과학 분야의 일부로 간주됩니다.

정보 공학
컴퓨터 비전은 종종 정보 공학의 일부로 간주됩니다.

고체 물리학
고체 물리학은 컴퓨터 비전과 밀접한 관련이 있습니다. 대부분의 컴퓨터 비전 시스템은 일반적으로 가시 광선 또는 적외선 광선의 형태 인 전자기 방사를 감지하는 이미지 센서에 의존합니다. 센서는 양자 물리학을 사용하여 설계되었습니다. 빛이 표면과 상호 작용하는 과정은 물리학을 사용하여 설명됩니다. 물리학은 대부분의 이미징 시스템의 핵심 부분 인 광학 동작을 설명합니다. 정교한 이미지 센서는 양자 역학이 이미지 형성 과정을 완전히 이해할 필요가 있습니다. 또한 물리학의 다양한 측정 문제는 컴퓨터 비전, 예를 들어 유체 내에서의 운동을 사용하여 해결할 수 있습니다.

신경 생물학
중요한 역할을하는 세 번째 분야는 신경 생물학, 특히 생물학적 비전 시스템 연구입니다. 지난 세기 동안 인간과 다양한 동물에서 시각적 자극을 처리하는 데 사용 된 눈, 뉴런 및 뇌 구조에 대한 광범위한 연구가있었습니다. 이로 인해 특정 비전 관련 작업을 해결하기 위해 “실제”비전 시스템이 어떻게 작동하는지에 대한 거친, 그러나 복잡한 설명이 나왔습니다. 이러한 결과는 인공 시스템이 생물 시스템의 처리 및 행동을 다른 수준의 복잡성으로 모방하도록 설계된 컴퓨터 비전 내의 하위 분야로 이어졌습니다. 또한 컴퓨터 비전 내에서 개발 된 학습 기반 방법 중 일부 (예 : 신경망 및 심층 학습 기반 이미지 및 특성 분석 및 분류)는 생물학에 대한 배경 지식이 있습니다.

컴퓨터 비전 연구의 일부 가닥은 생물학적 시각의 연구와 밀접하게 관련되어 있습니다. 사실 많은 인공 지능 연구가 인간 의식에 대한 연구와 시각 정보를 해석, 통합 및 활용하기 위해 저장된 지식을 사용하는 것과 밀접하게 관련되어 있습니다. 생물학적 시야의 영역은 인간 및 다른 동물에서의 시각적인지의 배후에있는 생리적 과정을 연구하고 모델링합니다. 한편, 컴퓨터 비전은 인공 시각 시스템 뒤에있는 소프트웨어 및 하드웨어에서 수행되는 프로세스를 연구하고 설명합니다. 생물학과 컴퓨터 비전 간의 학제 간 교류는 두 분야 모두에서 유익한 것으로 입증되었습니다.

신호 처리
컴퓨터 비전과 관련된 또 다른 분야는 신호 처리입니다. 전형적으로 시간 신호 인 1 변수 신호를 처리하는 많은 방법은 컴퓨터 비전에서 2 변수 신호 또는 다중 변수 신호의 처리로 자연스럽게 확장 될 수 있습니다. 그러나, 이미지의 특정 성질 때문에, 컴퓨터 비전 내에서 개발 된 많은 방법들이 있으며, 이들은 하나의 가변 신호를 처리하는 것에 대응할 수 없다. 신호의 다차원 성과 함께, 이는 컴퓨터 비전의 일부로서 신호 처리의 하위 필드를 정의합니다.

기타 분야
위에서 언급 한 컴퓨터 비전에 대한 관점 외에도 많은 관련 연구 주제가 순수 수학적 관점에서 연구 될 수 있습니다. 예를 들어, 컴퓨터 비전의 많은 방법은 통계, 최적화 또는 기하학을 기반으로합니다. 마지막으로,이 분야의 중요한 부분은 컴퓨터 비전의 구현 측면에 전념합니다. 소프트웨어와 하드웨어의 다양한 조합에서 기존 방법을 어떻게 구현할 수 있는지, 또는 너무 많은 성능을 잃지 않고 처리 속도를 얻기 위해 이러한 방법을 수정하는 방법에 대해 설명합니다.

구별
컴퓨터 비전과 가장 밀접하게 관련된 분야는 이미지 처리, 이미지 분석 및 머신 비전입니다. 이러한 기술과 응용 범위에는 상당한 중복이 있습니다. 이것은이 필드에서 사용 및 개발 된 기본 기술이 비슷하다는 것을 의미합니다. 이름이 다른 필드가 하나만 있기 때문에 해석 할 수 있습니다. 다른 한편으로, 연구 그룹, 과학 저널, 회의 및 회사가 이들 분야 중 하나에 속하는 것으로서 스스로를 제시하거나 시장에 내놓을 필요가있는 것으로 보이며, 따라서 각 분야를 다른 분야와 구별하는 다양한 특성화가 제시했다.

컴퓨터 그래픽은 3D 모델에서 이미지 데이터를 생성하며 컴퓨터 비전은 이미지 데이터에서 3D 모델을 생성합니다. 증강 현실에서 탐험 한 것처럼, 두 분야의 결합을 향한 추세도있다.

다음 특성화는 관련이 있지만 보편적으로 받아 들여서는 안됩니다.

이미지 처리 및 이미지 분석은 2D 이미지, 한 이미지를 다른 이미지로 변환하는 방법 (예 : 대비 향상, 가장자리 추출 또는 노이즈 제거와 같은 로컬 작업 또는 이미지 회전과 같은 기하학적 변환)에 초점을 두는 경향이 있습니다. . 이 특성 분석은 이미지 처리 / 분석이 가정을 요구하거나 이미지 내용에 대한 해석을 생성하지 않는다는 것을 의미합니다.
컴퓨터 비전에는 2D 이미지의 3D 분석이 포함됩니다. 이것은 하나 또는 여러 이미지로 투영 된 3D 장면을 분석합니다 (예 : 하나 또는 여러 이미지에서 3D 장면에 대한 구조 또는 기타 정보를 재구성하는 방법). 컴퓨터 비전은 종종 이미지에 묘사 된 장면에 대한 다소 복잡한 가정에 의존합니다.
머신 비전은 산업용 어플리케이션에서 이미징 기반 자동 검사, 프로세스 제어 및 로봇 유도를 제공하기위한 다양한 기술 및 방법을 적용하는 프로세스입니다. 머신 비전은 비전 기반의 검사, 측정 또는 피킹 (예 : 빈 따기)을위한 비전 기반 로봇 및 시스템과 같이 제조 분야를 중심으로 응용 분야에 집중하는 경향이 있습니다. 이는 이미지 센서 기술과 제어 이론이 로봇을 제어하기위한 이미지 데이터 처리와 통합되고 하드웨어와 소프트웨어의 효율적인 구현을 통해 실시간 처리가 강조된다는 것을 의미합니다. 또한 조명과 같은 외부 조건은 일반적으로 컴퓨터 비전보다 머신 비전에서 더 많이 제어 될 수 있으며 서로 다른 알고리즘을 사용할 수 있다는 것을 의미합니다.
이미지를 생성하는 프로세스에 주로 초점을 맞추는 이미징이라는 필드도 있지만 때로는 이미지 처리 및 분석도 다루기도합니다. 예를 들어, 의료 이미징은 의료 애플리케이션의 이미지 데이터 분석에 대한 실질적인 작업을 포함합니다.
마지막으로, 패턴 인식은 주로 통계적 접근법과 인공 신경망을 기반으로 신호에서 정보를 추출하는 다양한 방법을 사용하는 분야입니다. 이 분야의 중요한 부분은 이러한 방법을 이미지 데이터에 적용하는 데 있습니다.

응용 프로그램
응용 분야는 생산 라인에서 과속 병 검사를하는 산업 기계 비전 시스템과 같은 작업에서 주변의 세계를 이해할 수있는 인공 지능 및 컴퓨터 또는 로봇에 대한 연구까지 다양합니다. 컴퓨터 비전 및 머신 비전 분야는 중첩되어 있습니다. 컴퓨터 비전은 많은 분야에서 사용되는 자동화 된 이미지 분석의 핵심 기술을 다룹니다. 머신 비전은 일반적으로 자동화 된 이미지 분석을 다른 방법 및 기술과 결합하여 산업 애플리케이션에서 자동화 된 검사 및 로봇 유도를 제공하는 프로세스를 의미합니다. 많은 컴퓨터 비전 응용 프로그램에서 컴퓨터는 특정 작업을 해결하기 위해 사전 프로그래밍되어 있지만 학습을 기반으로 한 방법은 점점 더 보편화되고 있습니다. 컴퓨터 비전의 적용 사례로는 다음을위한 시스템이 있습니다.

자동 검사, 예 : 제조 응용 프로그램;
인간 식별 작업 (예 : 종별 식별 시스템)을 돕는다.
프로세스 제어, 예를 들어, 산업용 로봇;
시각적 감시 또는 사람 카운팅과 같은 사건 감지.
상호 작용, 예를 들어, 컴퓨터와 인간의 상호 작용을위한 장치에 대한 입력으로;
모델링 대상 또는 환경, 예 : 의료 영상 분석 또는 지형 모델링;
예를 들어, 자율 주행 차량 또는 이동 로봇에 의한 내비게이션; 과
이미지 및 이미지 시퀀스의 데이터베이스 인덱싱과 같은 정보 구성

가장 두드러진 응용 분야 중 하나는 의료용 컴퓨터 비전 또는 의료 영상 처리이며, 환자를 진단하기 위해 이미지 데이터에서 정보를 추출하는 것을 특징으로합니다. 이것의 예로는 종양, 동맥 경화 또는 다른 악의적 인 변화를 감지합니다. 기관 치수, 혈류량 등의 측정치가 다른 예입니다. 또한 새로운 정보를 제공함으로써 의료 연구를 지원합니다 : 예를 들어, 뇌의 구조 나 의학적 치료의 질에 관한 정보. 의료 분야에서의 컴퓨터 비전의 응용에는 인간의 이미지 (예 : 초음파 이미지 또는 X 선 이미지)를 해석하여 노이즈의 영향을 줄이는 것도 포함됩니다.

컴퓨터 비전의 두 번째 응용 분야는 제조 분야를 지원하기 위해 정보가 추출되는 머신 비전 (machine vision)이라고하는 산업계에 있습니다. 한 가지 예는 세부 사항이나 최종 제품이 결함을 찾기 위해 자동으로 검사되는 품질 관리입니다. 다른 예는 로봇 팔에 의해 픽업 될 세부 사항의 위치 및 방향 측정입니다. 머신 비전은 벌크 재료에서 원하지 않는 음식물을 제거하기 위해 농업 공정에서 많이 사용되며 광학 분류라고 불리는 공정입니다.

군사 응용 프로그램은 아마도 컴퓨터 비전을위한 가장 큰 영역 중 하나 일 것입니다. 분명한 예로는 적군 병사 나 차량 탐지, 미사일 유도 등이 있습니다. 미사일 유도를위한보다 진보 된 시스템은 미사일을 특정 표적보다는 지역으로 보내고 표적 선택은 미사일이 국부적으로 획득 한 영상 데이터에 근거하여 그 지역에 도달 할 때 이루어진다. “전장 인식”과 같은 현대 군사 개념은 이미지 센서를 비롯한 다양한 센서가 전략적 결정을 지원하는 데 사용할 수있는 전투 장면에 대한 풍부한 정보를 제공한다는 것을 의미합니다. 이 경우 복잡성을 줄이고 여러 센서의 정보를 통합하여 안정성을 높이기 위해 데이터 자동 처리가 사용됩니다.

새로운 응용 분야 중 하나는 잠수함, 육상 차량 (바퀴, 자동차 또는 트럭이 달린 소형 로봇), 공중 차량 및 무인 항공 차량 (UAV)을 포함하는 자율 차량입니다. 자율 수준은 완전 자동 (무인) 차량부터 컴퓨터 비전 기반 시스템이 다양한 상황에서 운전자 또는 조종사를 지원하는 차량까지 다양합니다. 완전히 자율적 인 차량은 일반적으로 네비게이션, 즉 그것이 어디에 있는지 알거나 환경지도 (SLAM)를 만들고 장애물을 감지하기 위해 컴퓨터 비전을 사용합니다. 또한 특정 작업 관련 이벤트 (예 : 산불을 찾는 UAV)를 탐지하는 데 사용할 수도 있습니다. 지원 시스템의 예로는 자동차의 장애 경고 시스템과 항공기의 자율 주행 시스템이 있습니다. 여러 자동차 제조업체가 자동차의 자율 주행 시스템을 시연 해 왔지만이 기술은 시장에 출시 할 수있는 수준에 도달하지 못했습니다. 선진 미사일부터 정찰 임무 또는 미사일 유도를위한 무인 항공기에 이르기까지 다양한 군사 자치 차량의 사례가 있습니다. NASA의 화성 탐사 로버 (Mars Exploration Rover)와 ESA의 엑소 마르 로버 (ExoMars Rover)와 같은 컴퓨터 비전을 사용하는 자율 주행 차량으로 우주 탐사가 이미 진행되고있다.

기타 응용 분야는 다음과 같습니다.

Related Post

영화 및 방송용 시각 효과 생성 지원 (예 : 카메라 추적 (일치 이동)).
감시.
생물 과학 분야의 생물 추적 및 계산

일반적인 작업
위에서 설명한 응용 분야의 각각은 다양한 컴퓨터 비전 작업을 사용합니다. 다양한 방법을 사용하여 해결할 수있는 잘 정의 된 측정 문제 또는 처리 문제. 일반적인 컴퓨터 비전 작업의 몇 가지 예가 아래에 나와 있습니다.

컴퓨터 비전 작업에는 디지털 이미지를 수집, 처리, 분석 및 이해하는 방법과 현실 세계에서 고차원 데이터를 추출하여 숫자 또는 기호 정보 (예 : 의사 결정의 형태로)를 생성하는 방법이 포함됩니다. 이 문맥에서의 이해는 시각적 이미지 (망막의 입력)를 다른 사고 프로세스와 상호 작용하고 적절한 행동을 도출 할 수있는 세계에 대한 묘사로 변환하는 것을 의미합니다. 이 이미지 이해는 기하학, 물리학, 통계 및 학습 이론의 도움을 받아 구축 된 모델을 사용하여 이미지 데이터에서 상징적 인 정보를 풀어내는 것으로 볼 수 있습니다.

인식
컴퓨터 비전, 이미지 처리 및 머신 비전의 고전적인 문제는 이미지 데이터에 특정 개체, 기능 또는 활동이 포함되는지 여부를 결정하는 것입니다. 인식 문제의 다른 다양성은 문헌에 기술되어있다.

객체 인식 (객체 분류라고도 함) – 하나 또는 여러 개의 사전 지정되거나 학습 된 객체 또는 객체 클래스가 이미지의 2D 위치 또는 장면의 3D 포즈와 함께 인식 될 수 있습니다. Blippar, Google Goggles 및 LikeThat은이 기능을 설명하는 독립 실행 형 프로그램을 제공합니다.
식별 – 객체의 개별 인스턴스가 인식됩니다. 예를 들면 특정 사람의 얼굴이나 지문을 식별하거나, 자필 자리를 식별하거나 특정 차량을 식별하는 것입니다.
탐지 – 이미지 데이터가 특정 조건에 대해 검색됩니다. 예를 들어 의학 이미지에서의 가능한 비정상적인 세포 또는 조직의 탐지 또는 자동 도로 요금 시스템에서의 차량 탐지가 있습니다. 상대적으로 간단하고 빠른 계산에 기반한 탐지는 때로는보다 정확한 계산을 요구하는 더 많은 기술로 분석 할 수있는 재미있는 이미지 데이터의 작은 영역을 찾는 데 사용됩니다.

현재 이러한 작업을위한 최상의 알고리즘은 길쌈 신경 네트워크 (convolutional neural network)를 기반으로합니다. 그들의 능력을 보여주는 그림은 ImageNet Large Scale Visual Recognition Challenge에 의해 제공됩니다. 이것은 수백만 개의 이미지와 수백 개의 객체 클래스가있는 객체 분류 및 탐지의 벤치 마크입니다. ImageNet 테스트에서 컨볼 루션 신경 네트워크의 성능은 이제 사람의 것과 비슷합니다. 꽃의 줄기에 작은 개미가 있거나 손에 퀼 (quill)을 들고있는 사람과 같이 작고 얇은 물체에 대해서도 최고의 알고리즘은 여전히 ​​어려움을 겪고 있습니다. 또한 필터로 인해 왜곡 된 이미지에 문제가 있습니다 (최신 디지털 카메라와 함께 점점 흔하게 발생하는 현상). 반대로 그러한 종류의 이미지는 인간에게 거의 문제가되지 않습니다. 그러나 인간은 다른 문제에 어려움을 겪는 경향이 있습니다. 예를 들어 개체를 개 또는 조류 종과 같은 세밀한 클래스로 분류하는 것은 좋지 않은 반면 길쌈 신경 네트워크에서는이를 쉽게 처리합니다.

인식에 기반한 몇 가지 전문 작업이 있습니다 :

콘텐츠 기반 이미지 검색 – 특정 콘텐츠가있는 더 큰 이미지 세트의 모든 이미지를 찾습니다. 콘텐츠는 다른 방법으로 지정할 수 있습니다. 예를 들어 대상 이미지와의 유사성 (이미지 X와 비슷한 모든 이미지 제공) 또는 텍스트 입력으로 제공되는 상위 수준 검색 기준 (이미지를 포함하는 모든 이미지 제공) 많은 집, 겨울 동안에 찍은, 그리고 그들에 차를 가지고).
포즈 추정 – 카메라와 관련된 특정 오브젝트의 위치 또는 방향을 추정합니다. 이 기술의 예제 응용 프로그램은 조립 라인 상황에서 컨베이어 벨트에서 객체를 가져 오거나 빈에서 부품을 꺼낼 때 로봇 팔을 지원하는 것입니다.
OCR (Optical Character Recognition) – 인쇄 또는 필기체 텍스트의 이미지에서 문자를 식별합니다. 일반적으로 편집 또는 인덱싱이 더 용이 한 형식으로 텍스트를 인코딩합니다 (예 : ASCII).
2D 코드 판독 데이터 매트릭스 및 QR 코드와 같은 2D 코드 판독.
얼굴 인식
객체 (머리와 어깨 패턴)를 객체와 차별화하는 사람 카운터 시스템의 형상 인식 기술 (SRT)

동작 분석
몇 가지 작업은 이미지 시퀀스가 ​​이미지의 각 지점 또는 3D 장면 또는 이미지를 생성하는 카메라의 속도로 추정하도록 모션 시퀀스와 관련됩니다. 이러한 작업의 예는 다음과 같습니다.

Egomotion – 카메라가 생성 한 이미지 시퀀스에서 카메라의 3D 강체 모션 (회전 및 평행 이동)을 결정합니다.
추적 – 이미지 시퀀스에서 (일반적으로) 작은 관심 지점 또는 대상 (예 : 차량, 사람 또는 기타 생물)의 움직임을 추적합니다.
광학 흐름 – 이미지의 각 점에 대해 이미지 평면에 대해 해당 점이 어떻게 움직이는 지, 즉 겉보기 모션을 결정합니다. 이 동작은 해당 3D 점이 장면에서 어떻게 움직이는 지와 카메라가 장면과 관련하여 어떻게 움직이는 지 모두 결과입니다.

장면 재구성
장면 또는 비디오의 하나 이상의 (일반적으로) 더 많은 이미지가 주어지면 장면 재구성은 장면의 3D 모델을 계산하는 것을 목표로합니다. 가장 단순한 경우 모델은 3D 점 집합이 될 수 있습니다. 더 정교한 방법은 완전한 3D 표면 모델을 생성합니다. 모션 또는 스캐닝을 필요로하지 않는 3D 이미징의 출현과 관련 프로세싱 알고리즘은이 분야에서 급속한 발전을 가능하게합니다. 그리드 기반 3D 감지는 여러 각도에서 3D 이미지를 수집하는 데 사용할 수 있습니다. 여러 3D 이미지를 점군과 3D 모델로 함께 스티칭 할 수있는 알고리즘이 제공됩니다.

이미지 복구
이미지 복원의 목적은 이미지에서 노이즈 (센서 노이즈, 모션 블러 등)를 제거하는 것입니다. 노이즈 제거를위한 가장 간단한 방법은 저역 필터 또는 중간 필터와 같은 다양한 유형의 필터입니다. 보다 정교한 방법은 로컬 이미지 구조가 어떻게 보이는지 모델을 가정합니다. 모델은 노이즈와 구별됩니다. 선 또는 에지와 같은 로컬 이미지 구조에 관한 이미지 데이터를 먼저 분석 한 다음 분석 단계에서 로컬 정보를 기반으로 필터링을 제어함으로써보다 간단한 수준의 접근 방식에 비해 더 나은 수준의 노이즈 제거를 얻을 수 있습니다.

이 필드의 예는 인 페인팅입니다.

시스템 메소드
컴퓨터 비전 시스템의 구성은 응용 프로그램에 따라 크게 다릅니다. 일부 시스템은 특정 계측 또는 검출 문제를 해결하는 독립 실행 형 응용 프로그램이며, 다른 시스템은 예를 들어 기계식 액추에이터 제어, 계획, 정보 데이터베이스, 인력 관리 등의 하위 시스템을 포함하는 더 큰 설계의 하위 시스템을 구성합니다. 기계 인터페이스 등을 포함한다. 컴퓨터 비전 시스템의 특정 구현은 또한 그 기능이 사전 지정되어 있는지 또는 동작 중 일부가 학습되거나 수정 될 수 있는지에 달려있다. 많은 기능이 응용 프로그램에 고유합니다. 그러나 많은 컴퓨터 비전 시스템에서 볼 수있는 일반적인 기능이 있습니다.

이미지 획득 – 디지털 이미지는 다양한 유형의 빛에 민감한 카메라 외에도 범위 센서, 단층 촬영 장치, 레이더, 울트라 소닉 카메라 등을 포함하는 하나 또는 여러 개의 이미지 센서에 의해 생성됩니다. 센서의 유형에 따라 결과적인 이미지 데이터는 일반적인 2D 이미지, 3D 볼륨 또는 이미지 시퀀스입니다. 픽셀 값은 일반적으로 하나 또는 여러 스펙트럼 밴드 (회색 이미지 또는 컬러 이미지)의 광 강도에 해당하지만 음파 또는 전자기파의 깊이, 흡수 또는 반사율 또는 핵 자기 공명과 같은 다양한 물리적 측정과 관련 될 수도 있습니다.

전처리 – 특정 정보 조각을 추출하기 위해 컴퓨터 비전 방법을 이미지 데이터에 적용하려면 먼저 데이터를 처리하여 해당 방법이 암시하는 특정 가정을 충족하는지 확인해야합니다. 예 :
이미지 좌표계가 올바른지 다시 확인하십시오.
센서 잡음으로 인해 잘못된 정보가 유입되지 않도록 보장하기 위해 잡음 감소.
관련 정보를 탐지 할 수 있도록 대비 향상.
지역적으로 적절한 스케일로 이미지 구조를 향상시키기 위해 공간 표현을 확장합니다.

피쳐 추출 – 이미지 데이터에서 다양한 복잡성 레벨의 이미지 피쳐가 추출됩니다. 이러한 기능의 일반적인 예는 다음과 같습니다.
선, 가장자리 및 융기.
모서리, 얼룩 또는 점과 같은 현지화 된 관심 지점.
보다 복잡한 피쳐는 텍스처, 모양 또는 동작과 관련 될 수 있습니다.

탐지 / 세분화 – 처리의 어느 시점에서 이미지의 어떤 이미지 지점 또는 영역이 추가 처리와 관련이 있는지에 대한 결정이 내려집니다. 예 :
특정 관심 지점 집합 선택
특정 관심 객체가 포함 된 하나 또는 여러 개의 이미지 영역을 분할합니다.
중첩 된 장면 아키텍처로 이미지를 분할하는 것은 전경, 객체 그룹, 단일 객체 또는 돌출 객체 부분 (공간 – 분류 객체 장면 계층이라고도 함)으로 구성되는 반면 시각 효과는 공간 및 시간주의로 구현되는 경우가 많습니다.
시간적 의미 론적 연속성을 유지하면서 하나 또는 여러 개의 비디오를 일련의 프레임 당 전경 마스크로 분할하거나 공동 세그먼트 화합니다.

고급 처리 -이 단계에서 입력은 일반적으로 특정 개체를 포함하는 것으로 가정되는 지점 또는 이미지 영역과 같은 작은 데이터 집합입니다. 나머지 처리는 다음을 처리합니다.
데이터가 모델 기반 및 애플리케이션 별 가정을 충족시키는 지 확인합니다.
객체 자세 또는 객체 크기와 같은 응용 프로그램 특정 매개 변수의 추정.
이미지 인식 – 탐지 된 객체를 다른 범주로 분류합니다.
이미지 등록 – 동일한 객체의 두 가지 다른 뷰를 비교하고 결합합니다.

의사 결정 응용 프로그램에 필요한 최종 결정을 내리는 경우 (예 :
자동 검사 응용 프로그램 통과 / 실패
인식 응용 프로그램에서 일치 / 불일치
의료, 군대, 보안 및 인식 응용 분야에 대한 추가 검토를위한 플래그

이미지 인식 시스템
이미지 이해 시스템 (IUS)은 다음과 같은 세 가지 수준의 추상화 수준을 포함합니다. 낮은 수준에는 가장자리, 텍스처 요소 또는 영역과 같은 이미지 기본 요소가 포함됩니다. 중간 수준에는 경계, 표면 및 부피가 포함됩니다. 높은 수준에는 객체, 장면 또는 이벤트가 포함됩니다. 이러한 요구 사항 중 상당수는 추가 연구를위한 주제입니다.

이 수준을위한 IUS 설계의 표현 요구 사항은 프로토 타입 개념의 표현, 개념 구성, 공간 지식, 시간 지식, 스케일링 및 비교 및 ​​차별화에 의한 설명입니다.

추론은 현재 알려진 사실로부터 명시 적으로 표현 된 사실이 아닌 새로운 것을 유도하는 과정을 의미하지만 제어 란 특정 추론 단계에서 많은 추론, 검색 및 매칭 기술 중 어느 것이 적용되어야 하는지를 선택하는 과정을 의미합니다. IUS의 추론 및 제어 요구 사항은 검색 및 가설 활성화, 일치 및 가설 테스트, 기대 생성 및 사용, 관심의 변화 및 초점, 믿음의 확실성 및 강점, 추론 및 목표 만족도입니다.

하드웨어
컴퓨터 비전 시스템에는 많은 종류가 있지만 그럼에도 불구하고 모든 요소에는 전원, 최소한 하나의 이미지 획득 장치 (예 : 카메라, CD 등), 프로세서 및 제어 및 통신 케이블 또는 일부 종류의 기본 요소가 포함됩니다. 무선 상호 연결 메커니즘의 또한 실용적인 비전 시스템에는 시스템을 모니터링하기위한 디스플레이뿐만 아니라 소프트웨어가 포함되어 있습니다. 내부 공간을위한 비전 시스템은 대부분의 산업용 시스템과 마찬가지로 조명 시스템을 포함하고 있으며 통제 된 환경에 배치 될 수 있습니다. 또한 완성 된 시스템에는 카메라 지지대, 케이블 및 커넥터와 같은 많은 액세서리가 포함되어 있습니다.

대부분의 컴퓨터 비전 시스템은 초당 최대 60 프레임 (일반적으로 훨씬 느림)의 프레임 속도로 수동으로 장면을 보는 가시 광선 카메라를 사용합니다.

몇 가지 컴퓨터 비전 시스템은 활성 조명 또는 가시 광선 이외의 다른 것 또는 둘 다를 사용하는 이미지 수집 하드웨어를 사용합니다. 예를 들어, 구조화 된 빛 3D 스캐너, 열 화상 카메라, 하이퍼 스펙트 럴 이미 저, 레이더 이미징, 라이더 스캐너, 자기 공명 이미지, 사이드 스캔 소나, 합성 개구 소나 등이 있습니다. 이러한 하드웨어는 “이미지” 그런 다음 가시 광선 이미지를 처리하는 데 사용되는 것과 동일한 컴퓨터 비전 알고리즘을 사용하여 종종 처리됩니다.

기존의 방송 및 소비자 비디오 시스템은 초당 30 프레임의 속도로 작동하지만 디지털 신호 처리 및 소비자 그래픽 하드웨어의 발전으로 인해 수백 ~ 수천 개의 순서로 실시간 시스템에서 고속 이미지 수집, 처리 및 표시가 가능해졌습니다. 초당 수천 프레임. 로보틱스 어플리케이션의 경우, 고속 실시간 비디오 시스템이 매우 중요하며 종종 특정 알고리즘에 필요한 프로세싱을 단순화 할 수 있습니다. 고속 프로젝터와 결합하면 빠른 이미지 획득으로 3D 측정 및 피쳐 추적을 실현할 수 있습니다.

Egocentric 비전 시스템은 1 인칭 시점에서 자동으로 사진을 찍을 수있는 착용 형 카메라로 구성됩니다.

2016 년 현재 비전 프로세싱 유닛은 새로운 차원의 프로세서로 부상하고 있으며이 역할에서 CPU 및 그래픽 처리 장치 (GPU)를 보완합니다.

Share