과학기술전시관에 들어서면 AI 안내로봇이 '주의'라고 인사하고, 배가 고플 때 무인슈퍼마켓에 들어서면 AI 판매원이 친절하게 알려준다. 쇼핑백이 필요한지, 더 이상 운전하고 싶지 않을 때 자율주행차를 불러 '숙련된 운전자'가 데려다주는지… AI가 우리에게 새로운 '비전'을 열어주는데, 문제는 이렇다. , AI의 "눈"은 어디에 있습니까? 세상을 단계별로 어떻게 "이해"합니까?
인간에게 '보는 것'은 거의 타고난 능력입니다. 몇 달 된 아기는 부모의 얼굴을 보면 미소를 지을 것이고, 우리는 희미한 조명 아래에서도 몇 명의 얼굴을 알아볼 수 있습니다. 떨어져 있는. 우리의 눈은 최소한의 세부 사항만으로도 서로를 인식할 수 있는 능력을 제공합니다. 그러나 인간에게는 "쉬운" 이 능력이 컴퓨터에게는 정말 어렵습니다.
왜냐하면 인간의 경우 '보는' 과정은 수십 분의 1초 이내에만 발생하는 경우가 많고 거의 완전히 무의식적인 행동이며 잘못되는 경우가 거의 없기 때문입니다(예를 들어 우리 인간이 (고양이와 개를 보면 체형이 비슷하더라도 즉시 고양이와 개라고 알 수 있습니다.) 컴퓨터에게 이미지는 단지 데이터의 문자열일 뿐입니다.
최근 몇 년간 AI 기술의 급속한 발전으로 인해 '컴퓨터 비전'은 가장 뜨거운 인공지능 하위분야 중 하나로 자리 잡았습니다. 컴퓨터 비전의 목표는 인간 비전의 강력한 기능을 복제하는 것입니다.
우리 뇌에는 40억 개가 넘는 뉴런이 시각 정보를 처리합니다. 시각은 사람이 외부 세계를 인지하는 능력의 70%를 차지하므로 우리는 '보는 것'을 이해합니다. 세계의 가장 중요한 부분.
인간의 두뇌는 이러한 일련의 시각적 정보를 완벽하게 처리하여 세상을 이해하고 판단하는 데 도움을 줍니다. 강아지 사진을 보면 강아지의 털, 품종, 심지어 대략적인 키와 몸무게까지 쉽게 알 수 있습니다. 사진이 흐리거나, 시끄럽거나, 줄무늬가 있어도 AI는 "바보"입니다.
왜 이런 일이 일어나는 걸까요?
인간의 시각을 재구성하는 일은 단순히 어려운 주제가 아니라 일련의 맞물리는 과정이기 때문이다.
연구에 따르면 인간은 대상의 모양과 같은 상대적으로 높은 수준의 의미 정보를 보는 반면, 컴퓨터는 질감과 같은 상대적으로 낮은 수준의 세부 정보를 봅니다. 즉, '양의 탈을 쓴 늑대'인 인간과 AI는 서로 다른 의견을 갖고 있는 셈이다.
AI의 신경망 아키텍처는 인간의 시각 시스템을 기반으로 개발되었습니다. 독일 튀빙겐 대학의 과학자 팀은 일련의 실험을 수행했습니다. 그들은 픽셀을 줄이기 위해 이미지의 픽셀을 "간섭"하는 특별한 방법을 사용한 다음 이 이미지를 사용하여 신경망을 훈련하여 이러한 것을 식별했습니다. "인위적 왜곡"에 의해 간섭된 이미지.” 시스템은 인간보다 성능이 뛰어나지만 이미지가 약간 다른 방식으로 왜곡되면(사람의 눈에는 왜곡이 동일하게 보임) 알고리즘이 완전히 무력해집니다.
정확히 무엇이 바뀌었나요? 아주 적은 양의 노이즈만 추가해도 왜 이렇게 큰 변화가 일어나는 걸까요?
답은 질감입니다. 이미지에 노이즈가 추가되면 이미지에 있는 개체의 모양은 영향을 받지 않지만 로컬 아키텍처는 빠르게 왜곡됩니다.
토론토 요크 대학의 컴퓨터 비전 과학자인 존 초소스(John Tsotsos)는 "선분 그룹이 같은 방식으로 배열되어 있는데, 이것이 바로 질감이다"라고 지적했습니다.
이는 인간과 기계가 '보는' 것에는 분명한 차이가 있음을 보여줍니다. 물론 기술이 발전하면서 알고리즘은 점점 더 정확해질 것이고, AI는 점차 인간의 시각에 가까워지고 있다.
1. 알고리즘 모델은 AI의 '뇌'이다
인간이 '지능 뇌'를 통해 세상을 이해한다면, 알고리즘 모델은 AI의 '두뇌'이다.
AI의 목표는 인간 두뇌에 대한 현재 연구 결과를 부분적으로 기반으로 한 알고리즘과 기술인 고급 지능을 갖춘 기계를 만들고 설계하는 것입니다. 현재 널리 사용되는 많은 AI 시스템에서 사용되는 인공 신경망은 인간의 두뇌를 시뮬레이션하고 간단한 모델을 구축하며 다양한 연결 방식에 따라 네트워크를 형성하는 신경망입니다.
기계가 인식하고 판단하는 능력을 얻기 위한 모델을 구축하는 것은 복잡한 알고리즘과 데이터를 통해서입니다.
이러한 네트워크는 패턴 인식 학습, 언어 번역, 간단한 논리적 추론 학습, 이미지 생성 또는 새로운 디자인 형성 등 인간의 두뇌와 마찬가지로 학습할 수 있습니다.
그 중에서도 패턴인식은 특히 중요한 기능이다. 인간의 '인식'은 자신의 이전 경험과 지식에 의존하기 때문에 수만 명의 낯선 얼굴을 마주하면 식별하기 어려울 것입니다. AI의 "킬러 기능"은 엄청난 양의 데이터를 처리하는 것입니다. 이러한 신경망에는 수백만 개의 단위와 수십억 개의 연결이 있습니다.
2. AI는 어떻게 인간의 눈을 고도로 '복사'할 수 있나요?
신경망은 이미지 처리의 "오른손 보조자"입니다. 컴퓨터 비전의 핵심 문제 중 하나인 이미지 분류는 입력 이미지에 레이블을 할당하는 작업입니다. 이 프로세스는 종종 머신러닝 및 딥러닝과 분리될 수 없습니다. 간단히 말해서 신경망은 가장 초기이자 간단한 딥러닝 모델입니다.
딥러닝의 많은 연구 결과는 뇌 인지 원리 연구, 특히 시각적 원리 연구와 불가분의 관계에 있습니다. 노벨 의학상 수상자 David Hubel과 Torsten Wiesel은 인간 시각 피질의 구조가 계층적이라는 것을 발견했습니다.
예를 들어, 사람이 풍선을 볼 때 뇌의 작동 과정은 다음과 같습니다. "풍선"이 시선에 들어갑니다(신호 섭취). 대뇌 피질의 특정 세포는 풍선의 가장자리와 방향을 발견합니다. "풍선"(예비 처리) - "풍선"이 둥근지 확인(추상화) - 객체가 "풍선"인지 확인(추가 추상화)
그렇다면 인간 두뇌의 이러한 특징을 사용하여 유사한 다층 신경망을 구축할 수 있습니까? 하위 계층은 이미지의 주요 특징을 식별하고 여러 하위 수준 특징은 상위 계층을 형성합니다. -레벨 기능, 그리고 마지막으로 여러 레벨의 조합을 거쳐 최종적으로 최상위 레벨로 분류됩니까?
물론 대답은 '그렇다'입니다. 이것이 딥러닝 시스템의 가장 중요한 알고리즘인 CNN(Convolutional Neural Network)에 영감을 준 것입니다.
CNN에는 입력 레이어, 출력 레이어 및 다양한 히든 레이어가 있습니다. 일부 레이어는 결과를 분석하고 이를 연속 레이어로 전달하는 컨볼루셔널입니다. 이 과정은 인간 시각 피질의 일부 활동을 시뮬레이션합니다.
이러한 특성 때문에 CNN은 이미지 처리에 매우 능숙합니다. 마찬가지로 비디오는 이미지의 오버레이이므로 비디오 콘텐츠를 처리하는 데에도 똑같이 좋습니다. 자율주행, 얼굴인식, 포토쇼, 영상처리 등 일상생활에서 흔히 수행되는 작업은 모두 CNN을 사용한다.
고전적인 이미지 분류 알고리즘은 강력한 CNN을 기반으로 설계되었습니다. 예를 들어 고양이 이미지는 컴퓨터에 대한 일련의 데이터일 뿐입니다. 이때 신경망의 첫 번째 레이어는 특징을 통해 동물의 윤곽선을 감지하고 두 번째 레이어에서는 이러한 윤곽선을 결합하여 감지합니다. 예를 들어 동물의 귀, 눈 등을 다시 형성합니다. 세 번째 레이어는 다리, 머리 등과 같은 간단한 모양으로 구성된 동물 신체 부위를 감지하고 마지막 레이어는 조합을 감지합니다. 이 부분들이 합쳐져 완전한 고양이가 됩니다.
신경망의 각 계층은 이미지의 특징을 감지, 분석 및 판단한 후 결과를 신경망의 다음 계층으로 전달하는 것을 볼 수 있습니다. 실제로 이 경우 신경망의 계층적 깊이를 사용하는 것보다 삶에는 더 복잡한 상황이 훨씬 더 많이 있습니다.
AI를 더 잘 훈련시키기 위해서는 대량의 라벨링된 이미지 데이터가 필요합니다. 신경망은 각 이미지를 레이블과 연결하는 방법을 학습하고 이전에 볼 수 없었던 이미지를 레이블과 연결할 수도 있습니다.
이런 방식으로 AI 시스템은 다양한 이미지를 분류하고 이미지에 포함된 요소를 식별할 수 있어 수동으로 라벨을 입력할 필요가 없고 신경망이 스스로 학습할 수 있습니다.
AI 시스템의 경우 시각적 인식을 처리하는 것이 인간의 눈만큼 중요합니다. 컴퓨터 비전(CV)이 기계가 "볼" 수 있게 만드는 방법을 연구하는 과학이 된 것은 바로 AI에 대한 시각적 인식의 중요성 때문입니다.
그러나 많은 사람들은 컴퓨터 비전과 머신 비전(MV)을 쉽게 혼동합니다. 유사점에도 불구하고 차이점이 있습니다.
정량적 분석에 중점을 둔 머신 비전에 비해 컴퓨터 비전은 주로 분류 인식, 이것이 사과이고 개이거나 얼굴 인식과 같은 신원 확인, 번호판 인식 또는 인원 침입, 배회, 군중 모임 등과 같은 행동 분석 수행
컴퓨터 비전은 단순히 인식의 얕은 수준에 그치지 않습니다. 많은 양의 고급 지능이 비전과 분리될 수 없습니다. 컴퓨터가 이미지 속 장면을 진정으로 이해할 수 있다면 진정한 지능은 더 이상 멀지 않을 것입니다. 컴퓨터 비전 자체에는 일반 지능의 더 심오한 문제가 포함되어 있다고 말할 수 있습니다.
기술이 계속 발전함에 따라 컴퓨터 비전의 응용 시나리오는 소비자부터 기업까지 점점 더 광범위해지고 있으며, 컴퓨터 비전 기술은 모든 주요 분야에서 자리잡고 있습니다. 소비자 시장을 위한 AR/VR, 로봇, 무인자동차, 자율주행차 등, 기업 시장을 위한 의료영상 분석, 영상감시, 부동산 개발 최적화, 광고 삽입 등.
이렇게 구현된 적용 사례 중 무시할 수 없는 문제는 많은 프로젝트가 소규모로 시범 단계에 있다는 점이다. 관련 이론의 불완전성으로 인해 이러한 선구자와 혁신가는 많은 어려움에 직면하게 되었습니다. 예를 들어 AI 모델 훈련에 활용할 수 있는 대규모 데이터 세트가 부족하고, 동적 이미지 인식, 실시간 영상 분석 등 기술적인 병목 현상을 극복해야 한다.
현재 AI의 이미지 처리는 이미지 분류에만 국한되지 않고 오래되고 손상된 이미지를 AI로 복구하는 것까지 가능합니다. 고전적이고 오래된 영화를 볼 때 우리는 종종 그 "높은 흐림 품질"을 받아들이기 어렵다는 것을 알게 됩니다.
이러한 저화질 동영상을 복원하기 위해 전통적인 방법을 사용하는 것은 속도가 느릴 뿐만 아니라, 이미지의 누락된 부분이 큰 경우 전통적인 방법으로는 복구할 수 없습니다.
하지만 AI는 머신러닝과 모델 훈련을 통해 세부 사항을 채우고 이미지 품질을 향상한 다음 신경망을 사용하여 색상을 지정하고 마지막으로 전사와 얼굴 인식을 수행할 수 있어 훨씬 더 효율적입니다. 반나절. 원본 이미지에서 부족한 부분에 대해서도 AI가 '뇌를 활성화'해 '상상력'을 활용해 부족한 부분을 보완할 수 있다.
AI는 왜 이렇게 높은 수준의 '상상력'을 가질 수 있나요? 근본적인 이유는 학습능력에 있습니다. GAN(Generative Adversarial Network)을 기반으로 한 딥 러닝 알고리즘은 컴퓨터 비전 작업이 이미지 복원에 큰 잠재력을 가지고 있음을 입증했습니다.
GAN은 CNN을 기반으로 한 모델로, 대결 게임 상태로 훈련하는 것이 특징이다.
우리는 GAN의 기본 원리를 설명하기 위해 '선수와 심판'이라는 비유를 자주 사용합니다.
축구에서 일부 선수는 심판을 혼란스럽게 하기 위해 종종 "다이브"하여 공격 또는 수비 행동이 합법적인지 확인해야 합니다. 그에 상응하는 처벌을 받습니다.
선수와 심판의 끊임없는 대결 속에서 선수들의 '패배' 수준은 날로 높아지고 있고, 심판의 '패패' 식별 수준도 점점 높아지고 있다.
마침내 어느 날 선수의 '실패' 수준이 '숙련'되어 심판을 속이는 데 성공했습니다. 심판은 더 이상 선수가 '실패'인지 '진짜'인지 식별할 수 없게 됩니다. 플레이어의 레벨이 가짜와 진짜가 될 정도로 달성되었습니다. 선수들이 심판을 속이고 목표를 달성한 것은 끊임없는 시도와 식별을 통해서였다. 이것이 GAN의 기본 원리이다.
GAN의 주요 구조는 생성자(G)와 판별자(D)로 구성됩니다. 위의 예에서 플레이어 = 생성자, 심판자 = 판별자입니다. 생성기는 이미지를 출력할 수 있는 모든 모델이 될 수 있습니다. 같은 방식으로, 판별자는 생성자와 마찬가지로 모든 판별자 모델이 될 수 있습니다.
그림 생성을 예로 들면, G는 그림 x를 무작위로 생성하며, D(x)는 D(x)가 실제 그림일 확률을 나타냅니다. )가 1이면 100이 진짜라는 뜻이고, D(x)가 0이면 가짜 그림이라는 뜻이다. 이상적인 상태에서 D는 G가 생성한 그림이 실제인지 여부를 판단할 수 없습니다.
D(x)는 0.5입니다. 그러면 우리의 목표는 생성 모델 G를 얻은 후 사용할 수 있습니다. 이미지를 생성합니다.
따라서 훈련 과정에서 G의 목표는 판별 네트워크 D를 속이기 위해 실제 그림을 생성하는 것입니다.
D의 목표는 G가 생성한 사진과 실제 사진을 분리하는 것입니다. 이것은 "게임" 과정이다. 이러한 방식으로 색상화는 물론 일반 영화를 고화질 영화로 업그레이드할 수도 있습니다.
AI가 이 기술을 학습한 후에는 원본 사진을 비교하지 않고도 저해상도 이미지를 정확하게 복구하고 재구성할 수 있습니다. 이미지를 '채색'하기 전에 AI는 이미지를 분석해 얼굴, 자동차, 하늘 등 상징적인 사물을 구별하고 색상 정보를 결합해 채색합니다.
실제로 이 프로세스는 저품질 이미지를 "상상"하도록 프로그램을 교육하는 것과 동일하며 100% 이미지 복구를 달성하는 것이 전적으로 가능하지는 않습니다. CNN과 비교하여 GAN은 훈련에 비지도 학습 방법을 사용합니다.
GAN의 역할이 오래된 사진을 색칠하는 데만 국한되지 않고 이미지 스타일 변환과 관련된 다양한 작업에 유용하다는 점은 언급할 가치가 있습니다. 예를 들어 애니메이션 캐릭터를 자동으로 생성 및 색칠하고, 말을 얼룩말로 바꾸고, 얼굴을 생성하고, 음악을 작곡하는 등의 작업을 수행할 수 있습니다. 간단히 말해서 GAN은 이미지 생성, 처리 및 복원 분야에서 널리 사용됩니다.
5. 해석 가능성, 견고성 및 보안의 향상으로 AI는 세상을 더 잘 이해할 수 있습니다.
AI는 AI 시대의 주요 입구 중 하나로 모든 산업을 휩쓸고 있습니다. , 컴퓨터 비전은 AI가 가장 큰 구현 규모와 가장 널리 적용되는 분야가 되고 있습니다. 공식 데이터에 따르면 2016년 우리나라 컴퓨터 비전 시장 규모는 11억 4천만 위안에 불과했지만 2019년까지 중국 컴퓨터 비전 산업 시장 규모는 219억 6천만 위안으로 성장했습니다.
2025년까지 전 세계 컴퓨터 비전 시장은 2016년 11억 달러에서 262억 달러로 성장할 것입니다.
앞으로는 알고리즘의 발전과 하드웨어의 업그레이드, 5G와 인터넷이 가져온 초고속 네트워크와 대용량 데이터로 컴퓨터 비전 기술에 대한 연구가 학계와 산업계에 붐을 일으키고 있다. 사물 기술, 데이터 및 컴퓨터 비전 기술은 필연적으로 상상의 여지가 더 커질 것입니다. 과거 인간은 장엄한 역사를 눈으로 '기록'했다. 미래에는 AI도 과연 인간처럼 세상을 '관찰'할 수 있을까?
불행하게도 현재의 관점에서 볼 때 우리는 단일 프로젝트에서 인간을 능가하는 수많은 고급 AI를 만들었지만 이러한 기계는 여전히 능력이 제한되어 있어 인간을 대체할 수 없습니다. 인간처럼 관찰하고 생각할 수 있는 AI가 곧 등장하기는 어려울 것이다.
그럼에도 불구하고 우리는 AI의 해석 가능성, 견고성 및 보안이 지속적으로 향상되고 있다는 사실을 부인할 수 없습니다. AI는 더 많은 작업을 보다 효율적으로 완료함으로써 우리가 이 풍부하고 다채로운 세상을 점점 더 "이해"하는 데 도움이 될 것입니다. 지능적으로 인간과 AI가 협력하여 더욱 다채롭고 스마트한 세상을 만들 것입니다.
참고 자료
[2]MomozhongAI는 시각 기술을 강화하고 5대 주요 애플리케이션 시장에서 많은 기회를 갖고 있습니다. /publications/winwin-magazine/ai/computer-vision-see-world
[7] Microsoft Research Asia 컴퓨터 비전: 차가운 기계가 이 다채로운 세상을 이해하게 하세요, /zh-cn/news/features/computer-vision-20150210
[8] Zhou Komatsu의 2020년 중국 컴퓨터 비전 산업의 시장 현황 및 발전 전망 분석 인공 지능이 컴퓨터 비전을 폭발시키다 blogs.com/charlotte77/p/7759802.html