사람과 회사가 이번에 발표한 스무디? 3 세대 아키텍처는 현재 전 세계적으로 최고 해상도를 지원하는 쌍안 시각 인식 엔진 아키텍처입니다. 이 아키텍처의 전반적인 성능은 이전 세대보다 크게 향상되었으며, 그 중 코어 매개변수로서의 해상도 지표가 거의 12 배 향상되었습니다. < P > 그동안 인공지능 3D 시각인식 분야에서는 쌍안 입체 시각 기술이 알고리즘의 복잡성이 높고 계산력이 높기 때문에 사랑과 미움을 많이 받았지만, 쌍안 입체 시각 기술은 3D 감지 분야의 중요한 구성 요소로서 측정 거리가 멀기 때문에 실내외외를 동시에 할 수 있는 등 여러 가지 장점을 고려할 수 있어 많은 업계 응용 프로그램에서도 잘 보고 있다. < P > 쌍안 입체 시각 기술은 삼각형 측정 원리를 이용하여 상대 위치가 고정된 카메라 두 대를 통해 동시에 장면을 이미지화하고, 이미징의 시차를 기준으로 깊이를 계산합니다. 일반적인 계산 방법은 다음과 같습니다. < P > 여기서 F 는 카메라 초점 거리, B 는 기준선, D 는 시차, z 는 깊이 값이며, 이 이론적 프레임워크를 기반으로 두 눈을 얻을 수 있습니다. 동시에, 시스템의 커버리지를 높이기 위해 카메라 필드 각도를 증가시켜 초점 거리 F 를 더욱 줄여 z 정밀도가 거리에 따라 증가하는 감쇠 정도를 더욱 높여야 합니다. < P > 따라서 쌍안 스테레오 비전 시스템은 기존 메인스트림 해상도 (128*8) 와 시스템 볼륨 (기준선은 일반적으로 12cm 이하) 의 제약 하에 "멀리" 볼 수 있고 "잘 볼 수 있는" 것을 원합니다. < P > 요약하면 쌍안 시각 시스템의 해상도를 높이는 것이 기술 혁신을 실현하는 유일한 직접적인 방법이며, 현재 CMOS 이미지 센서 해상도가 커지는 추세에 순응하고 있습니다.
하지만 쌍안 해상도를 높이고 컴퓨팅 및 스토리지 대역폭에 대한 수요가 2 배 빠르게 증가하는 것은 현대 컴퓨터 스토리지 컴퓨팅 아키텍처에 큰 도전이 될 것이며, 기존 CPU 또는 GPU 아키텍처에서는 비용이 많이 들 것입니다 (KITTI 쌍안 평가 순위에서는 4 코어, 2.6Ghz CPU 가 매칭 알고리즘 rSGM 만 실행합니다)
위의 분석, 사람 플러스 눈? 3 세대 쌍안 시각 인식 엔진 아키텍처는 이전 세대의 논리 장치 (FPGA)+ CPU 의 이기종 컴퓨팅 아키텍처를 계속 설계해 왔으며, DDR4 64 비트 스토리지 아키텍처를 기반으로 메모리 스토리지 대역폭이 이전 세대보다 4 배 향상되었습니다. 일련의 알고리즘을 통해 설계 혁신을 가속화하고 가로 해상도가 거의 4 배 향상되었으며 전체 해상도가 거의 12 배 향상되었습니다.
3 세대 아키텍처는 이전 세대 논리 유닛+CPU 의 이기종 설계 방식을 이어가고 있으며, 해상도 향상으로 인한 메모리 대역폭 기술 병목 현상과 온칩 스토리지 자원 기술 병목 현상을 중점적으로 극복했습니다. 요약 설계도는 다음과 같습니다.
시스템은 DDR4 를 스토리지 유닛으로 사용하여 논리 유닛과 외부 스토리지 유닛 간의 데이터 상호 작용 효율성을 높이고 최대 16.5gb/의 설계 대역폭을 제공합니다 동시에, 시스템의 핵심 단위 간의 파이프 라인 설계는 계산으로 인한 지연을 최소화하고 데이터 입력에서 데이터 출력 지연까지 1 이미지 프레임 시간 미만을 충족하도록 설계되었습니다. 또한 시스템은 각 단위의 세밀한 병렬 처리를 지원할 수 있으며 실시간 요구 사항이 높은 장면의 경우 공간 변경 시간 설계를 신속하게 지원하여 시스템 지연을 최소화할 수 있습니다.
3 세대 아키텍처의 자세한 성능 매개 변수는 다음과 같습니다.
결국 사람과 회사는 Xilinx zynq ultrascale+zcu 12 evaluation board 플랫폼에서 아키텍처를 완벽하게 구현했습니다. 리소스 소비량은 다음 표에 나와 있습니다.
Xilinx 툴 세트인 Vivado 218.3 의 관행은 다음과 같습니다.
해상도가 크게 향상되는 스토리지 리소스 및 컴퓨팅 리소스 병목 현상을 극복하기 위해 사람과 지능형 엔지니어는
(1 < P > 쌍안 스테레오 보정은 역매핑 및 쌍선형 보간을 사용합니다. 대상 픽셀 생성은 2D 좌표 값 세트와 쌍선형 보간에 사용되는 배율 값에 해당합니다. 해상도 468x256@2fps 디자인의 경우 픽셀 하나에 4.5 바이트의 정보가 필요하며 필요한 DDR 읽기 속도는 1GB/s 이며 두 이미지를 동시에 보정할 경우 전체 대역폭 속도가 최대 2GB/s 를 차지합니다. 사람과 지능은 교정에 필요한 데이터의 분포 특성에 따라 보정 데이터에 대한 압축 및 압축 해제 방법을 제시합니다. 여기서 압축은 CPU 에서 오프라인으로 이루어지며 압축 해제 부분은 논리 리소스의 실시간 계산입니다. 최종적으로 사용되는 압축 방법은 2:1 의 압축비에 이를 수 있으며, 압축 해제 장치가 차지하는 리소스는 2 개 이상의 LUT, .5 개의 BRAM 에 불과합니다. 자세한 내용은 다음과 같습니다.
(2) 동적 조각 보정 기술을 사용하여 슬라이스의 메모리 사용 공간을 1/3 로 줄입니다. < P > 가로 해상도 증가로 인해 행 캐시 폭이 늘어났기 때문에 이전 세대보다 실시간 캐시 이미지 데이터 계산에 필요한 스토리지 공간 요구량이 거의 4 배 증가했으며, 슬라이스에서 Block RAM 리소스 부족 문제를 해결하기 위해 동적 조각 보정 프레임워크를 지능적으로 설계했습니다. 일반적인 설정은 이미지를 가로로 3 개로 분할하여 슬라이스에 저장된 공간 요구 사항을 1/1 로 줄입니다.
(3)Block to Block 블록 스테레오 매칭 디자인. < P > 이 아키텍처의 스테레오 매칭 부분은 이전 세대 SGM/BM 의 설계 알고리즘을 그대로 활용하며, 설계 성능을 보장하는 데 있어 블록 매칭을 채택하고, 왼쪽 및 오른쪽 이미지를 분할 가능한 두 부분으로 나누고, 각각 독립적으로 일치시키고, 설계를 통해 BRAM 리소스 사용량을 1/2 로 줄입니다. < P > 이번 쌍안 입체 시각 처리 아키텍처의 업그레이드는 현재 장면 응용이 쌍안 시각 시스템에 더 큰 시야각과 더 높은 정확도를 제시하는 이중 요구 사항으로 이뤄졌으며, 업그레이드 후 지능적인 실체 소비 행동 분석 앱을 통해 다음과 같은 이점을 얻을 수 있습니다.
(1) 단일 쌍안 시각 시스템의 적용 범위가 확대됩니다. < P > 카메라 시야 각도를 13-15 (이전 세대 설계 지표 1) 으로 늘리면 단일 쌍안 시각 시스템의 적용 면적이 1 평방미터에 달할 수 있어 카메라 사용 수를 줄여 시스템 유지 관리 비용을 절감하고 시스템 안정성을 높일 수 있습니다.
(2) 공간 포지셔닝이 더 정확합니다.
깊이 맵 해상도가 높을수록 측정 정확도가 높아지고 공간 포지셔닝이 더욱 정확해집니다.
(3) 이미지 디테일이 풍부하고 인식이 더 정확합니다. < P > 이번 업그레이드를 통해 사람 플러스 스마트 쌍안 시각 시스템은 최대 1,2 만 픽셀의 원본 이미지를 제공하여 이미지 인식 등 응용 프로그램의 정확도를 크게 높일 수 있습니다.
(4) 깊이 알고리즘은 반복 업그레이드 최적화를 지원하여 장면 적응성을 높입니다. < P > 3 세대 아키텍처는 FPGA SOC 설계를 연장하여 하드웨어 가속 레벨 알고리즘의 업그레이드 가능, 유지 관리 가능, 특정 시나리오에 따라 적절한 구성 및 최적화를 제공합니다. < P > 이와 함께 이번 업그레이드는 쌍안 입체 시각 기술 응용을 위한 새로운 상상력 공간을 시장에 제공하였으며, 해상도가 1,2 만 픽셀로 올라가면 시스템 거리 측정 범위가 킬로미터로 올라갈 수 있으며, 자동 운전, 스마트 보안 등과 같은 일부 넓은 범위의 측정 분야에 대해서도 새로운 방안을 선택할 수 있을 것으로 예상된다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 스마트 보안 (스마트 보안), 스마트 보안 (스마트 보안))
www.humanplus.ai (humanplus.ai) 는 지능형 시각 감지 및 인체 행동 인식을 핵심 기술로 하는 인공지능 회사로, 현재 여객 흐름 분석을 포함한 소매 브랜드 업체 및 소매업체에 대한 실제 소비자 행동 분석 서비스 제공에 주력하고 있습니다
원본 링크: /s/VFp5tZCdTRIsot4UtTm2A