연구 배경 소개
그동안 오디오 데이터 자체는 일련의 비의미 기호로 표현된 불투명한 이진 흐름일 뿐, 사운드 유형 구조화 조직과 고위층 의미에 대한 묘사가 부족해 오디오 신호의 심층 처리 및 분석에 많은 어려움을 겪었다. 자동 음성 인식 (Automatic Speech Recognition, ASR) 및 콘텐츠 기반 오디오 검색 (Conn) 연속 오디오 스트림 신호에서 오디오 유형의 구조화된 정보를 추출하는 방법, 음성, 음악, 환경음 등 다양한 음향 유형에 따라 범주 단일 오디오 세그먼트로 나누는 방법, 각 오디오 세그먼트의 경계 지점 위치 및 유형 정보, 즉 연속 오디오 스트림 분류를 표시하는 것은 오디오 정보의 깊이 처리, 분석 및 검색과 같은 문제를 해결하기 위한 핵심 기술 및 기본 전제조건이며, 보조 비디오 신호의 자동 분할 및 분류를 위한 강력한 도구이기도 합니다. 구조화된 정보
연속 오디오 스트림 분류에서 제공하는 오디오 유형 구조화 정보는 오디오 데이터베이스 인덱스를 구축하고 기본 구조 단위를 상위 레벨 의미 구조 단위에 연결하기 위한 기초입니다. CBAR 기술은 일반적으로 오디오 스트림의 구조와 의미를 분석하고, 다양한 유형의 오디오 신호에서 높은 수준의 의미 정보를 추출합니다. 예를 들어, 음성 부분에 대한 키워드 추출, 구조화된 구성 및 색인 작성, "무질서한" 오디오를 "질서 정연하게" 하여 사용자의 검색과 탐색을 용이하게 합니다. 오디오 스트림에 포함된 사운드 범주 및 위치 정보를 모르면 상위 레벨 의미 추출은 전혀 말할 수 없다는 것을 알 수 있습니다. 관련 소개
연속 오디오 스트림 분류 기술은 비디오 렌즈의 자동 분할 및 분류를 위한 효과적인 보조 도구로 사용할 수 있습니다. 기술 발전의 한계로 인해 기존 이미지와 비디오 처리 기술만으로는 컴퓨터의 비디오 내용을 "이해" 할 수 없으며, 비디오 렌즈 분할 정확도도 높지 않아 스토리 단위를 콘텐츠 기반 분류로 분류할 수 없습니다. 연속 오디오 스트림 분류 기술을 사용하여 비디오 스트림에 해당하는 오디오를 분할하고, 보다 실용적인 음성 인식 기술을 사용하여 음성 부분을 음성 인식하고, 검증된 전체 텍스트 검색 기술을 사용하여 음성 인식 결과를 처리하고, 텍스트 요약을 추출하면 이러한 문제를 더 잘 해결할 수 있습니다. 오디오 및 비디오 편집 분야의 지식과 몇 가지 기본 규칙은 비디오 스트림에 해당하는 오디오 유형이 변경되지 않은 경우 해당 비디오를 분할하지 않고 처리할 수 있음을 알려 줍니다. 따라서 오디오 스트림을 적절히 분할하여 비디오의 분할 효율성과 정확성을 크게 향상시킬 수 있습니다.
또한, 연속 스트리밍 오디오 스트리밍 분류 기술은 오디오 콘텐츠 이해 (Audio Content Understanding), 오디오 모니터링 (Audio Surveillance) 및 오디오 장면 분석 (Audio Scene Analysis) 등의 분야에서도 사용할 수 있습니다. 결론적으로, 오디오 데이터 자체의 특성과 기존 기술의 제약으로 인해 오디오 스트림의 추가 처리가 제한되고, 연속 오디오 스트림 분류 기술은 이 문제를 잘 해결할 수 있으며, 오디오 스트림 구조화 및 오디오 정보 심도 분석 및 활용을 위한 견고한 기반을 제공합니다. 분류 기술
연속 오디오 스트림 분류 기술을 사용하여 ASR 에 단일 음성 세그먼트를 제공할 수 있는 것은 기존 음성 인식 시스템을 실제 응용으로 전환하기 위한 전제 조건 중 하나입니다. 기존의 연속 음성 인식 시스템은 입력 음성 신호에 대한 요구가 거의 까다롭습니다. 일반적으로 음악, 환경음 등 다른 종류의 소리를 포함할 수 없을 뿐만 아니라 높은 신호 대 잡음비도 있어야 합니다. ASR 은 방송 뉴스, 영화, 회의, 연설 등 실제 오디오 스트림을 자동으로 변환해 의미 내용, 위치 및 기타 정보가 포함된' 사본' 을 생성하도록 요구하고 있다.
위에 열거된 이러한 오디오 스트림은 일반적으로 음성과 다른 유형의 사운드로 연결되며, 미리 세그먼트로 나누지 않고 음성 부분을 제거하지 않으면 음성 인식 시스템의 성능에 심각한 영향을 미칠 수 있다는 것을 알고 있습니다.
스트리밍 미디어 정의
스트리밍 미디어는 네트워크에서 스트리밍 기술을 사용하는 연속 시간 기반 미디어로, 네트워크를 통해 전송되는 오디오, 비디오 또는 멀티미디어 파일입니다. 핵심은 스트리밍 기술이다. 스트리밍은 주로 네트워크를 통해 미디어 (예: 비디오, 오디오) 를 전송하는 기술 총칭으로, 인터넷을 통해 오디오 및 비디오 프로그램을 PC 독립 실행형으로 전송하는 것을 의미한다.
스트리밍은 실시간 스트리밍 방식 (Realtime streaming) 과 순차 스트리밍 방식 (progressive streaming) 의 두 가지 방법으로 구현됩니다. 일반 형식
인터넷에서 흔히 볼 수 있는 스트리밍 오디오의 형식은 주로 미국 리얼넥의 *.RA 형식과 마이크로소프트의 *.WMA 형식이며, 전문 분야에 많이 쓰이는 미국 애플사 *.MOV 형식도 있습니다. 이 세 가지 형식 중 MOV 형식의 음질이 가장 좋습니다. 특히 MIDI 에서는 GS 와 GS 를 지원합니다.
RealAudio 형식
이것은 미국 RealNeork 의 원로급 제품이자 현재 인터넷에서 가장 유행하는 스트리밍 미디어 기술이다. 많은 Inter 의 음악대, 주문형 비디오 사이트에서 사용합니다. RealMedia 에는 RealAudio, RealVideo 및 RealFlash 라는 세 가지 유형의 파일이 포함되어 있습니다.
QuickTime 형식
QuickTime 은 RealMedia 와 마찬가지로 애플과 PC 와 완벽하게 호환됩니다. 같은 인터넷 속도와 파일 크기의 경우, 그것의 음상 품질이 가장 좋다. QuickTime Movie 파일 형식, QuickTime 미디어 추상화 계층, QuickTime 내장형 미디어 서비스 시스템의 세 가지 섹션으로 구성됩니다.
Windows Media Audio 형식
WMA(Windows Media Audio) 는 Microsoft 의 헤비급 선수로, 마이크로소프트의 Netshow 로, 배경이 강경하고 많은 Windows 사용자들에게 가장 익숙한 핵심 기술인 ASF(Advanced Streaming Format) 입니다. ASF 형식은 모든 압축/압축 해제 인코딩 방식을 지원하며 모든 기본 네트워크 전송 프로토콜을 사용할 수 있어 유연성이 뛰어납니다. MPEG 와 같은 압축 표준을 비교하면 명령 스크립트를 제어하는 기능이 추가되어 데이터 트래픽을 줄일 수 있지만 파일 품질을 유지하는 방식으로 스트리밍 멀티미디어 컨텐츠 게시를 수행할 수 있습니다.
인터넷에서 널리 사용되는 FLASH 는 벡터 애니메이션 기술이지만 사운드 정보를 포함하고 스트리밍을 지원할 수 있습니다. 고품질 FLASH 의 SWF 형식 파일 사운드는 더욱 뛰어나고 파일 크기가 작습니다. 이 기술을 사용하여 만든 음악 사이트도 있습니다. 감상할 때 FLASH 플러그인을 설치해야 합니다. 2013 년 네트워크 속도로 볼 수 있습니다. 스트리밍 미디어 전송 프로토콜
브라우저에서 우리의 일반적인 주소는: 와 FTP: 로 시작합니다.
웹 서버도 프로토콜을 통해 스트리밍 미디어 파일을 처리할 수 있지만 웹 서버 자체는 스트리밍 미디어 파일을 효율적으로 전송하도록 설계되지 않았습니다.
스트리밍 미디어는 중단없는 패킷 스트림을 사용해야 하며 서버와의 연결 상태를 오래 유지해야 하며, 너무 많은 방문자가 동시에 온라인으로 시청할 경우 성능이 크게 저하됩니다. 이 문제를 해결하기 위해 스트리밍 미디어 파일에는 자체 프로토콜 세트가 있습니다.
1, RTSP (Real Time Streaming Protocol): RealNeorks 가 스트리밍 미디어를 전송하는 데 도움을 주는 개방형 웹 표준입니다. RealServer 라는 특수 서버를 사용해야 하지만 RTSP 는 스트리밍 미디어 동영상의 품질을 향상시키고 전송 효율성을 높이며 더 나은 트래픽 처리 기능을 제공합니다. ISP 에 RealServer 서비스가 있는 경우 웹 서버 대신 RealServer 를 사용하여 스트리밍 미디어 파일을 전송하는 것이 좋습니다.
2, MMS(Media Server protocol, MMS): 이것은 Microsoft 가 정의한 스트리밍 형식 전송 프로토콜입니다.
3, 실시간 전송 프로토콜 (Theater Server protocol, RTP): 인터넷에서 멀티미디어 데이터 스트림을 위한 전송 프로토콜입니다. RTP 는 일대일 또는 일대다 전송 상황에서 작동하도록 정의되며, 시간 정보를 제공하고 스트리밍 동기화, 즉 일반적으로 네트워크의 웹 서버를 구현하기 위한 것입니다.
4, RSVP (ResourceReserveProtocol), 오디오 및 비디오 데이터 스트림이 기존 데이터보다 네트워크 지연에 더 민감하기 때문에 네트워크에서 고품질 오디오, 비디오 정보를 전송하려면 대역폭 요구 사항 외에 더 많은 조건이 필요합니다. RSVP 는 개발 중인 Inter 의 리소스 예약 프로토콜로, RSVP 를 사용하여 네트워크 리소스 (대역폭) 의 일부를 예약합니다.
이러한 프로토콜은 및 FTP 를 대체하지만 mms: 61.139.25.41/quake 와 같이 MMS 또는 RTSP 등으로 시작합니다. 플레이어
위의 세 가지 형식에는 각각 RealPlayer, QuickTime Player 및 Windows Media Player 라는 플레이어가 있습니다.
1, RealPlayer
Real 형식은 압축비와 압축 전송 능력이 뛰어나 온라인 재생 또는 온라인 생방송에 특히 적합하며, 비디오 스트리밍 미디어 형식에서 RM 형식은 품질이 가장 낮지만, 파일도 가장 작으며, 저속망 사용자 (ADSL 및 광대역 사용자 아님) 도 쉽게 온라인으로 비디오 프로그램을 감상할 수 있습니다. RealPlay 플레이어도 사용하기 쉽고, 시스템 리소스가 다른 둘 사이에 차지하므로 낮은 구성 사용자에게 가장 적합합니다. ReaNeorks 의 우수한 기술로 온라인 스트리밍 오디오 주문형 시장의 절반 이상을 점유하고 있습니다.
2, QuickTime Player
QuickTime Player 는 Inter 를 통해 실시간 디지털 정보 흐름, 워크플로우 및 파일 재생 기능을 제공합니다. QuickTime 파일의 품질은 매우 높지만 파일 크기가 크다는 단점이 있습니다. 물론 고화질 고품질 화면은 종종 더 큰 크기의 파일과 더 많은 전송 시간을 의미합니다. 이 때문에 인터넷에서 QuickTime 은 멀티미디어 광고, 제품 데모, 고화질 비디오 등 고화질 표현이 필요한 비디오 프로그램에서만 사용할 수 있습니다.
네트워크 속도가 원활하지 않은 곳에서는 다소 힘겨워 보이고 QuickTime Player 의 시스템 자원 사용량이 높기 때문에 시스템 구성이 잘 되어야 합니다. 빠른 CPU 와 대용량 메모리를 갖춘 고성능 PC 가 가장 좋습니다.
현재 QuickTime PLAYER 의 최신 버전은 5.0 입니다. QuickTime Player 플레이어는 무료가 아니므로 애플의 홈페이지에서 다운로드할 수 있습니다.
3, Windows Media Player
WMA 플레이어는 Windows 에 포함된 Windows Media Player 를 사용하면 됩니다. WMA 형식 음악의 주요 특징은 추가 플레이어가 필요하지 않습니다. "시작-프로그램-첨부 파일-엔터테인먼트" 에서 그 모습을 찾을 수 있습니다. 제작, 출판 및 재생 소프트웨어도 Windows NT/2000/9x 와 통합되어 있으며, 더욱 강력한 것은 Windows Media 가 저작권 보호 기능을 추가하여 재생 시간, 재생 횟수, 심지어 운영 체제 등을 제한할 수 있다는 점이다. WindowsMedia 파일은 RealMedia 파일보다 크며 온라인 재생 상태에서 QuichTime 보다 빠르고 부드러운 효과를 얻을 수 있습니다. 스트리밍 함수
오디오 스트리밍 함수는 일반 샘플 구조에 넣을 수 없을 정도로 큰 디지털 음악을 재생하는 데 사용됩니다. 또한 이러한 파일이 너무 커서 매번 데이터가 필요한 부분을 로드하려고 하거나 날으는 파형과 같은 영리한 일을 하고 싶을 수도 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 오디오명언)
Audiostream * play _ audio _ stream (intlen, bits, stereo, freq, vol, pan);
이 함수는 새로운 오디오 스트림을 만들고 재생을 시작합니다. 길이는 각 전송 버퍼 (샘플 사운드) 의 크기입니다. 최소 2K 가 있어야 합니다. 큰 버퍼는 더 경제적이며 업데이트가 덜 필요하지만 데이터를 제공하는 것과 실제 재생 사이에 더 많은 대기가 있습니다. Bits 매개 변수는 8 또는 16 이어야 하며 freq 는 데이터의 샘플링 빈도이고 vol 및 pan 값은 일반 샘플링 사운드 재생 루틴과 동일한 0-255 범위를 사용합니다. 일단 재생이 시작되면 음조, 볼륨 또는 오디오 스트림의 팬 값을 조정하려면 일반 voice_* () 함수를 사용할 수 있습니다 Voice 를 매개 변수로 사용합니다. 샘플 사운드 데이터는 항상 부호 없는 형식이며 스테레오 웨이브 형상은 대체 왼쪽/오른쪽 샘플로 구성됩니다.
Void s _ audio _ stream (오디오 스트림 * 스트림);
오디오 스트림이 더 이상 필요하지 않을 때 취소합니다.
Void * get _ audio _ stream _ buffer (오디오 스트림 * 스트림);
오디오 스트림이 재생 중일 때, 이 함수를 일정한 간격으로 호출하여 샘플링된 사운드 데이터의 다음 버퍼를 제공해야 합니다 (버퍼가 작을수록 더 자주 호출해야 함). NULL 을 반환하면 오디오 스트림이 많이 재생되므로 아무 것도 할 필요가 없습니다. 값을 반환하면 다음 버퍼가 재생될 위치입니다. 스트림을 만들 때 지정한 수에 관계없이 적절한 수의 샘플 사운드를 해당 주소로 로드해야 합니다. 예를 들어 fread () 를 사용하여 디스크 파일에서 로드해야 합니다.
버퍼가 데이터로 채워진 후 free_audio_stream_buffer () 를 호출하여 새 데이터가 이미 유효하다는 것만 알 수 있습니다. 이 함수는 시계 핸들에서 호출할 수 없습니다.
Voidfree _ audio _ stream _ buffer (audiostream * stream);
Get_audio_stream_buffer () 다음에 이 함수를 호출하면 NULL 이 아닌 주소가 반환되어 새 샘플 사운드를 해당 주소로 로드했고 데이터가 재생될 준비가 되었음을 나타냅니다. 오디오 스트림
2007 년 라스베가스 국제소비자전자전 (CES) 기간 동안 의법반도체 (ST) 현장에서는 Bluetooth 인터페이스, 적외선 인터페이스 및 Sound Terminal 기술을 이용한 실제 휴대용 앱을 시연했다. Sound Terminal 의 향후 제품에는 이러한 인터페이스와 기타 인터페이스를 통합하는 ASSP (전용 표준 제품) 가 포함됩니다.
Sound Terminal' 은 ST 가 제시한 디지털 오디오 스트림 개념으로, 고음질, 저전력, 저제조 비용을 평면 TV, 무선 제품, 개인 오디오 시스템과 같은 급성장하는 응용 분야에 도입하기 위한 것입니다. 단일 패키지 솔루션의 통합 수준은 음원에서 스피커에 이르는 순수 디지털 스트림 처리 기능을 결합하여 저렴하고 고성능이며 컴팩트한 사운드 시스템을 설계할 수 있습니다.
Sound Terminal 제품군의 초기 제품에는 대용량 (20-80W), 중간 전력 (10-20W), 저전력 (1.5W 미만) 을 위해 출시된 STA326 및 STA323 과 같은 다양한 고음질 오디오의 단일 칩 시스템이 포함되어 있습니다. STA326 의 전력 출력은 2 개의 30W 채널 또는 1 개의 60W 채널을 구동할 수 있으며 디지털 제어를 통해 이 제품을 여러 가지 다른 출력 모드로 쉽게 구성할 수 있습니다. 이 제품은 채널당 최대 4 개의 프로그램 가능한 28 비트 2 차 필터 및 로우/고음 제어를 포함한 다양한 처리 및 이퀄라이제이션 옵션을 제공합니다. 다양한 음향 조건 사전 설정 모드를 통해 소프트웨어 개발 시간을 단축하고 제품 설계 프로세스를 단순화할 수 있습니다.
전체 디지털 스트림이기 때문에 체인의 신호 처리를 확대하는 데 아날로그-디지털 변환기가 필요하지 않으므로 전체 오디오 품질을 보장하는 저비용 솔루션이며, SNR (신호 대 잡음비) 은 최대 100dB, 넓은 동적 범위입니다. Sound Terminal 칩 프로토타입이 성공적으로 개발되었으며, ST 가 자율적인 지적 재산권을 보유한 FFX (디지털 변조 기술) 를 사용하는 증폭기는 휴대용 대상 응용 프로그램의 제품 인스턴스로서, 이 칩의 확대 효율성은 94 로 현재 시장에서 가장 높은 수준이다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 성공명언) 휴대용 시스템에' 열이 나지 않는 오디오 전력' 을 제공할 수 있어 배터리 사용 시간을 크게 연장할 수 있을 뿐만 아니라 라디에이터 크기도 크게 줄여 고급 제품 설계를 가능하게 한다.
내장형 디지털 프로세싱 기능은 특히 음질을 향상시키고 특정 오디오에 맞게 사용자 정의 기능을 적용하는 데 도움이 됩니다. 예를 들어, 평면 패널 TV 디자인이 얇아지면서 스피커가 작아지고 섀시 음향 기능이 점점 더 좋지 않아 오디오 신호를 수정하는 것이 중요합니다.
또한 디지털 스트리밍 기술은 분산 적외선, 블루투스 무선 2.0EDR (향상된 데이터 속도), WiFi 및 UWB (UWB) 기술을 갖춘 무선 스피커 및 무선 헤드폰의 오디오 인터페이스와 통합하는 데 적합합니다.