오디오 기본 사항
< /p>
샘플링 빈도는 단위 시간 동안 사운드 아날로그 신호를 샘플링하는 횟수로, 영화의 샘플링 속도는 24Hz 와 비슷하며, 샘플링된 정지 화면 중 하나를 샘플링 속도와 같은 속도로 재생할 때 연속 화면을 볼 수 있습니다. 같은 이치로 44.1kHz 샘플링 비율로 기록된 CD 를 같은 속도로 이 샘플링 속도가 높을수록, 듣는 소리와 보는 화면이 더욱 일관성이 있다. 물론, 사람의 청각과 시각기관이 구분할 수 있는 샘플링 속도는 제한되어 있다. 같은 소리를 20kHz 와 44.1kHz 로 샘플링하여 재생할 때 그 차이를 들을 수 있다. 기본적으로 44.1kHZ 샘플보다 높은 소리, 예를 들면 96kHz 샘플과 같은 소리 44.1kHZ 라는 수치를 사용하는 이유는 반복적인 실험을 통해 이 샘플링 정확도가 가장 적합하다는 것을 알게 되었기 때문이다. 이 값보다 낮으면 더 큰 손실이 있을 수 있고, 이 값보다 높은 사람의 귀는 구분하기 어렵고 디지털 오디오가 차지하는 공간을 늘렸기 때문이다. 우리가 사용하는 CD 의 샘플링 기준은 44.1k
샘플링 비트 수가 수집 카드로 사운드를 처리하는 해상도로 해석된다는 것입니다. 이 값이 클수록 해상도가 높아지고 녹음되고 재생되는 사운드가 더 사실적입니다. 우리는 먼저 컴퓨터의 사운드 파일이 숫자 0 과 1 로 표시된다는 것을 알아야 한다. 연속 아날로그 신호가 특정 샘플링 주파수에 따라 디지털 펄스를 샘플링한 후 각 이산식 펄스 신호는 일정한 정량화 정밀도로 일련의 이진 인코딩 스트림으로 수량화됩니다. 이 인코딩 스트림의 자릿수는 샘플링 비트 수입니다. 정량화 정확도 < /p>
로 알려진 컴퓨터에서 녹음의 본질은 아날로그 사운드 신호를 디지털 신호로 변환하는 것입니다. 반대로, 재생할 때는 디지털 신호를 아날로그 사운드 신호 출력으로 복원한다. 수집 카드의 비트는 수집 카드가 사운드 파일을 수집하고 재생할 때 사용하는 디지털 사운드 신호의 이진 자릿수입니다. 수집 카드의 비트는 디지털 사운드 신호가 입력 사운드 신호에 대해 설명하는 정확도를 객관적으로 반영합니다. 예를 들어, 단일 샘플링 정보를 설명하기 위해 8bit 를 사용하는 동일한 오디오 정보 세그먼트의 경우 샘플 정량화의 범위는 0 255 이고, 단일 샘플링 값을 나타내기 위해 16bit 를 사용하는 경우 해당 샘플 정량화의 범위는 0 64k 입니다. 동적 범위는 8 비트 샘플링 자릿수보다 넓고 사운드는 더 세밀하게 기록됩니다. 일반 CD 에서 사용하는 샘플 자릿수는 16 비트 < /p>
16 비트 이진수의 최소값은 000000000000000000 이고 최대값은 11111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111 동적 범위를 96 데시벨로 설정하는 것도 일리가 있다. 사람의 귀에 통증이 없는 한계 음압은 90 데시벨이고, 96 데시벨의 동적 범위는 일반 응용에서 충분히 활용된다. 따라서 96 데시벨 동적 범위 내의 아날로그 파동은 수량화 후 삭파 왜곡을 일으키지 않는 < /p>
비트 속도/비트율/비트율은 모두 하나의 것으로 묘사된다 오디오 파일이 "128–KBPSMP3" 또는 "64–KBPSWMA" 로 설명되는 것을 본 적이 있을 것입니다. Kbps 는 "초당 킬로비트" 를 의미하므로 숫자가 클수록 데이터가 많아집니다. 128-Kbps MP3 오디오 파일에는 64–kbps WMA 파일의 두 배, 두 배의 공간이 포함됩니다. (그러나 이 경우 이 두 파일은 별반 다르지 않게 들린다. 그 이유는 무엇일까요? 일부 파일 형식은 다른 파일보다 데이터를 더 효율적으로 활용할 수 있습니다. 64–KBPSWMA 파일의 음질은 128–KBPSMP3 의 음질과 같습니다.
) 알아야 할 중요한 점은 비트 속도가 높을수록 정보의 양이 많을수록 정보를 디코딩하는 처리량이 많아지고 파일이 차지하는 공간이 많을수록 < /p>
VBR(Variable Bitrate) 동적 비트율도 증가한다는 것입니다. 즉, 고정 비트율이 없으므로 압축 소프트웨어는 압축 시 오디오 데이터에 따라 사용할 비트율을 즉시 결정합니다. 이것은 새로 개발된 알고리즘으로, 한 곡의 복잡한 부분을 높은 비트레이트로 인코딩하고, 간단한 부분은 낮은 비트레이트로 인코딩한다. 아이디어는 좋지만 새 인코더의 VBR 알고리즘은 형편없고 음질은 CBR 과는 거리가 멀다. 다행히도 Lame 은 VBR 알고리즘을 완벽하게 최적화하여 MP3 에 가장 적합한 인코딩 모드가 되었습니다. 품질을 전제로 파일 크기를 고려하는 방법이니 인코딩 모드를 추천합니다.
ABR (평균 비트율) 평균 비트율은 VBR 의 보간 매개변수입니다. Lame 은 CBR 이 좋지 않은 파일 볼륨 비율과 VBR 생성 파일 크기가 일정하지 않은 특징에 대해 이 인코딩 모드를 독창적으로 만들었습니다. ABR 은 "Safe VBR" 이라고도 하며, 지정된 평균 비트레이트 내에서 50 프레임당 (30 프레임당 약 1 초), 저주파 및 민감하지 않은 주파수는 비교적 낮은 트래픽을 사용하며 고주파수 및 큰 동적 표현에 높은 트래픽을 사용합니다. 예를 들어, wav 파일의 한 세그먼트를 192kbps ABR 로 인코딩하도록 지정하면 Lame 은 파일의 85 를 192kbps 로 고정한 다음 나머지 15 를 동적으로 최적화합니다. 복잡한 부분은 192kbps 이상으로 인코딩하고 간단한 부분은 192kbps 이하로 인코딩합니다. 192kbps CBR 에 비해 192kbps ABR 은 파일 크기는 비슷하지만 음질은 많이 향상되었습니다. ABR 인코딩은 VBR 인코딩의 2 ~ 3 배 속도에서 128-256kbps 범위 내에서 CBR 보다 품질이 좋습니다. VBR 과 CBR 의 절충안으로 사용할 수 있습니다. < /p>
CBR(Constant Bitrate), 일정한 비트율로, 파일이 처음부터 끝까지 비트율임을 의미합니다. VBR 및 ABR 에 비해 압축된 파일 크기는 크지만 음질은 크게 향상되지 않습니다. < /p>
PCM (펄스 인코딩 변조) 은 아날로그 음성 신호를 디지털 신호로 변환하는 인코딩 방법입니다. 주로 샘플링, 정량화 및 코딩의 세 가지 과정을 거칩니다. 샘플링 프로세스는 연속 시간 시뮬레이션 신호를 이산 시간, 연속 범위의 샘플링 신호로 변경하고, 정량화 프로세스는 샘플 신호를 이산 시간, 이산적인 폭의 디지털 신호로 변경하고, 코딩 프로세스는 정량화된 신호를 이진 코드 그룹 출력으로 인코딩합니다. < /p>
정량화는 선형 정량화와 비선형 정량화로 구분됩니다. 선형 정량화는 LPCM 이라고 하는 전체 정량화 범위 내에서 정량화 간격이 동일합니다. 비선형 양자화는 동일하지 않은 양자화 간격을 사용합니다. 정량화 간격 수는 인코딩된 이진 자릿수에 의해 결정됩니다. 예를 들어, CD 가 16 비트 선형 정량화를 사용하는 경우 정량화 간격 수 L=65536 입니다. 자릿수 (n) 가 많을수록 정확도가 높아지고 신호 대 잡음비 SNR=6.02n+1.76(dB) 도 높아집니다. 그러나 인코딩된 이진 자릿수는 무제한이 아니므로 필요한 데이터 속도에 따라 결정해야 합니다. 예: CD 가 얻을 수 있는 데이터 비율은 2×44.1×16=1411.2Kbit/s 입니다. < /p>
일반적으로 LPCM 형식의 오디오 데이터는 압축되지 않은 선형 정량화된 오디오 데이터입니다. < /p>
PCM 원시 프레임을 일반적인 오디오 형식으로 캡슐화할 때도 프레임 단위로 되어 있습니다. 압축된 오디오 데이터 프레임을 미디어 프레임이라고 하고, 원본 PCM 데이터를 원본 프레임이라고 합니다. 각 미디어 프레임은 head 헤드, body 데이터체로 나뉩니다. 프레임 헤더에서는 이 미디어 프레임의 body 부분에 대한 비트율, 샘플링 속도 등의 디코딩에 필요한 정보가 저장되므로 각 미디어 프레임은 파일과 독립적으로 존재하고 재생될 수 있습니다. Body 에는 하나 이상의 미디어 프레임이 저장되어 있습니다. 이러한 미디어는 특정 압축 알고리즘을 통해 여러 PCM 원본 프레임을 압축한 것입니다. 일반적으로 단위 시간의 미디어 프레임 수를 프레임 속도라고 합니다.
< /p>
위의 샘플링 속도와 프레임 속도 개념은 오디오 미디어의 "연속" 을 설명합니다. 단, 각 오디오의 미디어 프레임에는 AAC 프레임 하나에 1024 개의 샘플이 포함된 것과 같은 여러 개의 오디오 샘플링 (여러 PCM data) 이 포함되어 있다는 점이 다릅니다. < /p>
let 는 상수를 선언하고 var 는 변수 < /p > 를 선언합니다