섀넌 엔트로피 계산

'엔트로피'라는 개념을 통해 우리는 이 글의 시작 부분에서 제기한 질문, 즉 50만 단어로 된 중국어 책에 평균적으로 얼마나 많은 정보가 담겨 있는지에 대한 답을 얻을 수 있습니다. 우리가 흔히 사용하는 한자는 약 7,000자(1급, 2급 국가표준)인 것으로 알고 있습니다. 각 단어의 가능성이 동일하다면 한자를 표현하는 데 약 13비트(즉, 13개의 이진수)가 필요합니다. 그러나 한자의 사용은 고르지 않다. 실제로 상위 10개의 한자가 전체 텍스트의 95% 이상을 차지합니다. 따라서 문맥의 상관관계를 고려하지 않고 각 한자의 독립된 확률만을 고려하더라도 각 한자의 정보 엔트로피는 약 8~9비트에 불과하다. 문맥 상관관계를 고려하면 각 한자의 정보 엔트로피는 약 5비트에 불과하다. 따라서 50만 단어로 구성된 중국어 책에는 약 250만 비트의 정보가 포함되어 있습니다. 좋은 알고리즘을 사용하여 압축하면 책 전체를 320KB 파일로 저장할 수 있습니다. 이 책을 2바이트 국가표준 인코딩으로 직접 저장하면 압축파일 크기의 3배인 약 1MB 정도가 소요된다. 이 두 양 사이의 차이를 정보 이론에서는 "중복성"이라고 합니다. 여기서 말하는 250만 비트는 동일한 길이의 책에도 훨씬 다른 양의 정보가 포함될 수 있다는 점을 지적해야 합니다. 책이 많은 내용을 반복하면 정보 내용이 적고 중복성이 높습니다.

다른 언어의 중복성은 매우 다양하며, 중국어의 중복성은 모든 언어 중에서 상대적으로 적습니다. 이는 '중국어는 가장 간단한 언어이다'라는 사람들의 공통 인식과 일치한다.

上篇: 첸보위의 좋은 노래는 무엇인가요? 下篇: < P > 내일 천진시 무청구의 개선왕국에 가고 싶은데 다 지었나요? 시설이 다 개방되었나요? 사실대로 대답해 주세요