현재 위치 - 중국 분류 정보 발표 플랫폼 - 중고환승안내 - 정리하는 데 사용되는 몇 가지 일반적인 단어 분할 도구

정리하는 데 사용되는 몇 가지 일반적인 단어 분할 도구

다음 단어 분할 도구는 모두 Python 환경에서 직접 호출할 수 있습니다(특정 순서 없이 순위 지정).

1. jieba(말더듬 단어 분할) 무료 사용

2. HanLP(중국어 처리 패키지) 무료 사용

3. SnowNLP(중국어 수업) 라이브러리) 무료 사용

4. FoolNLTK(중국어 처리 툴킷) 무료 사용

5. Jiagu(Oracle NLP) 무료 사용

6. pyltp (하얼빈 공과대학 언어 클라우드 ) 상업적 이용에는 수수료가 필요합니다

7. THULAC(청화 중국어 어휘 분석 도구 키트) 상업적 이용에는 수수료가 필요합니다

8. NLPIR(중국어 단어 분할 시스템) ) 유료 사용

1 , jieba(말더듬 단어 분할)

"말더듬" 중국어 단어 분할: 최고의 Python 중국어 단어 분할 구성 요소를 만듭니다.

프로젝트 Github 주소: jieba

설치:

pip install jieba

사용법:

import jieba < /p>

jieba.initialize()

text = '메이크업 및 의상'

단어 = jieba.cut(text)

단어 = 목록 (단어)

print(단어)

2. HanLP(중국어 처리 패키지)

HanLP는 일련의 모델과 알고리즘으로 구성된 NLP 툴킷입니다. . Dakuai Search와 완전 오픈 소스가 주도하는 목표는 생산 환경에서 자연어 처리 적용을 대중화하는 것입니다. HanLP는 완전한 기능, 효율적인 성능, 명확한 구조, 최신 코퍼스, 사용자 정의 가능성이라는 특징을 가지고 있습니다.

프로젝트 Github 주소: pyhanlp

설치:

pip install pyhanlp

사용법:

import pyhanlp < /p>

text = '메이크업 및 의상'

단어 = []

pyhanlp.HanLP.segment(text)의 용어:

words.append(term.word)

print(words)

3. SnowNLP(중국어 클래스 라이브러리)

SnowNLP는 Python으로 작성된 클래스 라이브러리입니다. 현재 대부분의 자연어 처리 라이브러리가 기본적으로 영어용이기 때문에 중국어 처리에 편리한 클래스 라이브러리를 작성했는데, 흥미로운 점은 TextBlob과 다릅니다. 여기서는 NLTK가 사용되지 않습니다. 모든 알고리즘은 자체적으로 구현되며 일부 훈련된 사전과 함께 제공됩니다.

프로젝트 Github 주소: snownlp

설치:

pip install snownlp

사용법:

import snownlp < /p>

text = '메이크업 및 의상'

word = snownlp.SnowNLP(text).words

print(words)

4. FoolNLTK(중국어 처리 툴킷)

가장 빠른 오픈소스 중국어 단어 분할은 아닐 수도 있지만 아마도 가장 정확한 오픈소스 중국어 단어 분할일 것입니다.

프로젝트 Github 주소: FoolNLTK

설치:

pip install Foolnltk

사용법:

import foo < /p>

text = '메이크업 및 의상'

words = Fool.cut(text)

print(words)

5. Jiagu ( Oracle NLP)

BiLSTM 모델을 기반으로 대규모 코퍼스를 사용하여 학습합니다. 중국어 단어 분할, 품사 태깅, 개체명 인식, 키워드 추출, 텍스트 요약, 신규 단어 발견 등 공통 자연어 처리 기능을 제공합니다. 다양한 주요 도구들의 장단점을 참고하여 제작되었으며, 지아구는 모두에게 돌려드립니다.

프로젝트 Github 주소: jiagu

설치:

pip3 install jiagu

사용법:

import jiagu < /p>

jiagu.init()

text = '메이크업 및 의상'

words = jiagu.seg(text)

print(words )

6. pyltp (하얼빈 공과대학 언어 클라우드)

pyltp는 LTP의 Python 패키지로, 단어 분할, 품사 태깅, 이름 지정 기능을 제공합니다. 엔터티 인식, 종속성 구문 분석 및 의미론적 역할 주석.

프로젝트 Github 주소: pyltp, 3.4 모델 다운로드 링크: Netdisk

설치:

pip install pyltp

사용법:

p>

import pyltp

분할기 = pyltp.Segmentor()

분할기.load('model/ltp_data_v3.4.0/cws.model') # 경로 배치 모델 지정< /p>

text = '메이크업 및 의상'

words = 세그먼트or.segment(text)

words = list(words)

< p> print( 단어)

7. THULAC(Tsinghua Chinese Lexical Analysis Toolkit)

THULAC(THU 중국어 어휘 분석기)은 자연어 처리 및 사회 인문학 분야에서 개발 및 출시되었습니다. 칭화대학교 컴퓨터 연구실 중국어 단어 분할 및 품사 태깅 기능을 갖춘 중국어 어휘 분석 툴킷입니다.

프로젝트 Github 주소: THULAC-Python

설치:

pip install thulac

사용:

import thulac

thu = thulac.thulac(seg_only=True)

text = '메이크업 및 의상'

words = thu.cut(text, text=True ).split()

print(words)

NLPIR(중국어 단어 분할 시스템)

주요 기능에는 중국어 단어 분할; - 음성 태그 지정, 새로운 단어 인식, 사용자 전문 사전 및 Weibo 분석 지원. NLPIR 시스템은 다중 인코딩, 다중 운영 체제, 다중 개발 언어 및 플랫폼을 지원합니다.

프로젝트 Github 주소: pynlpir

설치:

pip install pynlpir

인증서를 다운로드하여 설치 디렉터리에 덮어둡니다. 예, NLPIR.user 설치 디렉토리: /usr/lib64/python3.4/site-packages/pynlpir/Data

사용법:

import pynlpir

pynlpir .open()

p>

text = '메이크업 및 의상'

word = pynlpir.segment(text, pos_tagged=False)

print(words)

pynlpir .close()