4.1 웹 스파이더의 원리
4.1.1 아키텍처 설계
4.1.2 액세스 전략 및 알고리즘
4.1.3 효율성 최적화 및 업데이트
4.1.4 스파이더 액세스 사양
4.1.5 오픈 소스 스파이더 소개
4.2 Nutch 웹 스파이더
4.2. 1 Nutch 웹 스파이더 개요
4.2.2 Nutch 크롤링 모드 분류
4.2.3 크롤링 테스트 사이트 구축
4.3 Nutch LAN 크롤링
< p>4.3.1 로컬 다운로드 준비4.3.2 다운로드 프로세스 시작
4.3.3 다운로드 프로세스 분석
4.3.4 여러 웹사이트 다운로드
p>
p>
4.4 Nutch 인터넷 크롤링
4.4.1 다운로드 목록 획득
4.4.2 다수의 웹사이트 다운로드
4.5 Nutch 크롤링 비교
p>
4.6 Nutch 결과 감지
4.6.1 웹 페이지 콘텐츠 검색
4.6.2 Readdb를 사용하여 요약 얻기< /p>
4.6.3 SegRead를 사용하여 분할 읽기
4.6.4 Luke 도구 사용
4.7 Nutch 구성 파일 구문 분석
4.8 Heritrix 웹 스파이더
4.8.1 Heritrix 개요
4.8.2 Heritrix 아키텍처
4.8.3 Heritrix 설치 및 사용
4.9 요약 5.1 문서 인덱싱 원리
5.1.1 지수 개요
5.1.2 지수의 기본 구조
5.1.3 역지수의 원리
5.1. 4 인덱스 분류
5.1.5. 고성능 인덱스
5.2.루씬 인덱스 소개
5.2.2.루씬 인덱스 구조
5.2.3. 다중 파일 인덱스 구조
5.2.4 복합 인덱스 구조
5.3 루씬 인덱스 예시
p>5.3.1 인덱스 생성 코드 분석
5.3.2 인덱스 생성자(IndexWriter)
5.3.3 인덱스 관리자(IndexReader)
5.3 .4 인덱스 수정자(IndexModifier)
5.3.5 인덱스 분석기(Analyzer)
5.4 Lucene 인덱스 작업
5.4.1 텍스트 파일 인덱스 추가
5.4.2 Lucene 증분 인덱스 생성
5.4.3 인덱스 항목을 사용하여 문서 삭제
5.4.4 숫자를 사용하여 문서 삭제
5.4.5 문서 번호 압축
5.4.6 색인 문서 업데이트
5.5 Lucene 색인 고급 기능
5.5.1 색인 필드 유형 선택
5.5 .2 인덱스 매개변수 최적화
5.5.3. 디스크 인덱스 사용
5.5.4 메모리 인덱스 사용
5.5.5 동기화 및 잠금 메커니즘
5.6 Lucene 고급 애플리케이션 예시
5.6.1 지역 검색을 위한 색인 생성
5.6.2 색인 데이터베이스 레코드
5.6.3 색인 최적화 및 병합
5.7 Nutch의 Lucene 인덱스
p>5.8 요약 6.1 정보 쿼리 원칙
6.1.1 정보 쿼리 개요
6.1.2 기본 쿼리 프로세스
6.1.3 쿼리 결과 표시
6.1.4 고성능
쿼리
6.2 Lucene 쿼리 개요
6.2.1 Lucene 쿼리 작업의 기본
6.2.2 Lucene 쿼리 예제 소개
6.2.3 쿼리 도구 IndexSearcher 클래스
6.2.4 쿼리 캡슐화 쿼리 클래스
6.2.5 쿼리 분석기 QueryParser 클래스
6.2.6 쿼리 결과 집합 Hits 클래스
p>
6.3 기본 Lucene 쿼리
6.3.1 Lucene 쿼리 쿼리 객체
6.3.2 최소 용어 쿼리 TermQuery
6.3.3 간격 범위 검색 RangeQuery
6.3.4 논리 1/4 조합 검색 BooleanQuery
6.3.5 문자열 접두어 검색 PrefixQuery
6.3.6 Phrase 검색 PhraseQuery
6.3.7 퍼지 검색 FuzzyQuery
6.3.8 와일드카드 검색 WildcardQuery
6.3.9 위치 범위 검색 SpanQuery
6.4 Lucene 고급 쿼리
6.4.1 인덱스 메모리 검색
6.4.2 다중 키워드 교차 도메인 검색
6.4.3 다중 검색기 교차 인덱스 검색
6.5 Nutch의 Lucene 쿼리
6.6 요약 7.1 검색 엔진 문서 정렬 원리
7.1.1 전통적인 검색 정렬 기술
7.1. 2 벡터 모델 정렬 제한 사항
p>
7.1.3 검색 엔진 관련성 순위
7.1.4 링크 분석 PageRank 원칙
7.1.5 검색 엔진 순위 프로세스
7.2 Lucene 검색 정렬
7.2.1 Lucene 관련 요소
7.2.2 Lucene 관련 정렬 프로세스
7.2.3 Lucene 정렬 계산 시스템
7.2.4 Lucene 정렬 제어 방법
7.3 Document Boost 가중치 정렬
7.3.1 Lucene Boost 소개
< p>7.3.2 Boost 값 전체 문서 정렬< /p>7.3.3 Boost 값 문서 필드 정렬
7.3.4 BoostingTermQuery 정렬
7.4 정렬 개체 검색 정렬< /p>
7.4.1 개체 정렬 개요
7.4.2 개체 정렬 상관 정렬
7.4.3 개체 정렬 문서 번호 정렬
7.4. 4 객체 정렬 독립적 도메인 정렬
7.4.5 객체 정렬 공동 도메인 정렬
7.4.6 객체 정렬 역 정렬
7.5 Lucene 상관 공식
7.5.1 Lucene 점수 결과 분석
7.5.2 Lucene 정렬 공식
7.5.3 기타 동적 정렬 요소
7.6 Lucene 사용자 정의 정렬
p>
7.6.1 사용자 정의 정렬 비교 인터페이스
7.6.2 사용자 정의 정렬 인터페이스 클래스 인스턴스
7.6.3 사용자 정의 정렬 결과 테스트 예
7.6 .4 사용자 정의 정렬 테스트 결과
7.7 Nutch에서 결과 정렬
7.7.1 Nutch 정렬 요소
7.7.2 Nutch 링크 분석
< p>7.7.3. 너치 상관관계 계산7.8 요약 8.1 문서 분석 및 한자 단어 분할 원리
8.1.1 문서 분석 전처리 개요
8.1 .2 문서 분석의 기본 프로세스
8.1.3
중국어 분석 및 처리의 단어 분할
8.2 Lucene 분석기의 핵심 원리
8.2.1 Lucene 분석기의 원리
8.2.2 소개 분석 패키지
8.2.3 분석기 클래스의 결합 구조
8.2.4 JavaCC 구성 분석기
8.2.5 StopAnalyzer 커널 코드 분석
8.2.6 StandardAnalyzer 커널 코드 분석
8.3 Lucene 분석기 애플리케이션 모드
8.3.1 기본 분석기를 사용하여 인덱스 생성
8.3. 2 여러 분석기를 사용하여 인덱스 생성< /p>
8.3.3 분석기를 사용하여 쿼리 검색
8.4 Lucene 기본 분석기 적용 예
8.4.1 중지 단어 분석기 StopAnalyzer
8.4.2 표준 분석기
8.4.3 단순 분석기
8.4.4 공백 분석기
8.4.5 키워드 분석기 KeyAnalyzer
8.5 TokenStream 토크나이저 커널 분석
8.5.1 토크나이저 토크나이저
8.5.2 표준 토크나이저 StandardTokenizer
8.5. CharTokenizer
8.5.4 공간 토크나이저 WhiteSpaceTokenizer
8.5.5 문자 토크나이저 LetterTokenizer
8.5.6 소문자 토크나이저 LowerCaseTokenizer
8.6 TokenStream 필터 커널 분석
8.6.1 TokenFilter 필터
8.6.2 표준 필터 StandardFilter
8.6.3 중지 단어 필터 StopFilter
8.6. 4 소문자 필터 LowerCaseFilter
8.6.5 길이 필터 LengthFilter
8.6.6 줄기 필터 PorterStemFilter
8.7 Lucene 중국어 단어 분할
8.7 .1 중국어 단어 분할의 기본 원리 및 방법
8.7.2 StandardAnalyzer 중국어 처리
8.7.3 CJKAnalyzer 중국어 분석
8.7.4 ChineseAnalyzer 중국어 분석기< /p>
8.7.5 IK_CAnalyzer 중국어 분석기
8.7.6 중국과학원 ICTCLAS 중국어 단어 분할
8.7.7 JE 중국어 단어 분할
8.7.8 중국어 단어 분할 문제
8.8 Nutch 단어 분할 및 전처리
8.8.1 Nutch 분석기
< p>8.8.2 Nutch 중국어 단어 분할8.9 요약 9.1 비정형 텍스트 소개
9.1.1 비정형 텍스트 개요
9.1.2 비정형 텍스트 검색
9.2 HTML 문서 분석< /p>
9.2.1 주류 HTML 문서 분석기
9.2.2 HTMLParser 설치 및 구성
9.2 .3 HTMLParser의 프레임워크 구조
9.3 HTMLParser 애플리케이션 예
9.3.1 HTMLParser 기능 모드
9.3.2 HTMLParser 콘텐츠 구문 분석 방법
9.3.3 방문자 모드 텍스트 솔루션
분석
9.3.4 필터 모드 단순 링크 추출
9.3.5 필터 모드 검색 링크 추출
9.3.6 Lexer 모드 문서 순회
< p>9.4 PDF 문서 분석9.4.1 일반적으로 사용되는 PDF 처리 패키지
9.4.2 PDFBox 설치 및 구성
9.5 PDFBox 애플리케이션 예
< p>9.5.1 PDFBox는 문서 콘텐츠를 추출합니다.9.5.2 PDFBox 문서 콘텐츠 인덱스
9.6 Office 문서 분석
9.6.1 일반적으로 사용되는 Office 문서 처리 패키지< /p>
9.6.2 POI를 이용한 설치 및 구성
9.6.3 POI 원리 및 인터페이스 소개
9.7 Office 문서의 POI 분석 예
9.7 .1 POI는 Excel 문서를 처리합니다.
9.7.2 POI는 Word 문서를 처리합니다.
9.8 XML 문서 분석
9.8.1 주류 XML 문서 분석기
9.8.2 JDOM 분석기 설치 및 구성
9.8.3 xerces 분석기 설치 및 구성
9.9 XML 구문 분석 애플리케이션 예
9.9 .1 JDOM 사용 XML 문서 분석
9.9.2 xerces를 사용하여 XML 문서 분석
9.10 Nutch 문서 처리
9.11 요약 10.1 분산 검색 및 캐싱
9.11 p>
10.1.1 분산 검색엔진 현황
10.1.2 분산 검색엔진 원리
10.1.3 검색엔진 캐싱 현황
< p>10.1.4 검색 엔진 캐싱 원칙10.2 Nutch 및 분산 검색
10.2.1 Google 분산 파일 시스템
10.2.2 MapReduce 시스템 소개< /p>
10.2.3 Hadoop 분산 파일 시스템
10.2.4 Nutch 분산 파일 시스템
10.2.5 Nutch 분산 검색 개요
10.2 .6 Nutch 배포형 검색기
10.3 Lucene 분산 검색
10.3.1 소켓 통신 기본 사항
10.3.2 Lucene 인덱스 서버
10.4 너트치 및 검색 캐싱
10.5 오픈 소스 시스템 캐싱 시스템
10.6 요약