현재 위치 - 중국 분류 정보 발표 플랫폼 - 생활 서비스 정보 -

플라잉 기관차 수집기 발표 규칙 작성 방법

플라잉 기관차 수집기 발표 규칙 작성 방법

< /p>

1

먼저 웹 사이트 구조, 일반적으로 웹 사이트 구조는 트리 구조이며, 웹 사이트는 주로 홈 페이지, 열 페이지, 문장 페이지 등 여러 페이지를 포함합니다. 구조는 다음 그림과 같습니다. < /p>

다음으로 기관차 채집 원리에 대해 이야기하고, 기관차 운행에는 필요한 데이터를 수집하는 방법을 지정하는 규칙 세트가 필요하다. 즉 기관차 채집 규칙을 작성해야 하고, 채집 규칙 작성도 초보자에게 가장 골치 아픈 문제다. < /p>

기관차 수집기는 일반적으로 웹 사이트를 통해 웹 사이트에서 반환된 소스 코드를 캡처하여 소스 코드에서 필요한 정보를 추출합니다. 따라서 데이터를 수집하려면 먼저 웹 주소를 수집한 다음 데이터를 수집해야 합니다. < /p>

2

다음과 같이 수집 규칙 작성을 시작합니다. < /p>

locoyplatform.exe 실행

3 < 작업 이름을 입력합니다. 웹 사이트 인코딩은 일반적으로 자동을 선택하면 됩니다. < /p>

시작 웹 주소 추가 < /p>

"1 단계: 웹 주소 규칙 수집" 을 입력합니다. 여기서는 컨텐츠 페이지의 웹 주소를 얻을 때까지 웹 사이트의 트리 구조에 따라 다음 계층 구조의 웹 주소를 단계별로 가져와야 합니다. 먼저 시작 URL 을 입력합니다. 일반적으로 대상 스테이션 홈 주소입니다. "추가" 를 클릭하고 단일 웹 사이트에 기관차 블로그의 첫 페이지 주소를 기입한 다음 "추가"-GT 를 클릭합니다. "완료" 입니다. < /p>

다중 레벨 웹 주소 획득 규칙 작성 < /p>

먼저 시작 주소 페이지에서 수집해야 할 모든 열 페이지의 코드 영역을 찾고, 먼저 시작 페이지 주소의 소스 코드를 보고 다음과 같은 코드 영역을 찾아야 합니다. < /p>

; "시작" (왼쪽) 텍스트 상자는 열 주소 코드 영역 시작 전의 트레이드마크 코드를 채우고 (페이지의 고유성을 보장하기 위해), "끝" 오른쪽 텍스트 상자는 열 주소 코드 영역 끝 뒤의 트레이드마크 코드를 채우고, "결과 웹 주소 필터링" 의 "포함 필수" 및 "포함 불가" 텍스트 상자에 해당 코드를 입력합니다. 그런 다음 "저장" 을 클릭하여 돌아갑니다. < /p>

이제 컨텐츠 페이지의 주소를 받아야 합니다. 먼저 열 페이지를 열어 소스 코드를 보고 콘텐츠 페이지 주소가 존재하는 영역과 주소 규칙을 찾습니다. 이전 단계에 따라 먼저 콘텐츠 페이지가 있는 영역의 시작 및 끝 랜드마크 코드를 작성한 다음 이 영역에 포함된 링크를 분석하여 필요한 콘텐츠 페이지 주소 링크 규칙을 분석하고 필터 코드를 추가합니다. 여기서 시작 코드는 "lt; ! -표시 --gt;; " , 종료 코드는 "lt; Div class = "page" style = "float: right" gt; " 필터 코드는 "read-" 를 포함해야 하며 "#" 을 포함할 수 없습니다. 그림: < /p>

여기서 문장 비교에는 많은 페이지가 있으므로 목록 페이지 가져오기 규칙을 작성해야 합니다. 일반적으로 페이지 번호 지정 코드 영역만 지정하면 됩니다. 필요한 경우 조합 생성 목록 페이지 페이지 페이지 번호 지정 규칙을 채울 수 있습니다. 여기 목록 페이징 규칙은 실제로 코드는 "lt; Li class = "pagenumber" gt; " , 종료 코드는 "title=" 다음 페이지 "gt;" 입니다 。 자동 페이지 나누기를 선택하면 A 태그의 href 속성이 자동으로 추출되며, 자동 인식을 선택하지 않으면 조합 생성 목록 페이지 페이지 페이지 나누기 규칙을 채워야 합니다. < /p>

그런 다음 반환을 저장합니다. "웹 사이트 수집 테스트" 를 통해 규칙이 올바른지, 정확하지 않은지, 수정 규칙으로 돌아갈 수 있는지, "2 단계 수집 컨텐츠 규칙" 작성을 시작할 수 있습니다. < /p>

2 단계 수집 컨텐츠 규칙 작성 < /p>

먼저 컨텐츠 페이지와 컨텐츠 페이지의 소스 코드를 열어 추출할 정보의 앞뒤 코드 특성을 찾습니다. 제목과 내용 추출을 예로 들어 보겠습니다.

먼저 문장 제목을 복제한 다음, 소스 코드에서 제목이 나타나는 몇 곳을 살펴보고, 앞뒤 코드가 모든 문장 (예 * * * * * * * * * * * * * * * * * * * * * * * *3 "추가" 를 클릭하고, 레이블 이름으로 "제목" 을 채우고, 데이터 추출 방법 선택 전후 자르기, 앞뒤 코드는 각각 "LT; H1 클래스 = "컨텐트 제목" gt; Lt; Stronggt;; " 그리고 "lt; /stronggt; Lt; /h1gt; " 。 수집된 콘텐츠를 추가 처리 (예: 인코딩 변환 필터링 html 대체 등) 해야 하는 경우 아래의 "데이터 처리" 에서 추가를 클릭하여 규칙을 채웁니다. < /p>

"content" 라는 태그를 하나 더 추가합니다. 위와 같이 내용의 앞뒤 코드 조각을 채울 때 앞뒤 코드 조각에 불완전한 태그가 나타나지 않는 것이 좋습니다 (예: "lt; Div class="Content-body ""lt; Div class = "content-body" gt; "입니다 , 완전한 태그는 "lt;" 이어야합니다. 시작, "gt;" 로 시작 끝, lt; Gt; 컨텐트 페이지마다 내용이 부분적으로 다르므로 다른 부분을 (*) 로 바꾸면 됩니다. 그렇지 않으면 추출된 내용에 부분 불완전 태그가 포함됩니다. 일반적으로 본문에는 더 많은 HTML 이 포함되어 있으며, 단락 (P), 그림 (img), 줄 바꿈 (br) 등의 태그만 유지하도록 권장하는 HTML 필터링 기능을 추가할 수 있습니다. < /p>

컨텐츠 수집 규칙 테스트 < /p>

규칙을 저장한 후 컨텐츠 수집 규칙 페이지로 돌아가서 오른쪽' 규칙 테스트' 의 일반 페이지 텍스트 상자에 컨텐츠 페이지의 주소를 입력하고 테스트를 클릭합니다 < /p>

수집 시작 < /p>

수집할 작업 규칙을 선택하고 웹 주소 수집 및 컨텐츠 수집 확인란을 선택한 다음 도구 모음 시작 버튼을 클릭합니다. < /p>

후속 작업 < /p>

수집된 데이터는 데이터베이스에 저장되며 작업 이름을 마우스 오른쪽 버튼으로 클릭하고 데이터 아래 작업 폴더 열기를 선택하여 ACCESS 를 통해 열고 편집할 수 있는 데이터베이스 위치를 열 수 있습니다. 다시 수집하려면 마우스 오른쪽 버튼을 클릭하여 "이 작업 주소 라이브러리 비우기" 및 "작업의 모든 수집 데이터 비우기" 를 선택해야 합니다. < /p >