로봇 파일은 무엇을 의미합니까? 그는 사이트 최적화에 어떤 역할을 할 수 있습니까?
< /p>
Rbots.txt 란 무엇입니까? < /p>
robots.txt 는 검색 엔진에서 웹 사이트를 방문할 때 볼 첫 번째 파일입니다. Robots.txt 파일은 거미 프로그램이 서버에서 볼 수 있는 파일을 알려줍니다. < /p>
검색 거미가 사이트에 액세스하면 먼저 사이트 루트 아래에 robots.txt 가 있는지 확인하고, 있는 경우 검색 로봇은 파일의 내용에 따라 액세스 범위를 결정합니다. 이 파일이 없으면 모든 검색 거미가 암호로 보호되지 않은 웹 사이트의 모든 페이지에 액세스할 수 있습니다. < /p>
robots.txt 는 한 사이트의 루트 아래에 있어야 하며 파일 이름은 모두 소문자여야 합니다. < /p>
구문: 가장 간단한 robots.txt 파일은 두 가지 규칙을 사용합니다. < /p>
User-Agent: 다음 규칙이 적용되는 로밍 < /p>
disaaat < /p>
모두 열기 또는 모두 금지
{
user-agent: *//는 사이트 내 모든 검색 엔진이 열려 있음을 나타냅니다.
allow:///모든 디렉토리의 색인을 허용합니다.
사용자 에이전트: *//는 스테이션 내 모든 검색 엔진이 열려 있음을 나타냅니다.
disallow:///모든 디렉토리의 색인을 금지합니다.
사용자 에이전트: *//는 스테이션 내 모든 검색 엔진이 열려 있음을 나타냅니다.
disallow://모든 디렉토리의 색인을 허용합니다. < /p>
}
여기서는 [사이트 맵 (Sitemap)] 도 추가하여 검색 엔진이 사이트 지도의 내용을 캡처하도록 안내할 수 있습니다. < /p>
sitemap: < /p>
robots.txt 사용 방법:
예 1. 모든 검색 엔진이 웹 사이트의 일부
에 액세스하지 못하도록 합니다 P >user-agent: *
disallow:
또는
< user-as P >
disallow:/
예 4. Baiduspider 만 웹 사이트
user-agent: baiduspider 에 액세스할 수 있도록 합니다 P>
예 5. 특정 디렉토리에 대한 spider 액세스 금지 < /p>
이 예에서 검색 엔진 액세스를 제한하는 세 개의 디렉토리가 있습니다. 즉, 로보트는 세 개의 디렉토리에 액세스하지 않습니다. 각 디렉터리에 대해 "Disallow: /cgi-bin/ /tmp///tmp/"가 아닌 별도로 선언해야 한다는 점에 유의해야 합니다.
사용자 에이전트: *
disallow:/CGI-bin/
disallow > . gif) 의 모든 파일
user-agent: Googlebot
t disallow:/*. gif $
웹 주소 (특히 이 웹 주소는 도메인 이름으로 시작하고, 그 뒤에 임의의 문자열, 물음표, 임의의 문자열)user-agent: Google bot
더 많은 재능 자료: < /p >
아이폰 탈옥의 장점과 단점은 무엇입니까