사이트설정: 검색할 사이트 정의

이 페이지에서는 XML 주석 파일을 사용하여 검색엔진의 적용 범위를 정의하는 방법을 설명합니다.

  1. 개요
  2. 프로그래밍 검색 XML 형식 사용
  3. 검색 노출 범위 개선
  4. 주석 제한사항

개요

대규모 검색엔진을 구축하는 경우 방대한 양의 사이트를 관리하는 것은 지루한 작업입니다. 대신 사이트설정 파일에 사이트를 나열하고 업로드하여 많은 사이트를 추가하고 관리할 수 있습니다. 또한 사이트설정 파일을 사용하면 검색 결과의 순위를 보다 세부적으로 제어할 수 있습니다.

주석 파일은 주석의 목록입니다. 각 주석에는 사이트와 관련 라벨이라는 두 가지 구성요소가 있습니다. 라벨은 프로그래밍 검색 엔진에 사이트를 처리하는 방법을 알려줍니다. 사이트의 포함, 제외, 승격 또는 강등 여부입니다. 컨텍스트 파일에서 라벨을 정의합니다. 주석 파일에서 적절한 라벨을 사용하여 사이트에 태그를 지정합니다.

주석 파일 수정을 시작할 때는 적은 수의 주석부터 시작하세요. 몇 개의 사이트설정을 사용하면 검색 엔진을 테스트하고 문제를 해결하기가 더 쉽습니다. 기대하는 결과가 나오면 주석을 점진적으로 추가합니다.

제어판에서 주석 파일을 업로드할 수 있습니다. 파일 제한에 대한 자세한 내용은 주석 제한 섹션을 참조하세요.

맨 위로

프로그래밍 검색 XML 형식 사용

프로그래밍 검색 엔진 구성 파일에서 사용할 수 있는 모든 기능을 활용하려면 XML을 사용하는 것이 좋습니다. 를 탭합니다.

XML 주석

다음은 XML 주석의 예입니다. 이 주석 파일은 프로그래밍 검색 엔진에 www.webmd.com/hw/* 아래의 모든 것을 포함하고 www.webmd.com/hw/cancer/* 아래의 모든 것은 제외하도록 지시합니다.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

주석 파일에는 다음 계층 구조에 4개의 요소가 있습니다.

  • Annotations (루트 요소) <ph type="x-smartling-placeholder">
      </ph>
    • Annotation
      • Label
      • Comment (선택사항)

맨 위로

외부 특수효과 만들기

검색엔진에 포함할 사이트를 나열하려면 다음 단계를 따르세요.

  1. <Annotations></Annotations> 루트 요소로 파일을 시작합니다.
  2. <Annotation></Annotation> 태그를 추가하여 주석을 만든 후 사이트의 URL 패턴으로 about 속성을 정의합니다.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. <Label name=" "/> 태그를 사용하여 사이트와 검색엔진을 연결하고 검색엔진에서 사이트를 처리하는 방법을 지정합니다. 검색엔진의 컨텍스트 파일에서 검색엔진의 라벨을 가져올 수 있습니다. 프로그래밍 검색 엔진에 사이트를 추가하는 라벨과 프로그래밍 검색 엔진에서 사이트를 제외하는 라벨, 이렇게 두 개의 라벨이 있습니다. 컨텍스트 파일에서 검색엔진 라벨의 이름을 변경하지 않은 경우 사이트 포함 라벨의 형식은 _include_이며 사이트 제외 라벨의 형식은 _exclude_입니다. 오류를 방지하려면 직접 입력하는 대신 라벨을 복사하여 붙여넣으세요.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    하나의 사이트에 여러 개의 라벨이 연결될 수 있습니다.

    컨텍스트 파일에서 라벨 이름을 변경한 경우 주석 파일의 Label name 값을 업데이트해야 합니다.

  4. 사이트를 더 추가하려면 다른 Annotation 요소를 만들고 정의하세요.
  5. XML 파일을 저장합니다.

맨 위로

검색 노출 범위 개선

프로그래밍 검색 엔진은 Google 색인을 기반으로 구축됩니다. 즉, Google 색인에 있는 웹페이지를 검색엔진에서 사용할 수 있습니다. 반대로 Google에서 크롤링하지 않은 웹페이지는 검색결과에 표시되지 않습니다. 프로그래밍 검색 엔진에 현재 Google 색인에 없는 사이트를 포함하려면 Google Search Console에 사이트맵을 제출하세요.

사이트맵에는 사이트의 페이지 목록과 웹페이지의 업데이트 빈도 및 웹페이지의 상대적 중요성에 관한 정보가 포함됩니다. 사이트맵을 제출하면 Google에서 웹페이지를 찾고 크롤링 일정을 개선하는 데 도움이 됩니다. 사이트맵에 대해 자세히 알아보려면 웹마스터 고객센터사이트맵 프로토콜 사용을 참조하세요. 멋진 사이트맵을 만들려면 http://www.sitemaps.org/protocol.php 페이지를 참조하세요.

사이트맵 제출은 다음과 같은 사이트에 특히 유용합니다.

  • 동적 콘텐츠
  • AJAX 또는 Flash 기능이 풍부한 페이지와 같이 Googlebot (Google의 웹 크롤러)으로 쉽게 검색되지 않는 웹페이지
  • 이 사이트로 연결되는 웹사이트가 거의 없습니다.

    Googlebot은 한 페이지에서 다른 페이지로 연결되는 링크를 추적하여 웹을 크롤링하므로 사이트의 연결이 잘 되어 있지 않으면 크롤러가 찾기 어렵습니다. 새로운 웹사이트라면 해당 사이트로 연결되는 웹사이트가 많지 않을 것입니다.

  • 강력한 상호 링크 네트워크가 없는 콘텐츠 페이지의 대규모 자료실

Google에서는 액세스할 수 있는 페이지만 색인을 생성할 수 있습니다. 따라서 웹페이지에 robots.txt 파일이나 robots 메타 태그를 사용하는 경우 웹페이지에서 크롤러를 차단하지 않아야 합니다.

페이지가 크롤링되고 색인이 생성되는 데 다소 시간이 걸리므로 노출 범위가 즉시 확대되지는 않습니다. 그러나 웹페이지가 색인에 포함되면 Google 검색과 프로그래밍 검색 엔진 모두에 나타날 수 있습니다.

맨 위로

주석 한도

다음 표에는 프로그래밍 검색 엔진에 업로드할 수 있는 주석 파일의 제한이 나와 있습니다.

참고: 한도를 주의 깊게 따르세요. 한도를 초과하면 검색엔진에 결과가 표시되지 않을 수 있습니다.

관점 한도
파일 크기 (컨텍스트 또는 주석 파일) 30KB
검색엔진당 최대 주석 수 5,000

도움말: 검색엔진의 사이트 한도(5,000개)를 초과하는 경우 개별 URL을 URL 패턴으로 통합하는 것이 좋습니다.

맨 위로