대규모 검색엔진을 구축하는 경우 방대한 양의 사이트를 관리하는 것은 지루한 작업입니다. 대신 사이트설정 파일에 사이트를 나열하고 업로드하여 많은 사이트를 추가하고 관리할 수 있습니다. 또한 사이트설정 파일을 사용하면 검색 결과의 순위를 보다 세부적으로 제어할 수 있습니다.
주석 파일은 주석의 목록입니다. 각 주석에는 사이트와 관련 라벨이라는 두 가지 구성요소가 있습니다. 라벨은 프로그래밍 검색 엔진에 사이트를 처리하는 방법을 알려줍니다. 사이트의 포함, 제외, 승격 또는 강등 여부입니다. 컨텍스트 파일에서 라벨을 정의합니다. 주석 파일에서 적절한 라벨을 사용하여 사이트에 태그를 지정합니다.
주석 파일 수정을 시작할 때는 적은 수의 주석부터 시작하세요. 몇 개의 사이트설정을 사용하면 검색 엔진을 테스트하고 문제를 해결하기가 더 쉽습니다. 기대하는 결과가 나오면 주석을 점진적으로 추가합니다.
제어판에서 주석 파일을 업로드할 수 있습니다. 파일 제한에 대한 자세한 내용은 주석 제한 섹션을 참조하세요.
<Label name=" "/> 태그를 사용하여 사이트와 검색엔진을 연결하고 검색엔진에서 사이트를 처리하는 방법을 지정합니다. 검색엔진의 컨텍스트 파일에서 검색엔진의 라벨을 가져올 수 있습니다. 프로그래밍 검색 엔진에 사이트를 추가하는 라벨과 프로그래밍 검색 엔진에서 사이트를 제외하는 라벨, 이렇게 두 개의 라벨이 있습니다. 컨텍스트 파일에서 검색엔진 라벨의 이름을 변경하지 않은 경우 사이트 포함 라벨의 형식은 _include_이며 사이트 제외 라벨의 형식은 _exclude_입니다. 오류를 방지하려면 직접 입력하는 대신 라벨을 복사하여 붙여넣으세요.
프로그래밍 검색 엔진은 Google 색인을 기반으로 구축됩니다. 즉, Google 색인에 있는 웹페이지를 검색엔진에서 사용할 수 있습니다. 반대로 Google에서 크롤링하지 않은 웹페이지는 검색결과에 표시되지 않습니다. 프로그래밍 검색 엔진에 현재 Google 색인에 없는 사이트를 포함하려면 Google Search Console에 사이트맵을 제출하세요.
사이트맵에는 사이트의 페이지 목록과 웹페이지의 업데이트 빈도 및 웹페이지의 상대적 중요성에 관한 정보가 포함됩니다. 사이트맵을 제출하면 Google에서 웹페이지를 찾고 크롤링 일정을 개선하는 데 도움이 됩니다. 사이트맵에 대해 자세히 알아보려면 웹마스터 고객센터 및 사이트맵 프로토콜 사용을 참조하세요. 멋진 사이트맵을 만들려면 http://www.sitemaps.org/protocol.php 페이지를 참조하세요.
사이트맵 제출은 다음과 같은 사이트에 특히 유용합니다.
동적 콘텐츠
AJAX 또는 Flash 기능이 풍부한 페이지와 같이 Googlebot (Google의 웹 크롤러)으로 쉽게 검색되지 않는 웹페이지
이 사이트로 연결되는 웹사이트가 거의 없습니다.
Googlebot은 한 페이지에서 다른 페이지로 연결되는 링크를 추적하여 웹을 크롤링하므로 사이트의 연결이 잘 되어 있지 않으면 크롤러가 찾기 어렵습니다. 새로운 웹사이트라면 해당 사이트로 연결되는 웹사이트가 많지 않을 것입니다.
강력한 상호 링크 네트워크가 없는 콘텐츠 페이지의 대규모 자료실
Google에서는 액세스할 수 있는 페이지만 색인을 생성할 수 있습니다. 따라서 웹페이지에 robots.txt 파일이나 robots 메타 태그를 사용하는 경우 웹페이지에서 크롤러를 차단하지 않아야 합니다.
페이지가 크롤링되고 색인이 생성되는 데 다소 시간이 걸리므로 노출 범위가 즉시 확대되지는 않습니다. 그러나 웹페이지가 색인에 포함되면 Google 검색과 프로그래밍 검색 엔진 모두에 나타날 수 있습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-07-25(UTC)"],[[["\u003cp\u003eDefine your Programmable Search Engine's coverage using an XML annotations file to manage large site collections and fine-tune search result rankings.\u003c/p\u003e\n"],["\u003cp\u003eAnnotations files use labels to include, exclude, promote, or demote sites within your search engine, providing granular control over search results.\u003c/p\u003e\n"],["\u003cp\u003eUtilize XML annotations to specify URL patterns and associate them with labels, enabling precise control over site inclusion and exclusion.\u003c/p\u003e\n"],["\u003cp\u003eImprove search coverage by submitting a Sitemap to Google Search Console, ensuring your site's pages are indexed and available in your search engine.\u003c/p\u003e\n"],["\u003cp\u003eAdhere to the annotations file size and maximum annotation limits to ensure optimal search engine performance.\u003c/p\u003e\n"]]],[],null,["# Annotations: Defining Sites to Search\n\nThis page describes how to define the coverage of your search engine using a XML annotations file.\n\n1. [Overview](#overview)\n2. [Using the Programmable Search XML Format](#xml)\n3. [Improving Search Coverage](#sitemaps)\n4. [Annotations Limits](#limits)\n\nOverview\n--------\n\nManaging a large collection of sites can be tedious if you're building a large search engine. Instead, you can add and manage a lot of sites by listing them in an annotations file and uploading it. In addition, annotations files give you far greater control over the ranking of search results.\n\nAn annotations file is simply a list of annotations. Each annotation has two components: the site and its associated labels. The label tells Programmable Search Engine how to handle a site; that is, whether a site should be included, excluded, promoted, or demoted. In the [context file](/custom-search/docs/context), you define labels; in the annotations file, you tag sites with the appropriate labels.\n\nWhen you start editing your annotations file, start out with a small number of annotations. It's easier to test and troubleshoot your search engine with a handful of annotations. When you get the results that you expect, incrementally add more annotations.\n\nYou can [upload the annotations file](/custom-search/docs/basics#edit) to the Control Panel. For details about file limits, see the [Annotations Limits](#limits) section.\n\n[Back to top](#top)\n\nUsing the Programmable Search XML Format\n----------------------------------------\n\nIf you want to take advantage of all the features available in the Programmable Search Engine configuration file, XML is the way to go.\n\n\n### XML Annotations\n\nThe following is an example of XML annotations. This annotations file tells Programmable Search Engine to include everything under www.webmd.com/hw/\\* but exclude everything under www.webmd.com/hw/cancer/\\*. \n\n```carbon\n\u003cAnnotations\u003e\n \u003cAnnotation about=\"www.cancer.gov/cancertopics/types/liver/*\"\u003e\n \u003cLabel name=\"_include_\"/\u003e\n \u003cComment\u003egovernment site\u003c/Comment\u003e\n \u003c/Annotation\u003e\n \u003cAnnotation about=\"www.medicinenet.com/liver_cancer/\"\u003e\n \u003cLabel name=\"_exclude_\"/\u003e\n \u003cComment\u003esite on symptoms\u003c/Comment\u003e\n \u003c/Annotation\u003e\n \u003cAnnotation about=\"www.webmd.com/hw/*\"\u003e\n \u003cLabel name=\"_include_\"/\u003e\n \u003cComment\u003egreat sites for patients!\u003c/Comment\u003e\n \u003c/Annotation\u003e\n \u003cAnnotation about=\"www.webmd.com/hw/cancer/*\"\u003e\n \u003cLabel name=\"_exclude_\"/\u003e\n \u003cComment\u003egreat sites for patients!\u003c/Comment\u003e\n \u003c/Annotation\u003e\n \u003cAnnotation about=\"www.oncologychannel.com/*/treatment\"\u003e\n \u003cLabel name=\"_exclude_\"/\u003e\n \u003c/Annotation\u003e\n\u003c/Annotations\u003e\n```\n\nThe annotations file has four elements in the following hierarchy:\n\n- `Annotations` *(root element)*\n - `Annotation`\n - `Label`\n - `Comment` *(optional)*\n\n[Back to top](#top)\n\n### Creating External Annotations\n\nTo list sites you want your search engine to cover, do the the following:\n\n1. Start the file with the `\u003cAnnotations\u003e\u003c/Annotations\u003e` root element.\n2. Create an annotation by adding the `\u003cAnnotation\u003e\u003c/Annotation\u003e` tags, and then define the `about` attribute with the URL pattern of the site. \n\n ```scdoc\n \u003cAnnotations\u003e\n \u003cAnnotation about=\"www.webmd.com/hw/cancer/*\"\u003e\n \u003c/Annotation\u003e\n \u003c/Annotations\u003e\n ```\n3. Associate the site with the search engine by using the `\u003cLabel name=\" \"/\u003e` tag, and specify how that site should be treated by the search engine. You can get the labels for your search engine from the Context file of the search engine. You'll find two labels: one for adding sites to your Programmable Search Engine and one for excluding sites from it. If you have not changed the name of the search engine label in the context file, the label for including sites is in the form of `_include_`, and the label for excluding sites is in the form of `_exclude_`. To avoid errors, copy and paste these labels instead of typing them by hand. \n\n ```scdoc\n \u003cAnnotations\u003e\n \u003cAnnotation about=\"http://www.solarenergy.org/*\"\u003e\n \u003cLabel name=\"_include_\"/\u003e\n \u003c/Annotation\u003e\n \u003c/Annotations\u003e\n ```\n\n A single site can have multiple labels associated with it,\n\n If you have changed the name of the label in the context file, remember to update the `Label name` values in your annotation file.\n4. To add more sites, create and define another `Annotation` element.\n5. Save the XML file.\n\n[Back to top](#top)\n\nImproving Search Coverage\n-------------------------\n\nProgrammable Search Engine is built on top of the Google index. This means that webpages that are in the Google index are available to your search engine; conversely, webpages that have not been crawled by Google will not show up in your search results. If you want your Programmable Search Engine to include sites that are not currently in the Google index, submit a Sitemap to [Google Search Console](https://www.google.com/webmasters/tools/dashboard).\n\nA Sitemap includes a list of pages in your site, as well as information about the update frequency of the webpages and their importance relative to each other. Submitting a Sitemap helps Google discover your webpages and improve the crawling schedule. To learn more about Sitemaps, see the [Webmaster Help Center](http://www.google.com/support/webmasters/bin/answer.py?answer=40318&query=sitemap&topic=&type=) and [Using the Sitemap Protocol](https://www.google.com/webmasters/tools/docs/en/protocol.html). If you are interested in building fancier Sitemaps, see \u003chttp://www.sitemaps.org/protocol.php\u003e.\n\nSubmitting Sitemaps is particularly helpful if your site has the following:\n\n- Dynamic content\n- Webpages that aren't easily discovered by Googlebot (Google's web crawler), such as pages with rich AJAX or Flash features\n- Few websites linking to it. Googlebot crawls the web by following links from one page to another, so if your site isn't well linked, it is hard for the crawler to discover it. If your website is new, probably not many websites are pointing to your site.\n\n- A large archive of content pages that does not have a strong network of cross-linking\n\nGoogle can index only pages it can access. So, if you use [robots.txt](/webmasters/control-crawl-index/docs/robots_txt) file or [robots meta tags](http://www.google.com/support/webmasters/bin/answer.py?answer=79812) in your webpages, make sure those pages don't block crawlers.\n\nImproved coverage is not instantaneous, as it takes some time for the pages to be crawled and indexed. But once your webpages are in the index, they could appear in both Google search and your Programmable Search Engine.\n\n[Back to top](#top)\n\nAnnotations Limits\n------------------\n\nThe following table lists the limits for annotations files that are uploaded to Programmable Search Engine:\n\n**Note:** Follow the limits closely; if you exceed them, your search engine might not show results.\n\n| Aspect | Limit |\n|-------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| File size (context or annotations files) | 30KB |\n| Maximum number of annotations per search engine | 5,000 **Tip:** If you find your search engine outgrowing the large 5,000-site limit, consider consolidating individual URLs into [URL patterns](https://support.google.com/programmable-search/answer/4513886). |\n\n[Back to top](#top)"]]