Chú thích: Xác định trang web để tìm kiếm

Trang này mô tả cách xác định phạm vi bao phủ của công cụ tìm kiếm bằng tệp chú thích XML.

  1. Overview
  2. Sử dụng Định dạng XML của Công cụ tìm kiếm có thể lập trình
  3. Cải thiện Mức độ phù hợp trên Tìm kiếm
  4. Giới hạn chú thích

Tổng quan

Việc quản lý một tập hợp trang web lớn có thể là công việc tẻ nhạt nếu bạn đang xây dựng một công cụ tìm kiếm lớn. Thay vào đó, bạn có thể thêm và quản lý nhiều trang web bằng cách liệt kê chúng trong một tệp chú thích rồi tải lên. Ngoài ra, tệp chú thích giúp bạn kiểm soát tốt hơn thứ hạng của kết quả tìm kiếm.

Tệp chú thích chỉ đơn giản là danh sách các chú thích. Mỗi chú thích có hai thành phần: trang web và các nhãn liên quan. Nhãn này cho Công cụ tìm kiếm có thể lập trình biết cách xử lý một trang web; tức là xác định một trang web nên được đưa vào, bị loại trừ, được thăng cấp hay giảm hạng. Trong tệp ngữ cảnh, bạn xác định các nhãn; trong tệp chú thích, bạn gắn thẻ các trang web bằng các nhãn thích hợp.

Khi bạn bắt đầu chỉnh sửa tệp chú thích của mình, hãy bắt đầu với một số ít chú thích. Sẽ dễ dàng hơn nếu bạn kiểm tra và khắc phục sự cố cho công cụ tìm kiếm của mình bằng một số chú thích. Khi bạn nhận được kết quả mong đợi, hãy thêm dần các chú thích khác.

Bạn có thể tải tệp chú thích lên Bảng điều khiển. Để biết chi tiết về giới hạn tệp, hãy xem phần Giới hạn chú thích.

Trở lại đầu trang

Sử dụng Định dạng XML của công cụ tìm kiếm có thể lập trình

Nếu bạn muốn tận dụng tất cả các tính năng có sẵn trong tệp cấu hình của Công cụ tìm kiếm có thể lập trình, XML là lựa chọn phù hợp.

Chú thích XML

Sau đây là một ví dụ về chú giải XML. Tệp chú thích này yêu cầu Công cụ tìm kiếm có thể lập trình bao gồm mọi nội dung trong www.webmd.com/hw/* nhưng loại trừ mọi thứ trong www.webmd.com/hw/cancer/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

Tệp chú giải có 4 phần tử trong hệ phân cấp sau:

  • Annotations (phần tử gốc)
    • Annotation
      • Label
      • Comment (không bắt buộc)

Trở lại đầu trang

Tạo chú thích bên ngoài

Để liệt kê các trang web mà bạn muốn công cụ tìm kiếm của mình kiểm soát, hãy làm như sau:

  1. Khởi động tệp bằng phần tử gốc <Annotations></Annotations>.
  2. Tạo chú thích bằng cách thêm thẻ <Annotation></Annotation>, sau đó xác định thuộc tính about bằng mẫu URL của trang web.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. Liên kết trang web với công cụ tìm kiếm bằng cách sử dụng thẻ <Label name=" "/> và chỉ định cách công cụ tìm kiếm xử lý trang web đó. Bạn có thể lấy nhãn cho công cụ tìm kiếm từ tệp Ngữ cảnh của công cụ tìm kiếm đó. Bạn sẽ thấy hai nhãn: một nhãn dùng để thêm các trang web vào Công cụ tìm kiếm có thể lập trình và nhãn còn lại dùng để loại trừ các trang web khỏi Công cụ tìm kiếm có thể lập trình. Nếu bạn chưa thay đổi tên của nhãn công cụ tìm kiếm trong tệp ngữ cảnh, nhãn để bao gồm trang web sẽ có dạng _include_ và nhãn để loại trừ trang web sẽ có dạng _exclude_. Để tránh lỗi, hãy sao chép và dán các nhãn này thay vì nhập bằng tay.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    Một trang web có thể liên kết với nhiều nhãn,

    Nếu bạn đã thay đổi tên của nhãn trong tệp ngữ cảnh, hãy nhớ cập nhật các giá trị Label name trong tệp chú thích.

  4. Để thêm các trang web khác, hãy tạo và xác định một phần tử Annotation khác.
  5. Lưu tệp XML.

Trở lại đầu trang

Cải thiện Mức độ phù hợp của Tìm kiếm

Công cụ tìm kiếm có thể lập trình được xây dựng dựa trên chỉ mục của Google. Điều này có nghĩa là các trang web có trong chỉ mục của Google được cung cấp cho công cụ tìm kiếm của bạn; ngược lại, các trang web chưa được Google thu thập dữ liệu sẽ không xuất hiện trong kết quả tìm kiếm của bạn. Nếu bạn muốn Công cụ tìm kiếm có thể lập trình của mình bao gồm các trang web hiện chưa có trong chỉ mục của Google, hãy gửi Sơ đồ trang web đến Google Search Console.

Sơ đồ trang web bao gồm danh sách các trang trên trang web của bạn, cũng như thông tin về tần suất cập nhật của các trang web và tầm quan trọng của chúng so với nhau. Việc gửi Sơ đồ trang web sẽ giúp Google khám phá các trang web của bạn và cải thiện lịch thu thập dữ liệu. Để tìm hiểu thêm về Sơ đồ trang web, hãy xem Trung tâm trợ giúp dành cho Quản trị viên trang webSử dụng Giao thức sơ đồ trang web. Nếu bạn quan tâm đến việc xây dựng Sơ đồ trang web dành cho người hâm mộ, hãy xem http://www.sitemaps.org/protocol.php.

Việc gửi Sơ đồ trang web đặc biệt hữu ích nếu trang web của bạn có:

  • Nội dung động
  • Các trang web mà Googlebot (trình thu thập dữ liệu web của Google) không dễ dàng phát hiện được, chẳng hạn như các trang có nhiều tính năng AJAX hoặc Flash
  • Một vài trang web liên kết đến URL đó.

    Googlebot thu thập dữ liệu web bằng cách đi theo các đường liên kết từ trang này sang trang khác, vì vậy, nếu trang web của bạn không được liên kết đúng cách, trình thu thập thông tin khó phát hiện ra. Nếu trang web của bạn mới, có thể không có nhiều trang web trỏ đến trang web của bạn.

  • Một kho lưu trữ lớn gồm các trang nội dung không có mạng lưới liên kết chéo mạnh mẽ

Google chỉ có thể lập chỉ mục những trang mà Google có thể truy cập. Vì vậy, nếu bạn sử dụng tệp robots.txt hoặc thẻ meta robot trong các trang web của mình, hãy đảm bảo rằng các trang đó không chặn trình thu thập dữ liệu.

Phạm vi bao phủ không được cải thiện ngay lập tức vì cần một thời gian để Google thu thập dữ liệu và lập chỉ mục các trang này. Tuy nhiên, khi trang web của bạn đã có trong chỉ mục, chúng có thể xuất hiện trong cả Google Tìm kiếm và Công cụ tìm kiếm có thể lập trình.

Trở lại đầu trang

Giới hạn chú thích

Bảng sau đây liệt kê các giới hạn đối với các tệp chú thích được tải lên Công cụ tìm kiếm có thể lập trình:

Lưu ý: Hãy tuân thủ nghiêm ngặt các giới hạn; nếu bạn vượt quá các giới hạn này, công cụ tìm kiếm của bạn có thể không hiển thị kết quả.

Tỷ lệ Hạn mức
Kích thước tệp (tệp ngữ cảnh hoặc chú thích) 30KB
Số lượng chú thích tối đa cho mỗi công cụ tìm kiếm 5.000

Mẹo: Nếu bạn thấy công cụ tìm kiếm của mình vượt giới hạn 5.000 trang web, hãy cân nhắc việc hợp nhất các URL riêng lẻ thành các mẫu URL.

Trở lại đầu trang