Hướng dẫn về hệ thống xếp hạng của Google Tìm kiếm

Google sử dụng các hệ thống tự động xếp hạng, những hệ thống xem xét nhiều yếu tố và tín hiệu về hàng trăm tỷ trang web và nội dung khác trong chỉ mục của Tìm kiếm để trình bày những kết quả hữu ích và phù hợp nhất, tất cả chỉ trong một khoảnh khắc.

Chúng tôi thường xuyên cải tiến những hệ thống này thông qua hoạt động thử nghiệm và đánh giá nghiêm ngặt, đồng thời đưa ra thông báo về các bản cập nhật đối với hệ thống xếp hạng khi những bản cập nhật này có thể hữu ích cho nhà sáng tạo nội dung và những người khác.

Trang này là hướng dẫn giúp bạn hiểu một số hệ thống xếp hạng đáng chú ý hơn của chúng tôi. Trang này đề cập đến một số hệ thống thuộc hệ thống xếp hạng chính yếu của chúng tôi, những công nghệ cơ bản tạo ra kết quả tìm kiếm để phản hồi các yêu cầu tìm kiếm. Ngoài ra còn có một số hệ thống khác liên quan đến một số nhu cầu cụ thể về việc xếp hạng.

Bạn cũng có thể truy cập trang web về Cách thức hoạt động của Google Tìm kiếm để nắm được cách phối hợp giữa các hệ thống xếp hạng của chúng tôi với các quy trình khác để Google Tìm kiếm có thể hiện thực hoá sứ mệnh hệ thống hoá thông tin của thế giới và làm cho thông tin đó trở nên hữu ích và dễ tiếp cận trên toàn cầu.

BERT

Bidirectional Encoder Representations from Transformers (BERT) là một hệ thống AI (trí tuệ nhân tạo) mà Google sử dụng để nắm được sự khác biệt về nghĩa và ý định trong các cách kết hợp từ ngữ.

Hệ thống về thông tin khủng hoảng

Google đã phát triển một số hệ thống để cung cấp thông tin hữu ích và kịp thời trong thời điểm xảy ra khủng hoảng, bất kể những tình huống đó liên quan đến tình trạng khủng hoảng cá nhân, thiên tai hay các tình huống khủng hoảng diện rộng khác:

  • Khủng hoảng cá nhân: Các hệ thống của chúng tôi nỗ lực tìm hiểu thời điểm mọi người tìm kiếm thông tin về các tình trạng khủng hoảng cá nhân để cho thấy đường dây nóng và nội dung của các tổ chức đáng tin cậy cho một số cụm từ tìm kiếm liên quan đến hành vi tự tử, tấn công tình dục, trúng độc, cảnh bạo lực giới hoặc nghiện ma tuý. Tìm hiểu thêm về cách thông tin về tình trạng khủng hoảng cá nhân xuất hiện trên Google Tìm kiếm.
  • Cảnh báo khẩn cấp: Trong thời gian xảy ra thiên tai hoặc tình trạng khủng hoảng trên diện rộng, hệ thống Cảnh báo khẩn cấp của chúng tôi sẽ hoạt động để cho thấy thông tin cập nhật của các cơ quan quản lý tại địa phương, quốc gia hoặc quốc tế. Những nội dung cập nhật này có thể là số điện thoại và trang web khẩn cấp, bản đồ, bản dịch những cụm từ hữu ích, cơ hội quyên góp, v.v. Tìm hiểu thêm về cách hoạt động của tính năng Cảnh báo khẩn cấp và vai trò của tính năng này trong những cảnh báo khủng hoảng của Google có thể giúp ích trong thời điểm xảy ra lũ lụt, cháy rừng, động đất, bão và các thảm hoạ khác.

Hệ thống loại bỏ trùng lặp

Các cụm từ tìm kiếm trên Google có thể đưa ra hàng nghìn hoặc thậm chí hàng triệu trang web phù hợp. Nhiều trong số đó có thể rất giống nhau. Trong những trường hợp như vậy, hệ thống của chúng tôi chỉ đưa ra những kết quả phù hợp nhất để tránh những bản trùng lặp không hữu ích. Bạn có thể tìm hiểu thêm về cách hoạt động của chế độ loại bỏ trùng lặp và cách xem kết quả đã bị bỏ qua nếu muốn (khi quá trình loại bỏ trùng lặp có diễn ra).

Tính năng loại bỏ trùng lặp cũng áp dụng với các đoạn trích nổi bật. Nếu một trang thông tin trên trang web trở thành một đoạn trích nổi bật, chúng tôi sẽ không lặp lại trang thông tin đó ở các phần bên dưới trên trang kết quả đầu tiên. Việc này giúp trang kết quả trông gọn gàng hơn và giúp mọi người dễ dàng tìm thấy thông tin liên quan hơn.

Hệ thống về miền khớp chính xác

Các hệ thống xếp hạng của chúng tôi coi từ ngữ trong tên miền là một trong nhiều yếu tố để xác định xem nội dung có phù hợp với một cụm từ tìm kiếm hay không. Tuy nhiên, chúng tôi duy trì hệ thống về miền khớp chính xác để đảm bảo rằng chúng tôi không dành quá nhiều giá trị đóng góp cho nội dung được lưu trữ trên những miền được thiết kế để khớp chính xác với một số cụm từ tìm kiếm cụ thể. Ví dụ: có thể ai đó tạo một tên miền chứa các từ "quan-an-ngon-nhat" với hy vọng rằng việc tên miền có chứa tất cả những từ đó sẽ làm tăng thứ hạng của nội dung. Hệ thống của chúng tôi có điều chỉnh để tránh tình trạng này.

Hệ thống về độ mới

Chúng tôi có một số hệ thống về "cụm từ tìm kiếm cần độ mới" được thiết kế để cho thấy nội dung mới đối với những cụm từ tìm kiếm đòi hỏi độ mới đó. Ví dụ: nếu ai đó đang tìm kiếm thông tin về một bộ phim mới phát hành, thì có lẽ họ muốn các bài đánh giá mới đây thay vì những bài viết cũ từ hồi bộ phim mới bắt đầu sản xuất. Một ví dụ nữa là thường thì cụm từ tìm kiếm về "động đất" có thể làm xuất hiện lại nội dung về cách đề phòng và tài nguyên. Tuy nhiên, nếu một trận động đất mới xảy ra thì có thể các tin bài và nội dung mới hơn sẽ xuất hiện.

Hệ thống về nội dung hữu ích

Hệ thống về nội dung hữu ích của chúng tôi được thiết kế để đảm bảo mọi người thấy được nội dung nguyên gốc, hữu ích và do con người viết trong kết quả tìm kiếm, thay vì nội dung chủ yếu nhằm thu thập lưu lượng truy cập qua công cụ tìm kiếm.

Chúng tôi có nhiều hệ thống nắm được sự liên kết giữa các trang nhằm xác định nội dung của từng trang và nội dung nào có thể hữu ích nhất để phản hồi một cụm từ tìm kiếm cụ thể. Trong số đó có PageRank, một trong những hệ thống xếp hạng chính yếu của chúng tôi được sử dụng từ khi Google lần đầu ra mắt. Nếu tò mò, bạn có thể tìm hiểu thêm bằng cách đọc bài nghiên cứu nguyên gốcbằng sáng chế liên quan đến PageRank. Từ đó đến nay, cách hoạt động của PageRank đã phát triển hơn rất nhiều và tiếp tục giữ vai trò trong các hệ thống xếp hạng chính yếu của chúng tôi.

Hệ thống về tin tức địa phương

Chúng tôi có các hệ thống giúp xác định và hiển thị các nguồn tin tức địa phương mỗi khi có liên quan, chẳng hạn như qua các tính năng "Tin bài hàng đầu" và "Tin tức địa phương".

MUM

Mô hình hợp nhất đa nhiệm (Multitask Unified Model – MUM) là một hệ thống trí tuệ nhân tạo có khả năng vừa hiểu vừa tạo ngôn ngữ. Hiện tại, hệ thống này chưa được dùng để xếp hạng chung trong Tìm kiếm mà chỉ áp dụng cho một số ứng dụng cụ thể như cải thiện tính năng tìm kiếm thông tin về vắc-xin COVID-19cải thiện chú thích đoạn trích nổi bật mà chúng tôi hiển thị.

So khớp thần kinh

So khớp thần kinh (neural matching) là một hệ thống trí tuệ nhân tạo mà Google sử dụng để hiểu cách trình bày các khái niệm trong cụm từ tìm kiếm và trang, cũng như so khớp chúng với nhau.

Hệ thống về nội dung nguyên gốc

Chúng tôi có các hệ thống giúp đảm bảo việc cho thấy nội dung nguyên gốc một cách nổi bật trong kết quả tìm kiếm (bao gồm cả báo cáo về độ nguyên gốc) lên trước những trang web chỉ đơn thuần trích dẫn nội dung đó. Tính năng này cũng hỗ trợ một mã đánh dấu chính tắc đặc biệt mà các nhà sáng tạo có thể sử dụng để giúp chúng tôi hiểu rõ hơn đâu là trang chính nếu trang đó bị sao chép ở một số nơi.

Hệ thống giảm hạng dựa trên biện pháp xoá

Google có các chính sách cho phép xoá một số loại nội dung. Nếu chúng tôi xử lý một số lượng lớn yêu cầu xoá liên quan đến một trang web cụ thể, thì chúng tôi sẽ sử dụng thông tin đó làm tín hiệu để cải thiện các kết quả. Cụ thể:

  • Xoá vì lý do pháp lý: Khi chúng tôi nhận được một lượng lớn yêu cầu xoá bỏ hợp lệ vì lý do bản quyền liên quan đến một trang web nhất định, chúng tôi có thể sử dụng thông tin đó để giảm hạng cả những nội dung khác trên trang web đó trong kết quả tìm kiếm. Bằng cách này, nếu có nội dung vi phạm khác thì mọi người ít có khả năng bắt gặp được nội dung đó hơn so với nội dung nguyên gốc. Chúng tôi áp dụng các tín hiệu giảm hạng tương tự đối với khiếu nại liên quan đến hành vi phỉ báng, hàng giả và yêu cầu xoá theo lệnh toà. Đối với nội dung xâm hại tình dục trẻ em (CSAM), chúng tôi luôn xoá bỏ những nội dung như vậy khi phát hiện được, đồng thời giảm hạng mọi nội dung của những trang web chủ yếu chứa nội dung xâm hại tình dục trẻ em.
  • Xoá thông tin cá nhân: Nếu chúng tôi xử lý một lượng lớn yêu cầu xoá thông tin cá nhân liên quan đến một trang web có mưu đồ xoá để trục lợi, thì chúng tôi sẽ giảm hạng cả nội dung khác của trang đó trong kết quả của chúng tôi. Chúng tôi cũng xem xét việc liệu kiểu hành vi đó có đồng thời xảy ra với các trang web khác nữa hay không và nếu có thì giảm hạng cả nội dung trên những trang web đó. Chúng tôi có thể áp dụng các biện pháp giảm hạng tương tự cho những trang web nhận được một số lượng lớn yêu cầu xoá nội dung liên quan đến việc tra cứu và tiết lộ thông tin cá nhân trên mạng (doxxing) hoặc yêu cầu xoá hình ảnh khiêu dâm không có sự đồng thuận.

Hệ thống xếp hạng đoạn văn

Xếp hạng đoạn văn (Passage ranking) là một hệ thống trí tuệ nhân tạo mà chúng tôi dùng để xác định từng phần hoặc "đoạn văn" trên một trang web để hiểu rõ hơn về mức độ liên quan của trang đối với một cụm từ tìm kiếm cụ thể.

RankBrain

RankBrain là một hệ thống trí tuệ nhân tạo giúp chúng tôi hiểu được mối liên hệ giữa các từ với các khái niệm. Tức là chúng tôi có thể trả về nội dung phù hợp theo cách hiệu quả hơn ngay cả khi nội dung đó không chứa toàn bộ từ ngữ chính xác trong một cụm từ tìm kiếm, bằng cách hiểu được nội dung liên quan đến những từ và khái niệm khác.

Hệ thống về thông tin đáng tin cậy

Có nhiều hệ thống hoạt động theo nhiều cách để cung cấp thông tin đáng tin cậy nhất có thể, chẳng hạn như giúp hiển thị các trang đáng tin cậy hơn, giảm hạng nội dung chất lượng thấpnâng cao chất lượng báo chí. Trong trường hợp thiếu thông tin đáng tin cậy, các hệ thống của chúng tôi sẽ tự động cho thấy cảnh báo về nội dung đối với những chủ đề thay đổi nhanh chóng hoặc khi các hệ thống của chúng tôi không thực sự tin tưởng vào chất lượng chung của các kết quả hiện có cho nội dung tìm kiếm. Những hệ thống này đưa ra các mẹo tìm kiếm có thể giúp bạn tìm được kết quả hữu ích hơn. Bạn có thể tìm hiểu thêm về cách chúng tôi cung cấp thông tin chất lượng cao trên Tìm kiếm.

Hệ thống về bài đánh giá

Hệ thống về bài đánh giá mang mục đích ủng hộ những bài đánh giá chất lượng cao. Đây là những nội dung cung cấp thông tin phân tích chi tiết và nghiên cứu nguyên gốc, đồng thời được viết bởi các chuyên gia hoặc những người đam mê và am hiểu về chủ đề đó.

Hệ thống về tính đa dạng của trang web

Hệ thống về tính đa dạng của trang web giúp chúng tôi có thể không thường xuyên đưa ra nhiều hơn hai trang thông tin thuộc cùng một trang web trong các kết quả hàng đầu để không trang web nào có thể chiếm ưu thế trong tất cả kết quả hàng đầu. Tuy nhiên, có thể chúng tôi vẫn hiển thị nhiều hơn hai trang thông tin trong trường hợp hệ thống xác định rằng việc đó đặc biệt phù hợp với một cụm từ tìm kiếm cụ thể. Hệ thống về sự đa dạng của trang web thường coi các miền con là một phần của miền gốc. Ví dụ: các trang thông tin thuộc một miền con (miencon.example.com) và miền gốc (example.com) đều sẽ được coi là thuộc cùng một trang web. Tuy nhiên, đôi khi các miền con vẫn được coi là các trang web riêng biệt khi xét đến tính đa dạng (nếu phù hợp).

Hệ thống phát hiện nội dung rác

Không ai muốn hộp thư đến của họ chứa đầy email rác. Đó là lý do khiến bộ lọc email rác rất hữu ích. Google Tìm kiếm cũng phải đối mặt với thách thức tương tự, bởi vì Internet có chứa vô số nội dung rác mà nếu không được xử lý thì sẽ ngăn chúng tôi đưa ra kết quả hữu ích và phù hợp nhất. Chúng tôi sử dụng nhiều loại hệ thống phát hiện nội dung rác (trong đó có SpamBrain) để xử lý nội dung và hành vi vi phạm chính sách về nội dung rác. Chúng tôi liên tục cập nhật những hệ thống như vậy để bắt kịp những kiểu cung cấp nội dung rác mới nhất.

Hệ thống đã ngừng sử dụng

Các hệ thống dưới đây được ghi nhận vì mục đích lưu nhật ký. Chúng đã được tích hợp vào các hệ thống sau này hoặc đã trở thành một phần trong các hệ thống xếp hạng chính yếu của chúng tôi.

Hummingbird

Đây là một cải tiến đáng kể đối với hệ thống xếp hạng tổng thể của chúng tôi vào tháng 8 năm 2013. Các hệ thống xếp hạng của chúng tôi vẫn luôn phát triển kể từ đó, luôn không ngừng thay đổi.

Hệ thống Panda

Đây là một hệ thống được thiết kế để đảm bảo nội dung nguyên gốc và chất lượng cao xuất hiện trong kết quả tìm kiếm của chúng tôi. Công bố năm 2011 với biệt hiệu "Panda", hệ thống này đã phát triển và trở thành một phần trong các hệ thống xếp hạng chính yếu của chúng tôi vào năm 2015.

Hệ thống Penguin

Đây là một hệ thống được thiết kế để chống lại đường liên kết vi phạm. Công bố vào năm 2012 với biệt hiệu "Bản cập nhật Penguin", hệ thống này đã được tích hợp vào các hệ thống xếp hạng chính yếu của chúng tôi vào năm 2016.