Googlebot 및 15MB 한도

컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

2020년 6월 28일 화요일

지난 며칠 동안 Googlebot 관련 문서 최신 업데이트에 관한 질문을 많이 받았습니다. 다시 말하자면, Googlebot은 특정 파일 형식를 가져올 때 처음 15MB만 확인합니다. 새로운 기준점이 아닙니다. 지난 수 년 동안 사용되어 온 기준점입니다. 디버깅에 도움이 될 수 있고 거의 변경되지 않는 항목이기 때문에 문서에 추가한 것입니다.

이 한도는 Googlebot이 처음 요청했을 때 수신된 바이트(콘텐츠)에만 적용되며 페이지 내 참조된 리소스에는 적용되지 않습니다. 예를 들어 https://example.com/puppies.html을 열면 브라우저가 처음에는 HTML 파일의 바이트를 다운로드하며, 이 바이트를 기준으로 외부 자바스크립트, 이미지 또는 HTML에서 URL에 의해 참조된 기타 항목을 추가로 요청할 수 있습니다. Googlebot도 같은 작업을 합니다.

이 15MB 한도는 어떤 의미가 있나요?
거의 의미가 없습니다. 인터넷에는 15MB보다 큰 페이지가 거의 없습니다. HTML 파일의 중간 크기는 15MB보다 약 500배 더 작은 30kB이므로 15MB가 넘는 페이지를 갖고 있을 가능성은 낮습니다. 하지만 15MB가 넘는 HTML 페이지의 소유자라면 일부 인라인 스크립트와 CSS 먼지는 외부 파일로 옮기는 최소한의 조치를 취할 수 있습니다.

15MB를 초과하면 콘텐츠가 어떻게 되나요?
처음 15MB 다음의 콘텐츠는 Googlebot에 의해 삭제되고 처음 15MB만 색인 생성에 전달됩니다.

15MB 제한에는 어떤 콘텐츠 유형이 적용되나요?
15MB 한도는 Googlebot(Googlebot 스마트폰 및 Googlebot 데스크톱)이 Google 검색에서 지원하는 파일 형식을 가져올 때 적용됩니다.

Googlebot이 내 이미지 또는 동영상을 보지 않는다는 의미인가요?
아니요. Googlebot은 HTML에서 URL(예: <img src="https://example.com/images/puppy.jpg" alt="cute puppy looking very disappointed" />)에 의해 참조되는 동영상 및 이미지를 가져오며, 이는 이후의 가져오기와는 별도입니다.

데이터 URI가 HTML 파일 크기에 추가되나요?
예. data URIs를 사용하는 경우 이는 HTML 파일에 포함되어 있으므로 HTML 파일 크기가 커집니다.

페이지 크기를 조회하려면 어떻게 해야 하나요?
여러 가지 방법이 있지만 가장 쉬운 방법은 자체 브라우저와 개발자 도구를 사용하는 것입니다. 평소처럼 페이지를 로드한 다음 개발자 도구를 실행하고 네트워크 탭으로 전환합니다. 페이지를 새로고침하면 브라우저에서 페이지를 렌더링하기 위해 요청해야 했던 모든 요청이 표시됩니다. 가장 위에 표시되는 요청이 바로 페이지 크기이며, 크기 열에 페이지의 바이트 크기가 표시됩니다.

예를 들어 Chrome 개발자 도구에는 이렇게 표시될 수 있으며 크기 열에는 150KB이라고 나옵니다.

Chrome 개발자 도구의 네트워크 탭

좀 더 깊이 알고 싶다면 명령줄에서 cURL을 사용해 보세요.

curl \
-A "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36" \
-so /dev/null https://example.com/puppies.html -w '%{size_download}'

더 궁금한 점이 있으면 Twitter검색 센터 포럼에서 문의하세요. 문서에서 좀 더 분명히 알고 싶은 부분이 있다면 해당 페이지에 의견을 남겨 주시기 바랍니다.