Kỳ vọng về dữ liệu báo cáo

Hướng dẫn này giải thích thông tin quan trọng về dữ liệu mà bạn thấy trong các báo cáo được tạo bằng Google Analytics Data API. Người dùng thường gặp phải sự khác biệt giữa dữ liệu do API trả về (cụ thể là phương thức runReport) và dữ liệu xuất hiện trong giao diện người dùng Google Analytics.

Lấy mẫu và tổng hợp

Phương thức runReport của Google Analytics Data API có thể trả về dữ liệu được lấy mẫu, đặc biệt là đối với các tập dữ liệu lớn hoặc truy vấn phức tạp. Mặc dù giao diện người dùng Google Analytics cũng áp dụng phương pháp lấy mẫu, nhưng các ngưỡng và thuật toán cụ thể có thể khác nhau, dẫn đến sự khác biệt nhỏ về các giá trị được báo cáo.

Để biết kết quả của báo cáo có dựa trên một tập hợp con của dữ liệu có sẵn hay không, hãy kiểm tra trường samplingMetadatas của đối tượng ResponseMetaData. Nếu kết quả báo cáo được lấy mẫu, thì trường này sẽ mô tả tỷ lệ phần trăm sự kiện được dùng trong báo cáo này.

Một số phương thức báo cáo của Data API của Google Analytics cho phép bạn chỉ định cấp độ lấy mẫu mà bạn muốn. Bạn có thể sử dụng trường samplingLevel của phương thức properties.reportTasks.create để kiểm soát cấp độ lấy mẫu của báo cáo.

Tính năng này cho phép tài sản Google Analytics 360 sử dụng giới hạn lấy mẫu cao hơn là 1 tỷ sự kiện. Ngoài ra, bạn có thể đặt giới hạn lấy mẫu thành UNSAMPLED để sử dụng kết quả không lấy mẫu cho số lượng lớn sự kiện.

Để biết thêm thông tin, hãy xem bài viết Giới thiệu về phương thức lấy mẫu dữ liệu.

Số lượng riêng biệt ước tính

Google Analytics Data API sử dụng thuật toán HyperLogLog++ (HLL++) để ước tính số lượng riêng biệt cho các chỉ số như Số người dùng đang hoạt động và Số phiên. Phương pháp này được dùng trong API và giao diện người dùng Google Analytics để cải thiện hiệu suất và quản lý hiệu quả các tập dữ liệu lớn, tức là kết quả là số liệu ước tính chứ không phải số liệu chính xác.

Để biết thêm thông tin, hãy tham khảo các tài nguyên sau: Phương pháp ước tính số lượng riêng biệt trong Google AnalyticsSự khác biệt về số lượng người dùng.

Ngưỡng dữ liệu

Google Analytics có thể áp dụng ngưỡng dữ liệu cho báo cáo để ngăn việc xác định người dùng cá nhân dựa trên thông tin nhân khẩu học, mối quan tâm hoặc các tín hiệu khác có trong dữ liệu.

Nếu một hàng trong báo cáo có ít người dùng, thì hàng đó có thể bị loại trừ khỏi kết quả. Điều này thường xảy ra hơn trong những báo cáo có phương diện có tính đa dạng cao hoặc phương diện tuỳ chỉnh.

Để biết báo cáo này có phải tuân theo ngưỡng hay không, hãy kiểm tra trường subjectToThresholding của đối tượng ResponseMetaData.

Để biết thêm thông tin, hãy xem bài viết Ngưỡng dữ liệu.

Hàng (other)

Nếu một phương diện có lượng số cao, thì Google Analytics có thể nhóm các giá trị ít phổ biến hơn vào một hàng được gắn nhãn là (other). Điều này thường xảy ra hơn trong những báo cáo có chứa các phương diện có hơn 500 giá trị riêng biệt mỗi ngày.

Khi sử dụng bộ lọc với Data API, hãy lưu ý rằng bộ lọc không xem xét bên trong hàng (other) và được áp dụng sau khi dữ liệu được tổng hợp và hàng (other) được tạo.

Để biết một báo cáo có chứa dữ liệu được tổng hợp vào hàng (other) hay không, hãy kiểm tra trường dataLossFromOtherRow của đối tượng ResponseMetaData.

Để biết thêm thông tin, hãy xem bài viết Hàng(other) trong Google Analytics.

Thông tin nhận dạng trong báo cáo

Thông tin nhận dạng trong báo cáo quyết định cách loại bỏ người dùng trùng lặp trong báo cáo. Các chế độ cài đặt về danh tính khác nhau (chẳng hạn như "Kết hợp" hoặc "Dựa trên thiết bị") có thể dẫn đến số lượng người dùng khác nhau cho cùng một phạm vi ngày.

Cả giao diện người dùng Google Analytics và Data API đều sử dụng cùng một chế độ cài đặt thông tin nhận dạng trong báo cáo cho tài sản của bạn. Nếu bạn thay đổi chế độ cài đặt này, thì chế độ này sẽ ảnh hưởng đến báo cáo trong cả giao diện người dùng và API. Nếu bạn thay đổi chế độ cài đặt giữa thời điểm chạy báo cáo trong giao diện người dùng và thời điểm nhận dữ liệu báo cáo thông qua API, thì số lượng người dùng có thể khác nhau giữa hai báo cáo cho cùng một phạm vi ngày.

Mức độ cụ thể của cụm từ tìm kiếm

Để giảm thiểu sự khác biệt, hãy đảm bảo rằng các thông số sau trong yêu cầu API của bạn hoàn toàn khớp với chế độ cài đặt trong báo cáo trên giao diện người dùng Google Analytics:

  • Phạm vi ngày: Xác minh rằng ngày bắt đầu và ngày kết thúc giống nhau.
  • Phương diện và chỉ số: Đảm bảo rằng phương diện và chỉ số trong yêu cầu API của bạn giống với phương diện và chỉ số trong báo cáo trên giao diện người dùng Google Analytics.
  • Bộ lọc: Đảm bảo rằng mọi bộ lọc phương diện hoặc chỉ số được áp dụng trong yêu cầu API đều khớp với bộ lọc được dùng trong giao diện người dùng.

Việc thêm phương diện vào báo cáo có thể làm giảm số lượng sự kiện được dùng trong các phép tính. Chỉ những sự kiện chứa dữ liệu cho các phương diện được yêu cầu mới được đưa vào báo cáo. Do đó, việc thêm phương diện vào một truy vấn có thể làm thay đổi các giá trị tổng hợp cho chỉ số trong một báo cáo.

Độ mới của dữ liệu

Google Analytics cần thời gian để xử lý và tổng hợp dữ liệu sự kiện. Khi làm việc với dữ liệu rất gần đây, bạn có thể thấy những điểm khác biệt nhỏ giữa các báo cáo nếu có độ trễ thời gian giữa các lần truy xuất dữ liệu. Ví dụ: nếu bạn xem một báo cáo trong giao diện người dùng rồi truy vấn API cho cùng một báo cáo vài phút sau, thì dữ liệu có thể đã thay đổi do quá trình xử lý và tổng hợp đang diễn ra.

Để biết thêm thông tin, hãy xem phần Độ mới của dữ liệu.

Các lựa chọn thay thế cho dữ liệu chưa được lấy mẫu

Nếu trường hợp sử dụng của bạn yêu cầu dữ liệu đầy đủ, không lấy mẫu ở cấp sự kiện, hãy cân nhắc sử dụng các giải pháp thay thế sau:

  • BigQuery Export: BigQuery Export cho Google Analytics

    là phương thức được đề xuất để phân tích nâng cao dữ liệu sự kiện thô.

  • Analytics 360: Những tài sản có giấy phép Analytics 360 sẽ có giới hạn lấy mẫu cao hơn và có quyền sử dụng các tính năng báo cáo chi tiết hơn.