Trình thu thập dữ liệu web của Meta

Meta sử dụng trình thu thập dữ liệu web (phần mềm tìm nạp nội dung từ trang web hoặc ứng dụng web) cho một số mục đích khác nhau. Trang này liệt kê các chuỗi Tác nhân người dùng (UA) giúp xác định những trình thu thập dữ liệu web phổ biến nhất của Meta cũng như mục đích sử dụng của từng trình thu thập dữ liệu đó. Trang này cũng hướng dẫn cách đặt cấu hình file robots.txt để trình thu thập dữ liệu của chúng tôi có thể tương tác đúng cách với trang web của bạn.

FacebookExternalHit

Mục đích chính của FacebookExternalHit là thu thập nội dung của ứng dụng/trang web được chia sẻ trên một trong các nhóm ứng dụng của Meta, chẳng hạn như Facebook, Instagram hoặc Messenger. Liên kết có thể đã được chia sẻ bằng cách sao chép và dán hoặc thông qua plugin xã hội của Facebook. Trình thu thập dữ liệu này thu thập, lưu vào bộ nhớ đệm và hiển thị thông tin về ứng dụng/trang web nêu trên, chẳng hạn như tiêu đề, nội dung mô tả và hình thu nhỏ.

Chuỗi UA cụ thể mà bạn thấy trong file nhật ký sẽ tương tự như một trong những chuỗi sau đây:

  • facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
  • facebookexternalhit/1.1
  • facebookcatalog/1.0

Lưu ý rằng trình thu thập dữ liệu FacebookExternalHit có thể bỏ qua file robots.txt khi kiểm tra bảo mật hoặc kiểm tra tính toàn vẹn, chẳng hạn như kiểm tra phần mềm hay nội dung độc hại.

Yêu cầu về trình thu thập dữ liệu

  • Máy chủ của bạn phải sử dụng phương thức mã hóa gzipdeflate.
  • Bạn phải liệt kê bất kỳ thuộc tính nào của Open Graph trước khi trang web/ứng dụng đạt ngưỡng 1 MB đầu tiên. Nếu không, thuộc tính đó sẽ bị ngừng hoạt động.
  • Đảm bảo nội dung có thể được trình thu thập dữ liệu thu thập trong vòng vài giây. Nếu không, Facebook sẽ không thể hiển thị nội dung đó.
  • Ứng dụng/trang web của bạn phải tạo và trả về phản hồi có tất cả thuộc tính bắt buộc theo số byte được chỉ định trong tiêu đề Range của yêu cầu thu thập dữ liệu hoặc phải bỏ qua hoàn toàn tiêu đề Range.
  • Thêm vào danh sách cho phép các chuỗi tác nhân người dùng hoặc địa chỉ IP (an toàn hơn) mà trình thu thập dữ liệu sử dụng.

Khắc phục sự cố

Nếu nội dung trang web/ứng dụng của bạn chưa có sẵn tại thời điểm thu thập, bạn có thể buộc thu thập sau khi nội dung có sẵn bằng cách chuyển URL thông qua công cụ Trình gỡ lỗi chia sẻ hoặc bằng cách sử dụng API Chia sẻ.

Bạn có thể sử dụng mã sau đây để mô phỏng yêu cầu của trình thu thập dữ liệu:

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

Meta-ExternalAgent

Trình thu thập dữ liệu Meta-ExternalAgent thu thập dữ liệu web cho các trường hợp sử dụng (ví dụ: huấn luyện mô hình AI hoặc cải thiện sản phẩm) bằng cách trực tiếp lập chỉ mục nội dung.

Chuỗi UA cụ thể mà bạn thấy trong file nhật ký sẽ tương tự như một trong những chuỗi sau đây:

  • meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalagent/1.1

Chúng tôi sẽ dần ra mắt trình thu thập dữ liệu trong vài tuần tới và dự kiến sẽ triển khai xong trước ngày 31/10/2024.

Meta-ExternalFetcher

Trình thu thập dữ liệu Meta-ExternalFetcher thực hiện yêu cầu tìm nạp liên kết riêng lẻ do người dùng khởi tạo để hỗ trợ các chức năng cụ thể của sản phẩm. Vì yêu cầu tìm nạp đó do người dùng khởi tạo nên trình thu thập dữ liệu này có thể bỏ qua quy tắc robots.txt.

Chuỗi UA cụ thể mà bạn thấy trong file nhật ký sẽ tương tự như một trong những chuỗi sau đây:

  • meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalfetcher/1.1

File robots.txt

Bằng cách đặt cấu hình file robots.txt trên trang web của mình, bạn có thể chỉ định cách bạn muốn các trình thu thập dữ liệu web của Meta tương tác với trang web đó. Để chặn những trình thu thập dữ liệu này, hãy thêm lệnh disallow (không cho phép) đối với trình thu thập dữ liệu liên quan vào file robots.txt. Trình thu thập dữ liệu Meta-ExternalFetcher có thể bỏ qua file robots.txt vì trình thu thập dữ liệu này thực hiện yêu cầu tìm nạp của người dùng. Ngoài ra, trình thu thập dữ liệu FacebookExternalHit có thể bỏ qua file robots.txt khi kiểm tra bảo mật hoặc kiểm tra tính toàn vẹn.

User-agent: meta-externalagent
Allow: /                    # Allow everything
Disallow: /private/         # Disallow a specific directory

IP của trình thu thập dữ liệu

Nếu một trình thu thập dữ liệu có địa chỉ IP nguồn nằm trong danh sách được tạo bằng lệnh dưới đây thì tức là trình thu thập dữ liệu đó đến từ Meta.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Lưu ý rằng những địa chỉ IP này thường xuyên thay đổi. Để biết thêm thông tin, vui lòng truy cập vào trang web Kết nối ngang hàng hoặc dữ liệu tải xuống được (định dạng CSV) có liên quan.

Phản hồi mẫu

...
route:      69.63.176.0/21
route:      69.63.184.0/21
route:      66.220.144.0/20
route:      69.63.176.0/20
route6:     2620:0:1c00::/40
route6:     2a03:2880::/32
route6:     2a03:2880:fffe::/48
route6:     2a03:2880:ffff::/48
route6:     2620:0:1cff::/48
... 

Liên hệ với chúng tôi

Nếu bạn có thắc mắc hoặc mối lo ngại, vui lòng liên hệ với chúng tôi theo địa chỉ webmasters@meta.com (Quản trị viên web của Meta).