Meta sử dụng trình thu thập dữ liệu web (phần mềm tìm nạp nội dung từ trang web hoặc ứng dụng web) cho một số mục đích khác nhau. Trang này liệt kê các chuỗi Tác nhân người dùng (UA) giúp xác định những trình thu thập dữ liệu web phổ biến nhất của Meta cũng như mục đích sử dụng của từng trình thu thập dữ liệu đó. Trang này cũng hướng dẫn cách đặt cấu hình file robots.txt để trình thu thập dữ liệu của chúng tôi có thể tương tác đúng cách với trang web của bạn.
Mục đích chính của FacebookExternalHit là thu thập nội dung của ứng dụng/trang web được chia sẻ trên một trong các nhóm ứng dụng của Meta, chẳng hạn như Facebook, Instagram hoặc Messenger. Liên kết có thể đã được chia sẻ bằng cách sao chép và dán hoặc thông qua plugin xã hội của Facebook. Trình thu thập dữ liệu này thu thập, lưu vào bộ nhớ đệm và hiển thị thông tin về ứng dụng/trang web nêu trên, chẳng hạn như tiêu đề, nội dung mô tả và hình thu nhỏ.
Chuỗi UA cụ thể mà bạn thấy trong file nhật ký sẽ tương tự như một trong những chuỗi sau đây:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0
Lưu ý rằng trình thu thập dữ liệu FacebookExternalHit có thể bỏ qua file robots.txt khi kiểm tra bảo mật hoặc kiểm tra tính toàn vẹn, chẳng hạn như kiểm tra phần mềm hay nội dung độc hại.
Range
của yêu cầu thu thập dữ liệu hoặc phải bỏ qua hoàn toàn tiêu đề Range
.Nếu nội dung trang web/ứng dụng của bạn chưa có sẵn tại thời điểm thu thập, bạn có thể buộc thu thập sau khi nội dung có sẵn bằng cách chuyển URL thông qua công cụ Trình gỡ lỗi chia sẻ hoặc bằng cách sử dụng API Chia sẻ.
Bạn có thể sử dụng mã sau đây để mô phỏng yêu cầu của trình thu thập dữ liệu:
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
Trình thu thập dữ liệu Meta-ExternalAgent thu thập dữ liệu web cho các trường hợp sử dụng (ví dụ: huấn luyện mô hình AI hoặc cải thiện sản phẩm) bằng cách trực tiếp lập chỉ mục nội dung.
Chuỗi UA cụ thể mà bạn thấy trong file nhật ký sẽ tương tự như một trong những chuỗi sau đây:
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1
Chúng tôi sẽ dần ra mắt trình thu thập dữ liệu trong vài tuần tới và dự kiến sẽ triển khai xong trước ngày 31/10/2024.
Trình thu thập dữ liệu Meta-ExternalFetcher thực hiện yêu cầu tìm nạp liên kết riêng lẻ do người dùng khởi tạo để hỗ trợ các chức năng cụ thể của sản phẩm. Vì yêu cầu tìm nạp đó do người dùng khởi tạo nên trình thu thập dữ liệu này có thể bỏ qua quy tắc robots.txt.
Chuỗi UA cụ thể mà bạn thấy trong file nhật ký sẽ tương tự như một trong những chuỗi sau đây:
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1
Bằng cách đặt cấu hình file robots.txt trên trang web của mình, bạn có thể chỉ định cách bạn muốn các trình thu thập dữ liệu web của Meta tương tác với trang web đó. Để chặn những trình thu thập dữ liệu này, hãy thêm lệnh disallow (không cho phép) đối với trình thu thập dữ liệu liên quan vào file robots.txt. Trình thu thập dữ liệu Meta-ExternalFetcher có thể bỏ qua file robots.txt vì trình thu thập dữ liệu này thực hiện yêu cầu tìm nạp của người dùng. Ngoài ra, trình thu thập dữ liệu FacebookExternalHit có thể bỏ qua file robots.txt khi kiểm tra bảo mật hoặc kiểm tra tính toàn vẹn.
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
Nếu một trình thu thập dữ liệu có địa chỉ IP nguồn nằm trong danh sách được tạo bằng lệnh dưới đây thì tức là trình thu thập dữ liệu đó đến từ Meta.
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
Lưu ý rằng những địa chỉ IP này thường xuyên thay đổi. Để biết thêm thông tin, vui lòng truy cập vào trang web Kết nối ngang hàng hoặc dữ liệu tải xuống được (định dạng CSV) có liên quan.
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
Nếu bạn có thắc mắc hoặc mối lo ngại, vui lòng liên hệ với chúng tôi theo địa chỉ webmasters@meta.com (Quản trị viên web của Meta).