Meta 使用網絡爬蟲(擷取網站或網頁版應用程式內容的軟件)達到各種不同目的。此頁面列出可識別 Meta 最常用網絡爬蟲的用戶代理程式(UA)字串,以及每款網絡爬蟲的用途。另外,此頁面亦會提供指引,指導如何設定 robots.txt 檔案來讓我們的網絡爬蟲與您的網站正確互動。
FacebookExternalHit 的主要用途是檢索 Facebook、Instagram 或 Messenger 等 Meta 家族應用程式上分享的應用程式或網站內容。該連結可能透過複製並貼上或使用 Facebook 社交附加程式分享。此網絡爬蟲收集、快取和顯示該應用程式或網站的資訊,例如其標題、說明和縮圖。
您在記錄檔案中看到的具體 UA 字串會類似於以下其中一個字串:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0
請注意,FacebookExternalHit 網絡爬蟲可能會在執行安全檢查或誠信檢查(例如檢查惡意軟件或惡意內容)時略過 robots.txt。
Range
標題中指定的位元組,產生並傳回包含所有要求的屬性的回應,或應完全忽略 Range
標題。若您的應用程式或網站內容在爬取時並不可用,您可透過分享偵錯工具傳遞網址,或使用分享 API,在其可用時強制爬取。
您可使用下列程式碼模擬網絡爬蟲要求:
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
Meta-ExternalAgent 網絡爬蟲用於檢索網絡中的各種使用案例,例如訓練 AI 模型或透過直接加入索引來改善產品。
您在記錄檔案中看到的具體 UA 字串會類似於以下其中一個字串:
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1
此網絡爬蟲將於未來幾星期逐步推出,預計在 2024 年 10 月 31 日前完成。
Meta-ExternalFetcher 網絡爬蟲執行由用戶啟動的個別連結擷取操作,以支援特定的產品功能。由於擷取操作由用戶啟動,所以此網絡爬蟲可能會略過 robots.txt 規則。
您在記錄檔案中看到的具體 UA 字串會類似於以下其中一個字串:
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1
透過在網站上設定 robots.txt 檔案,您可指定 Meta 網絡爬蟲與您網站的首選互動方式。如要封鎖這些網絡爬蟲,請在 robots.txt 中加入禁止相關網絡爬蟲的指示。由於 Meta-ExternalFetcher 網絡爬蟲執行由用戶要求的擷取操作,因此可能略過 robots.txt。此外,FacebookExternalHit 網絡爬蟲在執行安全檢查或誠信檢查時,也可能會略過 robots.txt。
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
如果網絡爬蟲的來源 IP 位址列於由以下指令產生的清單中,即表明該網絡爬蟲來自 Meta。
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
請注意,這些 IP 位址會經常更改。如需更多資訊,請瀏覽我們的對等互連網頁或相關可下載資料(CSV 檔案)。
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
如有問題或疑慮,請以電郵 webmasters@meta.com(Meta 網站管理員)聯絡我們。