Meta 網絡爬蟲

Meta 使用網絡爬蟲(擷取網站或網頁版應用程式內容的軟件)達到各種不同目的。此頁面列出可識別 Meta 最常用網絡爬蟲的用戶代理程式(UA)字串,以及每款網絡爬蟲的用途。另外,此頁面亦會提供指引,指導如何設定 robots.txt 檔案來讓我們的網絡爬蟲與您的網站正確互動。

FacebookExternalHit

FacebookExternalHit 的主要用途是檢索 Facebook、Instagram 或 Messenger 等 Meta 家族應用程式上分享的應用程式或網站內容。該連結可能透過複製並貼上或使用 Facebook 社交附加程式分享。此網絡爬蟲收集、快取和顯示該應用程式或網站的資訊,例如其標題、說明和縮圖。

您在記錄檔案中看到的具體 UA 字串會類似於以下其中一個字串:

  • facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
  • facebookexternalhit/1.1
  • facebookcatalog/1.0

請注意,FacebookExternalHit 網絡爬蟲可能會在執行安全檢查或誠信檢查(例如檢查惡意軟件或惡意內容)時略過 robots.txt。

網路爬蟲必要條件

  • 您的伺服器必須使用 gzipdeflate 編碼。
  • 任何開放式圖表屬性均須列於網站或應用程式頭 1 MB 內容前方,否則抓取動作將會中斷。
  • 請確保該內容可在幾秒鐘內被網絡爬蟲爬取,否則 Facebook 將無法顯示該內容。
  • 您的應用程式或網站應根據網絡爬蟲要求 Range 標題中指定的位元組,產生並傳回包含所有要求的屬性的回應,或應完全忽略 Range 標題。
  • 請將網路爬蟲所用的用戶代理程式字串或 IP 位址(較安全)列入許可名單。

疑難排解

若您的應用程式或網站內容在爬取時並不可用,您可透過分享偵錯工具傳遞網址,或使用分享 API,在其可用時強制爬取。

您可使用下列程式碼模擬網絡爬蟲要求:

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

Meta-ExternalAgent

Meta-ExternalAgent 網絡爬蟲用於檢索網絡中的各種使用案例,例如訓練 AI 模型或透過直接加入索引來改善產品。

您在記錄檔案中看到的具體 UA 字串會類似於以下其中一個字串:

  • meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalagent/1.1

此網絡爬蟲將於未來幾星期逐步推出,預計在 2024 年 10 月 31 日前完成。

Meta-ExternalFetcher

Meta-ExternalFetcher 網絡爬蟲執行由用戶啟動的個別連結擷取操作,以支援特定的產品功能。由於擷取操作由用戶啟動,所以此網絡爬蟲可能會略過 robots.txt 規則。

您在記錄檔案中看到的具體 UA 字串會類似於以下其中一個字串:

  • meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalfetcher/1.1

robots.txt 檔案

透過在網站上設定 robots.txt 檔案,您可指定 Meta 網絡爬蟲與您網站的首選互動方式。如要封鎖這些網絡爬蟲,請在 robots.txt 中加入禁止相關網絡爬蟲的指示。由於 Meta-ExternalFetcher 網絡爬蟲執行由用戶要求的擷取操作,因此可能略過 robots.txt。此外,FacebookExternalHit 網絡爬蟲在執行安全檢查或誠信檢查時,也可能會略過 robots.txt。

User-agent: meta-externalagent
Allow: /                    # Allow everything
Disallow: /private/         # Disallow a specific directory

網絡爬蟲 IP

如果網絡爬蟲的來源 IP 位址列於由以下指令產生的清單中,即表明該網絡爬蟲來自 Meta。

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

請注意,這些 IP 位址會經常更改。如需更多資訊,請瀏覽我們的對等互連網頁或相關可下載資料(CSV 檔案)。

回應範例

...
route:      69.63.176.0/21
route:      69.63.184.0/21
route:      66.220.144.0/20
route:      69.63.176.0/20
route6:     2620:0:1c00::/40
route6:     2a03:2880::/32
route6:     2a03:2880:fffe::/48
route6:     2a03:2880:ffff::/48
route6:     2620:0:1cff::/48
... 

聯絡我們

如有問題或疑慮,請以電郵 webmasters@meta.com(Meta 網站管理員)聯絡我們。