Meta verwendet Webcrawler (Software, die Inhalte von Websites oder Webanwendungen abruft) für verschiedene Zwecke. Auf dieser Seite werden die User-Agent-Strings (UA-Strings) aufgeführt, die die gängigsten Webcrawler von Meta identifizieren. Außerdem wird erläutert, wofür jeder dieser Crawler verwendet wird. Hier findest du außerdem Anweisungen zum Konfigurieren deiner robots.txt-Datei, damit unsere Crawler ordnungsgemäß mit deiner Website interagieren.
Der Hauptzweck von FacebookExternalHit besteht darin, den Inhalt einer App oder Website zu crawlen, die auf einer Meta-App wie Facebook, Instagram oder Messenger geteilt wurde. Der Link wurde möglicherweise durch Kopieren und Einfügen oder mithilfe des sozialen Facebook-Plugins geteilt. Dieser Crawler erfasst, cacht und zeigt Informationen über die App oder Website an, wie zum Beispiel Titel, Beschreibung und Miniaturbild.
Der spezifische UA-String, der in deinen Protokolldateien angezeigt wird, ähnelt einem der folgenden:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0
Beachte, dass der FacebookExternalHit-Crawler bei Sicherheits- oder Integritätsprüfungen (z. B. Überprüfung auf Malware oder schädliche Inhalte) die robots.txt möglicherweise umgeht.
Range
-Header der Crawler-Anfrage angegebenen Byte enthält, oder sie sollte den Range
-Header vollständig ignorieren.Wenn dein App- oder Website-Content zum Zeitpunkt des Crawlings nicht verfügbar ist, kannst du bei seiner Verfügbarkeit ein Crawl erzwingen, indem du die URL in den Sharing Debugger eingibst oder die Sharing API verwendest.
Mit dem folgenden Code kannst du eine Crawler-Anfrage simulieren:
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
Der Meta-ExternalAgent-Crawler durchsucht das Web nach Anwendungsfällen wie dem Trainieren von KI-Modellen oder der Verbesserung von Produkten durch die direkte Indizierung von Inhalten.
Der spezifische UA-String, der in deinen Protokolldateien angezeigt wird, ähnelt einem der folgenden:
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1
Dieser Crawler wird in den kommenden Wochen nach und nach eingeführt. Die Einführung soll bis zum 31. Oktober 2024 abgeschlossen sein.
Der Meta-ExternalFetcher-Crawler führt von Nutzer*innen initiierte Abrufe einzelner Links durch, um bestimmte Produktfunktionen zu unterstützen. Da der Abruf von einem*einer Nutzer*in initiiert wird, kann dieser Crawler die robots.txt-Regeln umgehen.
Der spezifische UA-String, der in deinen Protokolldateien angezeigt wird, ähnelt einem der folgenden:
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1
Wenn du die robots.txt-Datei auf deiner Website konfigurierst, kannst du den Meta-Webcrawlern mitteilen, wie sie mit deiner Website interagieren sollen. Füge der robots.txt ein „Disallow“ für den entsprechenden Crawler hinzu, um diese Crawler zu blockieren. Der Crawler Meta-ExternalFetcher kann die robots.txt-Datei umgehen, da er von Nutzer*innen angeforderte Abrufe durchführt. Auch der Crawler FacebookExternalHit kann die robots.txt-Datei umgehen, wenn er Sicherheits- oder Integritätsprüfungen durchführt.
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
Wenn ein Crawler eine Quell-IP-Adresse hat, die sich in der durch den folgenden Befehl generierten Liste befindet, weist dies darauf hin, dass der Crawler von Meta kommt.
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
Beachte, dass sich diese IP-Adressen häufig ändern. Weitere Informationen findest du auf unserer Peering-Website oder in den entsprechenden herunterladbaren Daten (CSV-Format).
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
Wenn du Fragen oder Bedenken hast, kontaktiere uns bitte unter webmasters@meta.com (Meta Web Masters).