Meta-Webcrawler

Meta verwendet Webcrawler (Software, die Inhalte von Websites oder Webanwendungen abruft) für verschiedene Zwecke. Auf dieser Seite werden die User-Agent-Strings (UA-Strings) aufgeführt, die die gängigsten Webcrawler von Meta identifizieren. Außerdem wird erläutert, wofür jeder dieser Crawler verwendet wird. Hier findest du außerdem Anweisungen zum Konfigurieren deiner robots.txt-Datei, damit unsere Crawler ordnungsgemäß mit deiner Website interagieren.

FacebookExternalHit

Der Hauptzweck von FacebookExternalHit besteht darin, den Inhalt einer App oder Website zu crawlen, die auf einer Meta-App wie Facebook, Instagram oder Messenger geteilt wurde. Der Link wurde möglicherweise durch Kopieren und Einfügen oder mithilfe des sozialen Facebook-Plugins geteilt. Dieser Crawler erfasst, cacht und zeigt Informationen über die App oder Website an, wie zum Beispiel Titel, Beschreibung und Miniaturbild.

Der spezifische UA-String, der in deinen Protokolldateien angezeigt wird, ähnelt einem der folgenden:

  • facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
  • facebookexternalhit/1.1
  • facebookcatalog/1.0

Beachte, dass der FacebookExternalHit-Crawler bei Sicherheits- oder Integritätsprüfungen (z. B. Überprüfung auf Malware oder schädliche Inhalte) die robots.txt möglicherweise umgeht.

Crawler-Anforderungen

  • Dein Server muss gzip- und deflate-Kodierungen verwenden.
  • Der Crawler liest nur die ersten 1 MB deiner Website oder App aus. Eventuelle Open Graph-Eigenschaften müssen also vor diesem Punkt aufgeführt sein.
  • Stelle sicher, dass der Content innerhalb weniger Sekunden „gecrawlt“ werden kann. Andernfalls kann Facebook den Content nicht anzeigen.
  • Deine App oder Website sollte entweder eine Antwort erstellen und zurückgeben, die alle erforderlichen Eigenschaften entsprechend den im Range-Header der Crawler-Anfrage angegebenen Byte enthält, oder sie sollte den Range-Header vollständig ignorieren.
  • Füge entweder die vom Crawler verwendeten User Agent-Strings oder die IP-Adressen (sicherer) zur Positivliste hinzu.

Problembehebung

Wenn dein App- oder Website-Content zum Zeitpunkt des Crawlings nicht verfügbar ist, kannst du bei seiner Verfügbarkeit ein Crawl erzwingen, indem du die URL in den Sharing Debugger eingibst oder die Sharing API verwendest.

Mit dem folgenden Code kannst du eine Crawler-Anfrage simulieren:

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

Meta-ExternalAgent

Der Meta-ExternalAgent-Crawler durchsucht das Web nach Anwendungsfällen wie dem Trainieren von KI-Modellen oder der Verbesserung von Produkten durch die direkte Indizierung von Inhalten.

Der spezifische UA-String, der in deinen Protokolldateien angezeigt wird, ähnelt einem der folgenden:

  • meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalagent/1.1

Dieser Crawler wird in den kommenden Wochen nach und nach eingeführt. Die Einführung soll bis zum 31. Oktober 2024 abgeschlossen sein.

Meta-ExternalFetcher

Der Meta-ExternalFetcher-Crawler führt von Nutzer*innen initiierte Abrufe einzelner Links durch, um bestimmte Produktfunktionen zu unterstützen. Da der Abruf von einem*einer Nutzer*in initiiert wird, kann dieser Crawler die robots.txt-Regeln umgehen.

Der spezifische UA-String, der in deinen Protokolldateien angezeigt wird, ähnelt einem der folgenden:

  • meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalfetcher/1.1

Die robots.txt-Datei

Wenn du die robots.txt-Datei auf deiner Website konfigurierst, kannst du den Meta-Webcrawlern mitteilen, wie sie mit deiner Website interagieren sollen. Füge der robots.txt ein „Disallow“ für den entsprechenden Crawler hinzu, um diese Crawler zu blockieren. Der Crawler Meta-ExternalFetcher kann die robots.txt-Datei umgehen, da er von Nutzer*innen angeforderte Abrufe durchführt. Auch der Crawler FacebookExternalHit kann die robots.txt-Datei umgehen, wenn er Sicherheits- oder Integritätsprüfungen durchführt.

User-agent: meta-externalagent
Allow: /                    # Allow everything
Disallow: /private/         # Disallow a specific directory

Crawler-IPs

Wenn ein Crawler eine Quell-IP-Adresse hat, die sich in der durch den folgenden Befehl generierten Liste befindet, weist dies darauf hin, dass der Crawler von Meta kommt.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Beachte, dass sich diese IP-Adressen häufig ändern. Weitere Informationen findest du auf unserer Peering-Website oder in den entsprechenden herunterladbaren Daten (CSV-Format).

Beispielantwort

...
route:      69.63.176.0/21
route:      69.63.184.0/21
route:      66.220.144.0/20
route:      69.63.176.0/20
route6:     2620:0:1c00::/40
route6:     2a03:2880::/32
route6:     2a03:2880:fffe::/48
route6:     2a03:2880:ffff::/48
route6:     2620:0:1cff::/48
... 

Kontakt

Wenn du Fragen oder Bedenken hast, kontaktiere uns bitte unter webmasters@meta.com (Meta Web Masters).