Meta utilise des robots d’indexation (logiciels qui récupèrent du contenu de sites Web ou d’applications Web) à différentes fins. Cette page énumère les chaînes d’agent utilisateur·ice (UA) qui identifient les robots d’indexation les plus courants de Meta et leur utilisation respective. Cette page fournit également des conseils sur la façon de configurer votre fichier robots.txt pour que nos robots d’indexation interagissent correctement avec votre site.
L’objectif principal de FacebookExternalHit est d’indexer le contenu d’une application ou d’un site Web qui a été partagé sur l’une des applications de la famille Meta, telles que Facebook, Instagram ou Messenger. Le lien peut avoir été partagé par copier-coller ou en utilisant le plugin social Facebook. Ce robot d’indexation rassemble, met en cache et affiche des informations sur l’application ou le site Web, comme son titre, sa description et son image miniature.
La chaîne UA spécifique que vous verrez dans vos fichiers journaux sera similaire à l’une des chaînes suivantes :
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0
Notez que le robot d’indexation FacebookExternalHit peut contourner le fichier robots.txt lors de vérifications de sécurité ou d’intégrité, comme la vérification de l’existence de logiciels ou de contenus malveillants.
Range
de la demande du robot d’indexation, soit ignorer complètement l’en-tête Range
.Si le contenu de votre application ou site Web n’est pas disponible au moment de l’indexation, vous pouvez forcer une indexation une fois qu’il devient disponible en faisant transiter l’URL par l’outil de débug du partage ou en utilisant l’API Sharing.
Vous pouvez simuler une requête du robot d’indexation avec le code suivant :
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
Le robot d’indexation Meta-ExternalAgent indexe le Web pour des cas d’utilisation tels que l’entraînement de modèles d’IA ou l’amélioration de produits en indexant directement le contenu.
La chaîne UA spécifique que vous verrez dans vos fichiers journaux sera similaire à l’une des chaînes suivantes :
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1
Le déploiement de ce robot d’indexation sera progressif au cours de prochaines semaines et devrait se terminer avant le 31/10/2024.
Le robot d’indexation Meta-ExternalFetcher effectue des récupérations de liens individuels initiées par des utilisateur·ices afin de soutenir des fonctions de produits spécifiques. La récupération ayant été initiée par un utilisateur ou une utilisatrice, ce robot d’indexation peut contourner les règles du fichier robots.txt.
La chaîne UA spécifique que vous verrez dans vos fichiers journaux sera similaire à l’une des chaînes suivantes :
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1
En configurant le fichier robots.txt sur votre site Web, vous pouvez indiquer aux robots d’indexation Meta comment ils doivent interagir avec votre site. Pour bloquer ces robots d’indexation, ajoutez une interdiction (disallow) pour le robot concerné dans le fichier robots.txt. Le robot d’indexation Meta-ExternalFetcher peut contourner le fichier robots.txt car il effectue des récupérations qui ont été demandées par l’utilisateur·ice. De même, le robot d’indexation FacebookExternalHit peut contourner le fichier robots.txt lorsqu’il effectue des vérifications de sécurité ou d’intégrité.
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
Si un robot d’indexation a une adresse IP source qui figure sur la liste générée par la commande suivante, cela indique que le robot d’indexation vient de Meta.
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
Notez que ces adresses IP changent souvent. Pour plus d’informations, consultez notre page Web sur l’appairage ou les données téléchargeables connexes (format CSV).
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
Pour toute question ou préoccupation, n’hésitez pas à nous contacter à l’adresse webmasters@meta.com (Webmasters Meta).