Robots d’indexation Meta

Meta utilise des robots d’indexation (logiciels qui récupèrent du contenu de sites Web ou d’applications Web) à différentes fins. Cette page énumère les chaînes d’agent utilisateur·ice (UA) qui identifient les robots d’indexation les plus courants de Meta et leur utilisation respective. Cette page fournit également des conseils sur la façon de configurer votre fichier robots.txt pour que nos robots d’indexation interagissent correctement avec votre site.

FacebookExternalHit

L’objectif principal de FacebookExternalHit est d’indexer le contenu d’une application ou d’un site Web qui a été partagé sur l’une des applications de la famille Meta, telles que Facebook, Instagram ou Messenger. Le lien peut avoir été partagé par copier-coller ou en utilisant le plugin social Facebook. Ce robot d’indexation rassemble, met en cache et affiche des informations sur l’application ou le site Web, comme son titre, sa description et son image miniature.

La chaîne UA spécifique que vous verrez dans vos fichiers journaux sera similaire à l’une des chaînes suivantes :

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0

Notez que le robot d’indexation FacebookExternalHit peut contourner le fichier robots.txt lors de vérifications de sécurité ou d’intégrité, comme la vérification de l’existence de logiciels ou de contenus malveillants.

Conditions relatives au robot d’indexation

Votre serveur doit utiliser les encodages gzip et deflate.
Toutes les propriétés Open Graph doivent donc figurer avant le premier mégaoctet de votre site Web ou application, ou ce dernier fera l’objet d’une coupure.
Assurez-vous que le contenu peut être indexé en quelques secondes par le robot d’indexation ou Facebook sera incapable de l’afficher.
Votre application ou site Web doit, soit générer et renvoyer une réponse avec toutes les propriétés requises selon les octets spécifiés dans l’en-tête Range de la demande du robot d’indexation, soit ignorer complètement l’en-tête Range.
Vous pouvez ajouter à la liste d’éléments autorisés les chaînes d’agent utilisateur·ice ou les adresses IP (plus sécurisé) utilisées par le robot d’indexation.

Résolution des problèmes

Si le contenu de votre application ou site Web n’est pas disponible au moment de l’indexation, vous pouvez forcer une indexation une fois qu’il devient disponible en faisant transiter l’URL par l’outil de débug du partage ou en utilisant l’API Sharing.

Vous pouvez simuler une requête du robot d’indexation avec le code suivant :

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

Meta-ExternalAgent

Le robot d’indexation Meta-ExternalAgent indexe le Web pour des cas d’utilisation tels que l’entraînement de modèles d’IA ou l’amélioration de produits en indexant directement le contenu.

La chaîne UA spécifique que vous verrez dans vos fichiers journaux sera similaire à l’une des chaînes suivantes :

meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1

Le déploiement de ce robot d’indexation sera progressif au cours de prochaines semaines et devrait se terminer avant le 31/10/2024.

Meta-ExternalFetcher

Le robot d’indexation Meta-ExternalFetcher effectue des récupérations de liens individuels initiées par des utilisateur·ices afin de soutenir des fonctions de produits spécifiques. La récupération ayant été initiée par un utilisateur ou une utilisatrice, ce robot d’indexation peut contourner les règles du fichier robots.txt.

La chaîne UA spécifique que vous verrez dans vos fichiers journaux sera similaire à l’une des chaînes suivantes :

meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1

Fichier robots.txt

En configurant le fichier robots.txt sur votre site Web, vous pouvez indiquer aux robots d’indexation Meta comment ils doivent interagir avec votre site. Pour bloquer ces robots d’indexation, ajoutez une interdiction (disallow) pour le robot concerné dans le fichier robots.txt. Le robot d’indexation Meta-ExternalFetcher peut contourner le fichier robots.txt car il effectue des récupérations qui ont été demandées par l’utilisateur·ice. De même, le robot d’indexation FacebookExternalHit peut contourner le fichier robots.txt lorsqu’il effectue des vérifications de sécurité ou d’intégrité.

User-agent: meta-externalagent
Allow: /                    # Allow everything
Disallow: /private/         # Disallow a specific directory

Adresses IP des robots d’indexation

Si un robot d’indexation a une adresse IP source qui figure sur la liste générée par la commande suivante, cela indique que le robot d’indexation vient de Meta.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route

Notez que ces adresses IP changent souvent. Pour plus d’informations, consultez notre page Web sur l’appairage ou les données téléchargeables connexes (format CSV).

Exemple de réponse

...
route:      69.63.176.0/21
route:      69.63.184.0/21
route:      66.220.144.0/20
route:      69.63.176.0/20
route6:     2620:0:1c00::/40
route6:     2a03:2880::/32
route6:     2a03:2880:fffe::/48
route6:     2a03:2880:ffff::/48
route6:     2620:0:1cff::/48
...

Nous contacter

Pour toute question ou préoccupation, n’hésitez pas à nous contacter à l’adresse webmasters@meta.com (Webmasters Meta).