Rastreadores da web da Meta

A Meta usa rastreadores da web (software que obtém conteúdo de sites ou apps da web) para diferentes propósitos. Esta página lista as strings do agente do usuário (UA, pelas iniciais em inglês) que identificam os rastreadores da web da Meta mais comuns e os respectivos usos. Esta página também fornece orientações sobre como configurar o arquivo robots.txt para que os rastreadores interajam corretamente com seu site.

FacebookExternalHit

O objetivo principal do FacebookExternalHit é rastrear o conteúdo de um app ou site que tenha sido compartilhado em um app da família da Meta, como Facebook, Instagram ou Messenger. O link pode ter sido compartilhado pelo método de copiar e colar ou por meio do Plugin Social do Facebook. Esse rastreador coleta, armazena e exibe informações sobre o app ou site, como título, descrição e imagem da miniatura.

A string específica do agente do usuário que você verá nos seus arquivos de registro será similar a uma destas:

  • facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
  • facebookexternalhit/1.1
  • facebookcatalog/1.0

Observe que o rastreador FacebookExternalHit poderá ignorar o robots.txt ao realizar verificações de integridade ou segurança, como buscas por malware ou conteúdo malicioso.

Requisitos do rastreador

  • Seu servidor deve usar codificações gzip e deflate.
  • Todas as propriedades do Open Graph precisam ser listadas antes de atingir o primeiro 1 MB do seu site ou app, do contrário, elas serão cortadas.
  • Verifique se o conteúdo pode ser localizado pelo rastreador em alguns segundos, ou o Facebook não poderá exibir o conteúdo.
  • Seu app ou site deve gerar e retornar uma resposta com todas as propriedades necessárias, de acordo com os bytes especificados no cabeçalho Range da solicitação do rastreador, ou deve ignorar o cabeçalho Range completamente.
  • Inclua na lista de permissão as strings do agente do usuário ou os endereços IP (mais seguro) usados pelo rastreador.

Solução de problemas

Se o conteúdo do site ou do app não estiver disponível no momento do rastreamento, você poderá forçar essa ação quando ele for disponibilizado informando o URL por meio da ferramenta Depurador de Compartilhamento ou usando a API de Compartilhamento.

É possível simular uma solicitação do rastreador com o código a seguir:

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

Meta-ExternalAgent

O rastreador Meta-ExternalAgent rastreia a web em busca de casos de uso como modelos de treinamento de IA ou melhorias de produtos com indexação direta de conteúdo.

A string específica do agente do usuário que você verá nos seus arquivos de registro será similar a uma destas:

  • meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalagent/1.1

A implementação deste rastreador será feita de forma gradual nas próximas semanas e concluída até 31 de outubro de 2024.

Meta-ExternalFetcher

O rastreador Meta-ExternalFetcher faz buscas iniciadas pelo usuário de links individuais para aceitar funções específicas de produtos. Como a busca é iniciada por um usuário, esse rastreador poderá ignorar as regras do robots.txt.

A string específica do agente do usuário que você verá nos seus arquivos de registro será similar a uma destas:

  • meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalfetcher/1.1

O arquivo robots.txt

Ao configurar o arquivo robots.txt, você pode especificar como os rastreadores da web da Meta devem interagir com seu site. Para bloquear esses rastreadores, adicione ao robots.txt uma anulação para o rastreador em questão. O rastreador Meta-ExternalFetcher poderá ignorar o robots.txt porque ele realiza buscas que foram solicitadas pelo usuário. Além disso, o rastreador FacebookExternalHit poderá ignorar o robots.txt ao realizar verificações de segurança ou integridade.

User-agent: meta-externalagent
Allow: /                    # Allow everything
Disallow: /private/         # Disallow a specific directory

IPs de rastreadores

Se o endereço IP de origem de um rastreador estiver na lista gerada pelo comando a seguir, isso indicará que o rastreador vem da Meta.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Observe que esses endereços IP mudam frequentemente. Para mais informações, acesse nossa página sobre peering ou baixe os dados relacionados (formato CSV).

Exemplo de resposta

...
route:      69.63.176.0/21
route:      69.63.184.0/21
route:      66.220.144.0/20
route:      69.63.176.0/20
route6:     2620:0:1c00::/40
route6:     2a03:2880::/32
route6:     2a03:2880:fffe::/48
route6:     2a03:2880:ffff::/48
route6:     2620:0:1cff::/48
... 

Fale conosco

Em caso de dúvidas, entre em contato pelo email webmasters@meta.com (Webmasters da Meta).