Crawler Web Meta

Meta menggunakan crawler web (perangkat lunak yang mengambil konten dari situs web atau aplikasi web) untuk beberapa tujuan berbeda. Halaman ini berisi daftar string Agen Pengguna (UA) yang mengidentifikasi crawler web Meta yang paling umum dan kegunaan masing-masing crawler tersebut. Halaman ini juga menyediakan panduan tentang cara mengonfigurasi file robots.txt Anda agar crawler kami dapat berinteraksi dengan baik dengan situs Anda.

FacebookExternalHit

Tujuan utama FacebookExternalHit adalah untuk melakukan crawling konten aplikasi atau situs web yang dibagikan di salah satu keluarga aplikasi Meta, seperti Facebook, Instagram, atau Messenger. Tautan tersebut mungkin telah dibagikan dengan menyalin dan menempelkan atau dengan menggunakan plugin sosial Facebook. Crawler ini mengumpulkan, menyimpan ke cache, dan menampilkan informasi tentang aplikasi atau situs web tersebut seperti judul, deskripsi, dan gambar mininya.

String UA spesifik yang akan Anda lihat di file log Anda akan mirip dengan salah satu dari opsi berikut:

  • facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
  • facebookexternalhit/1.1
  • facebookcatalog/1.0

Perlu diketahui bahwa crawler FacebookExternalHit mungkin melewati robots.txt saat melakukan pemeriksaan keamanan atau integritas, seperti memeriksa malware atau konten berbahaya.

Persyaratan Crawler

  • Server Anda harus menggunakan sistem enkode gzip dan deflate.
  • Properti Graf Terbuka apa pun harus didaftar sebelum 1 MB pertama situs web atau aplikasi Anda, atau properti akan terpotong.
  • Pastikan bahwa konten dapat dirayapi oleh crawler dalam beberapa detik atau Facebook tidak akan dapat menampilkan konten itu.
  • Aplikasi atau situs web Anda harus menghasilkan dan mengembalikan tanggapan dengan semua properti yang diperlukan sesuai dengan bita yang ditetapkan dalam header Range dalam permintaan crawler atau harus sepenuhnya mengabaikan header Range.
  • Tambahkan string agen pengguna atau alamat IP (lebih aman) yang digunakan crawler ke daftar diizinkan.

Pemecahan Masalah

Jika aplikasi atau konten situs web tidak tersedia saat proses perayapan, Anda dapat memaksa perayapan setelah konten tersedia dengan melewati URL melalui fitur Sharing Debugger atau menggunakan API Berbagi.

Anda dapat menyimulasikan permintaan crawler dengan kode berikut:

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

Meta-ExternalAgent

Crawler Meta-ExternalAgent melakukan crawling web untuk kasus-kasus penggunaan seperti melatih model AI atau meningkatkan produk dengan mengindeks konten secara langsung.

String UA spesifik yang akan Anda lihat di file log Anda akan mirip dengan salah satu dari opsi berikut:

  • meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalagent/1.1

Crawler ini akan diluncurkan secara bertahap selama beberapa minggu ke depan dan diharapkan selesai pada 31/10/2024.

Meta-ExternalFetcher

Crawler Meta-ExternalFetcher melakukan pengambilan tautan individual dengan inisiasi dari pengguna untuk mendukung fungsi produk tertentu. Karena pengambilan tersebut diinisiasi oleh pengguna, crawler ini dapat mengabaikan aturan robots.txt.

String UA spesifik yang akan Anda lihat di file log Anda akan mirip dengan salah satu dari opsi berikut:

  • meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalfetcher/1.1

File robots.txt

Dengan mengonfigurasi file robots.txt di situs web, Anda dapat menentukan pada crawler web Meta bagaimana Anda ingin mereka berinteraksi dengan situs Anda. Untuk memblokir crawler ini, tambahkan larangan untuk crawler yang relevan ke robots.txt. Crawler Meta-ExternalFetcher dapat mengabaikan robots.txt karena melakukan pengambilan yang diminta oleh pengguna. Selain itu, crawler FacebookExternalHit mungkin mengabaikan robots.txt saat melakukan pemeriksaan keamanan atau integritas.

User-agent: meta-externalagent
Allow: /                    # Allow everything
Disallow: /private/         # Disallow a specific directory

IP Crawler

Jika crawler memiliki alamat IP sumber yang ada dalam daftar yang dihasilkan oleh perintah berikut ini, hal itu berarti bahwa crawler berasal dari Meta.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Perlu diketahui bahwa alamat IP ini sering berubah. Untuk informasi selengkapnya, silakan buka Halaman web peering atau data yang dapat diunduh terkait (format CSV).

Contoh Tanggapan

...
route:      69.63.176.0/21
route:      69.63.184.0/21
route:      66.220.144.0/20
route:      69.63.176.0/20
route6:     2620:0:1c00::/40
route6:     2a03:2880::/32
route6:     2a03:2880:fffe::/48
route6:     2a03:2880:ffff::/48
route6:     2620:0:1cff::/48
... 

Hubungi kami

Jika Anda memiliki pertanyaan atau masalah, silakan hubungi kami di webmasters@meta.com (Meta Web Masters).