Meta menggunakan crawler web (perangkat lunak yang mengambil konten dari situs web atau aplikasi web) untuk beberapa tujuan berbeda. Halaman ini berisi daftar string Agen Pengguna (UA) yang mengidentifikasi crawler web Meta yang paling umum dan kegunaan masing-masing crawler tersebut. Halaman ini juga menyediakan panduan tentang cara mengonfigurasi file robots.txt Anda agar crawler kami dapat berinteraksi dengan baik dengan situs Anda.
Tujuan utama FacebookExternalHit adalah untuk melakukan crawling konten aplikasi atau situs web yang dibagikan di salah satu keluarga aplikasi Meta, seperti Facebook, Instagram, atau Messenger. Tautan tersebut mungkin telah dibagikan dengan menyalin dan menempelkan atau dengan menggunakan plugin sosial Facebook. Crawler ini mengumpulkan, menyimpan ke cache, dan menampilkan informasi tentang aplikasi atau situs web tersebut seperti judul, deskripsi, dan gambar mininya.
String UA spesifik yang akan Anda lihat di file log Anda akan mirip dengan salah satu dari opsi berikut:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0
Perlu diketahui bahwa crawler FacebookExternalHit mungkin melewati robots.txt saat melakukan pemeriksaan keamanan atau integritas, seperti memeriksa malware atau konten berbahaya.
Range
dalam permintaan crawler atau harus sepenuhnya mengabaikan header Range
.Jika aplikasi atau konten situs web tidak tersedia saat proses perayapan, Anda dapat memaksa perayapan setelah konten tersedia dengan melewati URL melalui fitur Sharing Debugger atau menggunakan API Berbagi.
Anda dapat menyimulasikan permintaan crawler dengan kode berikut:
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
Crawler Meta-ExternalAgent melakukan crawling web untuk kasus-kasus penggunaan seperti melatih model AI atau meningkatkan produk dengan mengindeks konten secara langsung.
String UA spesifik yang akan Anda lihat di file log Anda akan mirip dengan salah satu dari opsi berikut:
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1
Crawler ini akan diluncurkan secara bertahap selama beberapa minggu ke depan dan diharapkan selesai pada 31/10/2024.
Crawler Meta-ExternalFetcher melakukan pengambilan tautan individual dengan inisiasi dari pengguna untuk mendukung fungsi produk tertentu. Karena pengambilan tersebut diinisiasi oleh pengguna, crawler ini dapat mengabaikan aturan robots.txt.
String UA spesifik yang akan Anda lihat di file log Anda akan mirip dengan salah satu dari opsi berikut:
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1
Dengan mengonfigurasi file robots.txt di situs web, Anda dapat menentukan pada crawler web Meta bagaimana Anda ingin mereka berinteraksi dengan situs Anda. Untuk memblokir crawler ini, tambahkan larangan untuk crawler yang relevan ke robots.txt. Crawler Meta-ExternalFetcher dapat mengabaikan robots.txt karena melakukan pengambilan yang diminta oleh pengguna. Selain itu, crawler FacebookExternalHit mungkin mengabaikan robots.txt saat melakukan pemeriksaan keamanan atau integritas.
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
Jika crawler memiliki alamat IP sumber yang ada dalam daftar yang dihasilkan oleh perintah berikut ini, hal itu berarti bahwa crawler berasal dari Meta.
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
Perlu diketahui bahwa alamat IP ini sering berubah. Untuk informasi selengkapnya, silakan buka Halaman web peering atau data yang dapat diunduh terkait (format CSV).
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
Jika Anda memiliki pertanyaan atau masalah, silakan hubungi kami di webmasters@meta.com (Meta Web Masters).