Meta ใช้เว็บครอว์เลอร์ (ซอฟต์แวร์ที่ดึงเนื้อหาจากเว็บไซต์หรือเว็บแอพ) เพื่อวัตถุประสงค์ที่หลากหลาย หน้านี้จะแสดงรายการสตริงตัวแทนผู้ใช้ (UA) ที่ระบุเว็บครอว์เลอร์เว็บครอว์เลอร์ที่มีการใช้งานบ่อยที่สุดของ Meta รวมถึงวัตถุประสงค์ในการใช้งานครอว์เลอร์เหล่านั้น และหน้านี้จะให้คำแนะนำเกี่ยวกับวิธีกำหนดค่าไฟล์ robots.txt เพื่อให้ครอว์เลอร์ของเราโต้ตอบกับเว็บไซต์ของคุณได้อย่างถูกต้องอีกด้วย
FacebookExternalHit มีวัตถุประสงค์หลักคือ เพื่อเรียกดูเนื้อหาของแอพหรือเว็บไซต์ที่แชร์บนแอพใดแอพหนึ่งในกลุ่มแอพของ Meta เช่น Facebook, Instagram หรือ Messenger ซึ่งมีการแชร์ลิงก์ดังกล่าวด้วยการคัดลอกและวาง หรือโดยใช้โซเชียลปลั๊กอินของ Facebook social ครอว์เลอร์นี้จะเก็บรวบรวม แคช และแสดงข้อมูลเกี่ยวกับแอพหรือเว็บไซต์ เช่น ชื่อ คำอธิบาย และภาพขนาดย่อ
สตริง UA เฉพาะที่คุณจะเห็นในไฟล์ลงบันทึกจะมีลักษณะคล้ายกับสตริงใดสตริงหนึ่งต่อไปนี้
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0
ทั้งนี้ โปรดทราบว่าครอว์เลอร์ FacebookExternalHit อาจบายพาส robots.txt เมื่อดำเนินการตรวจสอบความปลอดภัยหรือความสมบูรณ์ เช่น การตรวจหามัลแวร์หรือเนื้อหาที่เป็นอันตราย
Range
ของคำขอครอว์เลอร์ ไม่เช่นนั้นก็ควรข้ามส่วนหัว Range
ไปเลยทั้งหมดหากเนื้อหาในแอพหรือเว็บไซต์ของคุณไม่พร้อมใช้งานในขณะทำการรวบรวม คุณจะสามารถบังคับให้ทำการรวบรวมหลังจากเนื้อหาพร้อมใช้งานได้ โดยการส่ง URL ผ่านเครื่องมือตัวแก้ไขจุดบกพร่องการแชร์หรือโดยใช้ API การแชร์
คุณสามารถจำลองคำขอครอว์เลอร์ได้ด้วยโค้ดต่อไปนี้:
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
ครอว์เลอร์ Meta-ExternalAgent จะเรียกดูเว็บสำหรับกรณีการใช้งาน เช่น การฝึกโมเดล AI หรือปรับปรุงผลิตภัณฑ์ด้วยการจัดทำดัชนีเนื้อหาโดยตรง
สตริง UA เฉพาะที่คุณจะเห็นในไฟล์ลงบันทึกจะมีลักษณะคล้ายกับสตริงใดสตริงหนึ่งต่อไปนี้
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1
ครอว์เลอร์นี้จะทยอยเปิดตัวในอีกไม่กี่สัปดาห์ข้างหน้า โดยคาดว่าจะแล้วเสร็จภายในวันที่ 31/10/2024
ครอว์เลอร์ Meta-ExternalFetcher จะดึงข้อมูลแต่ละลิงก์โดยที่ผู้ใช้เป็นผู้ดำเนินการเพื่อสนับสนุนฟังก์ชั่นที่เจาะจงของผลิตภัณฑ์ และเนื่องจากผู้ใช้เป็นผู้ดำเนินการดึงข้อมูล ครอว์เลอร์นี้จึงอาจบายพาสกฎ robots.txt
สตริง UA เฉพาะที่คุณจะเห็นในไฟล์ลงบันทึกจะมีลักษณะคล้ายกับสตริงใดสตริงหนึ่งต่อไปนี้
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1
เมื่อกำหนดค่าไฟล์ robots.txt บนเว็บไซต์ คุณจะสามารถระบุให้เว็บครอว์เลอร์ของ Meta ทราบว่าคุณต้องการให้เว็บครอว์เลอร์เหล่านี้โต้ตอบกับเว็บไซต์ของคุณอย่างไร หากต้องการบล็อกครอว์เลอร์เหล่านี้ ให้เพิ่ม "disallow" กับครอว์เลอร์ที่เกี่ยวข้องลงใน robots.txt ทั้งนี้ ครอว์เลอร์ Meta-ExternalFetcher อาจบายพาส robots.txt เนื่องจากครอว์เลอร์นี้จะดึงข้อมูลโดยที่ผู้ใช้เป็นผู้ส่งคำขอ และครอว์เลอร์ FacebookExternalHit ก็อาจบายพาส robots.txt เมื่อดำเนินการตรวจสอบความปลอดภัยหรือความสมบูรณ์ด้วยเช่นกัน
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
หากครอว์เลอร์มีที่อยู่ IP ต้นทางที่อยู่ในรายการที่สร้างขึ้นจากคำสั่งต่อไปนี้ แสดงว่าครอว์เลอร์ดังกล่าวมาจาก Meta
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
โปรดทราบที่อยู่ IP เหล่านี้มักเปลี่ยนแปลงอยู่เสมอ โปรดดูข้อมูลเพิ่มเติมที่หน้าเว็บเกี่ยวกับการเพียร์หรือข้อมูลที่มีให้ดาวน์โหลด (ในรูปแบบ CSV) ที่เกี่ยวข้อง
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
หากคุณมีคำถามหรือข้อกังวล โปรดติดต่อเราที่ webmasters@meta.com (เว็บมาสเตอร์ของ Meta)