เว็บครอว์เลอร์ของ Meta

Meta ใช้เว็บครอว์เลอร์ (ซอฟต์แวร์ที่ดึงเนื้อหาจากเว็บไซต์หรือเว็บแอพ) เพื่อวัตถุประสงค์ที่หลากหลาย หน้านี้จะแสดงรายการสตริงตัวแทนผู้ใช้ (UA) ที่ระบุเว็บครอว์เลอร์เว็บครอว์เลอร์ที่มีการใช้งานบ่อยที่สุดของ Meta รวมถึงวัตถุประสงค์ในการใช้งานครอว์เลอร์เหล่านั้น และหน้านี้จะให้คำแนะนำเกี่ยวกับวิธีกำหนดค่าไฟล์ robots.txt เพื่อให้ครอว์เลอร์ของเราโต้ตอบกับเว็บไซต์ของคุณได้อย่างถูกต้องอีกด้วย

FacebookExternalHit

FacebookExternalHit มีวัตถุประสงค์หลักคือ เพื่อเรียกดูเนื้อหาของแอพหรือเว็บไซต์ที่แชร์บนแอพใดแอพหนึ่งในกลุ่มแอพของ Meta เช่น Facebook, Instagram หรือ Messenger ซึ่งมีการแชร์ลิงก์ดังกล่าวด้วยการคัดลอกและวาง หรือโดยใช้โซเชียลปลั๊กอินของ Facebook social ครอว์เลอร์นี้จะเก็บรวบรวม แคช และแสดงข้อมูลเกี่ยวกับแอพหรือเว็บไซต์ เช่น ชื่อ คำอธิบาย และภาพขนาดย่อ

สตริง UA เฉพาะที่คุณจะเห็นในไฟล์ลงบันทึกจะมีลักษณะคล้ายกับสตริงใดสตริงหนึ่งต่อไปนี้

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0

ทั้งนี้ โปรดทราบว่าครอว์เลอร์ FacebookExternalHit อาจบายพาส robots.txt เมื่อดำเนินการตรวจสอบความปลอดภัยหรือความสมบูรณ์ เช่น การตรวจหามัลแวร์หรือเนื้อหาที่เป็นอันตราย

ข้อกำหนดของครอว์เลอร์

เซิร์ฟเวอร์ของคุณจะต้องใช้การเข้ารหัสแบบ gzip และ deflate
คุณสมบัติ Open Graph ต่างๆ จะต้องอยู่ในช่วงก่อนครบ 1 MB แรกของเว็บไซต์หรือแอพ ไม่เช่นนั้น คุณสมบัติดังกล่าวจะถูกตัดออกไป
ตรวจสอบให้แน่ใจว่าครอว์เลอร์จะสามารถรวบรวมข้อมูลเนื้อหาภายในไม่กี่วินาทีได้ ไม่เช่นนั้น Facebook จะไม่สามารถแสดงเนื้อหาดังกล่าวได้
แอพหรือเว็บไซต์ของคุณควรสร้างและส่งคืนการตอบกลับที่มีคุณสมบัติที่กำหนดไว้ทั้งหมดตามจำนวนไบต์ที่ระบุไว้ในส่วนหัว Range ของคำขอครอว์เลอร์ ไม่เช่นนั้นก็ควรข้ามส่วนหัว Range ไปเลยทั้งหมด
เพิ่มสตริงตัวแทนผู้ใช้หรือที่อยู่ IP (ปลอดภัยกว่า) ที่ครอว์เลอร์ใช้ลงในรายการที่อนุญาตของคุณ

การแก้ไขปัญหา

หากเนื้อหาในแอพหรือเว็บไซต์ของคุณไม่พร้อมใช้งานในขณะทำการรวบรวม คุณจะสามารถบังคับให้ทำการรวบรวมหลังจากเนื้อหาพร้อมใช้งานได้ โดยการส่ง URL ผ่านเครื่องมือตัวแก้ไขจุดบกพร่องการแชร์หรือโดยใช้ API การแชร์

คุณสามารถจำลองคำขอครอว์เลอร์ได้ด้วยโค้ดต่อไปนี้:

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

Meta-ExternalAgent

ครอว์เลอร์ Meta-ExternalAgent จะเรียกดูเว็บสำหรับกรณีการใช้งาน เช่น การฝึกโมเดล AI หรือปรับปรุงผลิตภัณฑ์ด้วยการจัดทำดัชนีเนื้อหาโดยตรง

meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1

ครอว์เลอร์นี้จะทยอยเปิดตัวในอีกไม่กี่สัปดาห์ข้างหน้า โดยคาดว่าจะแล้วเสร็จภายในวันที่ 31/10/2024

Meta-ExternalFetcher

ครอว์เลอร์ Meta-ExternalFetcher จะดึงข้อมูลแต่ละลิงก์โดยที่ผู้ใช้เป็นผู้ดำเนินการเพื่อสนับสนุนฟังก์ชั่นที่เจาะจงของผลิตภัณฑ์ และเนื่องจากผู้ใช้เป็นผู้ดำเนินการดึงข้อมูล ครอว์เลอร์นี้จึงอาจบายพาสกฎ robots.txt

meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1

ไฟล์ robots.txt

เมื่อกำหนดค่าไฟล์ robots.txt บนเว็บไซต์ คุณจะสามารถระบุให้เว็บครอว์เลอร์ของ Meta ทราบว่าคุณต้องการให้เว็บครอว์เลอร์เหล่านี้โต้ตอบกับเว็บไซต์ของคุณอย่างไร หากต้องการบล็อกครอว์เลอร์เหล่านี้ ให้เพิ่ม "disallow" กับครอว์เลอร์ที่เกี่ยวข้องลงใน robots.txt ทั้งนี้ ครอว์เลอร์ Meta-ExternalFetcher อาจบายพาส robots.txt เนื่องจากครอว์เลอร์นี้จะดึงข้อมูลโดยที่ผู้ใช้เป็นผู้ส่งคำขอ และครอว์เลอร์ FacebookExternalHit ก็อาจบายพาส robots.txt เมื่อดำเนินการตรวจสอบความปลอดภัยหรือความสมบูรณ์ด้วยเช่นกัน

User-agent: meta-externalagent
Allow: /                    # Allow everything
Disallow: /private/         # Disallow a specific directory

IP ครอว์เลอร์

หากครอว์เลอร์มีที่อยู่ IP ต้นทางที่อยู่ในรายการที่สร้างขึ้นจากคำสั่งต่อไปนี้ แสดงว่าครอว์เลอร์ดังกล่าวมาจาก Meta

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route

โปรดทราบที่อยู่ IP เหล่านี้มักเปลี่ยนแปลงอยู่เสมอ โปรดดูข้อมูลเพิ่มเติมที่หน้าเว็บเกี่ยวกับการเพียร์หรือข้อมูลที่มีให้ดาวน์โหลด (ในรูปแบบ CSV) ที่เกี่ยวข้อง

ตัวอย่างการตอบกลับ

...
route:      69.63.176.0/21
route:      69.63.184.0/21
route:      66.220.144.0/20
route:      69.63.176.0/20
route6:     2620:0:1c00::/40
route6:     2a03:2880::/32
route6:     2a03:2880:fffe::/48
route6:     2a03:2880:ffff::/48
route6:     2620:0:1cff::/48
...

ติดต่อเรา

หากคุณมีคำถามหรือข้อกังวล โปรดติดต่อเราที่ webmasters@meta.com (เว็บมาสเตอร์ของ Meta)