Meta는 웹 크롤러(웹사이트 또는 웹 앱에서 콘텐츠를 가져오는 소프트웨어)를 여러 가지 목적으로 사용합니다. 이 페이지에는 Meta에서 가장 많이 사용되는 웹 크롤러를 식별하는 사용자 에이전트(UA) 문자열과 각 크롤러의 용도가 나와 있습니다. 또한 이 페이지에서는 크롤러가 사이트와 적절히 상호작용하도록 robots.txt 파일을 구성하는 방법에 대한 지침을 제공합니다.
FacebookExternalHit의 기본 목적은 Meta 앱 패밀리(예: Facebook, Instagram, Messenger) 중 하나에서 공유된 앱이나 웹사이트의 콘텐츠를 크롤링하는 것입니다. 이 링크는 복사하여 붙여 넣거나 Facebook 소셜 플러그인을 사용하여 공유되었을 수 있습니다. 이 크롤러는 제목, 설명, 썸네일 이미지 등과 같이 앱이나 웹사이트에 대한 정보를 수집, 캐싱 및 표시합니다.
로그 파일에 보이는 특정 UA 문자열은 다음 중 하나와 비슷합니다.
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0
FacebookExternalHit 크롤러는 보안 검사 또는 무결성 검사(예: 악성 코드 또는 악성 콘텐츠 검사)를 수행할 때 robots.txt를 우회할 수 있습니다.
Range
헤더에 지정된 바이트에 따라 모든 필수 속성을 포함한 응답을 생성 또는 반환하거나, Range
헤더 자체를 무시해야 합니다.크롤링 시 앱이나 웹사이트 콘텐츠를 사용할 수 없는 경우 공유 디버거 도구를 통해 URL을 전달하거나 공유 API를 사용하여 콘텐츠를 사용할 수 있게 되면 크롤링을 강제로 실행할 수 있습니다.
다음 코드로 크롤러 요청을 시뮬레이션할 수 있습니다.
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
Meta-ExternalAgent 크롤러는 AI 모델 훈련, 콘텐츠를 직접 인덱싱하여 제품 개선 등의 사용 사례를 목적으로 웹을 크롤링합니다.
로그 파일에 보이는 특정 UA 문자열은 다음 중 하나와 비슷합니다.
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1
이 크롤러는 향후 몇 주에 걸쳐 점진적으로 적용될 예정이며, 2024년 10월 31일에 적용이 완료됩니다.
Meta-ExternalFetcher 크롤러는 특정 제품 기능을 지원하기 위해 사용자가 시작한 개별 링크 가져오기를 수행합니다. 가져오기를 사용자가 시작하기 때문에 이 크롤러가 robots.txt 규칙을 우회할 수 있습니다.
로그 파일에 보이는 특정 UA 문자열은 다음 중 하나와 비슷합니다.
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1
웹사이트에서 robots.txt 파일을 구성하면 Meta 웹 크롤러가 어떤 식으로 사이트와 상호작용할지 선호하는 방법을 지정할 수 있습니다. 이들 크롤러를 차단하려면 관련 크롤러에 대한 차단을 robots.txt에 추가하세요. Meta-ExternalFetcher 크롤러는 사용자가 요청한 가져오기를 수행하기 때문에 robots.txt를 우회할 수 있습니다. 또한 FacebookExternalHit 크롤러는 보안 또는 무결성 검사를 수행할 때 robots.txt를 우회할 수 있습니다.
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
크롤러에 다음 명령으로 생성된 리스트에 있는 소스 IP 주소가 있는 경우, 이는 Meta에서 해당 크롤러를 제공하였음을 나타냅니다.
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
이러한 IP 주소는 수시로 변경됩니다. 자세한 내용은 피어링 웹페이지 또는 관련 다운로드 가능한 데이터(CSV 형식)를 참조하세요.
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
궁금한 점이나 우려 사항이 있을 경우 webmasters@meta.com(Meta 웹 마스터)에 문의해 주세요.