การแจ้งเตือนการเฝ้าสังเกต

เอกสารนี้มีคำอธิบายและรายการการดำเนินการสำหรับการแจ้งเตือนที่กำหนดไว้ใน แดชบอร์ดการเฝ้าสังเกต ถ้าคุณไม่สามารถแก้ไขปัญหา คุณสามารถส่งตั๋วความช่วยเหลือโดยตรง โดยแนบภาพหน้าจอและบันทึกแดชบอร์ดมาด้วย

เอกสารนี้อธิบายถึง:

การแจ้งเตือนแดชบอร์ดลูกค้าธุรกิจ

การแจ้งเตือนความล้มเหลวที่สำคัญของ API

คำอธิบาย

อัตราความสำเร็จของ API contacts หรือ API messages ต่ำ

รายการดำเนินการ

  1. ค้นหารหัสข้อผิดพลาด API ได้ในแผงข้อมูล "คำขอ/วินาที" สำหรับ API contacts หรือ messages
  2. โปรดดูเอกสารเกี่ยวกับรหัสข้อผิดพลาด
  3. ตรวจสอบแผงข้อมูล "คำขอ CoreApp/วินาที" และ "คำถาม DB/วินาที" เพื่อดูว่าความล้มเหลวเกี่ยวข้องกับความล้มเหลวของ Coreapp หรือความล้มเหลวของฐานข้อมูล
  4. ตรวจสอบแดชบอร์ดภาพรวม CoreApp (กรอกตัวแปรโหนด พร้อมด้วย Coreapp ที่มีปัญหา) และแดชบอร์ดภาพรวม MySQL สำหรับข้อมูลเพิ่มเติม

การแจ้งเตือนว่าไม่มีสถิติ

คำอธิบาย

ขาดข้อมูลสำหรับการเฝ้าสังเกต

รายการดำเนินการ

  1. เข้าถึงเป้าหมาย Prometheus ปลายทาง (เช่น http://your-monitoring-hostname:9090/targets) เพื่อตรวจสอบยืนยันว่าปลายทาง webstats และ appstats endpoint มีสถานะเป็น UP
  2. ถ้า Prometheus ไม่สามารถเชื่อมต่อกับ Webapp ได้ ให้เรียก WADebug เพื่อแก้ไขข้อผิดพลาด
  3. ถ้าคอนเทนเนอร์ Webapp และ Coreapp ทำงานอยู่ ให้ตรวจสอบว่า WA_WEB_ENDPOINT, WA_WEB_USERNAME, และ WA_WEB_PASSWORD ในไฟล์ .env ถูกต้องหรือไม่

การแจ้งเตือนแดชบอร์ดภาพรวม CoreApp

การแจ้งเตือนการเรียกกลับล้มเหลว

คำอธิบาย

อัตราความสำเร็จของการส่งการเรียกกลับไปยัง Webhooks URL ที่ระบุไว้ในการตั้งค่าแอพพลิเคชั่นต่ำ

รายการดำเนินการ

  1. ค้นหารหัสการตอบกลับการเรียกกลับได้จากแผงข้อมูล "คำขอการเรียกกลับ/วินาที"
  2. Grep บันทึก Coreapp สำหรับข้อผิดพลาดของเครือข่ายเพื่อดูข้อความข้อผิดพลาดที่เกิดขึ้นจริง
  3. ซึ่งอ้างอิงตามรหัสและข้อความข้อผิดพลาด ดังนี้:
    • ตรวจสอบยืนยันว่า Coreapp สามารถเข้าถึง Webhooks ของคุณเข้าได้หรือไม่
    • ตรวจสอบยืนยันว่า Webhooks ของคุณส่งการตอบกลับ HTTPS 200 OK หลังจากการแจ้งเตือนการดำเนินการหรือไม่
    • ตรวจสอบยืนยันว่า Webhooks ใช้เวลานานในการตอบกลับหรือไม่

การแจ้งเตือนข้อความขาออกที่รอดำเนินการมีปริมาณมาก

คำอธิบาย

คิวของข้อความขาออกเกือบเต็มแล้ว คำขอ API จะล้มเหลวด้วย System overloaded error (1016) เร็วๆ นี้

รายการดำเนินการ

  1. ตรวจสอบแถวของแผงข้อมูล "ข้อความขาออก" เพื่อหาปริมาณการใช้งานที่เพิ่มขึ้นมากผิดปกติ ถ้ามีปริมาณการใช้งานเพิ่มขึ้นมากผิดปกติ ให้พยายามลดยอดการใช้งานลงจนกว่าการแจ้งเตือนนี้จะหายไป
  2. ตรวจสอบยืนยันว่าฐานข้อมูลของคุณเกิดความล้มเหลวกับภูมิภาคอื่นเมื่อเร็วๆ นี้หรือไม่ WhatsApp Business API อาจไม่สามารถติดตามยอดการใช้งานได้เนื่องจากมีเวลาแฝงแบบข้ามภูมิภาคอยู่
  3. ถ้าคิวของข้อความขาออกยาวขึ้นเรื่อยๆ คุณควรรายงานจุดบกพร่องนี้ให้เราทราบ
  4. ถ้าไคลเอ็นต์ WhatsApp Business API เดียวไม่สามารถตอบสนองความต้องการยอดการใช้งานของคุณได้ ให้ตั้งค่าการเชื่อมต่อหลายจุด เพื่อรองรับยอดการใช้งานได้มากขึ้น

การแจ้งเตือนคิวการเรียกกลับมีปริมาณมาก

คำอธิบาย

คิวการเรียกกลับเกือบเต็มแล้ว คำขอ API จะล้มเหลวด้วย System overloaded error (1016) เร็วๆ นี้

รายการดำเนินการ

  1. ตรวจสอบแผงข้อมูล "อัตราข้อผิดพลาดการเรียกกลับ" เพื่อตรวจสอบยืนยันว่าการเรียกกลับดำเนินการได้สำเร็จ
  2. ลดเวลาในการดำเนินการการเรียกกลับสำหรับ Webhooks ของคุณ
  3. กำหนดค่า max_concurrent_requests ในการตั้งค่าแอพพลิเคชั่น เพื่อเพิ่มจำนวนคำขอการเรียกกลับบนเครื่อง (ค่าเริ่มต้นคือ 6)

การแจ้งเตือนแดชบอร์ดภาพรวมเครื่อง

การแจ้งเตือนการใช้งาน CPU ปริมาณมาก

คำอธิบาย

การใช้งาน CPU ของเครื่องมากเกินไป

รายการดำเนินการ

  1. ตรวจสอบแผงข้อมูล "% การใช้งาน CPU โดยละเอียด" เพื่อรับข้อมูลการกระจายการใช้งาน
  2. เรียก atop หรือ top บนเครื่อง เพื่อค้นหากระบวนการที่ใช้ CPU มากที่สุด นอกจากนี้ อาจควรตรวจสอบแดชบอร์ดภาพรวม Container เพื่อดูเกณฑ์ชี้วัด CPU ระดับคอนเทนเนอร์ โดยการใส่ตัวแปรเครื่อง พร้อมกับเครื่องที่มีปัญหา
  3. ถ้า Webapp, Coreapp หรือฐานข้อมูลใช้พื้นที่ส่วนใหญ่ของ CPU ให้หาเครื่องที่มีประสิทธิภาพมากกว่านี้มารองรับ สำหรับโหมดความพร้อมใช้งานสูง/การเชื่อมต่อหลายจุด ถ้าคอนเทนเนอร์ Webapp และ Coreapp ทำงานอยู่บนเครื่องเดียวกัน ให้ลองย้ายไปอยู่คนละเครื่อง

การแจ้งเตือนการใช้งานดิสก์ปริมาณมาก

คำอธิบาย

การใช้งานดิสก์ของอุปกรณ์บนเครื่องมากเกินไป

รายการดำเนินการ

  1. เรียกคำสั่ง du และ df บนอุปกรณ์เพื่อวิเคราะห์การใช้งานดิสก์ นอกจากนี้ อาจควรตรวจสอบแดชบอร์ดภาพรวม Container เพื่อดูเกณฑ์ชี้วัดดิสก์ระดับคอนเทนเนอร์ โดยการใส่ตัวแปรเครื่องพร้อมกับเครื่องที่มีปัญหา
  2. ลบข้อมูลที่กินพื้นที่ที่ไม่จำเป็นบนอุปกรณ์ออก ถ้ามีไฟล์สื่อ หรือบันทึก ให้ตั้งค่าคำสั่งให้ทำงานตามเวลาที่กำหนดให้ลบข้อมูลเก่าออกเป็นระยะ

การแจ้งเตือนการใช้งานหน่วยความจำปริมาณมาก

คำอธิบาย

การใช้งานหน่วยความจำของเครื่องมากเกินไป

รายการดำเนินการ

  1. ตรวจสอบแผงข้อมูล "รายละเอียดหน่วยความจำ" เพื่อรับข้อมูลการกระจายการใช้งาน
  2. เรียก atop หรือ top บนเครื่องเพื่อหากระบวนการที่ใช้หน่วยความจำมากที่สุด นอกจากนี้ อาจควรตรวจสอบแดชบอร์ดภาพรวม Container เพื่อดูเกณฑ์ชี้วัดหน่วยความจำระดับคอนเทนเนอร์ โดยการใส่ตัวแปรเครื่องพร้อมกับเครื่องที่มีปัญหา
  3. ถ้า Webapp, Coreapp, หรือฐานข้อมูลใช้พื้นที่ส่วนใหญ่ของหน่วยความจำ ให้หาเครื่องที่มีประสิทธิภาพมากกว่านี้มารองรับ
  4. ถ้าการใช้งานหน่วยความจำของ Coreapp เพิ่มขึ้นเรื่อยๆ อาจเกิดจากหน่วยความจำรั่ว คุณควรรายงานจุดบกพร่องนี้ให้เราทราบ รีสตาร์ท Coreapp เพื่อขจัดปัญหาของหน่วยความจำ

การแจ้งเตือนการเปิดไฟล์มากเกินไป

คำอธิบาย

ตัวอธิบายไฟล์ของเครื่องใกล้จะหมดเร็วๆ นี้

รายการดำเนินการ

  1. ตรวจสอบแผงข้อมูล "ตัวอธิบายไฟล์" เพื่อดูขีดจำกัดการเปิดไฟล์
  2. กำหนดค่าให้สูงขึ้น (เช่น fs.file-max = 600000) ในไฟล์ /etc/sysctl.conf เพื่อเพิ่มขีดจำกัดการเปิดไฟล์
  3. เรียก sysctl -p เพื่อใช้การเปลี่ยนแปลง

การแจ้งเตือนแดชบอร์ดภาพรวม MySQL

การแจ้งเตือนการเชื่อมต่อ DB มากเกินไป

คำอธิบาย

การใช้งานพูลการเชื่อมต่อ DB มีปริมาณมาก คำขอ DB ใหม่จะล้มเหลวด้วยข้อผิดพลาด Too many connections เร็วๆ นี้

รายการดำเนินการ

  1. ตรวจสอบแผงข้อมูล "การเชื่อมต่อ" เพื่อดูขีดจำกัดการเชื่อมต่อปัจจุบัน
  2. เพิ่มตัวแปร max_connections ระบบ MySQL (ค่าเริ่มต้นคือ 151) ใน my.cnf และรีสตาร์ทเซิร์ฟเวอร์ MySQL ดูข้อมูลเพิ่มเติมได้ที่ เอกสารเกี่ยวกับตัวแปรระบบเซิร์ฟเวอร์ MySQL
  3. สำหรับ AWS RDS คุณต้องย้ายไปยังอินสแตนซ์ RDS ที่มีขนาดใหญ่ขึ้น ดูคำแนะนำได้ที่หัวข้อ การปรับขนาดอินสแตนซ์ RDS ของ รายละเอียดการนำ AWS ไปใช้

การแจ้งเตือนแดชบอร์ดภาพรวม WebApp

การแจ้งเตือนการเชื่อมต่อกับเซิร์ฟเวอร์ HTTP ที่รอดำเนินการมีปริมาณมาก

คำอธิบาย

คิวการเชื่อมต่อกับเซิร์ฟเวอร์ HTTP ภายใน Webapp เกือบเต็มแล้ว

รายการดำเนินการ

  1. ตรวจสอบแดชบอร์ด "ลูกค้าธุรกิจ" เพื่อดูปริมาณการใช้งาน API ที่ผิดปกติหรือเวลาแฝงของคำขอ API ปริมาณมาก
  2. ตรวจสอบบันทึก Webapp เพื่อดูข้อมูลเพิ่มเติม
  3. ตรวจสอบว่าการใช้งาน CPU ของ Webapp สูงหรือไม่ และถ้าสูง ให้หาเครื่องที่มีประสิทธิภาพมากกว่านี้ให้กับ Webapp