การโหลดบาลานซ์การจัดเก็บ S3 สำหรับ AI ด้วย Ceph RGW | โซลูชันการจัดเก็บ Ceph และผู้ให้บริการบริการ ซอฟต์แวร์ Full-Stack สำหรับ Ceph.

Ingress-based และ LVS TUN เป็นตัวเลือกโหลดบาลานเซอร์แบบโอเพนซอร์สสองตัวสำหรับ Ceph RGW Ingress เหมาะสำหรับคลาวด์สาธารณะหรือสภาพแวดล้อมหลายผู้เช่า LVS TUN เหมาะสำหรับคลัสเตอร์ AI หรือ HPC ส่วนตัวที่ต้องการความเร็วสูงและความหน่วงต่ำ. | ผู้ให้บริการโซลูชันและบริการจัดเก็บ Ceph. ซอฟต์แวร์ Full-Stack สำหรับ Ceph.

Ingress-based และ LVS TUN เป็นตัวเลือกโหลดบาลานเซอร์แบบโอเพนซอร์สสองตัวสำหรับ Ceph RGW Ingress เหมาะสำหรับคลาวด์สาธารณะหรือสภาพแวดล้อมหลายผู้เช่า LVS TUN เหมาะสำหรับคลัสเตอร์ AI หรือ HPC ส่วนตัวที่ต้องการความเร็วสูงและความหน่วงต่ำ.

การโหลดบาลานซ์การจัดเก็บ S3 สำหรับ AI ด้วย Ceph RGW

งาน AI ต้องการการจัดเก็บ S3 ที่สามารถปรับขนาดได้และมีความสามารถในการส่งข้อมูลสูงสำหรับข้อมูลการฝึกอบรม โมเดล และผลลัพธ์การอนุมาน. Ceph RGW มีแบ็คเอนด์ที่เชื่อถือได้และเข้ากันได้กับ S3 แต่ประสิทธิภาพขึ้นอยู่กับการกระจายโหลดอย่างมาก. สำหรับคลัสเตอร์ AI ส่วนตัวที่ใช้ NVMe, LVS TUN ให้แบนด์วิธใกล้เคียงกับอัตราไลน์และความหน่วงต่ำ. UniVirStor ของ Ambedded รองรับ LVS TUN โดยอัตโนมัติพร้อมการตั้งค่าและการออกแบบ HA ทำให้เหมาะสำหรับสภาพแวดล้อมการจัดเก็บข้อมูล AI ที่ต้องการประสิทธิภาพสูง.


ประเด็นสำคัญต่อไปนี้สรุปความจำเป็นและเหตุผลสำหรับการเลือกออกแบบแต่ละอย่าง.

ทำไม AI จึงต้องการการจัดเก็บข้อมูลที่สามารถขยายได้และมีประสิทธิภาพ

งาน AI สมัยใหม่ต้องการการเข้าถึงข้อมูลการฝึกอบรมที่รวดเร็วและการจัดเก็บระยะยาวที่คุ้มค่า S3 object storage ที่เข้าถึงได้ผ่าน NVMe หรือ HDD ให้การสนับสนุนที่สามารถขยายได้สำหรับการจัดการชุดข้อมูลขนาดใหญ่ จุดตรวจสอบ และโมเดลการอนุมาน

  • NVMe ความเร็วสูงสำหรับชุดข้อมูลการฝึกอบรมและการเข้าถึงที่มีความหน่วงต่ำ
  • HDD ที่คุ้มค่าสำหรับการจัดเก็บระยะยาวและการเก็บถาวร

ทำไม S3 จึงเหมาะสำหรับงาน AI

การจัดเก็บที่เข้ากันได้กับ S3 ได้รับการนำไปใช้กันอย่างแพร่หลายในกระบวนการ AI เนื่องจาก API แบบ RESTful ความสามารถในการขยาย และการรวมเข้ากับกรอบ ML มันสนับสนุน:

  • การจัดเก็บชุดข้อมูลและโมเดล
  • การตรวจสอบจุดและการจัดการเวอร์ชันของวัตถุ
  • การให้บริการโมเดลไปยังจุดสิ้นสุดการอนุมาน
  • การรวมเข้ากับ tensorflow, pytorch, mlflow

ทำไม Ceph RGW จึงเหมาะสมอย่างยิ่งสำหรับการจัดเก็บข้อมูล AI S3

Ceph RGW เป็นบริการจัดเก็บวัตถุที่เข้ากันได้กับ S3 แบบโอเพนซอร์ส ซึ่งมีความพร้อมใช้งานสูง ความสอดคล้องที่แข็งแกร่ง และสามารถขยายขนาดได้ถึงเพตาไบต์ ฟีเจอร์หลักประกอบด้วย:

  • รองรับการขยายขนาดข้ามโหนดหลายร้อยโหนด
  • มีความสอดคล้องที่แข็งแกร่งและการเข้ารหัสการลบเพื่อความทนทาน
  • มีการทำซ้ำหลายไซต์แบบรวมสำหรับกรณีการใช้งานคลาวด์แบบไฮบริด
  • สามารถติดตั้งบนฮาร์ดแวร์ที่มีต้นทุนต่ำ

นี่ทำให้ Ceph RGW เป็นแบ็กเอนด์ที่ทรงพลังสำหรับการจัดเก็บวัตถุที่มุ่งเน้น AI ทั้งในระดับเพตาไบต์และในสภาพแวดล้อมที่มีความสำคัญต่อประสิทธิภาพ

ความจำเป็นสำหรับการทำงานของโหลดบาลานเซอร์ที่มีความพร้อมสูงใน Ceph RGW

Ceph RGW ไม่มีสถานะ ทำให้สามารถขยายขนาดในแนวนอนได้ อย่างไรก็ตาม เพื่อให้บริการ:

  • ความพร้อมใช้งานสูง
  • การสนับสนุนการเปลี่ยนผ่าน
  • ความสามารถในการปรับขนาดประสิทธิภาพ

คุณต้องมีโหลดบาลานเซอร์ด้านหน้า ที่สามารถกระจายคำขอ S3 ที่เข้ามา (GET, PUT, DELETE) ได้อย่างเชื่อถือได้และมีประสิทธิภาพไปยังหลาย ๆ อินสแตนซ์ RGW.

หากไม่มีการโหลดบาลานซ์ที่เหมาะสม โหนด RGW หรือเซิร์ฟเวอร์ด้านหน้าตัวเดียวอาจกลายเป็นจุดคอขวดหรือจุดล้มเหลวเดียว.

ตัวเลือกโหลดบาลานเซอร์แบบโอเพนซอร์สสำหรับ Ceph RGW

สถาปัตยกรรมหลักสองแบบที่มักใช้กับโหลดบาลานเซอร์แบบโอเพนซอร์ส:

  1. แบบ Ingress (HAProxy + Keepalived + Multi-VIP + DNS RR)
    • การสนับสนุน Layer 7 (HTTP)
    • สนับสนุนการสิ้นสุด TLS, การจัดเส้นทางหลายผู้เช่าแบบ SNI
    • เหมาะสำหรับคลาวด์สาธารณะหรือการปรับใช้หลายผู้เช่า
    • มีความหน่วงเล็กน้อยและต้องการการปรับแต่งอย่างระมัดระวังเพื่อหลีกเลี่ยงจุดคอขวด
    • ในขนาดการปรับใช้ที่ใหญ่ขึ้น จำเป็นต้องมีเซิร์ฟเวอร์ฮาร์ดแวร์ประสิทธิภาพสูงหลายเครื่องเพื่อป้องกันไม่ให้ HAProxy กลายเป็นจุดคอขวด.
  2. LVS TUN CONNTRACKD การเชื่อมต่ออย่างน้อยที่สุด (WLC)
    • การสร้างอุโมงค์ IP-in-IP ชั้นที่ 4
    • ความเร็วสูงและการใช้ CPU ต่ำ
    • ข้ามตัวบาลานเซอร์สำหรับการจราจรกลับ
    • ดีที่สุดสำหรับเครือข่ายภายในที่รวดเร็วและเป็นส่วนตัว

ทำไม LVS TUN ถึงดีกว่าสำหรับการจัดเก็บ AI S3 แบบส่วนตัวที่ใช้ NVMe

สำหรับคลัสเตอร์การฝึกอบรม AI ที่ใช้ NVMe ภายใน ประสิทธิภาพคือสิ่งสำคัญที่สุด:

  • LVS TUN สามารถทำความเร็วแบนด์วิดธ์ใกล้เคียงกับอัตราไลน์ได้
  • ไม่สิ้นสุด TLS ลดภาระ CPU
  • conntrackd รับประกันการเปลี่ยนผ่านที่ราบรื่นโดยไม่มีการหยุดชะงักของลูกค้า
  • การตรวจสอบที่ชั้นแอปพลิเคชันไม่มีผลต่อความหน่วง

ดังนั้น LVS TUN จึงเหมาะสมกว่ากับ HAProxy สำหรับการจัดเก็บวัตถุ AI ภายในที่ความเร็วสูง (เช่น ท่อการฝึกอบรมคลัสเตอร์ GPU).

เปรียบเทียบ LVS TUN กับ Ingress สำหรับแอปพลิเคชัน AI คลาวด์ส่วนตัวและสาธารณะ

ฟีเจอร์Ingress (Haproxy)LVS TUN + conntrackd
การสิ้นสุด TLS✅ ใช่❌ ไม่ใช่
การจัดเส้นทางหลายผู้เช่า✅ ใช่❌ ไม่ใช่
อัตราการส่งข้อมูล❌ จำกัด✅ อัตราไลน์
ความหน่วง❌ สูงกว่า✅ ต่ำกว่า
การตรวจสอบสุขภาพ✅ http❌ TCP/ICMP
การรวม DNS✅ จำเป็น❌ ไม่จำเป็น
กรณีการใช้งานที่เหมาะสมคลาวด์สาธารณะAI/HPC ส่วนตัว

UniVirStor ของ Ambedded สนับสนุน LVS Load Balancer สำหรับ Ceph RGW

UniVirStor มีการสนับสนุนโหมด LVS TUN โดยตรง รวมถึง:

  • การตั้งค่าอัตโนมัติที่ใช้ Ansible
  • ความพร้อมใช้งานสูงด้วย keepalived และ conntrackd
  • การตรวจสอบสุขภาพและเมตริกประสิทธิภาพ
  • การจัดเส้นทางที่ปรับให้เหมาะสมสำหรับ S3 เกตเวย์ที่มีความเร็วสูง

นี่ทำให้ UniVirStor เหมาะสำหรับลูกค้าที่สร้าง AI data lakes หรือคลัสเตอร์ AI ที่ใช้ GPU ซึ่งต้องการทั้งประสิทธิภาพและความเชื่อถือได้จาก Ceph RGW.

บทสรุป

การเลือกสถาปัตยกรรมโหลดบาลานเซอร์ที่เหมาะสมเป็นสิ่งสำคัญสำหรับการสร้างแบ็กเอนด์ S3 ที่แข็งแกร่งและสามารถขยายได้สำหรับ AI.

  • สำหรับคลัสเตอร์ AI ส่วนตัว ให้ใช้ LVS TUN + conntrackd เพื่อเพิ่มประสิทธิภาพสูงสุด.
  • สำหรับบริการที่เปิดเผยต่อสาธารณะหรือ S3 แบบหลายผู้เช่า ให้ใช้ HAProxy แบบ Ingress เพื่อความยืดหยุ่นและการจัดการ TLS ที่ดีกว่า.

UniVirStor ของ Ambedded ช่วยให้คุณสามารถปรับใช้ทั้งสองสถานการณ์ได้อย่างมีประสิทธิภาพด้วยการปรับแต่งระดับการผลิตและการสนับสนุนความพร้อมใช้งานสูง.


การโหลดบาลานซ์การจัดเก็บ S3 สำหรับ AI ด้วย Ceph RGW | ผู้ให้บริการโซลูชันและบริการจัดเก็บ Ceph. ซอฟต์แวร์ Full-Stack สำหรับ Ceph.

ก่อตั้งขึ้นในไต้หวันในปี 2013 Ambedded Technology Co., LTD. เป็นผู้ให้บริการโซลูชันการจัดเก็บข้อมูลแบบบล็อก ไฟล์ และวัตถุที่ใช้ซอฟต์แวร์ Ceph เรามีความเชี่ยวชาญในการนำเสนอระบบจัดเก็บข้อมูลที่มีประสิทธิภาพสูง ขยายขนาดได้ สำหรับศูนย์ข้อมูล บริษัท และสถาบันวิจัย ผลิตภัณฑ์ของเราประกอบด้วยอุปกรณ์จัดเก็บข้อมูลที่ใช้ Ceph การรวมเซิร์ฟเวอร์ การเพิ่มประสิทธิภาพการจัดเก็บข้อมูล และการติดตั้ง Ceph ที่คุ้มค่าพร้อมการจัดการที่ง่ายขึ้น.

Ambedded ให้บริการอุปกรณ์จัดเก็บข้อมูล Ceph แบบครบวงจรและโซลูชันซอฟต์แวร์ Ceph แบบเต็มรูปแบบที่ปรับแต่งสำหรับองค์กร B2B. แพลตฟอร์มการจัดเก็บ Ceph ของเราสนับสนุนการจัดเก็บแบบบล็อกแบบรวม, ไฟล์ (NFS, SMB, CephFS) และการจัดเก็บวัตถุที่เข้ากันได้กับ S3 ซึ่งช่วยลดต้นทุนรวมในการเป็นเจ้าของ (TCO) ในขณะที่ปรับปรุงความน่าเชื่อถือและความสามารถในการขยายตัว. ด้วยการปรับแต่ง Ceph ที่รวมเข้าด้วยกัน, UI เว็บที่ใช้งานง่าย, และเครื่องมืออัตโนมัติ, เราช่วยลูกค้าให้บรรลุการจัดเก็บข้อมูลที่มีประสิทธิภาพสูงสำหรับ AI, HPC, และงานโหลดบนคลาวด์.

ด้วยประสบการณ์มากกว่า 20 ปีในด้าน IT ขององค์กรและมากกว่าทศวรรษในการติดตั้ง Ceph storage, Ambedded ได้ส่งมอบโครงการที่ประสบความสำเร็จมากกว่า 200 โครงการทั่วโลก เรามีบริการให้คำปรึกษาผู้เชี่ยวชาญ, การออกแบบคลัสเตอร์, การสนับสนุนการติดตั้ง, และการบำรุงรักษาอย่างต่อเนื่อง ความมุ่งมั่นของเราในการสนับสนุน Ceph อย่างมืออาชีพและการรวมระบบที่ไร้รอยต่อทำให้ลูกค้าได้รับประโยชน์สูงสุดจากโครงสร้างพื้นฐานการจัดเก็บข้อมูลที่ใช้ Ceph — ในระดับที่ขยายได้, ด้วยความรวดเร็ว, และภายในงบประมาณ.