การโหลดบาลานซ์การจัดเก็บ S3 สำหรับ AI ด้วย Ceph RGW

Ingress-based และ LVS TUN เป็นตัวเลือกโหลดบาลานเซอร์แบบโอเพนซอร์สสองตัวสำหรับ Ceph RGW Ingress เหมาะสำหรับคลาวด์สาธารณะหรือสภาพแวดล้อมหลายผู้เช่า LVS TUN เหมาะสำหรับคลัสเตอร์ AI หรือ HPC ส่วนตัวที่ต้องการความเร็วสูงและความหน่วงต่ำ.

งาน AI ต้องการการจัดเก็บ S3 ที่สามารถปรับขนาดได้และมีความสามารถในการส่งข้อมูลสูงสำหรับข้อมูลการฝึกอบรม โมเดล และผลลัพธ์การอนุมาน. Ceph RGW มีแบ็คเอนด์ที่เชื่อถือได้และเข้ากันได้กับ S3 แต่ประสิทธิภาพขึ้นอยู่กับการกระจายโหลดอย่างมาก. สำหรับคลัสเตอร์ AI ส่วนตัวที่ใช้ NVMe, LVS TUN ให้แบนด์วิธใกล้เคียงกับอัตราไลน์และความหน่วงต่ำ. UniVirStor ของ Ambedded รองรับ LVS TUN โดยอัตโนมัติพร้อมการตั้งค่าและการออกแบบ HA ทำให้เหมาะสำหรับสภาพแวดล้อมการจัดเก็บข้อมูล AI ที่ต้องการประสิทธิภาพสูง.

ประเด็นสำคัญต่อไปนี้สรุปความจำเป็นและเหตุผลสำหรับการเลือกออกแบบแต่ละอย่าง.

ทำไม AI จึงต้องการการจัดเก็บข้อมูลที่สามารถขยายได้และมีประสิทธิภาพ
ทำไม S3 จึงเหมาะสำหรับงาน AI
ทำไม Ceph RGW จึงเหมาะสมอย่างยิ่งสำหรับการจัดเก็บข้อมูล AI S3
ความจำเป็นสำหรับการทำงานของโหลดบาลานเซอร์ที่มีความพร้อมสูงใน Ceph RGW
ตัวเลือกโหลดบาลานเซอร์แบบโอเพนซอร์สสำหรับ Ceph RGW
ทำไม LVS TUN ถึงดีกว่าสำหรับการจัดเก็บ AI S3 แบบส่วนตัวที่ใช้ NVMe
เปรียบเทียบ LVS TUN กับ Ingress สำหรับแอปพลิเคชัน AI คลาวด์ส่วนตัวและสาธารณะ
UniVirStor ของ Ambedded สนับสนุน LVS Load Balancer สำหรับ Ceph RGW
บทสรุป

ทำไม AI จึงต้องการการจัดเก็บข้อมูลที่สามารถขยายได้และมีประสิทธิภาพ

งาน AI สมัยใหม่ต้องการการเข้าถึงข้อมูลการฝึกอบรมที่รวดเร็วและการจัดเก็บระยะยาวที่คุ้มค่า S3 object storage ที่เข้าถึงได้ผ่าน NVMe หรือ HDD ให้การสนับสนุนที่สามารถขยายได้สำหรับการจัดการชุดข้อมูลขนาดใหญ่ จุดตรวจสอบ และโมเดลการอนุมาน

NVMe ความเร็วสูงสำหรับชุดข้อมูลการฝึกอบรมและการเข้าถึงที่มีความหน่วงต่ำ
HDD ที่คุ้มค่าสำหรับการจัดเก็บระยะยาวและการเก็บถาวร

ทำไม S3 จึงเหมาะสำหรับงาน AI

การจัดเก็บที่เข้ากันได้กับ S3 ได้รับการนำไปใช้กันอย่างแพร่หลายในกระบวนการ AI เนื่องจาก API แบบ RESTful ความสามารถในการขยาย และการรวมเข้ากับกรอบ ML มันสนับสนุน:

การจัดเก็บชุดข้อมูลและโมเดล
การตรวจสอบจุดและการจัดการเวอร์ชันของวัตถุ
การให้บริการโมเดลไปยังจุดสิ้นสุดการอนุมาน
การรวมเข้ากับ tensorflow, pytorch, mlflow

ทำไม Ceph RGW จึงเหมาะสมอย่างยิ่งสำหรับการจัดเก็บข้อมูล AI S3

Ceph RGW เป็นบริการจัดเก็บวัตถุที่เข้ากันได้กับ S3 แบบโอเพนซอร์ส ซึ่งมีความพร้อมใช้งานสูง ความสอดคล้องที่แข็งแกร่ง และสามารถขยายขนาดได้ถึงเพตาไบต์ ฟีเจอร์หลักประกอบด้วย:

รองรับการขยายขนาดข้ามโหนดหลายร้อยโหนด
มีความสอดคล้องที่แข็งแกร่งและการเข้ารหัสการลบเพื่อความทนทาน
มีการทำซ้ำหลายไซต์แบบรวมสำหรับกรณีการใช้งานคลาวด์แบบไฮบริด
สามารถติดตั้งบนฮาร์ดแวร์ที่มีต้นทุนต่ำ

นี่ทำให้ Ceph RGW เป็นแบ็กเอนด์ที่ทรงพลังสำหรับการจัดเก็บวัตถุที่มุ่งเน้น AI ทั้งในระดับเพตาไบต์และในสภาพแวดล้อมที่มีความสำคัญต่อประสิทธิภาพ

ความจำเป็นสำหรับการทำงานของโหลดบาลานเซอร์ที่มีความพร้อมสูงใน Ceph RGW

Ceph RGW ไม่มีสถานะ ทำให้สามารถขยายขนาดในแนวนอนได้ อย่างไรก็ตาม เพื่อให้บริการ:

ความพร้อมใช้งานสูง
การสนับสนุนการเปลี่ยนผ่าน
ความสามารถในการปรับขนาดประสิทธิภาพ

คุณต้องมีโหลดบาลานเซอร์ด้านหน้า ที่สามารถกระจายคำขอ S3 ที่เข้ามา (GET, PUT, DELETE) ได้อย่างเชื่อถือได้และมีประสิทธิภาพไปยังหลาย ๆ อินสแตนซ์ RGW.

หากไม่มีการโหลดบาลานซ์ที่เหมาะสม โหนด RGW หรือเซิร์ฟเวอร์ด้านหน้าตัวเดียวอาจกลายเป็นจุดคอขวดหรือจุดล้มเหลวเดียว.

ตัวเลือกโหลดบาลานเซอร์แบบโอเพนซอร์สสำหรับ Ceph RGW

สถาปัตยกรรมหลักสองแบบที่มักใช้กับโหลดบาลานเซอร์แบบโอเพนซอร์ส:

แบบ Ingress (HAProxy + Keepalived + Multi-VIP + DNS RR)
- การสนับสนุน Layer 7 (HTTP)
- สนับสนุนการสิ้นสุด TLS, การจัดเส้นทางหลายผู้เช่าแบบ SNI
- เหมาะสำหรับคลาวด์สาธารณะหรือการปรับใช้หลายผู้เช่า
- มีความหน่วงเล็กน้อยและต้องการการปรับแต่งอย่างระมัดระวังเพื่อหลีกเลี่ยงจุดคอขวด
- ในขนาดการปรับใช้ที่ใหญ่ขึ้น จำเป็นต้องมีเซิร์ฟเวอร์ฮาร์ดแวร์ประสิทธิภาพสูงหลายเครื่องเพื่อป้องกันไม่ให้ HAProxy กลายเป็นจุดคอขวด.
LVS TUN CONNTRACKD การเชื่อมต่ออย่างน้อยที่สุด (WLC)
- การสร้างอุโมงค์ IP-in-IP ชั้นที่ 4
- ความเร็วสูงและการใช้ CPU ต่ำ
- ข้ามตัวบาลานเซอร์สำหรับการจราจรกลับ
- ดีที่สุดสำหรับเครือข่ายภายในที่รวดเร็วและเป็นส่วนตัว

ทำไม LVS TUN ถึงดีกว่าสำหรับการจัดเก็บ AI S3 แบบส่วนตัวที่ใช้ NVMe

สำหรับคลัสเตอร์การฝึกอบรม AI ที่ใช้ NVMe ภายใน ประสิทธิภาพคือสิ่งสำคัญที่สุด:

LVS TUN สามารถทำความเร็วแบนด์วิดธ์ใกล้เคียงกับอัตราไลน์ได้
ไม่สิ้นสุด TLS ลดภาระ CPU
conntrackd รับประกันการเปลี่ยนผ่านที่ราบรื่นโดยไม่มีการหยุดชะงักของลูกค้า
การตรวจสอบที่ชั้นแอปพลิเคชันไม่มีผลต่อความหน่วง

ดังนั้น LVS TUN จึงเหมาะสมกว่ากับ HAProxy สำหรับการจัดเก็บวัตถุ AI ภายในที่ความเร็วสูง (เช่น ท่อการฝึกอบรมคลัสเตอร์ GPU).

เปรียบเทียบ LVS TUN กับ Ingress สำหรับแอปพลิเคชัน AI คลาวด์ส่วนตัวและสาธารณะ

ฟีเจอร์	Ingress (Haproxy)	LVS TUN + conntrackd
การสิ้นสุด TLS	✅ ใช่	❌ ไม่ใช่
การจัดเส้นทางหลายผู้เช่า	✅ ใช่	❌ ไม่ใช่
อัตราการส่งข้อมูล	❌ จำกัด	✅ อัตราไลน์
ความหน่วง	❌ สูงกว่า	✅ ต่ำกว่า
การตรวจสอบสุขภาพ	✅ http	❌ TCP/ICMP
การรวม DNS	✅ จำเป็น	❌ ไม่จำเป็น
กรณีการใช้งานที่เหมาะสม	คลาวด์สาธารณะ	AI/HPC ส่วนตัว

UniVirStor ของ Ambedded สนับสนุน LVS Load Balancer สำหรับ Ceph RGW

UniVirStor มีการสนับสนุนโหมด LVS TUN โดยตรง รวมถึง:

การตั้งค่าอัตโนมัติที่ใช้ Ansible
ความพร้อมใช้งานสูงด้วย keepalived และ conntrackd
การตรวจสอบสุขภาพและเมตริกประสิทธิภาพ
การจัดเส้นทางที่ปรับให้เหมาะสมสำหรับ S3 เกตเวย์ที่มีความเร็วสูง

นี่ทำให้ UniVirStor เหมาะสำหรับลูกค้าที่สร้าง AI data lakes หรือคลัสเตอร์ AI ที่ใช้ GPU ซึ่งต้องการทั้งประสิทธิภาพและความเชื่อถือได้จาก Ceph RGW.

บทสรุป

การเลือกสถาปัตยกรรมโหลดบาลานเซอร์ที่เหมาะสมเป็นสิ่งสำคัญสำหรับการสร้างแบ็กเอนด์ S3 ที่แข็งแกร่งและสามารถขยายได้สำหรับ AI.

สำหรับคลัสเตอร์ AI ส่วนตัว ให้ใช้ LVS TUN + conntrackd เพื่อเพิ่มประสิทธิภาพสูงสุด.
สำหรับบริการที่เปิดเผยต่อสาธารณะหรือ S3 แบบหลายผู้เช่า ให้ใช้ HAProxy แบบ Ingress เพื่อความยืดหยุ่นและการจัดการ TLS ที่ดีกว่า.

UniVirStor ของ Ambedded ช่วยให้คุณสามารถปรับใช้ทั้งสองสถานการณ์ได้อย่างมีประสิทธิภาพด้วยการปรับแต่งระดับการผลิตและการสนับสนุนความพร้อมใช้งานสูง.