
以 Ceph RGW 實現面向 AI 的 S3 儲存負載平衡
AI 工作負載需要可擴充、高吞吐量的 S3 儲存,來滿足訓練資料、模型與推論輸出的需求。Ceph RGW 提供一個可靠與 S3 相容的後端,但其效能高度取決於負載平衡。對使用 NVMe 的私有 AI 叢集而言,LVS TUN 可提供接近線速的頻寬與低延遲。Ambedded 的 UniVirStor 軟體原生支援具備自動化設定與高可用性(HA)設計的 LVS TUN,使其成為效能至關重要的 AI 儲存環境的理想選擇。
以下重點總結了每個設計選擇的必要性與其理由。
- 為什麼 AI 需要可擴展且高效的儲存?
- 為什麼 S3 是 AI 工作負載的理想選擇?
- 為什麼 Ceph RGW 非常適用於 AI S3 儲存?
- Ceph RGW 為何需要高可用的負載平衡?
- 適用於 Ceph RGW 的開源負載平衡器選項
- 為什麼 LVS TUN 更適合以 NVMe 為基礎的私有 AI S3 儲存?
- LVS TUN 與 Ingress 在私有雲與公有雲 AI 應用中的比較
- Ambedded 的 UniVirStor 如何支援適用於 Ceph RGW 的 LVS 負載平衡器?
- 結論
為什麼 AI 需要可擴展且高效的儲存?
現代 AI 工作負載既需要快速存取訓練資料,也需要具備成本效益的長期儲存方案。透過 NVMe 或 HDD 存取的 S3 物件儲存,為管理海量資料集、檢查點 (checkpoints) 與推論模型提供了可擴展的後端。
- 高傳輸速度的 NVMe 適用於訓練資料集和低延遲存取
- 具成本效益的 HDD : 適合長期儲存與歸檔。
為什麼 S3 是 AI 工作負載的理想選擇?
由於其 RESTful API、可擴展性以及與機器學習 (ML) 框架的無縫整合,與 S3 相容的儲存在 AI 工作流程中被廣泛採用。它支援 :
- 資料集與模型儲存
- 檢查點與產物版本控管 (artifact versioning)
- 為推論端點提供模型服務
- 與 TensorFlow、PyTorch、MLFlow 整合
為什麼 Ceph RGW 非常適用於 AI S3 儲存?
Ceph RGW 是一個開源且與 S3 相容的物件儲存服務,它提供了高可用性、強一致性以及 PB 級別的可擴展性。其主要功能包括 :
- 支援橫跨數百個節點的可擴展性
- 提供強一致性與糾刪碼,以確保資料持久性
- 提供整合式多站點複寫,適用於混合雲應用情境
- 可部署於具成本效益的商用現成硬體上
這使 Ceph RGW 成為面向 AI 的物件儲存的強大後端,既能支援 PB 級擴展,也能滿足對效能極為嚴苛的環境需求。
Ceph RGW 為何需要高可用的負載平衡?
Ceph RGW 是無狀態的,這使其能夠進行橫向擴展。然而,為了提供 :
- 高可用性
- 故障轉移支援
- 效能可擴展性
您需要一個前端負載平衡器,能夠可靠且高效地將傳入的 S3 請求 (GET、PUT、DELETE) 分配至多個 RGW 執行個體。
如果缺乏妥善的負載平衡,單一的 RGW 節點或前端伺服器可能成為效能瓶頸或單點故障。
適用於 Ceph RGW 的開源負載平衡器選項
與開源負載平衡器搭配時,常見的兩種主要架構 :
- Ingress-Based (HAProxy + Keepalived + Multi-VIP + DNS RR)
- Layer 7 (HTTP) 支援
- 支援 TLS 終止與基於 SNI 的多租戶路由
- 適用於公有雲或多租戶部署
- 延遲略高,且需要謹慎調校以避免瓶頸。
- 在更大規模的部署中,需採用多台高效能硬體伺服器,避免 HAProxy 成為瓶頸。
- LVS TUN + conntrackd + 加權最少連線 (WLC)
- Layer 4 IP-in-IP tunneling
- 高吞吐量與低 CPU 使用率
- 迴避負載平衡器以進行回傳流量
- 最適用於私有、高速的內部網路
為什麼 LVS TUN 更適合以 NVMe 為基礎的私有 AI S3 儲存?
對於內部、以 NVMe 為基礎的 AI 訓練叢集,效能是首要考量 :
- LVS TUN 可達到接近線速的頻寬。
- 不進行 TLS 終止,降低 CPU 負擔。
- conntrackd 確保了無縫故障轉移,不會中斷客戶端連線。
- 不進行應用層檢查,可降低延遲。
因此,對於高速的內部 AI 物件儲存 (例如 GPU 叢集訓練流程) 而言,LVS TUN 是比 HAProxy 更適合的選擇。
LVS TUN 與 Ingress 在私有雲與公有雲 AI 應用中的比較
功能 | Ingress (HAProxy) | LVS TUN + conntrackd |
---|---|---|
TLS termination | ✅ Yes | ❌ No |
多租戶路由 | ✅ Yes | ❌ No |
吞吐量 | ❌ 有限的 | ✅ 線路速率 |
延遲 | ❌ 較高 | ✅ 較低 |
健康檢查 | ✅ HTTP | ❌ TCP/ICMP |
DNS 整合 | ✅ 需要 | ❌ 不需要 |
理想使用情境 | 公有雲 | 私有 AI / HPC |
Ambedded 的 UniVirStor 如何支援適用於 Ceph RGW 的 LVS 負載平衡器?
UniVirStor 提供對 LVS TUN 模式的原生支援,包括 :
- 基於 Ansible 的自動化部署
- 透過 Keepalived 與 conntrackd 實現高可用性
- 健康檢查掛勾與效能指標
- 針對高吞吐量 S3 閘道的優化路由
這使 UniVirStor 成為建置 AI 數據湖或以 GPU 為基礎的 AI 叢集、且對 Ceph RGW 同時要求高效能與高可靠性的客戶的理想選擇。
結論
選擇正確的負載平衡器架構對於為 AI 建立一個強大且可擴展的 S3 儲存後端至關重要。
- 對於私有 AI 叢集,採用 LVS TUN + conntrackd 以最大化效能。
- 對於面向大眾的服務或多租戶 S3 ,請使用以 Ingress 為基礎的 HAProxy ,以獲得更高的彈性與更完善的 TLS 處理。
Ambedded 的 UniVirStor 可協助你高效部署這兩種情境,並提供生產等級的調校與高可用性支援。