以 Ceph RGW 實現面向 AI 的 S3 儲存負載平衡

基於 Ingress 的負載平衡器與 LVS TUN 是 Ceph RGW 的兩種開源負載平衡選項。Ingress 理想上適用於公有雲或多租戶環境,而 LVS TUN 則適合私有 AI 或高效能運算 (HPC) 叢集,因為在這些環境中,高吞吐量與低延遲至關重要。

基於 Ingress 的負載平衡器與 LVS TUN 是 Ceph RGW 的兩種開源負載平衡選項。Ingress 理想上適用於公有雲或多租戶環境,而 LVS TUN 則適合私有 AI 或高效能運算 (HPC) 叢集,因為在這些環境中,高吞吐量與低延遲至關重要。

以 Ceph RGW 實現面向 AI 的 S3 儲存負載平衡

AI 工作負載需要可擴充、高吞吐量的 S3 儲存,來滿足訓練資料、模型與推論輸出的需求。Ceph RGW 提供一個可靠與 S3 相容的後端,但其效能高度取決於負載平衡。對使用 NVMe 的私有 AI 叢集而言,LVS TUN 可提供接近線速的頻寬與低延遲。Ambedded 的 UniVirStor 軟體原生支援具備自動化設定與高可用性(HA)設計的 LVS TUN,使其成為效能至關重要的 AI 儲存環境的理想選擇。


以下重點總結了每個設計選擇的必要性與其理由。

為什麼 AI 需要可擴展且高效的儲存?

現代 AI 工作負載既需要快速存取訓練資料,也需要具備成本效益的長期儲存方案。透過 NVMe 或 HDD 存取的 S3 物件儲存,為管理海量資料集、檢查點 (checkpoints) 與推論模型提供了可擴展的後端。

  • 高傳輸速度的 NVMe 適用於訓練資料集和低延遲存取
  • 具成本效益的 HDD : 適合長期儲存與歸檔。

為什麼 S3 是 AI 工作負載的理想選擇?

由於其 RESTful API、可擴展性以及與機器學習 (ML) 框架的無縫整合,與 S3 相容的儲存在 AI 工作流程中被廣泛採用。它支援 :

  • 資料集與模型儲存
  • 檢查點與產物版本控管 (artifact versioning)
  • 為推論端點提供模型服務
  • 與 TensorFlow、PyTorch、MLFlow 整合

為什麼 Ceph RGW 非常適用於 AI S3 儲存?

Ceph RGW 是一個開源且與 S3 相容的物件儲存服務,它提供了高可用性、強一致性以及 PB 級別的可擴展性。其主要功能包括 :

  • 支援橫跨數百個節點的可擴展性
  • 提供強一致性與糾刪碼,以確保資料持久性
  • 提供整合式多站點複寫,適用於混合雲應用情境
  • 可部署於具成本效益的商用現成硬體上

這使 Ceph RGW 成為面向 AI 的物件儲存的強大後端,既能支援 PB 級擴展,也能滿足對效能極為嚴苛的環境需求。

Ceph RGW 為何需要高可用的負載平衡?

Ceph RGW 是無狀態的,這使其能夠進行橫向擴展。然而,為了提供 :

  • 高可用性
  • 故障轉移支援
  • 效能可擴展性

您需要一個前端負載平衡器,能夠可靠且高效地將傳入的 S3 請求 (GET、PUT、DELETE) 分配至多個 RGW 執行個體。

如果缺乏妥善的負載平衡,單一的 RGW 節點或前端伺服器可能成為效能瓶頸或單點故障。

適用於 Ceph RGW 的開源負載平衡器選項

與開源負載平衡器搭配時,常見的兩種主要架構 :

  1. Ingress-Based (HAProxy + Keepalived + Multi-VIP + DNS RR)
    • Layer 7 (HTTP) 支援
    • 支援 TLS 終止與基於 SNI 的多租戶路由
    • 適用於公有雲或多租戶部署
    • 延遲略高,且需要謹慎調校以避免瓶頸。
    • 在更大規模的部署中,需採用多台高效能硬體伺服器,避免 HAProxy 成為瓶頸。
  2. LVS TUN + conntrackd + 加權最少連線 (WLC)
    • Layer 4 IP-in-IP tunneling
    • 高吞吐量與低 CPU 使用率
    • 迴避負載平衡器以進行回傳流量
    • 最適用於私有、高速的內部網路

為什麼 LVS TUN 更適合以 NVMe 為基礎的私有 AI S3 儲存?

對於內部、以 NVMe 為基礎的 AI 訓練叢集,效能是首要考量 :

  • LVS TUN 可達到接近線速的頻寬。
  • 不進行 TLS 終止,降低 CPU 負擔。
  • conntrackd 確保了無縫故障轉移,不會中斷客戶端連線。
  • 不進行應用層檢查,可降低延遲。

因此,對於高速的內部 AI 物件儲存 (例如 GPU 叢集訓練流程) 而言,LVS TUN 是比 HAProxy 更適合的選擇。

LVS TUN 與 Ingress 在私有雲與公有雲 AI 應用中的比較

功能 Ingress (HAProxy) LVS TUN + conntrackd
TLS termination ✅ Yes ❌ No
多租戶路由 ✅ Yes ❌ No
吞吐量 ❌ 有限的 ✅ 線路速率
延遲 ❌ 較高 ✅ 較低
健康檢查 ✅ HTTP ❌ TCP/ICMP
DNS 整合 ✅ 需要 ❌ 不需要
理想使用情境 公有雲 私有 AI / HPC

Ambedded 的 UniVirStor 如何支援適用於 Ceph RGW 的 LVS 負載平衡器?

UniVirStor 提供對 LVS TUN 模式的原生支援,包括 :

  • 基於 Ansible 的自動化部署
  • 透過 Keepalived 與 conntrackd 實現高可用性
  • 健康檢查掛勾與效能指標
  • 針對高吞吐量 S3 閘道的優化路由

這使 UniVirStor 成為建置 AI 數據湖或以 GPU 為基礎的 AI 叢集、且對 Ceph RGW 同時要求高效能與高可靠性的客戶的理想選擇。

結論

選擇正確的負載平衡器架構對於為 AI 建立一個強大且可擴展的 S3 儲存後端至關重要。

  • 對於私有 AI 叢集,採用 LVS TUN + conntrackd 以最大化效能。
  • 對於面向大眾的服務或多租戶 S3 ,請使用以 Ingress 為基礎的 HAProxy ,以獲得更高的彈性與更完善的 TLS 處理。

Ambedded 的 UniVirStor 可協助你高效部署這兩種情境,並提供生產等級的調校與高可用性支援。


Ambedded公司簡介

晨宇創新股份有限公司是台灣一家專業在Ceph 儲存|可擴展的 軟體定義儲存 ( SDS ) 供應商。成立於西元2013年並擁有超過20年的Ceph 儲存設備、Ceph 一站式解決方案、Ceph 專業服務、Ceph 緊急支援、適用於通用伺服器的 Ceph 儲存軟體解決方案套件、S3 物件儲存製造經驗, Ambedded總是可以達到客戶各種品質要求。