Bilanciamento del carico di archiviazione S3 per AI con Ceph RGW | Fornitore di appliance Ceph chiavi in mano | Ambedded

Ingress-based e LVS TUN sono due opzioni di bilanciamento del carico open-source per Ceph RGW. Ingress è ideale per ambienti cloud pubblici o multi-tenant, mentre LVS TUN si adatta a cluster privati di AI o HPC dove l'elevata capacità e la bassa latenza sono critiche. | Appliance di archiviazione Ceph per le imprese

Ingress-based e LVS TUN sono due opzioni di bilanciamento del carico open-source per Ceph RGW. Ingress è ideale per ambienti cloud pubblici o multi-tenant, mentre LVS TUN si adatta a cluster privati di AI o HPC dove l'elevata capacità e la bassa latenza sono critiche.

Bilanciamento del carico di archiviazione S3 per AI con Ceph RGW

I carichi di lavoro dell'IA richiedono uno storage S3 scalabile e ad alta capacità di throughput per i dati di addestramento, i modelli e i risultati dell'inferenza. Ceph RGW offre un backend affidabile e compatibile con S3, ma le prestazioni dipendono fortemente dal bilanciamento del carico. Per i cluster AI privati che utilizzano NVMe, LVS TUN offre una larghezza di banda quasi a velocità di linea e bassa latenza. Il UniVirStor di Ambedded supporta nativamente LVS TUN con configurazione automatizzata e design HA, rendendolo ideale per ambienti di archiviazione AI critici per le prestazioni.


I seguenti punti chiave riassumono la necessità e la giustificazione per ogni scelta progettuale.

Perché l'IA ha bisogno di uno storage scalabile ed efficiente

I carichi di lavoro moderni dell'IA richiedono sia un accesso rapido ai dati di addestramento che uno storage a lungo termine economico. Lo storage di oggetti S3, accessibile tramite NVMe o HDD, fornisce un backend scalabile per gestire grandi set di dati, checkpoint e modelli di inferenza.

  • NVMe ad alta velocità per set di dati di addestramento e accesso a bassa latenza
  • HDD economico per storage a lungo termine e archivi

Perché S3 è ideale per i carichi di lavoro dell'IA

Lo storage compatibile con S3 è ampiamente adottato nei pipeline di IA grazie alla sua API RESTful, scalabilità e integrazione con framework di ML. Supporta:

  • Storage di dataset e modelli
  • Checkpoint e versioni di artefatto
  • Servire modelli a endpoint di inferenza
  • Integrazione con Tensorflow, Pytorch, Mlflow

Perché Ceph RGW è una scelta forte per lo storage S3 dell'IA

Ceph RGW è un servizio di archiviazione oggetti open-source compatibile con S3 che offre alta disponibilità, forte coerenza e scalabilità a livello petabyte. Le caratteristiche principali includono:

  • Supporta la scalabilità su centinaia di nodi
  • Offre forte coerenza e codifica di cancellazione per la durabilità
  • Fornisce replicazione multi-sito integrata per casi d'uso in cloud ibrido
  • Può essere implementato su hardware commodity a basso costo

Questo rende Ceph RGW un potente backend per l'archiviazione oggetti focalizzata sull'IA sia a livello petabyte che in ambienti critici per le prestazioni.

La necessità di bilanciamento del carico ad alta disponibilità in Ceph RGW

Ceph RGW è senza stato, consentendo la scalabilità orizzontale. Tuttavia, per fornire:

  • Alta disponibilità
  • Supporto al failover
  • Scalabilità delle prestazioni

Hai bisogno di un bilanciatore di carico front-end che possa distribuire in modo affidabile ed efficiente le richieste S3 in arrivo (GET, PUT, DELETE) su più istanze RGW.

Senza un bilanciamento del carico adeguato, un singolo nodo RGW o server front-end potrebbe diventare un collo di bottiglia o un punto di guasto singolo.

Opzioni di bilanciamento del carico open-source per Ceph RGW

Due architetture principali sono comunemente utilizzate con bilanciatori di carico open-source:

  1. Basato su Ingress (HAProxy + Keepalived + Multi-VIP + DNS RR)
    • Supporto Layer 7 (HTTP)
    • Supporta la terminazione TLS, il routing multi-tenant basato su SNI
    • Adatto per distribuzioni su cloud pubblico o multi-tenant
    • Latenza leggermente più alta e richiede una messa a punto attenta per evitare colli di bottiglia
    • A scale di distribuzione più grandi, sono necessari più server hardware ad alte prestazioni per prevenire che HAProxy diventi un collo di bottiglia.
  2. LVS TUN Conntrackd ponderato i minimi collegamenti (WLC)
    • Incapsulamento IP-in-IP di livello 4
    • Alto throughput e basso utilizzo della CPU
    • Salta il bilanciatore per il traffico di ritorno
    • Migliore per reti interne private ad alta velocità

Perché LVS TUN è migliore per lo storage privato S3 dell'IA basato su NVMe

Per cluster di addestramento AI interni basati su NVMe, le prestazioni sono la massima priorità:

  • LVS TUN raggiunge una larghezza di banda quasi a linea
  • Non termina TLS, riducendo il sovraccarico della CPU
  • conntrackd garantisce un failover senza interruzioni per il cliente
  • Nessuna ispezione a livello di applicazione riduce la latenza

Pertanto, LVS TUN è più adatto di HAProxy per lo storage di oggetti AI interni ad alta velocità (ad es., pipeline di addestramento di cluster GPU).

Confronto tra LVS TUN e Ingress per applicazioni AI nel cloud privato e pubblico

CaratteristicaIngress (Haproxy)LVS Tun Conntrackd
Terminazione TLS✅ Sì❌ No
Routing multi-tenant✅ Sì❌ No
Throughput❌ Limitato✅ tasso di linea
Latenza❌ Maggiore✅ Minore
Controlli di salute✅ http❌ TCP/ICMP
Integrazione DNS✅ Richiesta❌ Non necessaria
Caso d'uso idealeCloud pubblicoAI/HPC privata

Come il UniVirStor di Ambedded supporta il bilanciatore di carico LVS per Ceph RGW

UniVirStor offre supporto nativo per la modalità LVS TUN, inclusi:

  • Impostazione automatizzata basata su Ansible
  • Alta disponibilità con keepalived e conntrackd
  • Hook di controllo della salute e metriche delle prestazioni
  • Routing ottimizzato per gateway S3 ad alta capacità

Questo rende UniVirStor ideale per i clienti che costruiscono laghi di dati AI o cluster AI basati su GPU che richiedono sia prestazioni che affidabilità da Ceph RGW.

Conclusione

Scegliere l'architettura del bilanciatore di carico giusta è essenziale per costruire un backend di archiviazione S3 robusto e scalabile per l'AI.

  • Per cluster AI privati, utilizzare LVS TUN + conntrackd per massimizzare le prestazioni.
  • Per i servizi rivolti al pubblico o S3 multi-tenant, utilizza HAProxy basato su Ingress per una migliore flessibilità e gestione del TLS.

Ambedded's UniVirStor ti aiuta a implementare entrambi gli scenari in modo efficiente con ottimizzazione di livello produzione e supporto per alta disponibilità.


Bilanciamento del carico di archiviazione S3 per AI con Ceph RGW | Soluzioni di archiviazione Ceph; Appliance e Software Ceph|Ambedded

Fondata a Taiwan nel 2013, Ambedded Technology Co., LTD. è un fornitore leader di soluzioni di archiviazione a blocchi, file e oggetti basate su storage definito dal software Ceph. Ci specializziamo nella fornitura di sistemi di archiviazione ad alta efficienza e scalabili per data center, imprese e istituzioni di ricerca. Le nostre offerte includono appliance di archiviazione basate su Ceph, integrazione di server, ottimizzazione dello storage e implementazione economica di Ceph con gestione semplificata.

Ambedded offre soluzioni di storage Ceph chiavi in mano e soluzioni software Ceph full-stack su misura per le organizzazioni B2B. La nostra piattaforma di archiviazione Ceph supporta l'archiviazione unificata di blocchi, file (NFS, SMB, CephFS) e oggetti compatibili con S3, riducendo il costo totale di proprietà (TCO) migliorando al contempo l'affidabilità e la scalabilità. Con la regolazione Ceph integrata, un'interfaccia web intuitiva e strumenti di automazione, aiutiamo i clienti a ottenere uno storage ad alte prestazioni per carichi di lavoro AI, HPC e cloud.

Con oltre 20 anni di esperienza nell'IT aziendale e più di un decennio nella distribuzione di storage Ceph, Ambedded ha realizzato oltre 200 progetti di successo a livello globale. Offriamo consulenza esperta, progettazione di cluster, supporto alla distribuzione e manutenzione continua. Il nostro impegno per un supporto professionale a Ceph e un'integrazione senza soluzione di continuità garantisce che i clienti ottengano il massimo dalla loro infrastruttura di storage basata su Ceph — su larga scala, con rapidità e nel rispetto del budget.