Bilanciamento del carico di archiviazione S3 per AI con Ceph RGW | Fornitore di soluzioni e servizi di archiviazione Ceph. Software Full-Stack per Ceph.

Ingress-based e LVS TUN sono due opzioni di bilanciamento del carico open-source per Ceph RGW. Ingress è ideale per ambienti cloud pubblici o multi-tenant, mentre LVS TUN si adatta a cluster privati di AI o HPC dove l'elevata capacità e la bassa latenza sono critiche. | Fornitore di soluzioni e servizi di archiviazione Ceph. Software Full-Stack per Ceph.

Ingress-based e LVS TUN sono due opzioni di bilanciamento del carico open-source per Ceph RGW. Ingress è ideale per ambienti cloud pubblici o multi-tenant, mentre LVS TUN si adatta a cluster privati di AI o HPC dove l'elevata capacità e la bassa latenza sono critiche.

Bilanciamento del carico di archiviazione S3 per AI con Ceph RGW

I carichi di lavoro dell'IA richiedono uno storage S3 scalabile e ad alta capacità di throughput per i dati di addestramento, i modelli e i risultati dell'inferenza. Ceph RGW offre un backend affidabile e compatibile con S3, ma le prestazioni dipendono fortemente dal bilanciamento del carico. Per i cluster AI privati che utilizzano NVMe, LVS TUN offre una larghezza di banda quasi a velocità di linea e bassa latenza. Il UniVirStor di Ambedded supporta nativamente LVS TUN con configurazione automatizzata e design HA, rendendolo ideale per ambienti di archiviazione AI critici per le prestazioni.


I seguenti punti chiave riassumono la necessità e la giustificazione per ciascuna scelta di design.

Perché l'IA ha bisogno di uno storage scalabile ed efficiente

I carichi di lavoro moderni dell'IA richiedono sia un accesso rapido ai dati di addestramento che uno storage a lungo termine economico. Lo storage di oggetti S3, accessibile tramite NVMe o HDD, fornisce un backend scalabile per gestire grandi set di dati, checkpoint e modelli di inferenza.

  • NVMe ad alta velocità per set di dati di addestramento e accesso a bassa latenza
  • HDD economico per storage a lungo termine e archivi

Perché S3 è ideale per i carichi di lavoro dell'IA

Lo storage compatibile con S3 è ampiamente adottato nei pipeline dell'IA grazie alla sua API RESTful, scalabilità e integrazione con framework ML. Supporta:

  • Storage di dataset e modelli
  • Checkpoint e controllo delle versioni degli artefatti
  • Servire modelli a endpoint di inferenza
  • Integrazione con TensorFlow, PyTorch, MLFlow

Perché Ceph RGW è una scelta forte per lo storage S3 dell'IA

Ceph RGW è un servizio di storage di oggetti open-source compatibile con S3 che offre alta disponibilità, forte coerenza e scalabilità a livello petabyte. Le caratteristiche principali includono:

  • Supporta la scalabilità su centinaia di nodi
  • Offre una forte coerenza e codifica per cancellazione per la durabilità
  • Fornisce replicazione multi-sito integrata per casi d'uso di cloud ibrido
  • Può essere implementato su hardware di consumo a basso costo

Questo rende Ceph RGW un potente backend per lo storage di oggetti focalizzato sull'IA sia su scala petabyte che in ambienti critici per le prestazioni.

La necessità di bilanciamento del carico ad alta disponibilità in Ceph RGW

Ceph RGW è senza stato, consentendo la scalabilità orizzontale. Tuttavia, per fornire:

  • Alta disponibilità
  • Supporto per il failover
  • Scalabilità delle prestazioni

Hai bisogno di un bilanciatore di carico front-end che possa distribuire in modo affidabile ed efficiente le richieste S3 in arrivo (GET, PUT, DELETE) su più istanze RGW.

Senza un bilanciamento del carico adeguato, un singolo nodo RGW o server front-end potrebbe diventare un collo di bottiglia o un punto di guasto unico.

Opzioni di bilanciamento del carico open-source per Ceph RGW

Due architetture principali sono comunemente utilizzate con bilanciatori di carico open-source:

  1. Basato su Ingress (HAProxy + Keepalived + Multi-VIP + DNS RR)
    • Supporto Layer 7 (HTTP)
    • Supporta la terminazione TLS, routing multi-tenant basato su SNI
    • Adatto per distribuzioni su cloud pubblico o multi-tenant
    • Latenza leggermente più alta e richiede una messa a punto attenta per evitare colli di bottiglia
    • A scale di distribuzione più grandi, sono necessari più server hardware ad alte prestazioni per prevenire che HAProxy diventi un collo di bottiglia.
  2. LVS TUN conntrackd Connessioni minime pesate (WLC)
    • Tunnel IP-in-IP Layer 4
    • Alto throughput e basso utilizzo della CPU
    • Salta il bilanciatore per il traffico di ritorno
    • Migliore per reti interne private ad alta velocità

Perché LVS TUN è migliore per lo storage privato S3 dell'IA basato su NVMe

Per cluster di addestramento AI interni basati su NVMe, le prestazioni sono la massima priorità:

  • LVS TUN raggiunge una larghezza di banda quasi a linea
  • Non termina TLS, riducendo il carico della CPU
  • conntrackd garantisce un failover senza interruzioni per il cliente
  • Nessuna ispezione a livello di applicazione riduce la latenza

Pertanto, LVS TUN è più adatto di HAProxy per lo storage di oggetti AI interni ad alta velocità (ad es., pipeline di addestramento di cluster GPU).

Confronto tra LVS TUN e Ingress per applicazioni AI nel cloud privato e pubblico

CaratteristicaIngresso (HAProxy)LVS TUN connesso
Terminazione TLS✅ Sì❌ No
Routing multi-tenant✅ Sì❌ No
Produttività❌ Limitato✅ Tariffe di linea
Latenza❌ Maggiore✅ Inferiore
Controlli di salute✅ HTTP❌ TCP/ICMP
Integrazione DNS✅ Richiesto❌ Non necessario
Caso d'uso idealeCloud pubblicoAI/HPC privato

Come il UniVirStor di Ambedded supporta il bilanciatore di carico LVS per Ceph RGW

UniVirStor offre supporto nativo per la modalità LVS TUN, inclusi:

  • Impostazione automatizzata basata su Ansible
  • Alta disponibilità con keepalived e conntrackd
  • Hook di controllo della salute e metriche di prestazione
  • Routing ottimizzato per gateway S3 ad alta capacità

Questo rende UniVirStor ideale per i clienti che costruiscono laghi di dati AI o cluster AI basati su GPU che richiedono sia prestazioni che affidabilità da Ceph RGW.

Conclusione

Scegliere l'architettura del bilanciatore di carico giusta è essenziale per costruire un backend di archiviazione S3 robusto e scalabile per l'AI.

  • Per cluster AI privati, utilizzare LVS TUN + conntrackd per massimizzare le prestazioni.
  • Per servizi pubblici o S3 multi-tenant, utilizzare HAProxy basato su Ingress per una migliore flessibilità e gestione del TLS.

Ambedded di UniVirStor ti aiuta a implementare entrambi gli scenari in modo efficiente con ottimizzazione di livello produzione e supporto per alta disponibilità.


Bilanciamento del carico di archiviazione S3 per AI con Ceph RGW | Fornitore di soluzioni e servizi di archiviazione Ceph. Software Full-Stack per Ceph.

Fondata a Taiwan nel 2013, Ambedded Technology Co., LTD. è un fornitore leader di soluzioni di archiviazione a blocchi, file e oggetti basate su storage definito dal software Ceph. Ci specializziamo nella fornitura di sistemi di archiviazione ad alta efficienza e scalabili per data center, imprese e istituzioni di ricerca. Le nostre offerte includono appliance di archiviazione basate su Ceph, integrazione di server, ottimizzazione dello storage e implementazione economica di Ceph con gestione semplificata.

Ambedded offre soluzioni di storage Ceph chiavi in mano e soluzioni software Ceph full-stack su misura per le organizzazioni B2B. La nostra piattaforma di archiviazione Ceph supporta l'archiviazione unificata di blocchi, file (NFS, SMB, CephFS) e oggetti compatibili con S3, riducendo il costo totale di proprietà (TCO) migliorando al contempo l'affidabilità e la scalabilità. Con la regolazione Ceph integrata, un'interfaccia web intuitiva e strumenti di automazione, aiutiamo i clienti a ottenere uno storage ad alte prestazioni per carichi di lavoro AI, HPC e cloud.

Con oltre 20 anni di esperienza nell'IT aziendale e più di un decennio nella distribuzione di storage Ceph, Ambedded ha realizzato oltre 200 progetti di successo a livello globale. Offriamo consulenza esperta, progettazione di cluster, supporto alla distribuzione e manutenzione continua. Il nostro impegno per un supporto professionale a Ceph e un'integrazione senza soluzione di continuità garantisce che i clienti ottengano il massimo dalla loro infrastruttura di storage basata su Ceph — su larga scala, con rapidità e nel rispetto del budget.