Équilibrage de charge de stockage S3 pour l'IA avec Ceph RGW | Solution de stockage Ceph et fournisseur de services. Logiciel Full-Stack pour Ceph.

Ingress et LVS TUN sont deux options de répartiteur de charge open-source pour Ceph RGW. Ingress est idéal pour les environnements de cloud public ou multi-locataires, tandis que LVS TUN convient aux clusters privés d'IA ou de calcul haute performance où un débit élevé et une faible latence sont critiques. | Fournisseur de solutions et de services de stockage Ceph. Logiciel Full-Stack pour Ceph.

Ingress et LVS TUN sont deux options de répartiteur de charge open-source pour Ceph RGW. Ingress est idéal pour les environnements de cloud public ou multi-locataires, tandis que LVS TUN convient aux clusters privés d'IA ou de calcul haute performance où un débit élevé et une faible latence sont critiques.

Équilibrage de charge de stockage S3 pour l'IA avec Ceph RGW

Les charges de travail d'IA nécessitent un stockage S3 évolutif et à haut débit pour les données d'entraînement, les modèles et les résultats d'inférence. Ceph RGW offre un backend fiable et compatible S3, mais les performances dépendent fortement de l'équilibrage de charge. Pour les clusters d'IA privés utilisant NVMe, LVS TUN offre une bande passante proche du taux de ligne et une faible latence. Le UniVirStor de Ambedded prend en charge nativement LVS TUN avec une configuration automatisée et un design HA, ce qui le rend idéal pour les environnements de stockage AI critiques en termes de performance.


Les points clés suivants résument le besoin et la justification de chaque choix de conception.

Pourquoi l'IA a besoin d'un stockage évolutif et efficace

Les charges de travail modernes en IA nécessitent un accès rapide aux données d'entraînement et un stockage à long terme rentable. Le stockage d'objets S3, accessible via NVMe ou HDD, fournit un backend évolutif pour gérer de grands ensembles de données, des points de contrôle et des modèles d'inférence.

  • NVMe à haute vitesse pour les ensembles de données d'entraînement et accès à faible latence
  • HDD rentable pour le stockage à long terme et les archives

Pourquoi S3 est idéal pour les charges de travail d'IA

Le stockage compatible S3 est largement adopté dans les pipelines AI en raison de son API RESTful, de sa scalabilité et de son intégration avec les frameworks ML. Il prend en charge :

  • Stockage d'ensembles de données et de modèles
  • Point de contrôle et versionnage des artefacts
  • Servir des modèles aux points de terminaison d'inférence
  • Intégration avec TensorFlow, Pytorch, Mlflow

Pourquoi Ceph RGW est un choix solide pour le stockage S3 d'IA

Ceph RGW est un service de stockage d'objets open-source, compatible S3, qui offre une haute disponibilité, une forte cohérence et une évolutivité à l'échelle des pétaoctets. Les caractéristiques clés incluent :

  • Prend en charge l'évolutivité sur des centaines de nœuds
  • Offre une forte cohérence et un codage de suppression pour la durabilité
  • Fournit une réplication multi-sites intégrée pour des cas d'utilisation en cloud hybride
  • Peut être déployé sur du matériel standard rentable

Cela fait de Ceph RGW un backend puissant pour le stockage d'objets axé sur l'IA, tant à l'échelle des pétaoctets que dans des environnements critiques en termes de performance.

Le besoin d'un équilibrage de charge à haute disponibilité dans Ceph RGW

Ceph RGW est sans état, permettant une mise à l'échelle horizontale. Cependant, pour offrir :

  • Haute disponibilité
  • Support de basculement
  • Scalabilité des performances

Vous avez besoin d'un équilibreur de charge frontal qui peut distribuer de manière fiable et efficace les requêtes S3 entrantes (GET, PUT, DELETE) sur plusieurs instances RGW.

Sans un équilibrage de charge approprié, un seul nœud RGW ou serveur frontal peut devenir un goulot d'étranglement ou un point de défaillance unique.

Options d'équilibreur de charge open-source pour Ceph RGW

Deux architectures principales sont couramment utilisées avec des équilibreurs de charge open-source :

  1. Basé sur l'Ingress (HAProxy + Keepalived + Multi-VIP + DNS RR)
    • Support de la couche 7 (HTTP)
    • Prend en charge la terminaison TLS, le routage multi-locataire basé sur SNI
    • Convient aux déploiements dans le cloud public ou multi-locataire
    • Latence légèrement plus élevée et nécessite un réglage minutieux pour éviter les goulots d'étranglement
    • À des échelles de déploiement plus importantes, plusieurs serveurs matériels haute performance sont nécessaires pour empêcher HAProxy de devenir un goulot d'étranglement.
  2. LVS TUN + conntrackd + Connexions les Moins Chargées Pondérées (WLC)
    • Tunneling IP-in-IP de couche 4
    • Haut débit et faible utilisation du CPU
    • Contourne le répartiteur pour le trafic de retour
    • Meilleur pour les réseaux internes privés à haute vitesse

Pourquoi LVS TUN est meilleur pour le stockage privé AI S3 basé sur NVMe

Pour les clusters d'entraînement AI internes basés sur NVMe, la performance est la priorité absolue :

  • LVS TUN atteint une bande passante proche du taux de ligne
  • Ne termine pas le TLS, réduisant ainsi la surcharge CPU
  • conntrackd assure un basculement transparent sans interruption pour le client
  • Aucune inspection au niveau de l'application ne réduit la latence

Ainsi, LVS TUN est mieux adapté que HAProxy pour le stockage d'objets AI interne à haute vitesse (par exemple, les pipelines d'entraînement de clusters GPU).

Comparaison entre LVS TUN et Ingress pour les applications AI dans le cloud privé et public

FonctionnalitéEntrave (haproxy)LVS Tun Conntrackd
Terminaison TLS✅ Oui❌ Non
Routage multi-locataire✅ Oui❌ Non
Débit❌ Limité✅ Taux de ligne
Latence❌ Plus élevé✅ Plus bas
Vérifications de santé✅ http❌ TCP/ICMP
Intégration DNS✅ Requis❌ Pas nécessaire
Cas d'utilisation idéalCloud publicIA/HPC privé

Comment le UniVirStor d'Ambedded prend en charge le répartiteur de charge LVS pour Ceph RGW

UniVirStor offre un support natif pour le mode LVS TUN, y compris :

  • Configuration automatisée basée sur Ansible
  • Haute disponibilité avec keepalived et conntrackd
  • Hooks de vérification de santé et métriques de performance
  • Routage optimisé pour des passerelles S3 à haut débit

Cela rend UniVirStor idéal pour les clients construisant des lacs de données IA ou des clusters IA basés sur GPU qui exigent à la fois performance et fiabilité de Ceph RGW.

Conclusion

Choisir la bonne architecture de répartiteur de charge est essentiel pour construire un backend de stockage S3 robuste et évolutif pour l'IA.

  • Pour les clusters d'IA privés, utilisez LVS TUN + conntrackd pour maximiser les performances.
  • Pour les services accessibles au public ou S3 multi-locataires, utilisez HAProxy basé sur Ingress pour une meilleure flexibilité et gestion de TLS.

Le UniVirStor dAmbedded vous aide à déployer efficacement les deux scénarios avec un réglage de qualité production et un support de haute disponibilité.


Équilibrage de charge de stockage S3 pour l'IA avec Ceph RGW | Fournisseur de solutions et de services de stockage Ceph. Logiciel Full-Stack pour Ceph.

Fondée à Taïwan en 2013, Ambedded Technology Co., LTD. est un fournisseur leader de solutions de stockage en bloc, de fichiers et d'objets basées sur le stockage défini par logiciel Ceph. Nous nous spécialisons dans la fourniture de systèmes de stockage évolutifs et à haute efficacité pour les centres de données, les entreprises et les institutions de recherche. Nos offres incluent des appareils de stockage basés sur Ceph, l'intégration de serveurs, l'optimisation du stockage et le déploiement économique de Ceph avec une gestion simplifiée.

Ambedded fournit des appareils de stockage Ceph clés en main et des solutions logicielles Ceph complètes adaptées aux organisations B2B. Notre plateforme de stockage Ceph prend en charge le stockage unifié de blocs, de fichiers (NFS, SMB, CephFS) et d'objets compatibles S3, réduisant le coût total de possession (TCO) tout en améliorant la fiabilité et l'évolutivité. Avec un réglage Ceph intégré, une interface web intuitive et des outils d'automatisation, nous aidons les clients à atteindre un stockage haute performance pour l'IA, le calcul haute performance et les charges de travail cloud.

Avec plus de 20 ans d'expérience dans l'informatique d'entreprise et plus d'une décennie dans le déploiement de stockage Ceph, Ambedded a réalisé plus de 200 projets réussis à l'échelle mondiale. Nous offrons des services de conseil d'experts, de conception de clusters, de support au déploiement et de maintenance continue. Notre engagement envers un support professionnel de Ceph et une intégration transparente garantit que les clients tirent le meilleur parti de leur infrastructure de stockage basée sur Ceph — à grande échelle, rapidement et dans le respect du budget.