Równoważenie obciążenia pamięci S3 dla AI z Ceph RGW | Rozwiązanie do przechowywania Ceph i dostawca usług. Oprogramowanie Full-Stack dla Ceph.

Ingress i LVS TUN to dwie opcje otwartego oprogramowania do równoważenia obciążenia dla Ceph RGW. Ingress jest idealny dla publicznych chmur lub środowisk wielodostępnych, podczas gdy LVS TUN pasuje do prywatnych klastrów AI lub HPC, gdzie kluczowe są wysoka przepustowość i niskie opóźnienia. | Dostawca rozwiązań i usług Ceph. Oprogramowanie Full-Stack dla Ceph.

Ingress i LVS TUN to dwie opcje otwartego oprogramowania do równoważenia obciążenia dla Ceph RGW. Ingress jest idealny dla publicznych chmur lub środowisk wielodostępnych, podczas gdy LVS TUN pasuje do prywatnych klastrów AI lub HPC, gdzie kluczowe są wysoka przepustowość i niskie opóźnienia.

Równoważenie obciążenia pamięci S3 dla AI z Ceph RGW

Obciążenia AI wymagają skalowalnego, o wysokiej przepustowości magazynu S3 do danych treningowych, modeli i wyników wnioskowania. Ceph RGW oferuje niezawodny, zgodny z S3 backend, ale wydajność w dużej mierze zależy od równoważenia obciążenia. Dla prywatnych klastrów AI korzystających z NVMe, LVS TUN zapewnia niemal pełną przepustowość i niskie opóźnienia. UniVirStor 'a Ambedded natywnie wspiera LVS TUN z automatyczną konfiguracją i projektowaniem HA, co czyni go idealnym dla środowisk pamięci masowej AI krytycznych dla wydajności.


Poniższe kluczowe punkty podsumowują potrzebę i uzasadnienie dla każdego wyboru projektowego.

Dlaczego AI potrzebuje skalowalnej i wydajnej pamięci masowej

Nowoczesne obciążenia AI wymagają zarówno szybkiego dostępu do danych treningowych, jak i opłacalnego długoterminowego przechowywania. Przechowywanie obiektów S3, dostępne przez NVMe lub HDD, zapewnia skalowalny backend do zarządzania dużymi zbiorami danych, punktami kontrolnymi i modelami inferencyjnymi.

  • Szybkie NVMe dla zbiorów danych treningowych i niskolatencyjny dostęp
  • Opłacalne HDD dla długoterminowego przechowywania i archiwów

Dlaczego S3 jest idealne dla obciążeń AI

Przechowywanie zgodne z S3 jest szeroko stosowane w potokach AI z powodu swojego RESTful API, skalowalności i integracji z frameworkami ML. Wspiera:

  • Przechowywanie zbiorów danych i modeli
  • Punktowanie kontrolne i wersjonowanie artefaktów
  • Serwowanie modeli do punktów końcowych inferencji
  • Integracja z TensorFlow, Pytorch, Mlflow

Dlaczego Ceph RGW jest doskonałym rozwiązaniem dla pamięci masowej AI S3

Ceph RGW to otwartoźródłowa usługa przechowywania obiektów zgodna z S3, która oferuje wysoką dostępność, silną spójność i skalowalność na poziomie petabajtów. Kluczowe cechy to:

  • Obsługuje skalowalność w setkach węzłów
  • Oferuje silną spójność i kodowanie usuwania dla trwałości
  • Zapewnia zintegrowaną replikację wielostanowiskową dla przypadków użycia w chmurze hybrydowej
  • Może być wdrażany na opłacalnym sprzęcie konsumenckim

To sprawia, że Ceph RGW jest potężnym zapleczem dla przechowywania obiektów skoncentrowanego na AI zarówno na poziomie petabajtów, jak i w środowiskach krytycznych dla wydajności.

Potrzeba wysokodostępnego równoważenia obciążenia w Ceph RGW

Ceph RGW jest bezstanowy, co pozwala na poziomą skalowalność. Jednak aby dostarczyć:

  • Wysoką dostępność
  • Wsparcie awaryjne
  • Skalowalność wydajności

Potrzebujesz zewnętrznego balansu obciążenia, który może niezawodnie i efektywnie rozdzielać przychodzące żądania S3 (GET, PUT, DELETE) pomiędzy wieloma instancjami RGW.

Bez odpowiedniego rozkładu obciążenia, pojedynczy węzeł RGW lub serwer front-end może stać się wąskim gardłem lub pojedynczym punktem awarii.

Opcje równoważenia obciążenia open-source dla Ceph RGW

Dwie podstawowe architektury są powszechnie używane z otwartoźródłowymi balancerami obciążenia:

  1. Oparte na Ingress (HAProxy + Keepalived + Multi-VIP + DNS RR)
    • Wsparcie warstwy 7 (HTTP)
    • Obsługuje zakończenie TLS, routing wielodostępowy oparty na SNI
    • Odpowiednie dla publicznych chmur lub wdrożeń wielodostępnych
    • Nieco wyższe opóźnienie i wymaga starannego dostrojenia, aby uniknąć wąskich gardeł
    • Przy większych skalach wdrożenia wymagane są wiele wydajnych serwerów sprzętowych, aby zapobiec staniu się HAProxy wąskim gardłem.
  2. LVS TUN + conntrackd + Ważone Najmniejsze Połączenia (WLC)
    • Tunelowanie IP w IP na warstwie 4
    • Wysoka przepustowość i niskie zużycie CPU
    • Omija balancer dla ruchu powrotnego
    • Najlepsze dla prywatnych, szybkich sieci wewnętrznych

Dlaczego LVS TUN jest lepszy dla prywatnego przechowywania AI S3 opartego na NVMe

Dla wewnętrznych klastrów szkoleniowych AI opartych na NVMe, wydajność jest najwyższym priorytetem:

  • LVS TUN osiąga przepustowość bliską prędkości linii
  • Nie kończy TLS, co zmniejsza obciążenie CPU
  • conntrackd zapewnia bezproblemowe przełączanie awaryjne bez przerywania klienta
  • Brak inspekcji na poziomie aplikacji zmniejsza opóźnienia

Dlatego LVS TUN jest lepszym rozwiązaniem niż HAProxy dla szybkiego wewnętrznego przechowywania obiektów AI (np. pipeline'ów treningowych klastrów GPU).

Porównanie LVS TUN vs Ingress dla prywatnych i publicznych aplikacji AI w chmurze

FunkcjaWnikanie (Haproxy)LVS TUN CONTRACKD
Zakończenie TLS✅ Tak❌ Nie
Routing wielodostępowy✅ Tak❌ Nie
Przepustowość❌ Ograniczone✅ Stawka linii
Opóźnienie❌ Wyższe✅ Niższe
Kontrole stanu✅ Http❌ TCP/ICMP
Integracja DNS✅ Wymagane❌ Niepotrzebne
Idealny przypadek użyciaPubliczna chmuraPrywatna AI/HPC

Jak UniVirStor Ambedded wspiera LVS Load Balancer dla Ceph RGW

UniVirStor oferuje natywne wsparcie dla trybu LVS TUN, w tym:

  • Automatyczna konfiguracja oparta na Ansible
  • Wysoka dostępność z keepalived i conntrackd
  • Hooki do sprawdzania stanu i metryki wydajności
  • Optymalizowane routowanie dla bramek S3 o wysokiej przepustowości

To sprawia, że UniVirStor jest idealny dla klientów budujących jeziora danych AI lub klastry AI oparte na GPU, które wymagają zarówno wydajności, jak i niezawodności od Ceph RGW.

Podsumowanie

Wybór odpowiedniej architektury load balancera jest kluczowy dla budowy solidnego, skalowalnego backendu S3 dla AI.

  • Dla prywatnych klastrów AI użyj LVS TUN + conntrackd, aby zmaksymalizować wydajność.
  • Dla usług skierowanych do publiczności lub wielodostępnego S3 użyj HAProxy opartego na Ingress, aby uzyskać lepszą elastyczność i obsługę TLS.

Ambedded UniVirStor pomaga efektywnie wdrożyć oba scenariusze z tuningiem na poziomie produkcyjnym i wsparciem dla wysokiej dostępności.


Równoważenie obciążenia pamięci S3 dla AI z Ceph RGW | Dostawca rozwiązań i usług Ceph. Oprogramowanie Full-Stack dla Ceph.

Założona na Tajwanie w 2013 roku, Ambedded Technology Co., LTD. jest wiodącym dostawcą rozwiązań do przechowywania bloków, plików i obiektów opartych na oprogramowaniu Ceph. Specjalizujemy się w dostarczaniu systemów przechowywania o wysokiej wydajności i skalowalności dla centrów danych, przedsiębiorstw i instytucji badawczych. Nasza oferta obejmuje urządzenia do przechowywania oparte na Ceph, integrację serwerów, optymalizację przechowywania oraz ekonomiczne wdrożenie Ceph z uproszczonym zarządzaniem.

Ambedded oferuje kompleksowe urządzenia do przechowywania Ceph oraz pełne rozwiązania oprogramowania Ceph dostosowane do organizacji B2B. Nasza platforma pamięci masowej Ceph obsługuje zjednoczone przechowywanie bloków, plików (NFS, SMB, CephFS) oraz zgodne z S3 przechowywanie obiektów, co obniża całkowity koszt posiadania (TCO) przy jednoczesnym zwiększeniu niezawodności i skalowalności. Dzięki zintegrowanemu dostrajaniu Ceph, intuicyjnemu interfejsowi webowemu i narzędziom automatyzacji, pomagamy klientom osiągnąć wysokowydajne przechowywanie dla obciążeń AI, HPC i chmury.

Z ponad 20-letnim doświadczeniem w IT dla przedsiębiorstw i ponad dekadą w wdrażaniu pamięci Ceph, Ambedded zrealizowało ponad 200 udanych projektów na całym świecie. Oferujemy fachowe doradztwo, projektowanie klastrów, wsparcie w wdrażaniu oraz bieżące utrzymanie. Nasze zaangażowanie w profesjonalne wsparcie Ceph i bezproblemową integrację zapewnia, że klienci maksymalnie wykorzystują swoją infrastrukturę pamięci opartą na Ceph — na dużą skalę, z szybkością i w ramach budżetu.