Ceph RGW를 이용한 AI를 위한 S3 스토리지 로드 밸런싱 | 턴키 Ceph 장비 제공업체 | Ambedded

Ingress 기반 및 LVS TUN은 Ceph RGW를 위한 두 가지 오픈 소스 로드 밸런서 옵션입니다. Ingress는 공용 클라우드 또는 다중 테넌트 환경에 이상적이며, LVS TUN은 높은 처리량과 낮은 대기 시간이 중요한 개인 AI 또는 HPC 클러스터에 적합합니다. | 기업용 Ceph 스토리지 장비

Ingress 기반 및 LVS TUN은 Ceph RGW를 위한 두 가지 오픈 소스 로드 밸런서 옵션입니다. Ingress는 공용 클라우드 또는 다중 테넌트 환경에 이상적이며, LVS TUN은 높은 처리량과 낮은 대기 시간이 중요한 개인 AI 또는 HPC 클러스터에 적합합니다.

Ceph RGW를 이용한 AI를 위한 S3 스토리지 로드 밸런싱

AI 작업 부하는 훈련 데이터, 모델 및 추론 출력을 위한 확장 가능하고 높은 처리량의 S3 스토리지가 필요합니다. Ceph RGW는 신뢰할 수 있는 S3 호환 백엔드를 제공하지만, 성능은 로드 밸런싱에 크게 의존합니다. NVMe를 사용하는 개인 AI 클러스터의 경우, LVS TUN은 거의 선형 속도의 대역폭과 낮은 지연 시간을 제공합니다. Ambedded의 UniVirStor는 자동 설정 및 HA 설계를 통해 LVS TUN을 기본적으로 지원하여 성능이 중요한 AI 스토리지 환경에 적합합니다.


다음의 주요 사항은 각 설계 선택의 필요성과 정당성을 요약합니다.

AI가 확장 가능하고 효율적인 스토리지를 필요로 하는 이유

현대 AI 작업은 훈련 데이터에 대한 빠른 접근과 비용 효율적인 장기 저장소를 모두 요구합니다. NVMe 또는 HDD를 통해 접근하는 S3 객체 저장소는 대규모 데이터 세트, 체크포인트 및 추론 모델을 관리하기 위한 확장 가능한 백엔드를 제공합니다.

  • 훈련 데이터 세트를 위한 고속 NVMe 및 저지연 접근
  • 장기 저장 및 아카이브를 위한 비용 효율적인 HDD

S3가 AI 작업에 이상적인 이유

S3 호환 저장소는 RESTful API, 확장성 및 ML 프레임워크와의 통합 덕분에 AI 파이프라인에서 널리 채택되고 있습니다. 지원하는 기능은:

  • 데이터 세트 및 모델 저장
  • 체크포인팅 및 아티팩트 버전 관리
  • 추론 엔드포인트에 모델 제공
  • Tensorflow, Pytorch, Mlflow와의 통합

Ceph RGW가 AI S3 스토리지에 강력하게 적합한 이유

Ceph RGW는 높은 가용성, 강력한 일관성 및 페타바이트 규모의 확장성을 제공하는 오픈 소스 S3 호환 객체 저장 서비스입니다. 주요 기능은 다음과 같습니다:

  • 수백 개의 노드에 걸쳐 확장성 지원
  • 내구성을 위한 강력한 일관성과 소거 코딩 제공
  • 하이브리드 클라우드 사용 사례를 위한 통합 다중 사이트 복제 제공
  • 비용 효율적인 상용 하드웨어에 배포 가능

이로 인해 Ceph RGW는 페타바이트 규모와 성능이 중요한 환경 모두에서 AI 중심 객체 저장소의 강력한 백엔드가 됩니다.

Ceph RGW에서 고가용성 로드 밸런싱의 필요성

Ceph RGW는 상태 비저장(stateless)으로 수평 확장이 가능합니다. 그러나 다음을 제공하기 위해:

  • 높은 가용성
  • 장애 조치 지원
  • 성능 확장성

신뢰할 수 있고 효율적으로 들어오는 S3 요청(GET, PUT, DELETE)을 여러 RGW 인스턴스에 분산할 수 있는 프론트엔드 로드 밸런서가 필요합니다.

적절한 로드 밸런싱이 없으면 단일 RGW 노드 또는 프론트엔드 서버가 병목 현상이나 단일 실패 지점이 될 수 있습니다.

Ceph RGW를 위한 오픈 소스 로드 밸런서 옵션

오픈 소스 로드 밸런서와 함께 일반적으로 사용되는 두 가지 주요 아키텍처는 다음과 같습니다:

  1. Ingress 기반 (HAProxy + Keepalived + Multi-VIP + DNS RR)
    • 레이어 7 (HTTP) 지원
    • TLS 종료, SNI 기반 다중 테넌트 라우팅 지원
    • 공공 클라우드 또는 다중 테넌트 배포에 적합
    • 약간 높은 대기 시간과 병목 현상을 피하기 위한 세심한 조정이 필요합니다.
    • 더 큰 배포 규모에서는 HAProxy가 병목 현상이 되지 않도록 여러 고성능 하드웨어 서버가 필요합니다.
  2. LVS TUN + conntrackd + 가중치 최소 연결 (WLC)
    • 레이어 4 IP-in-IP 터널링
    • 높은 처리량과 낮은 CPU 사용량
    • 반환 트래픽에 대해 로드 밸런서를 우회합니다.
    • 개인용 고속 내부 네트워크에 가장 적합합니다.

NVMe 기반의 개인 AI S3 스토리지에 LVS TUN이 더 나은 이유

내부 NVMe 기반 AI 훈련 클러스터의 경우 성능이 최우선입니다:

  • LVS TUN은 거의 선형 속도의 대역폭을 달성합니다.
  • TLS를 종료하지 않아 CPU 오버헤드를 줄입니다.
  • conntrackd는 클라이언트 중단 없이 원활한 장애 조치를 보장합니다.
  • 애플리케이션 계층 검사가 없으므로 지연 시간이 줄어듭니다.

따라서 LVS TUN은 고속 내부 AI 객체 저장소(예: GPU 클러스터 훈련 파이프라인)에 HAProxy보다 더 적합합니다.

개인 및 공공 클라우드 AI 애플리케이션을 위한 LVS TUN과 Ingress 비교

기능유입 (하프 렉시)LVS Tun Conntrackd
TLS 종료✅ 예❌ 아니오
다중 테넌트 라우팅✅ 예❌ 아니오
처리량❌ 제한됨✅ 라인 속도
대기 시간❌ 더 높음✅ 더 낮음
상태 검사✅ HTTP❌ TCP/ICMP
DNS 통합✅ 필요함❌ 필요하지 않음
이상적인 사용 사례퍼블릭 클라우드프라이빗 AI/HPC

Ambedded의 UniVirStor가 Ceph RGW를 위한 LVS 로드 밸런서를 지원하는 방법

UniVirStor는 다음을 포함하여 LVS TUN 모드에 대한 기본 지원을 제공합니다:

  • Ansible 기반 자동 설정
  • keepalived 및 conntrackd를 통한 고가용성
  • 상태 점검 훅 및 성능 메트릭
  • 고처리량 S3 게이트웨이를 위한 최적화된 라우팅

이로 인해 UniVirStor는 성능과 신뢰성을 모두 요구하는 AI 데이터 레이크 또는 GPU 기반 AI 클러스터를 구축하는 고객에게 이상적입니다.

결론

강력하고 확장 가능한 AI용 S3 스토리지 백엔드를 구축하기 위해 올바른 로드 밸런서 아키텍처를 선택하는 것이 필수적입니다.

  • 프라이빗 AI 클러스터의 경우 성능을 극대화하기 위해 LVS TUN + conntrackd를 사용하세요.
  • 공개 서비스 또는 다중 테넌트 S3의 경우, 더 나은 유연성과 TLS 처리를 위해 Ingress 기반 HAProxy를 사용하세요.

Ambedded의 UniVirStor는 생산 수준의 조정 및 고가용성 지원으로 두 가지 시나리오를 효율적으로 배포하는 데 도움을 줍니다.


Ceph RGW를 이용한 AI를 위한 S3 스토리지 로드 밸런싱 | Ceph 스토리지 솔루션; Ceph 장비 및 소프트웨어|Ambedded

2013년 대만에서 설립된 Ambedded Technology Co., LTD.는 Ceph 소프트웨어 정의 스토리지 기반의 블록, 파일 및 객체 스토리지 솔루션을 제공하는 선도적인 기업입니다. 우리는 데이터 센터, 기업 및 연구 기관을 위한 고효율, 확장 가능한 스토리지 시스템을 제공하는 데 전문화되어 있습니다. 우리의 제품에는 Ceph 기반 스토리지 장치, 서버 통합, 스토리지 최적화 및 간소화된 관리와 함께 비용 효율적인 Ceph 배포가 포함됩니다.

Ambedded는 B2B 조직에 맞춤화된 턴키 Ceph 스토리지 장치와 풀스택 Ceph 소프트웨어 솔루션을 제공합니다. 우리의 Ceph 스토리지 플랫폼은 통합 블록, 파일(NFS, SMB, CephFS) 및 S3 호환 객체 스토리지를 지원하여 신뢰성과 확장성을 개선하면서 총 소유 비용(TCO)을 줄입니다. 통합된 Ceph 조정, 직관적인 웹 UI 및 자동화 도구를 통해 고객이 AI, HPC 및 클라우드 작업 부하를 위한 고성능 스토리지를 달성하도록 돕습니다.

20년 이상의 기업 IT 경험과 10년 이상의 Ceph 스토리지 배포 경험을 바탕으로, Ambedded는 전 세계적으로 200개 이상의 성공적인 프로젝트를 수행했습니다. 우리는 전문 컨설팅, 클러스터 설계, 배포 지원 및 지속적인 유지 관리를 제공합니다. 전문 Ceph 지원과 원활한 통합에 대한 우리의 약속은 고객이 Ceph 기반 스토리지 인프라에서 최대의 가치를 얻을 수 있도록 보장합니다 — 대규모로, 빠르게, 그리고 예산 내에서.