Балансировка нагрузки для хранения S3 для ИИ с Ceph RGW

Ingress и LVS TUN — это два варианта балансировщиков нагрузки с открытым исходным кодом для Ceph RGW. Ingress идеально подходит для публичных облаков или многопользовательских сред, в то время как LVS TUN подходит для частных кластеров ИИ или HPC, где критически важны высокая пропускная способность и низкая задержка.

Рабочие нагрузки ИИ требуют масштабируемого, высокопроизводительного S3-хранилища для обучающих данных, моделей и выходных данных вывода. Ceph RGW предлагает надежный бэкенд, совместимый с S3, но производительность сильно зависит от балансировки нагрузки. Для частных ИИ-кластеров, использующих NVMe, LVS TUN обеспечивает пропускную способность, близкую к линии, и низкую задержку. Ambedded UniVirStor нативно поддерживает LVS TUN с автоматической настройкой и дизайном высокой доступности, что делает его идеальным для критически важных по производительности сред хранения данных для ИИ.

Следующие ключевые моменты подводят итоги необходимости и обоснования каждого выбора дизайна.

Почему ИИ нуждается в масштабируемом и эффективном хранилище
Почему S3 идеально подходит для рабочих нагрузок ИИ
Почему Ceph RGW является отличным выбором для хранения AI S3
Необходимость балансировки нагрузки с высокой доступностью в Ceph RGW
Опции балансировщиков нагрузки с открытым исходным кодом для Ceph RGW
Почему LVS TUN лучше для частного AI S3 хранилища на основе NVMe
Сравнение LVS TUN и Ingress для частных и публичных облачных приложений ИИ
Как Ambedded's UniVirStor поддерживает LVS балансировщик нагрузки для Ceph RGW
Заключение

Почему ИИ нуждается в масштабируемом и эффективном хранилище

Современные рабочие нагрузки ИИ требуют как быстрого доступа к данным для обучения, так и экономичного долгосрочного хранения. Объектное хранилище S3, доступное через NVMe или HDD, предоставляет масштабируемую инфраструктуру для управления большими наборами данных, контрольными точками и моделями вывода.

Высокоскоростной NVMe для наборов данных для обучения и доступ с низкой задержкой
Экономичный HDD для долгосрочного хранения и архивов

Почему S3 идеально подходит для рабочих нагрузок ИИ

Совместимое с S3 хранилище широко используется в ИИ-процессах благодаря своему RESTful API, масштабируемости и интеграции с ML-фреймворками. Оно поддерживает:

Хранение наборов данных и моделей
Контрольные точки и версионирование артефактов
Обслуживание моделей для конечных точек вывода
Интеграция с TensorFlow, PyTorch, MLFlow

Почему Ceph RGW является отличным выбором для хранения AI S3

Ceph RGW — это сервис объектного хранения с открытым исходным кодом, совместимый с S3, который предлагает высокую доступность, сильную согласованность и масштабируемость на уровне петабайтов. Ключевые особенности включают:

Поддержка масштабируемости на сотнях узлов
Предлагает высокую согласованность и кодирование с удалением для долговечности
Обеспечивает интегрированную многосайтовую репликацию для гибридных облачных сценариев использования
Может быть развернуто на экономичном стандартном оборудовании

Это делает Ceph RGW мощным бэкендом для объектного хранения, ориентированного на ИИ, как на уровне петабайтов, так и в критически важных для производительности средах.

Необходимость балансировки нагрузки с высокой доступностью в Ceph RGW

Ceph RGW является безсостоянием, что позволяет горизонтальное масштабирование. Однако для обеспечения:

Высокой доступности
Поддержки переключения на резервный
Масштабируемости производительности

Вам нужен балансировщик нагрузки на переднем конце, который может надежно и эффективно распределять входящие запросы S3 (GET, PUT, DELETE) между несколькими экземплярами RGW.

Без надлежащей балансировки нагрузки один узел RGW или сервер на переднем конце могут стать узким местом или единой точкой отказа.

Опции балансировщиков нагрузки с открытым исходным кодом для Ceph RGW

Две основные архитектуры обычно используются с балансировщиками нагрузки с открытым исходным кодом:

На основе Ingress (HAProxy + Keepalived + Multi-VIP + DNS RR)
- Поддержка уровня 7 (HTTP)
- Поддерживает завершение TLS, маршрутизацию на основе SNI для нескольких арендаторов
- Подходит для публичного облака или развертываний с несколькими арендаторами
- Немного более высокая задержка и требует тщательной настройки, чтобы избежать узких мест
- При больших масштабах развертывания требуется несколько высокопроизводительных серверов, чтобы предотвратить узкое место в HAProxy.
LVS TUN + conntrackd + Взвешенные наименьшие соединения (WLC)
- IP-in-IP туннелирование уровня 4
- Высокая пропускная способность и низкое использование ЦП
- Обходит балансировщик для возвратного трафика
- Лучше всего подходит для частных, высокоскоростных внутренних сетей

Почему LVS TUN лучше для частного AI S3 хранилища на основе NVMe

Для внутренних кластеров AI на базе NVMe производительность является главным приоритетом:

LVS TUN достигает пропускной способности, близкой к линии
Не завершает TLS, что снижает нагрузку на ЦП
conntrackd обеспечивает бесшовный переход без прерывания для клиента
Отсутствие инспекции на уровне приложения снижает задержку

Таким образом, LVS TUN лучше подходит, чем HAProxy, для высокоскоростного внутреннего хранения объектов AI (например, для обучающих конвейеров кластеров GPU).

Сравнение LVS TUN и Ingress для частных и публичных облачных приложений ИИ

Функция	Ingress (HAProxy)	LVS TUN подключен
Терминация TLS	✅ Да	❌ Нет
Многоарендный маршрутизация	✅ Да	❌ Нет
Пропускная способность	❌ Ограничено	✅ Линейная скорость
Задержка	❌ Выше	✅ Нижний
Проверки состояния	✅ HTTP	❌ TCP/ICMP
Интеграция DNS	✅ Обязательно	❌ Не нужно
Идеальный случай использования	Облачные технологии	Частный ИИ/Вычислительные мощности

Как Ambedded's UniVirStor поддерживает LVS балансировщик нагрузки для Ceph RGW

UniVirStor предлагает нативную поддержку режима LVS TUN, включая:

Автоматическую настройку на основе Ansible
Высокую доступность с помощью keepalived и conntrackd
Хуки проверки состояния и метрики производительности
Оптимизированная маршрутизация для высокопроизводительных S3 шлюзов

Это делает UniVirStor идеальным для клиентов, создающих AI хранилища данных или кластеры AI на базе GPU, которые требуют как производительности, так и надежности от Ceph RGW.

Заключение

Выбор правильной архитектуры балансировщика нагрузки имеет решающее значение для создания надежного, масштабируемого S3 хранилища для AI.

Для частных AI кластеров используйте LVS TUN + conntrackd для максимизации производительности.
Для публичных сервисов или многопользовательского S3 используйте HAProxy на основе Ingress для лучшей гибкости и обработки TLS.

Ambedded's UniVirStor помогает вам эффективно развертывать оба сценария с настройкой уровня производства и поддержкой высокой доступности.

Балансировка нагрузки для хранения S3 для ИИ с Ceph RGW | Решение для хранения Ceph и поставщик услуг. Полноценное программное обеспечение для Ceph.

Балансировка нагрузки для хранения S3 для ИИ с Ceph RGW | Поставщик решений и услуг по хранению Ceph. Полнофункциональное программное обеспечение для Ceph.