
Балансировка нагрузки для хранения S3 для ИИ с Ceph RGW
Рабочие нагрузки ИИ требуют масштабируемого, высокопроизводительного S3-хранилища для обучающих данных, моделей и выходных данных вывода. Ceph RGW предлагает надежный бэкенд, совместимый с S3, но производительность сильно зависит от балансировки нагрузки. Для частных ИИ-кластеров, использующих NVMe, LVS TUN обеспечивает пропускную способность, близкую к линии, и низкую задержку. Ambedded UniVirStor нативно поддерживает LVS TUN с автоматической настройкой и дизайном высокой доступности, что делает его идеальным для критически важных по производительности сред хранения данных для ИИ.
Следующие ключевые моменты подводят итоги необходимости и обоснования каждого выбора дизайна.
- Почему ИИ нуждается в масштабируемом и эффективном хранилище
- Почему S3 идеально подходит для рабочих нагрузок ИИ
- Почему Ceph RGW является отличным выбором для хранения AI S3
- Необходимость балансировки нагрузки с высокой доступностью в Ceph RGW
- Опции балансировщиков нагрузки с открытым исходным кодом для Ceph RGW
- Почему LVS TUN лучше для частного AI S3 хранилища на основе NVMe
- Сравнение LVS TUN и Ingress для частных и публичных облачных приложений ИИ
- Как Ambedded's UniVirStor поддерживает LVS балансировщик нагрузки для Ceph RGW
- Заключение
Почему ИИ нуждается в масштабируемом и эффективном хранилище
Современные рабочие нагрузки ИИ требуют как быстрого доступа к данным для обучения, так и экономичного долгосрочного хранения. Объектное хранилище S3, доступное через NVMe или HDD, предоставляет масштабируемую инфраструктуру для управления большими наборами данных, контрольными точками и моделями вывода.
- Высокоскоростной NVMe для наборов данных для обучения и доступ с низкой задержкой
- Экономичный HDD для долгосрочного хранения и архивов
Почему S3 идеально подходит для рабочих нагрузок ИИ
Совместимое с S3 хранилище широко используется в ИИ-процессах благодаря своему RESTful API, масштабируемости и интеграции с ML-фреймворками. Оно поддерживает:
- Хранение наборов данных и моделей
- Контрольные точки и версионирование артефактов
- Обслуживание моделей для конечных точек вывода
- Интеграция с TensorFlow, PyTorch, MLFlow
Почему Ceph RGW является отличным выбором для хранения AI S3
Ceph RGW — это сервис объектного хранения с открытым исходным кодом, совместимый с S3, который предлагает высокую доступность, сильную согласованность и масштабируемость на уровне петабайтов. Ключевые особенности включают:
- Поддержка масштабируемости на сотнях узлов
- Предлагает высокую согласованность и кодирование с удалением для долговечности
- Обеспечивает интегрированную многосайтовую репликацию для гибридных облачных сценариев использования
- Может быть развернуто на экономичном стандартном оборудовании
Это делает Ceph RGW мощным бэкендом для объектного хранения, ориентированного на ИИ, как на уровне петабайтов, так и в критически важных для производительности средах.
Необходимость балансировки нагрузки с высокой доступностью в Ceph RGW
Ceph RGW является безсостоянием, что позволяет горизонтальное масштабирование. Однако для обеспечения:
- Высокой доступности
- Поддержки переключения на резервный
- Масштабируемости производительности
Вам нужен балансировщик нагрузки на переднем конце, который может надежно и эффективно распределять входящие запросы S3 (GET, PUT, DELETE) между несколькими экземплярами RGW.
Без надлежащей балансировки нагрузки один узел RGW или сервер на переднем конце могут стать узким местом или единой точкой отказа.
Опции балансировщиков нагрузки с открытым исходным кодом для Ceph RGW
Две основные архитектуры обычно используются с балансировщиками нагрузки с открытым исходным кодом:
-
На основе Ingress (HAProxy + Keepalived + Multi-VIP + DNS RR)
- Поддержка уровня 7 (HTTP)
- Поддерживает завершение TLS, маршрутизацию на основе SNI для нескольких арендаторов
- Подходит для публичного облака или развертываний с несколькими арендаторами
- Немного более высокая задержка и требует тщательной настройки, чтобы избежать узких мест
- При больших масштабах развертывания требуется несколько высокопроизводительных серверов, чтобы предотвратить узкое место в HAProxy.
-
LVS TUN + conntrackd + Взвешенные наименьшие соединения (WLC)
- IP-in-IP туннелирование уровня 4
- Высокая пропускная способность и низкое использование ЦП
- Обходит балансировщик для возвратного трафика
- Лучше всего подходит для частных, высокоскоростных внутренних сетей
Почему LVS TUN лучше для частного AI S3 хранилища на основе NVMe
Для внутренних кластеров AI на базе NVMe производительность является главным приоритетом:
- LVS TUN достигает пропускной способности, близкой к линии
- Не завершает TLS, что снижает нагрузку на ЦП
- conntrackd обеспечивает бесшовный переход без прерывания для клиента
- Отсутствие инспекции на уровне приложения снижает задержку
Таким образом, LVS TUN лучше подходит, чем HAProxy, для высокоскоростного внутреннего хранения объектов AI (например, для обучающих конвейеров кластеров GPU).
Сравнение LVS TUN и Ingress для частных и публичных облачных приложений ИИ
| Функция | Ingress (HAProxy) | LVS TUN подключен |
|---|---|---|
| Терминация TLS | ✅ Да | ❌ Нет |
| Многоарендный маршрутизация | ✅ Да | ❌ Нет |
| Пропускная способность | ❌ Ограничено | ✅ Линейная скорость |
| Задержка | ❌ Выше | ✅ Нижний |
| Проверки состояния | ✅ HTTP | ❌ TCP/ICMP |
| Интеграция DNS | ✅ Обязательно | ❌ Не нужно |
| Идеальный случай использования | Облачные технологии | Частный ИИ/Вычислительные мощности |
Как Ambedded's UniVirStor поддерживает LVS балансировщик нагрузки для Ceph RGW
UniVirStor предлагает нативную поддержку режима LVS TUN, включая:
- Автоматическую настройку на основе Ansible
- Высокую доступность с помощью keepalived и conntrackd
- Хуки проверки состояния и метрики производительности
- Оптимизированная маршрутизация для высокопроизводительных S3 шлюзов
Это делает UniVirStor идеальным для клиентов, создающих AI хранилища данных или кластеры AI на базе GPU, которые требуют как производительности, так и надежности от Ceph RGW.
Заключение
Выбор правильной архитектуры балансировщика нагрузки имеет решающее значение для создания надежного, масштабируемого S3 хранилища для AI.
- Для частных AI кластеров используйте LVS TUN + conntrackd для максимизации производительности.
- Для публичных сервисов или многопользовательского S3 используйте HAProxy на основе Ingress для лучшей гибкости и обработки TLS.
Ambedded's UniVirStor помогает вам эффективно развертывать оба сценария с настройкой уровня производства и поддержкой высокой доступности.