
Балансировка нагрузки для хранения S3 для AI с Ceph RGW
Рабочие нагрузки ИИ требуют масштабируемого, высокопроизводительного S3-хранилища для обучающих данных, моделей и выходных данных вывода. Ceph RGW предлагает надежный бэкенд, совместимый с S3, но производительность сильно зависит от балансировки нагрузки. Для частных ИИ-кластеров, использующих NVMe, LVS TUN обеспечивает пропускную способность, близкую к линии, и низкую задержку. Ambedded UniVirStor нативно поддерживает LVS TUN с автоматической настройкой и дизайном высокой доступности, что делает его идеальным для критически важных по производительности сред хранения данных для ИИ.
Следующие ключевые моменты подводят итог необходимости и обоснования каждого выбора дизайна.
- Почему ИИ нуждается в масштабируемом и эффективном хранилище
- Почему S3 идеально подходит для рабочих нагрузок ИИ
- Почему Ceph RGW является отличным выбором для хранения S3 для ИИ
- Необходимость балансировки нагрузки с высокой доступностью в Ceph RGW
- Варианты балансировщиков нагрузки с открытым исходным кодом для Ceph RGW
- Почему LVS TUN лучше для частного хранилища AI S3 на основе NVMe
- Сравнение LVS TUN и Ingress для частных и публичных облачных приложений ИИ
- Как UniVirStor от Ambedded поддерживает LVS балансировщик нагрузки для Ceph RGW
- Заключение
Почему ИИ нуждается в масштабируемом и эффективном хранилище
Современные рабочие нагрузки ИИ требуют как быстрого доступа к данным для обучения, так и экономичного долгосрочного хранения. Объектное хранилище S3, доступное через NVMe или HDD, предоставляет масштабируемую инфраструктуру для управления большими наборами данных, контрольными точками и моделями вывода.
- Высокоскоростной NVMe для наборов данных для обучения и доступ с низкой задержкой
- Экономичный HDD для долгосрочного хранения и архивов
Почему S3 идеально подходит для рабочих нагрузок ИИ
Совместимое с S3 хранилище широко используется в ИИ-процессах благодаря своему RESTful API, масштабируемости и интеграции с ML-фреймворками. Оно поддерживает:
- Хранение наборов данных и моделей
- Контрольные точки и версионирование артефактов
- Обслуживание моделей для конечных точек вывода
- Интеграция с Tensorflow, Pytorch, Mlflow
Почему Ceph RGW является отличным выбором для хранения S3 для ИИ
Ceph RGW — это сервис объектного хранения с открытым исходным кодом, совместимый с S3, который предлагает высокую доступность, сильную согласованность и масштабируемость до петабайтов. Ключевые особенности включают:
- Поддержка масштабируемости на сотнях узлов
- Предлагает сильную согласованность и кодирование с удалением для долговечности
- Обеспечивает интегрированную многосайтовую репликацию для гибридных облачных сценариев использования
- Может быть развернут на недорогом стандартном оборудовании
Это делает Ceph RGW мощным бэкендом для объектного хранения, ориентированного на ИИ, как на уровне петабайтов, так и в критически важных для производительности средах.
Необходимость балансировки нагрузки с высокой доступностью в Ceph RGW
Ceph RGW безсостояния, что позволяет горизонтальное масштабирование. Однако для обеспечения:
- Высокой доступности
- Поддержки переключения на резервный
- Масштабируемости производительности
Вам нужен фронтенд балансировщик нагрузки, который может надежно и эффективно распределять входящие запросы S3 (GET, PUT, DELETE) между несколькими экземплярами RGW.
Без надлежащей балансировки нагрузки один узел RGW или фронтенд сервер могут стать узким местом или единой точкой отказа.
Варианты балансировщиков нагрузки с открытым исходным кодом для Ceph RGW
Две основные архитектуры, которые обычно используются с балансировщиками нагрузки с открытым исходным кодом:
-
На основе Ingress (HAProxy + Keepalived + Multi-VIP + DNS RR)
- Поддержка уровня 7 (HTTP)
- Поддерживает завершение TLS, маршрутизацию на основе SNI для нескольких арендаторов
- Подходит для публичного облака или развертываний с несколькими арендаторами
- Немного более высокая задержка и требует тщательной настройки, чтобы избежать узких мест.
- При больших масштабах развертывания требуется несколько высокопроизводительных серверов, чтобы предотвратить превращение HAProxy в узкое место.
-
LVS TUN + conntrackd + Взвешенные наименьшие соединения (WLC)
- Туннелирование IP-in-IP на уровне 4
- Высокая пропускная способность и низкое использование ЦП
- Обходит балансировщик для обратного трафика
- Лучше всего подходит для частных высокоскоростных внутренних сетей
Почему LVS TUN лучше для частного хранилища AI S3 на основе NVMe
Для внутренних кластеров AI на базе NVMe производительность является главным приоритетом:
- LVS TUN достигает пропускной способности близкой к линии
- Не завершает TLS, что снижает нагрузку на ЦП
- conntrackd обеспечивает бесшовный переход без прерывания клиента
- Отсутствие инспекции на уровне приложения снижает задержку
Таким образом, LVS TUN лучше подходит, чем HAProxy, для высокоскоростного внутреннего хранения объектов AI (например, для пайплайнов обучения кластеров GPU).
Сравнение LVS TUN и Ingress для частных и публичных облачных приложений ИИ
Функция | Вход (Haproxy) | LVS TUN CONNTRACKD |
---|---|---|
Завершение TLS | ✅ Да | ❌ Нет |
Многоарендный маршрутизация | ✅ Да | ❌ Нет |
Пропускная способность | ❌ Ограничено | ✅ Линейная скорость |
Задержка | ❌ Выше | ✅ Ниже |
Проверки состояния | ✅ http | ❌ TCP/ICMP |
Интеграция DNS | ✅ Обязательно | ❌ Не нужно |
Идеальный случай использования | Облачные услуги | Частный ИИ/Вычислительные мощности |
Как UniVirStor от Ambedded поддерживает LVS балансировщик нагрузки для Ceph RGW
UniVirStor предлагает нативную поддержку режима LVS TUN, включая:
- Автоматическая настройка на основе Ansible
- Высокая доступность с помощью keepalived и conntrackd
- Проверка состояния и метрики производительности
- Оптимизированная маршрутизация для высокопроизводительных S3 шлюзов
Это делает UniVirStor идеальным для клиентов, создающих озера данных ИИ или кластеры ИИ на базе GPU, которые требуют как производительности, так и надежности от Ceph RGW.
Заключение
Выбор правильной архитектуры балансировщика нагрузки имеет решающее значение для создания надежного и масштабируемого S3 хранилища для ИИ.
- Для частных кластеров ИИ используйте LVS TUN + conntrackd для максимизации производительности.
- Для общедоступных сервисов или многопользовательского S3 используйте HAProxy на основе Ingress для лучшей гибкости и обработки TLS.
Ambedded's UniVirStor помогает вам эффективно развертывать оба сценария с настройкой уровня производства и поддержкой высокой доступности.