• XSS.stack #1 – первый литературный журнал от юзеров форума

Вопрос по системе РВП

Геннадий Михалков

RAID-массив
Пользователь
Регистрация
16.05.2022
Сообщения
57
Реакции
30
Депозит
6 Ł
Коллеги, возник резонансный вопрос, хочу реализовать проект РВП. Цель проекта — создание распределённой вычислительной платформы, обеспечивающей подключение пользовательских компьютеров с простаивающими ресурсами и предоставление этих ресурсов в аренду внешним клиентам для выполнения задач машинного обучения, инференса и вычислений общего назначения. Платформа должна обеспечивать изоляцию выполняемых задач, централизованное управление вычислительными ресурсами, учёт фактического потребления и автоматический биллинг.
Система должна поддерживать три категории пользователей: поставщики вычислительных ресурсов (владельцы пользовательских компьютеров), потребители вычислительных ресурсов (ИИ-сервисы, ML-инженеры, компании) и администраторы платформы. Взаимодействие между компонентами системы осуществляется через защищённые программные интерфейсы и клиентское агентское программное обеспечение, установленное на пользовательских компьютерах. Для поставщиков вычислительных ресурсов необходимо реализовать процесс регистрации и верификации, установку клиентского агента на компьютер, автоматическое определение аппаратной конфигурации, включая модель и характеристики GPU, CPU, объём оперативной памяти, доступное дисковое пространство и сетевые параметры. Клиентский агент должен передавать телеметрию в центральную систему, принимать вычислительные задания и обеспечивать их корректное и безопасное выполнение. Пользователь должен иметь возможность задавать периоды доступности компьютера, ограничения по загрузке системы и минимально допустимую стоимость аренды. Платформа должна предоставлять интерфейс для просмотра состояния подключённого компьютера, статистики загрузки и начисленного вознаграждения, а также механизм автоматических выплат. Для арендаторов вычислительных ресурсов необходимо реализовать регистрацию, управление балансом и доступ к пулу доступных мощностей. Арендатор должен иметь возможность запрашивать вычислительные ресурсы с заданными параметрами, включая тип и количество GPU, объём CPU и оперативной памяти, регион размещения и предполагаемую длительность аренды. Система должна поддерживать выполнение задач в контейнеризованной среде с возможностью использования пользовательских Docker-образов и передачи параметров запуска. Арендатору должен предоставляться доступ к журналам выполнения, базовым метрикам производительности и состоянию задач в реальном времени. Учёт потребления ресурсов должен вестись по фактическому времени использования с поминутной или почасовой тарификацией. Оркестрация вычислительных задач должна осуществляться централизованным планировщиком. Планировщик обязан учитывать доступность пользовательских компьютеров, их аппаратные характеристики, текущее состояние нагрузки и сетевые параметры. В случае отказа узла, аварийного завершения задачи или потери соединения система должна корректно фиксировать состояние выполнения и, при возможности, инициировать перезапуск задачи на другом доступном узле. Клиентский агент должен регулярно отправлять сигналы доступности, при отсутствии которых узел автоматически исключается из пула активных ресурсов.
Требования к безопасности являются критическими. Все вычислительные задачи арендаторов должны выполняться в строго изолированной среде без доступа к файловой системе хоста, пользовательским данным, локальной сети и периферийным устройствам компьютера. Передача данных между клиентскими агентами и серверной частью платформы должна осуществляться с использованием защищённых каналов связи. Необходимо реализовать контроль системных вызовов, ограничения по использованию ресурсов, защиту от вредоносного кода и механизмы предотвращения несанкционированного использования оборудования.

Вопросы:

1) Какую архитектуру вы бы выбрали для распределённого пула вычислительных мощностей: централизованную, p2p или гибридную? Почему?
2) Как вы видите взаимодействие между клиентским агентом на ПК и центральным оркестратором?
3) Какой стек технологий вы бы рассматривали для MVP и для продакшена?
4) Как вы бы масштабировал систему с 1 000 до 100 000 машин? "В техническом аспекте а не рекламном"
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх