MLOps (Инженер LLM-инфраструктуры)
Откликнуться

Кто нам нужен?

Мы формируем в компании AI Platform Team — внутреннюю платформенную команду, которая отвечает за всю инфраструктуру AI: от исследований моделей до их продакшн-запуска.

Наша задача — дать продуктам надёжный и эффективный доступ к LLM. Строить отказоустойчивые системы, которые держат нагрузку.

Мы ищем инженера, который будет проектировать, разворачивать и глубоко оптимизировать платформу для инференса больших языковых моделей. Работать с vLLM/Triton, GPU-кластерами, observability-стеком, чтобы модели работали быстро, стабильно и экономично.

Если вы строили высоконагруженные ML-системы и хотите решать сложные инфраструктурные задачи в области LLM, ждём ваше резюме.

Чем предстоит заниматься
  • Проектирование, развитие и эксплуатация инфраструктуры для инференса LLM, включая BitrixGPT, локальные и облачные модели:
  • – проектирование и внедрение стеков для эффективного обслуживания LLM, таких как vLLM, Nvidia Triton Inference Server и их аналогов,
  • – оптимизация схем шардирования моделей, батчинга и стриминга токенов.
  • Настройка, эксплуатация и оптимизация GPU-кластеров для инференса:
  • – управление ресурсами, планирование загрузки (capacity planning), снижение стоимости владения.
  • Профилирование и отладка сервисов инференса:
  • – поиск и устранение узких мест, влияющих на задержки (latency) и пропускную способность (throughput).
  • Настройка наблюдаемости (observability) AI-стека:
  • – сбор метрик, логирование, трассировка и алертинг (Prometheus, Grafana и других инструментов,
  • – разработка дашбордов для мониторинга доступности, задержек, ошибок и стоимости инференса.
  • Участие в разработке и улучшении платформенных процессов:
  • – совместная работа с командами разработки и data science,
  • – ревью архитектуры и сервисов, обмен экспертизой на внутренних митапах.
Что мы ждем от кандидата
  • Продовый опыт эксплуатации ML-/LLM-сервисов или высоконагруженных backend-систем.
  • Практический опыт работы с контейнеризацией и оркестрацией (Docker).
  • Опыт построения CI/CD-пайплайнов (GitLab CI, GitHub Actions или аналоги).
  • Уверенное владение Python для разработки сервисов, утилит, оркестрации и автоматизации.
  • Понимание устройства современных LLM: архитектура трансформеров, токенизация, контекстное окно, влияние параметров (batch size, KV-cache) на latency и throughput.
  • Опыт настройки мониторинга и логирования в production (Prometheus, Grafana, ELK-стек, Sentry или аналоги).
  • Навыки анализа и оптимизации производительности сервисов: профилирование, поиск и устранение узких мест.
  • Готовность отстаивать своё мнение и предлагать улучшения для достижения наилучшего результата.
  • Также для нас важно
  • Практический опыт работы с vLLM.
  • Опыт работы с GPU-инфраструктурой: CUDA, мониторинг и тюнинг GPU-нагрузки.
  • Опыт построения LLM-систем (chat, RAG, агенты) и понимание их паттернов нагрузки.
  • Знание принципов безопасной разработки и эксплуатации веб-сервисов.
  • Знание SQL и опыт работы с реляционными/нереляционными СУБД.
  • Опыт написания автоматических тестов (PyTest и др.) и тестирования производительности.
  • Глубокое знание Python.

Что мы предлагаем

Возможности
  • Работу в технологичной компании с известным брендом и устойчивыми целями развития
  • Возможность быть вовлеченным в масштабный для российского рынка продукт и реализовывать ведущие мировые практики
  • Полная занятость, удаленная работа или комфортный офис в Москве/Калининграде с возможностью гибридного графика
Вознаграждение
  • Конкурентный ежемесячный оклад в соответствии с компетенциями кандидата
  • ДМС со стоматологией после 3 месяцев работы
  • Сервис «Ясно» для поддержки ментального здоровья
  • Программы обучения и развития
Культура
  • Здоровая внутренняя среда, дружный коллектив, в котором всегда помогут, комьюнити по интересам
  • Забота о сотрудниках: регулярные мероприятия, тимбилдинги, детские подарки, корпоративы в Калининграде и многое другое
  • Психологическая безопасность и комфорт
Откликнуться

Больше вакансий в Битрикс24

Cookie-файлы
Настройка cookie-файлов
Детальная информация о целях обработки данных и поставщиках, которые мы используем на наших сайтах
Аналитические Cookie-файлы Отключить все
Технические Cookie-файлы
Другие Cookie-файлы
Мы используем cookie. Они помогают нам понять, как вы взаимодействуете с сайтом. Подробнее о нашей политике в отношении Cookie.
Принять все Отказаться от всех Настроить
Cookies