LLM Evaluation инженер (Системы оценки качества AI)

Кто нам нужен?

Мы формируем в компании AI Platform Team — которая отвечает за всю инфраструктуру AI: от выбора моделей до их продуктовой эксплуатации.

Наша задача — дать продуктам объективную и воспроизводимую систему оценки LLM. Чтобы каждое решение — смена модели, обновление промпта, настройка RAG — принималось на основе метрик, а не интуиции.

Нам важно, чтобы вы имели практический опыт построения систем оценки качества LLM/ML-моделей. Необходимо строить бенчмарки, управлять датасетами, внедрять human-in-the-loop процессы, настраивать observability-стек (Langfuse) и встраивать eval-пайплайны в CI/CD. Чтобы команды разработки видели чёткие цифры: точность, латентность, стоимость, регрессии.

Чем предстоит заниматься

Проектирование и развитие системы оценки качества LLM и AI-функций (чат, генерация, RAG, агенты) для продуктов Битрикс24.
Построение и поддержка бенчмарков: разработка сценариев, формирование и версионирование датасетов, подбор метрик для сравнения моделей и конфигураций.
Подготовка, разметка и управление датасетами для оффлайн-оценки, включая human-in-the-loop процессы.
Настройка автоматических прогонов бенчмарков в CI/CD, формирование и визуализация отчётов для команд разработки и продукта.
Развитие observability-стека для LLM (Langfuse и другие инструменты): трассировка запросов, метрики качества, дашборды, алерты.
Участие в улучшении и оптимизации процессов разработки AI-функций, внедрение data-driven подхода к принятию решений по моделям.
Участие в ревью проектов, командной работе, внутренних митапах и обмене знаниями.

Что мы ждем от кандидата

Опыт работы с LLM и их API (OpenAI, Anthropic, GigaChat, локальные LLaMA/Qwen и др.), понимание их ограничений.
Конкретный опыт работы с Langfuse (настройка трейсинга, eval-ранов, дашбордов, алертов).
Навыки анализа логов и метрик, построения отчётов и визуализаций для технической и продуктовой аудитории.
Понимание принципов статистики и экспериментального дизайна (гипотезы, выборки, значимость, интерпретация результатов).
Также для нас важно
Знание языка программирования Python.
Практический опыт проектирования приложений и веб-сервисов либо внутренних инструментов для разработчиков/DS.
Понимание принципов работы баз данных и систем хранения данных (для логов, датасетов, результатов экспериментов).
Отличное знание и понимание жизненного цикла ПО, опыт работы с системами контроля версий и CI/CD.
Уверенное знание сетевых технологий на уровне, необходимом для понимания работы распределённых сервисов и API.
Базовое понимание веб-безопасности и приватности данных при работе с пользовательскими запросами и логами.
Уверенное знание ООП и современных парадигм проектирования (SOLID, Clean Architecture).
Готовность отстаивать своё мнение на основе данных и экспериментов и при этом оставаться открытым к аргументам команды.
Будет плюсом
Опыт использования фреймворков для eval и оркестрации LLM (например, LangChain, LlamaIndex, LangGraph и т.п.).
Знание принципов модульного тестирования, умение писать тесты (PyTest, PHPUnit и др.).
Опыт работы в продуктовых командах, где решения по моделям принимались на основе количественных и качественных метрик.

Что мы предлагаем

Возможности

Работу в технологичной компании с известным брендом и устойчивыми целями развития
Возможность быть вовлеченным в масштабный для российского рынка продукт и реализовывать ведущие мировые практики
Полная занятость, удаленная работа или комфортный офис в Москве/Калининграде с возможностью гибридного графика

Вознаграждение

Конкурентный ежемесячный оклад в соответствии с компетенциями кандидата
ДМС со стоматологией после 3 месяцев работы
Сервис «Ясно» для поддержки ментального здоровья
Программы обучения и развития

Культура

Здоровая внутренняя среда, дружный коллектив, в котором всегда помогут, комьюнити по интересам
Забота о сотрудниках: регулярные мероприятия, тимбилдинги, детские подарки, корпоративы в Калининграде и многое другое
Психологическая безопасность и комфорт

Откликнуться

Больше вакансий в Битрикс24

Подробнее

Кто нам нужен?

Чем предстоит заниматься

Что мы ждем от кандидата

Что мы предлагаем

Возможности

Вознаграждение

Культура

Стань частью
Битрикс24

Стань частью
Битрикс24

Наши продукты

Работа у нас

О нас

Наши продукты

Работа у нас

О нас

Кто нам нужен?

Чем предстоит заниматься

Что мы ждем от кандидата

Что мы предлагаем

Возможности

Вознаграждение

Культура

Стань частьюБитрикс24

Стань частьюБитрикс24

Наши продукты

Работа у нас

О нас

Наши продукты

Работа у нас

О нас

Стань частью
Битрикс24

Стань частью
Битрикс24