Как мы разрабатываем ML-сервисы

Этапы разработки модели машинного обучения

Разработка ML-модели — последовательность, где каждый шаг опирается на предыдущий.

Вот как выглядит наш алгоритм создания модели машинного обучения:

Сначала аналитики определяют бизнес-задачу и метрики для оценки результата. Без этого даже технически сильное решение может не дать нужного результата.
Затем мы готовим данные для обучения модели: убираем явные дубликаты, смотрим на качество выборки, понимаем, чего в ней не хватает и что может исказить результат. Качество данных, предоставляемых заказчиком, напрямую влияет на качество работы модели.
Делим данные на обучающую, валидационную и тестовую части. Это важно, чтобы оценивать работу модели на данных, которых она раньше не «видела».
Проверяем, какая архитектура лучше работает на конкретных данных: от простого базового решения до более сложных моделей.
Обучаем модели на тренировочной выборке и смотрим, как они ведут себя при валидации. На этом этапе становится видно, где модель не доучилась, а где — переобучилась.
Внедряем: интегрируем модель в рабочую среду, проверяем, что всё работает корректно, обучаем сотрудников заказчика использовать новый инструмент.

Результат — действительно полезное решение, которое решает конкретные задачи бизнеса с заданной точностью.

С чего начинается создание модели машинного обучения

Разработка модели машинного обучения начинается с вопроса «Зачем?». Первый этап — это постановка задачи. Наши аналитики погружаются в бизнес-процессы заказчика, предлагают решения, которые действительно сделают работу компании эффективнее. Выбираем, что именно будем автоматизировать, и составляем ТЗ.

Также важно сразу определить метрики качества модели. Например, это может быть снижение числа отказов оборудования на 15% или повышение точности модерации контента до 98%. Эти параметры задают «планку», к которой мы будем стремиться при разработке сервиса.

Подготовка данных и выбор подхода

После постановки цели и утверждения технического задания начинается работа с данными. Собираем информацию из всех доступных источников: внутренних баз данных, логов, открытых источников или API. После этого проводим разведочный анализ данных (EDA). На этом этапе проверяется гипотеза о пригодности данных: достаточно ли их объема, нет ли систематических искажений, корректно ли они размечены.

Далее формируем признаки. Мы не загружаем «сырые» данные в алгоритм, а преобразуем их так, чтобы модель могла уловить скрытые закономерности. Параллельно определяем тип обучения:

Обучение с учителем: используется, когда у нас есть размеченные данные: например, история платежей с меткой «мошенничество» или «легальный».
Обучение без учителя, когда разметка отсутствует: применяется для поиска скрытых паттернов, сегментации клиентов, снижения размерности и поиска аномалий в сырых данных.
Обучение с подкреплением: подход для систем, которые обучаются на основе обратной связи со средой — например, для динамического ценообразования, построение автопилотов.

Качество датасета и корректный выбор подхода определяют устойчивый и точный результат. Если данные «шумные» или неправильно отражают реальность, никакая, даже самая сложная архитектура нейросети не исправит ситуацию.

Обучение, проверка качества и доработка модели

Мы тщательно разделяем выборку на три части: обучающую, валидационную и тестовую. Валидационная выборка используется только один раз — для финальной оценки готового продукта.

Использование валидационной выборки позволяет вовремя диагностировать и решить две основные проблемы:

Недообучение: модель слишком проста и не способна уловить закономерности в данных. Решение — усложнение архитектуры или добавление новых признаков.
Переобучение: модель «запомнила» тренировочные данные вместе с шумами и показывает отличные результаты на них, но проваливается на реальных примерах. Тогда мы упрощаем архитектуру или увеличиваем объем данных.

Внимательный подход к обучению позволяет нам гарантировать, что в продакшн уйдет не «сырая» модель, а устойчивый алгоритм, способный корректно работать с данными, которых он раньше не видел.

Внедрение ML-сервиса в бизнес-процесс

Чтобы сотрудники компании-заказчика могли пользоваться ИИ-инструментом, мы упаковываем его в «рабочую среду». В зависимости от архитектуры клиента, мы интегрируем сервис:

Через REST API: для сайтов, мобильных приложений или внешних систем.
Через брокеры сообщений (Kafka, RabbitMQ): если модель должна обрабатывать поток событий в реальном времени, например, при скоринге транзакций.
Внутри BI-систем: если задача заключается в прогнозной аналитике для руководства.

Тогда модель бесшовно интегрируется в CRM, ERP или интернет-витрины заказчика и становится частью рабочей рутины.

Поддержка, переобучение и развитие ML-решения

Мы не бросаем наши проекты после запуска. Модель, которая была точна при деплое, через полгода может начать «глючить» из-за изменений в данных.

Поэтому мы продолжаем поддержку и развитие сервиса:

Следим за метриками качества предсказаний в реальном времени. Если точность падает ниже установленного порога, инженеры подключаются и решают проблему.
Настраиваем автоматические пайплайны, которые собирают новые данные, переобучают модель на актуальном срезе.
Перед тем как полностью заменить старую модель новой, мы проводим A/B-тесты, чтобы убедиться, что новая версия действительно лучше решает бизнес-задачи.

Развитие ИИ-решения включает и добавление новых сценариев. Например, спустя несколько месяцев работы рекомендательной системы, бизнес может попросить нас добавить туда блок предсказания времени доставки.

Почему ML-разработка может стоить дорого

Машинное обучение почти никогда не сводится к «обучили модель и забыли». Основная стоимость часто сосредоточена не на этапе написания кода, а вокруг него: нужно сформулировать бизнес-задачу и метрики, собрать и очистить данные, проверить их полноту и репрезентативность, подготовить признаки, провести несколько циклов обучения и валидации, а затем встроить решение в рабочую инфраструктуру.

Отдельная статья расходов — данные. Подготовка и приведение данных к рабочему виду нередко занимает значительную часть времени команды: IBM отмечает, что на обработку и подготовку данных может уходить от 45% до 80% времени специалистов.

Дальше стоимость растет из-за инфраструктуры и эксплуатации сервиса. Даже после успешного пилота ML-сервис требует окружения для обучения, тестирования, деплоя, мониторинга, переобучения и отката версий.

Что может пойти не так

Машинное обучение не является «серебрянной пулей», которая может решить любую проблему заказчика. Поэтому в самом начале разработки необходим анализ возможностей и рисков.

Самый частый риск — не в модели, а в постановке задачи. Если бизнес-цель сформулирована размыто, а метрики успеха выбраны неправильно, команда может получить технически сильное решение, которое не дает полезного эффекта для бизнеса. Поэтому необходим тщательный бизнес-анализ перед внедрением AI.
Вторая типовая проблема — качество данных. Если данные шумные, неполные, смещенные или плохо размеченные, модель будет воспроизводить эти дефекты в предсказаниях. Это ведет либо к слабой точности, либо к нестабильному поведению на реальных кейсах. Разведочный анализ данных может решить данную проблему на самом раннем этапе.
Третья зона риска — ошибки в обучении и оценке. Модель может недообучиться и не уловить закономерности, а может переобучиться и «запомнить» тренировочный датасет вместо того, чтобы обобщать. В таком случае на тестах все выглядит хорошо, а «в бою» качество резко падает. Именно поэтому мы говорили про разделение данных на 3 разных выборки.
После запуска появляется еще один критичный сценарий: drift. Данные и поведение пользователей меняются, и модель, которая вчера работала точно, через несколько месяцев начинает ошибаться заметно чаще. Эта проблема решается поддержкой сервиса, в том числе автоматизированным дообучением модели в случае необходимости.

Вывод

Мы убеждены, что создание ML-сервисов для бизнеса требует системности подхода. Поэтому отработали цепочку действий, которая приводит к устойчивому и точному результату: от формулировки бизнес-задачи и анализа данных до внедрения сервиса и последующей технической поддержки. Строгое соблюдение этапов создания моделей машинного обучения позволяет нам гарантировать, что инвестиции заказчика в искусственный интеллект: