Проекты - AI-аналитика клиентских обращений и обратной связи
NLP-пайплайн, который собирает отзывы и обращения из десятков каналов, определяет тему и тональность, выделяет повторяющиеся проблемы и инсайты для менеджмента.
- Формат
- Демо-проект
- Тип системы
- Data Science и предиктивная аналитика
- Отрасли
- ритейл, банки, телеком, SaaS
Собирает отзывы из десятков каналов, выделяет повторяющиеся проблемы и присылает менеджменту еженедельный отчёт.
Задача
Клиенты оставляют отзывы, жалобы и пожелания в десятках каналов: почта, чаты, формы на сайте, соцсети, отзовики, сторы приложений, опросы NPS. Ручной анализ невозможен — никто не может прочитать тысячи сообщений в неделю и сделать из них выводы.
Маркетологи видят верхушку айсберга: самые громкие жалобы в соцсетях или самые эмоциональные отзывы. Менеджмент принимает решения вслепую — без понимания, что происходит в хвосте распределения и какие проблемы только начинают расти.
Классические BI-инструменты не помогают: они работают с табличными данными, а не с текстом. Тегирование вручную не масштабируется. Нужен NLP-пайплайн, который превратит тексты в структурированные данные.
Что мы построили
Пайплайн, который собирает тексты из всех каналов, извлекает темы и тональность, выделяет повторяющиеся проблемы и показывает их в дашборде.
Сбор данных:
- Коннекторы к почте, Zendesk, VK, Telegram-каналам, App Store / Google Play, отзовикам (Яндекс.Карты, 2ГИС, Banki.ru).
- Нормализация текста: очистка от HTML, удаление подписей, склейка пересылаемых сообщений в треды, определение языка.
Классификация темы:
- Дообученная модель на основе sentence-transformers. Классификатор размечает каждое сообщение одной или несколькими темами из заранее определённого дерева (качество продукта, доставка, поддержка, цена, интерфейс и т.д.).
- Для новых тем, которые не попали в классификатор, работает кластеризация. Раз в неделю пайплайн находит новые кластеры и предлагает аналитику их пометить как новые темы.
Анализ тональности:
- Модель определяет тональность (позитив / нейтрал / негатив) с учётом контекста. Работает с русским языком, сарказмом и отрицаниями.
- Отдельно — определение эмоций: раздражение, разочарование, удивление, восхищение. Это помогает отличить «просто нейтральную жалобу» от «клиент горит и уйдёт завтра».
Извлечение инсайтов через LLM:
- На агрегированных данных LLM извлекает повторяющиеся проблемы: не «клиент недоволен», а «клиенты жалуются, что товар не помещается в стандартную упаковку».
- Генерирует еженедельный отчёт: топ-10 новых проблем, топ-10 растущих тем, рекомендации по приоритизации.
Дашборд и алерты:
- Визуализация трендов по неделям, распределение тем, тепловая карта проблем по продуктам, динамика NPS.
- Алерты: если доля негатива по какой-то теме выросла на 20% за неделю, менеджмент получает уведомление в Slack или на почту.
Стек технологий
- Python
- transformers
- sentence-transformers
- HDBSCAN кластеризация
- GigaChat / Claude
- ClickHouse
- Metabase / Superset
- Airflow
Метрики системы
- точность определения темы
- ~89%
- точность тональности
- ~92%
- обращений в минуту пропускная способность
- 10 000+
- каналов-источников данных
- 30+
Что показывает этот проект
- NLP-пайплайн на проде. Не «взяли готовую модель и получили графики», а настоящий пайплайн с обучением, оценкой качества, мониторингом дрейфа и регулярным переобучением.
- Кластеризация новых тем. Мир меняется, появляются новые проблемы — система должна уметь их находить, а не жить в рамках заранее размеченного классификатора.
- LLM для инсайтов, а не для тегирования. Мы используем LLM там, где она реально даёт ценность — в извлечении и формулировке инсайтов. А тегирование делает дообученная классическая модель, потому что она дешевле и стабильнее на массовом трафике.
- Визуализация для бизнеса. Инженерный пайплайн без дашборда бесполезен. Мы продумываем не только ML-часть, но и то, как менеджмент будет смотреть на результат и принимать решения.