Проекты - AI-анализ тендерной документации
Пайплайн на базе LLM, который читает тендерную документацию, извлекает ключевые поля и помогает решить, стоит ли вообще участвовать в тендере.
- Формат
- Демо-проект
- Тип системы
- Обработка документов и извлечение данных
- Отрасли
- B2G, строительство, поставки, тендерные отделы
Читает тендерную документацию, извлекает ключевые требования и советует, стоит ли подавать заявку.
Задача
Компании, которые участвуют в тендерах, тратят десятки часов в неделю на чтение документации. ТЗ, требования к участникам, критерии оценки, риски — всё это приходит в виде плохо структурированных PDF и DOCX, часто со сканами и приложениями на сотни страниц. Часть лотов не стоит времени, но понимаешь это только после того, как уже потратил пару часов на разбор.
В среднем тендерном отделе средней компании над документами работают юристы и менеджеры по тендерам. Это дорогие часы, и большая их часть уходит не на выигранные лоты, а на отфильтровывание нерелевантных.
Что мы построили
Пайплайн на Python, который принимает тендерный пакет, извлекает структурированные поля с помощью LLM и оценивает лот по правилам клиента.
Основные модули:
- Загрузка и нормализация. Принимает PDF и DOCX, вытягивает сканированные страницы через OCR, склеивает приложения в единый документ.
- Извлечение на основе LLM. Для каждого ключевого поля — отдельный промпт с примерами и проверкой через регулярки. Извлекаются: требования к участникам, техническое задание, сроки подачи, критерии оценки, обеспечение заявки, специальные условия.
- Классификация релевантности. На основе извлечённых полей и профиля клиента (коды ОКПД, регионы, размер контрактов) система присваивает лоту класс: «стоит подавать», «возможно», «не стоит».
- Генерация сводки. Короткий отчёт на 1 страницу: что за тендер, ключевые требования, риски, рекомендация.
- Веб-интерфейс для менеджеров — список тендеров с фильтрами, подробная карточка каждого, экспорт сводок в PDF.
Стек технологий
- Python
- LangChain
- GigaChat / YandexGPT
- pdfplumber
- Tesseract OCR
- PostgreSQL
- React
- FastAPI
Метрики системы
- точность извлечения ключевых полей
- ~92%
- среднее время обработки одного тендера
- ~45 с
- классификация релевантности
- F1 ~0.85
- документов в корпусе для оценки
- 10 000+
Что показывает этот проект
Демо-реализация демонстрирует несколько компетенций, которые критичны для работы с документами в корпоративном контексте.
- Работа с плохо структурированными документами. Тендерная документация — один из самых сложных классов документов: таблицы внутри сканов, нумерация в двух стилях, ссылки на приложения. Пайплайн решает это честно, а не на красивых примерах.
- Надёжное извлечение на базе LLM. Каждое поле валидируется: регулярки, типы, ограничения. LLM даёт первую версию, правила её чистят. Результат воспроизводим.
- Связка с бизнес-правилами. Извлечение — это половина задачи. Вторая — оценка релевантности по профилю клиента. Без неё система просто красиво парсит документы, но не экономит время.
- On-premise развёртывание. Тендерные данные часто чувствительны: есть ограничения на передачу документации во внешние API. Мы разворачиваем решение внутри контура клиента с локальной LLM или через корпоративный прокси к облачным моделям.