Проекты - AI-анализ тендерной документации

Пайплайн на базе LLM, который читает тендерную документацию, извлекает ключевые поля и помогает решить, стоит ли вообще участвовать в тендере.

Формат
Демо-проект
Тип системы
Обработка документов и извлечение данных
Отрасли
B2G, строительство, поставки, тендерные отделы

Читает тендерную документацию, извлекает ключевые требования и советует, стоит ли подавать заявку.

Пакет тендера (PDF, DOCX)
Извлечение требований и сроков
Рекомендация: подавать или нет

Задача

Компании, которые участвуют в тендерах, тратят десятки часов в неделю на чтение документации. ТЗ, требования к участникам, критерии оценки, риски — всё это приходит в виде плохо структурированных PDF и DOCX, часто со сканами и приложениями на сотни страниц. Часть лотов не стоит времени, но понимаешь это только после того, как уже потратил пару часов на разбор.

В среднем тендерном отделе средней компании над документами работают юристы и менеджеры по тендерам. Это дорогие часы, и большая их часть уходит не на выигранные лоты, а на отфильтровывание нерелевантных.

Что мы построили

Пайплайн на Python, который принимает тендерный пакет, извлекает структурированные поля с помощью LLM и оценивает лот по правилам клиента.

Основные модули:

  • Загрузка и нормализация. Принимает PDF и DOCX, вытягивает сканированные страницы через OCR, склеивает приложения в единый документ.
  • Извлечение на основе LLM. Для каждого ключевого поля — отдельный промпт с примерами и проверкой через регулярки. Извлекаются: требования к участникам, техническое задание, сроки подачи, критерии оценки, обеспечение заявки, специальные условия.
  • Классификация релевантности. На основе извлечённых полей и профиля клиента (коды ОКПД, регионы, размер контрактов) система присваивает лоту класс: «стоит подавать», «возможно», «не стоит».
  • Генерация сводки. Короткий отчёт на 1 страницу: что за тендер, ключевые требования, риски, рекомендация.
  • Веб-интерфейс для менеджеров — список тендеров с фильтрами, подробная карточка каждого, экспорт сводок в PDF.

Стек технологий

  • Python
  • LangChain
  • GigaChat / YandexGPT
  • pdfplumber
  • Tesseract OCR
  • PostgreSQL
  • React
  • FastAPI

Метрики системы

точность извлечения ключевых полей
~92%
среднее время обработки одного тендера
~45 с
классификация релевантности
F1 ~0.85
документов в корпусе для оценки
10 000+

Что показывает этот проект

Демо-реализация демонстрирует несколько компетенций, которые критичны для работы с документами в корпоративном контексте.

  • Работа с плохо структурированными документами. Тендерная документация — один из самых сложных классов документов: таблицы внутри сканов, нумерация в двух стилях, ссылки на приложения. Пайплайн решает это честно, а не на красивых примерах.
  • Надёжное извлечение на базе LLM. Каждое поле валидируется: регулярки, типы, ограничения. LLM даёт первую версию, правила её чистят. Результат воспроизводим.
  • Связка с бизнес-правилами. Извлечение — это половина задачи. Вторая — оценка релевантности по профилю клиента. Без неё система просто красиво парсит документы, но не экономит время.
  • On-premise развёртывание. Тендерные данные часто чувствительны: есть ограничения на передачу документации во внешние API. Мы разворачиваем решение внутри контура клиента с локальной LLM или через корпоративный прокси к облачным моделям.

Другие наши проекты.

HR-ассистент на корпоративных данных

Гибрид RAG и агентных инструментов: отвечает на вопросы сотрудников, оформляет заявки, взаимодействует с HR-системами и корпоративной базой знаний.

Подробнее

Интеллектуальный поиск по корпоративной базе знаний

RAG-система поверх разнородных источников — файловые хранилища, SharePoint, почта. Ответы всегда сопровождаются ссылками на источники.

Подробнее

Готовы обсудить задачу?

Начнём с бесплатного 30-минутного AI-аудита. Разберём ваши процессы и честно скажем, где AI даст эффект, а где нет.

Наши контакты

  • Россия, Ростов-на-Дону
    344019, Ростовская область, г.о. город Ростов-на-Дону, г. Ростов-на-Дону, ул. 11-я Линия, зд. 39
  • start@qwerty.digital
    8 (995) 797 17 17
    Telegram: @qwerty_digital_bot