Проекты - Интеллектуальный поиск по корпоративной базе знаний

RAG-система поверх разнородных источников — файловые хранилища, SharePoint, почта. Ответы всегда сопровождаются ссылками на источники.

Формат
Демо-проект
Тип системы
AI-ассистенты и корпоративные помощники
Отрасли
юридические и консалтинговые компании, R&D, аналитические отделы

Отвечает на вопросы по корпоративным документам и всегда показывает, из какого файла взят ответ.

Файлы, SharePoint, почта
Поиск по смыслу, не по словам
Ответ со ссылкой на источник

Задача

В компании накоплены тысячи документов — договоры, отчёты, исследования, переписка, внутренние публикации. Ни один сотрудник не знает, где что лежит. Новички входят в курс дела месяцами. Эксперты уходят и уносят знания с собой.

Корпоративный поиск, встроенный в SharePoint или файловое хранилище, находит документы по точным словам. Но 80% запросов формулируются не так: «как мы обычно делаем X», «что писали по теме Y за последний год», «кто занимался проектом Z». На такие запросы классический поиск не отвечает.

Для юридических и консалтинговых команд проблема острее: им нужно не просто найти документ, а сослаться на конкретную цитату в нём. Без источника ответ нельзя использовать в работе.

Что мы построили

RAG-систему поверх разнородных источников с обязательным цитированием.

Инкрементальная индексация:

  • Коннекторы к файловым хранилищам (SMB/CIFS), SharePoint, Google Drive, корпоративной почте, внутренним wiki. Каждый коннектор работает в своём темпе и инкрементально обновляет индекс при изменениях.
  • Парсинг всех основных форматов: DOCX, XLSX, PPTX, PDF (с OCR для сканов), HTML, TXT, Markdown. Для email — парсинг треда с разбиением на отдельные сообщения.
  • Чанкинг с учётом структуры документа: заголовки, разделы, таблицы сохраняют семантический контекст.

Гибридный поиск:

  • BM25 для точных формулировок и терминов.
  • Semantic search через Qdrant с русскоязычной моделью эмбеддингов.
  • Reranker на выходе — cross-encoder, который пересортировывает топ-20 кандидатов по релевантности к конкретному запросу.

Права доступа:

  • Индекс знает права на уровне документа. При запросе система фильтрует кандидатов по правам текущего пользователя перед подачей в LLM. Это критично для юридических отделов, где доступ к документам регулируется.
  • Интеграция с корпоративным AD/LDAP через стандартный SSO.

Ответы с цитатами:

  • LLM отвечает только на основе переданного контекста. В ответе каждое утверждение помечено ссылкой на источник: документ + номер страницы + цитата. Пользователь может одним кликом открыть оригинал.
  • Если система не нашла релевантной информации, она честно говорит «не знаю» вместо галлюцинации. Это контролируется проверкой confidence reranker-а и специальным промптом.

Стек технологий

  • Python
  • Qdrant
  • sentence-transformers
  • BM25
  • cross-encoder reranker
  • GigaChat / Claude
  • SharePoint API
  • SSO / AD

Метрики системы

Recall@10 на тестовом корпусе
~0.91
точность цитирования
~95%
p95 latency на запрос
~2.5 с
документов в индексе на стенде
500 000+

Что показывает этот проект

  • Зрелый RAG для enterprise. Инкрементальная индексация, гибридный поиск, reranker, честная оценка качества. Не «подключили LlamaIndex за вечер» — это система, которая работает на больших объёмах и реальных запросах.
  • Честное цитирование. Для юристов и аналитиков это не приятный бонус, а требование к работе. Мы показываем, как LLM можно заставить не галлюцинировать, а ссылаться на источник в 95% случаев.
  • Права доступа. Типичная ошибка RAG-систем — LLM случайно «вспоминает» документ, к которому пользователь не должен был получить доступ. Мы фильтруем кандидатов до передачи в модель.
  • Большие объёмы. На стенде индекс содержит 500k+ документов. Это не игрушечный демо, а архитектура, которую можно масштабировать в реальной компании.

Другие наши проекты.

AI-анализ тендерной документации

Пайплайн на базе LLM, который читает тендерную документацию, извлекает ключевые поля и помогает решить, стоит ли вообще участвовать в тендере.

Подробнее

HR-ассистент на корпоративных данных

Гибрид RAG и агентных инструментов: отвечает на вопросы сотрудников, оформляет заявки, взаимодействует с HR-системами и корпоративной базой знаний.

Подробнее

Готовы обсудить задачу?

Начнём с бесплатного 30-минутного AI-аудита. Разберём ваши процессы и честно скажем, где AI даст эффект, а где нет.

Наши контакты

  • Россия, Ростов-на-Дону
    344019, Ростовская область, г.о. город Ростов-на-Дону, г. Ростов-на-Дону, ул. 11-я Линия, зд. 39
  • start@qwerty.digital
    8 (995) 797 17 17
    Telegram: @qwerty_digital_bot