Проекты - Интеллектуальный поиск по корпоративной базе знаний

RAG-система поверх разнородных источников — файловые хранилища, SharePoint, почта. Ответы всегда сопровождаются ссылками на источники.

Формат: Демо-проект
Тип системы: AI-ассистенты и корпоративные помощники
Отрасли: юридические и консалтинговые компании, R&D, аналитические отделы

Как это работает

Отвечает на вопросы по корпоративным документам и всегда показывает, из какого файла взят ответ.

1
Файлы, SharePoint, почта
2
Поиск по смыслу, не по словам
3
Ответ со ссылкой на источник

live · пример

Запрос

Как мы обычно оформляем командировки за границу?

обработка

Ответ системы

По политике от 15.06.2024: билеты покупаем через корпоративный сервис, суточные 3000₽, отчёт в течение 7 дней. Источник: Travel_Policy_v4.docx, стр. 3.

Задача

В компании накоплены тысячи документов — договоры, отчёты, исследования, переписка, внутренние публикации. Ни один сотрудник не знает, где что лежит. Новички входят в курс дела месяцами. Эксперты уходят и уносят знания с собой.

Корпоративный поиск, встроенный в SharePoint или файловое хранилище, находит документы по точным словам. Но 80% запросов формулируются не так: «как мы обычно делаем X», «что писали по теме Y за последний год», «кто занимался проектом Z». На такие запросы классический поиск не отвечает.

Для юридических и консалтинговых команд проблема острее: им нужно не просто найти документ, а сослаться на конкретную цитату в нём. Без источника ответ нельзя использовать в работе.

Что мы построили

RAG-систему поверх разнородных источников с обязательным цитированием.

Инкрементальная индексация:

Коннекторы к файловым хранилищам (SMB/CIFS), SharePoint, Google Drive, корпоративной почте, внутренним wiki. Каждый коннектор работает в своём темпе и инкрементально обновляет индекс при изменениях.
Парсинг всех основных форматов: DOCX, XLSX, PPTX, PDF (с OCR для сканов), HTML, TXT, Markdown. Для email — парсинг треда с разбиением на отдельные сообщения.
Чанкинг с учётом структуры документа: заголовки, разделы, таблицы сохраняют семантический контекст.

Гибридный поиск:

BM25 для точных формулировок и терминов.
Semantic search через Qdrant с русскоязычной моделью эмбеддингов.
Reranker на выходе — cross-encoder, который пересортировывает топ-20 кандидатов по релевантности к конкретному запросу.

Права доступа:

Индекс знает права на уровне документа. При запросе система фильтрует кандидатов по правам текущего пользователя перед подачей в LLM. Это критично для юридических отделов, где доступ к документам регулируется.
Интеграция с корпоративным AD/LDAP через стандартный SSO.

Ответы с цитатами:

LLM отвечает только на основе переданного контекста. В ответе каждое утверждение помечено ссылкой на источник: документ + номер страницы + цитата. Пользователь может одним кликом открыть оригинал.
Если система не нашла релевантной информации, она честно говорит «не знаю» вместо галлюцинации. Это контролируется проверкой confidence reranker-а и специальным промптом.

RAG-конвейер с цитатами

Файлы, SharePoint, почта

Индексация + права доступа

Поиск по смыслу

Ответ со ссылкой на источник

Стек технологий

Python
Qdrant
sentence-transformers
BM25
cross-encoder reranker
GigaChat / Claude
SharePoint API
SSO / AD

Метрики системы

Recall@10 на тестовом корпусе: ~0.91
точность цитирования: ~95%
p95 latency на запрос: ~2.5 с
документов в индексе на стенде: 500 000+

Что показывает этот проект

Зрелый RAG для enterprise. Инкрементальная индексация, гибридный поиск, reranker, честная оценка качества. Не «подключили LlamaIndex за вечер» — это система, которая работает на больших объёмах и реальных запросах.
Честное цитирование. Для юристов и аналитиков это не приятный бонус, а требование к работе. Мы показываем, как LLM можно заставить не галлюцинировать, а ссылаться на источник в 95% случаев.
Права доступа. Типичная ошибка RAG-систем — LLM случайно «вспоминает» документ, к которому пользователь не должен был получить доступ. Мы фильтруем кандидатов до передачи в модель.
Большие объёмы. На стенде индекс содержит 500k+ документов. Это не игрушечный демо, а архитектура, которую можно масштабировать в реальной компании.

Наши контакты

Проекты - Интеллектуальный поиск по корпоративной базе знаний

Отвечает на вопросы по корпоративным документам и всегда показывает, из какого файла взят ответ.

Задача

Что мы построили

Стек технологий

Метрики системы

Что показывает этот проект

Другие наши проекты.

ai_hub — платформа для прототипирования AI-фич

AI-движок для онлайн-образования

Готовы обсудить задачу?

Наши контакты