Проекты - Интеллектуальный поиск по корпоративной базе знаний
RAG-система поверх разнородных источников — файловые хранилища, SharePoint, почта. Ответы всегда сопровождаются ссылками на источники.
- Формат
- Демо-проект
- Тип системы
- AI-ассистенты и корпоративные помощники
- Отрасли
- юридические и консалтинговые компании, R&D, аналитические отделы
Отвечает на вопросы по корпоративным документам и всегда показывает, из какого файла взят ответ.
Задача
В компании накоплены тысячи документов — договоры, отчёты, исследования, переписка, внутренние публикации. Ни один сотрудник не знает, где что лежит. Новички входят в курс дела месяцами. Эксперты уходят и уносят знания с собой.
Корпоративный поиск, встроенный в SharePoint или файловое хранилище, находит документы по точным словам. Но 80% запросов формулируются не так: «как мы обычно делаем X», «что писали по теме Y за последний год», «кто занимался проектом Z». На такие запросы классический поиск не отвечает.
Для юридических и консалтинговых команд проблема острее: им нужно не просто найти документ, а сослаться на конкретную цитату в нём. Без источника ответ нельзя использовать в работе.
Что мы построили
RAG-систему поверх разнородных источников с обязательным цитированием.
Инкрементальная индексация:
- Коннекторы к файловым хранилищам (SMB/CIFS), SharePoint, Google Drive, корпоративной почте, внутренним wiki. Каждый коннектор работает в своём темпе и инкрементально обновляет индекс при изменениях.
- Парсинг всех основных форматов: DOCX, XLSX, PPTX, PDF (с OCR для сканов), HTML, TXT, Markdown. Для email — парсинг треда с разбиением на отдельные сообщения.
- Чанкинг с учётом структуры документа: заголовки, разделы, таблицы сохраняют семантический контекст.
Гибридный поиск:
- BM25 для точных формулировок и терминов.
- Semantic search через Qdrant с русскоязычной моделью эмбеддингов.
- Reranker на выходе — cross-encoder, который пересортировывает топ-20 кандидатов по релевантности к конкретному запросу.
Права доступа:
- Индекс знает права на уровне документа. При запросе система фильтрует кандидатов по правам текущего пользователя перед подачей в LLM. Это критично для юридических отделов, где доступ к документам регулируется.
- Интеграция с корпоративным AD/LDAP через стандартный SSO.
Ответы с цитатами:
- LLM отвечает только на основе переданного контекста. В ответе каждое утверждение помечено ссылкой на источник: документ + номер страницы + цитата. Пользователь может одним кликом открыть оригинал.
- Если система не нашла релевантной информации, она честно говорит «не знаю» вместо галлюцинации. Это контролируется проверкой confidence reranker-а и специальным промптом.
Стек технологий
- Python
- Qdrant
- sentence-transformers
- BM25
- cross-encoder reranker
- GigaChat / Claude
- SharePoint API
- SSO / AD
Метрики системы
- Recall@10 на тестовом корпусе
- ~0.91
- точность цитирования
- ~95%
- p95 latency на запрос
- ~2.5 с
- документов в индексе на стенде
- 500 000+
Что показывает этот проект
- Зрелый RAG для enterprise. Инкрементальная индексация, гибридный поиск, reranker, честная оценка качества. Не «подключили LlamaIndex за вечер» — это система, которая работает на больших объёмах и реальных запросах.
- Честное цитирование. Для юристов и аналитиков это не приятный бонус, а требование к работе. Мы показываем, как LLM можно заставить не галлюцинировать, а ссылаться на источник в 95% случаев.
- Права доступа. Типичная ошибка RAG-систем — LLM случайно «вспоминает» документ, к которому пользователь не должен был получить доступ. Мы фильтруем кандидатов до передачи в модель.
- Большие объёмы. На стенде индекс содержит 500k+ документов. Это не игрушечный демо, а архитектура, которую можно масштабировать в реальной компании.