Проекты - RAG-система поиска и ответов по онлайн-курсам
Интеллектуальный помощник по учебным курсам: находит релевантные фрагменты в материалах и генерирует ответ с цитатами на конкретные блоки курса.
- Формат
- Коммерческий проект · NDA
- Тип системы
- RAG и поиск по знаниям
- Отрасли
- EdTech, LMS-платформы, корпоративное обучение
Как это работает
Студент спрашивает — система находит фрагменты курса и даёт ответ с цитатами на конкретные блоки.
- 1Вопрос студента
- 2Гибридный поиск + ранжирование
- 3Ответ с цитатами из курса
Запрос
Ответ системы
Проект под NDA. Архитектура и подход описаны в общих чертах; названия клиента, данные и детали реализации не раскрываются.
Задача
Студенты онлайн-курсов задают вопросы по материалам, но обычный поиск по словам не справляется: контент разнородный (текст, таблицы, PDF, изображения, видео), а ответ нужен не «ссылкой на страницу», а по существу — и с доказательством, откуда он взят. Без цитат такому помощнику не доверяют.
Что мы построили
RAG-конвейер, который нормализует запрос, ищет несколькими способами параллельно, объединяет и ранжирует результаты и генерирует ответ с цитатами.
Ранжирование
Результаты разных видов поиска объединяются и переупорядочиваются по нескольким сигналам — это и даёт релевантность на сложном учебном контенте.
- Семантическая близость
- Совпадение по словам
- Совпадение заголовков
- Свежесть/версия блока
- Тип блока
- Близость в структуре курса
- Длина/полнота фрагмента
Веса показаны схематично и не раскрывают реальную формулу ранжирования.
Возможности
Гибридный поиск
Семантика + ключевые слова + заголовки одновременно.
Нормализация запроса
Исправление опечаток и раскрытие аббревиатур.
OCR через Vision
Извлечение текста из изображений, PDF и таблиц.
Синхронизация с LMS
Автообновление базы знаний через вебхуки.
Цитирование источников
Каждый ответ ссылается на конкретные блоки курса.
Стек технологий
- Python
- Гибридный поиск (вектор + BM25)
- RRF fusion
- GigaChat
- Vision OCR
- PostgreSQL
- Вебхуки LMS
Метрики системы
- поиска работают параллельно
- 3 вида
- в ранжировании результатов
- 7 сигналов
- ответов с цитатами на источник
- 100%
- обновление из LMS по вебхукам
- авто-синк
Что показывает этот проект
- Честный поиск без галлюцинаций. Цитаты на конкретные блоки курса — ответ можно проверить, и ему доверяют.
- Работа со сложным контентом. Таблицы, PDF, изображения и видео попадают в индекс через OCR, а не игнорируются.
- Зрелость ранжирования. Гибридный поиск и многосигнальное ранжирование — это качество выдачи, а не «векторный поиск из коробки».
- Живая база знаний. Синхронизация с LMS по вебхукам держит ответы актуальными без ручного переиндексирования.