Проекты - RAG-система поиска и ответов по онлайн-курсам

Интеллектуальный помощник по учебным курсам: находит релевантные фрагменты в материалах и генерирует ответ с цитатами на конкретные блоки курса.

Формат
Коммерческий проект · NDA
Тип системы
RAG и поиск по знаниям
Отрасли
EdTech, LMS-платформы, корпоративное обучение

Как это работает

Студент спрашивает — система находит фрагменты курса и даёт ответ с цитатами на конкретные блоки.

  1. 1
    Вопрос студента
  2. 2
    Гибридный поиск + ранжирование
  3. 3
    Ответ с цитатами из курса
live · пример

Запрос

Что такое кредитный риск?
обработка

Ответ системы

Развёрнутый ответ на основе материалов курса со ссылками на конкретные блоки-источники, из которых взята информация.

Проект под NDA. Архитектура и подход описаны в общих чертах; названия клиента, данные и детали реализации не раскрываются.

Задача

Студенты онлайн-курсов задают вопросы по материалам, но обычный поиск по словам не справляется: контент разнородный (текст, таблицы, PDF, изображения, видео), а ответ нужен не «ссылкой на страницу», а по существу — и с доказательством, откуда он взят. Без цитат такому помощнику не доверяют.

Что мы построили

RAG-конвейер, который нормализует запрос, ищет несколькими способами параллельно, объединяет и ранжирует результаты и генерирует ответ с цитатами.

Конвейер ответа
Нормализация запроса
Векторный поиск
BM25 (по словам)
По заголовкам
RRF-фьюжн + ранжирование
Ответ с цитатами

Ранжирование

Результаты разных видов поиска объединяются и переупорядочиваются по нескольким сигналам — это и даёт релевантность на сложном учебном контенте.

Сигналы ранжирования (относительный вклад)
  • Семантическая близость
  • Совпадение по словам
  • Совпадение заголовков
  • Свежесть/версия блока
  • Тип блока
  • Близость в структуре курса
  • Длина/полнота фрагмента

Веса показаны схематично и не раскрывают реальную формулу ранжирования.

Возможности

Гибридный поиск

Семантика + ключевые слова + заголовки одновременно.

Нормализация запроса

Исправление опечаток и раскрытие аббревиатур.

OCR через Vision

Извлечение текста из изображений, PDF и таблиц.

Синхронизация с LMS

Автообновление базы знаний через вебхуки.

Цитирование источников

Каждый ответ ссылается на конкретные блоки курса.

Стек технологий

  • Python
  • Гибридный поиск (вектор + BM25)
  • RRF fusion
  • GigaChat
  • Vision OCR
  • PostgreSQL
  • Вебхуки LMS

Метрики системы

поиска работают параллельно
3 вида
в ранжировании результатов
7 сигналов
ответов с цитатами на источник
100%
обновление из LMS по вебхукам
авто-синк

Что показывает этот проект

  • Честный поиск без галлюцинаций. Цитаты на конкретные блоки курса — ответ можно проверить, и ему доверяют.
  • Работа со сложным контентом. Таблицы, PDF, изображения и видео попадают в индекс через OCR, а не игнорируются.
  • Зрелость ранжирования. Гибридный поиск и многосигнальное ранжирование — это качество выдачи, а не «векторный поиск из коробки».
  • Живая база знаний. Синхронизация с LMS по вебхукам держит ответы актуальными без ручного переиндексирования.

Другие наши проекты.

ai_hub — платформа для прототипирования AI-фич

Внутренняя площадка, где мы обкатываем AI-фичи на реальных сценариях до выката в прод: каталог прототипов, доступы, чат-оркестратор и RAG.

Подробнее

AI-движок для онлайн-образования

Модульный движок, на котором работает AI-тьютор: ведёт диалог со студентом, проверяет домашние работы, помнит учебный прогресс и даёт аналитику преподавателю.

Подробнее

Готовы обсудить задачу?

Начнём с бесплатного 30-минутного AI-аудита. Разберём ваши процессы и честно скажем, где AI даст эффект, а где нет.

Наши контакты

  • Россия, Ростов-на-Дону
    344019, Ростовская область, г.о. город Ростов-на-Дону, г. Ростов-на-Дону, ул. 11-я Линия, зд. 39
  • start@qwerty.digital
    8 (995) 797 17 17
    Telegram: @qwerty_digital_bot