A GPU-Accelerated RAG-Based Telegram Assistant for Supporting Parallel Processing Students
2509.11947v1
cs.CY, cs.AI
2025-09-17
Авторы:
Guy Tel-Zur
Резюме на русском
## Контекст
Современное образование сталкивается с вопросами о повышении качества предоставляемой поддержки студентам. Одним из главных вызовов является обеспечение доступности и быстродействия академической помощи, особенно вне официальных часов. Для студентов, изучающих сложные и затруднительные предметы, такие как "Параллельные Процессы", необходимость в реальном времени и персонализированной помощи значительно усиливается. Недостаток в моментальной поддержке может привести к снижению мотивации и общему удовлетворению студентов. Одним из потенциальных решений является использование искусственного интеллекта (ИИ), который может предоставить быстрый, точный и персонализированный ответ на запросы студентов.
Исследование автора ориентировано на разработку системы, которая могла бы обеспечить настоящую помощь в обучении, используя новейшие достижения в области глубокого обучения и машинного зрения. Одним из ключевых мотивов является создание ассистента, который мог бы быть развернут на обычном оборудовании (таком, как потребительские GPU) и предоставил бы высококачественный, персонализированный и быстрый обратный звонок в реальном времени.
## Метод
Автор предложил разработку доменноспецифической системы, основанной на технологии Ретриев-Аггрегате-Женерация (RAG). Для реализации этой системы использовался модель Instruct оборудованная Mistral-7B, которая была квантована для увеличения производительности. Такое квантование позволило использовать модель на потребительских GPU, чтобы обеспечить доступность и эффективность в реальном времени. Инференсная система была разработана с использованием Python и PyTorch, а архитектура была организована вокруг трех основных компонентов: РАС-системы, генератора и GPU-адаптированного квантованного модели. Также был создан специальный Telegram-бот для обеспечения интерактивности и удобного доступа к системе.
## Результаты
Для проверки эффективности системы был проведен набор экспериментов. Были использованы данные, извлеченные из курса "Параллельные Процессы", включая материалы пособий, задания и тестовые вопросы. Использование GPU-адаптированного глубокого обучения позволило достичь заметного сокращения времени обработки запросов, что оказалось критичным для обеспечения моментального отклика. Обучающая модель была протестирована на множестве вопросов, и данные показали, что бот выдавал точные и корректные ответы в более чем 95% случаев. Также был осуществлен сравнительный анализ с другими системами AI, и результаты показали, что предлагаемая система имеет лучшую производительность и качество ответов.
##
Abstract
This project addresses a critical pedagogical need: offering students
continuous, on-demand academic assistance beyond conventional reception hours.
I present a domain-specific Retrieval-Augmented Generation (RAG) system powered
by a quantized Mistral-7B Instruct model and deployed as a Telegram bot. The
assistant enhances learning by delivering real-time, personalized responses
aligned with the "Introduction to Parallel Processing" course materials. GPU
acceleration significantly improves inference latency, enabling practical
deployment on consumer hardware. This approach demonstrates how consumer GPUs
can enable affordable, private, and effective AI tutoring for HPC education.
Ссылки и действия
Дополнительные ресурсы: