📚 Саммари научных статей из arXiv

Найдено 2901 результатов по запросу 'cs.LG, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Pareto Multi-Objective Alignment for Language Models

2025-08-13

Авторы:

Qiang He, Setareh Maghsudi

#### Контекст Large language models (LLMs) в настоящее время широко применяются в реальных сценариях, требующих оптимального баланса между несколькими часто противоречащимися целями, такими как информативность и краткость или полезность и творчество. Однако существующие методы выравнивания LLMs, основанные на reinforcement learning from human feedback (RLHF), оптимизируют модели только по отношению к одной функции награды. Это приводит к довольно жесткому поведению модели, которое не может учесть сложность и разнообразие человеческих предпочтений. Это ограничение снижает гибкость и адаптивность LLMs в реальной жизни, делая необходимым развитие методов многоцелевого выравнивания (MOA). Мы предлагаем Pareto Multi-Objective Alignment (PAMA) — новую, эффективную методологию, которая преобразует задачу многоцелевого оптимизационного RLHF в задачу системы концентрических точек. Это позволяет получать более универсальное и гибкое взаимодействие модели с пользователем. #### Метод PAMA является алгоритмом, основанным на системе концентрических точек, которая достигается за счет преобразования задачи многоцелевого RLHF в задачу аддитивной награды. Она использует технику спроецированного градиентного спуска, которая позволяет достичь высокой скорости расчета. Метод PAMA гарантирует совпадение с решениями многоцелевой оптимизации (MOO), но с меньшим количеством вычислительных ресурсов. Теоретически, PAMA будет работать, пока не будет достигнута точка парето, где ни одну функцию нельзя улучшить без ухудшения другой. Это гарантирует баланс между целями модели. Мы проверяли PAMA по размерам моделей от 125M до 7B параметров, и он показывал высокую эффективность и гибкость в решении MOA проблемы. #### Результаты Мы провели эксперименты с PAMA на моделях с различными размерами параметров, включая 125M, 350M, 1.3B и 7B. Результаты показали, что PAMA эффективно решает задачу многоцелевого выравнивания, создавая балансированные модели, которые соответствуют различным целям пользователей. Наши эксперименты подтвердили, что PAMA не только значительно эффективнее существующих MOO-методов, но и способен быстро решать задачи на больших моделях. В результате, PAMA демонстрирует свою эффективность в живых сценариях, где необходимо быстрое решение MOA-задач. #### Значимость PAMA предлагает новый подход к решению проблемы многоцелевого выравнивания в LLMs, который может быть применен во многих реальных сценариях, где необходимы совместимые решения для нескольких целей. Решение PAMA позволяет использовать модели более гибко, увеличивая их применение в сферах, таких ка

Annotation:

Large language models (LLMs) are increasingly deployed in real-world applications that require careful balancing of multiple, often conflicting, objectives, such as informativeness versus conciseness, or helpfulness versus creativity. However, current alignment methods, primarily based on RLHF, optimize LLMs toward a single reward function, resulting in rigid behavior that fails to capture the complexity and diversity of human preferences. This limitation hinders the adaptability of LLMs to prac...

ID: 2508.07768v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Not Yet AlphaFold for the Mind: Evaluating Centaur as a Synthetic Participant

2025-08-13

Авторы:

Sabrina Namazova, Alessandra Brondetta, Younes Strittmatter, Matthew Nassar, Sebastian Musslick

## Контекст Симуляторы (simulators) широко используются в научных исследованиях для моделирования реальных феноменов и ускорения экспериментальных исследований. Особенно удачно это продемонстрировано в химии, где симулятор AlphaFold, получивший Нобелевскую премию, может предсказывать структуру белков на основе аминокислотных последовательностей. Благодаря этому, ученые могут быстро прототипировать взаимодействия молекул, найти цели для лекарств и изучать функции белков. Однако в области психологии и биологии поведения такого успеха еще не было. Бинз и его коллеги представили Centaur, широко используемую модель языка, настроенную на данные от 160 экспериментов. Целью их работы было получение системы, которая могла бы работать как модель развития умственных процессов и симулятор поведения. Однако, несмотря на то, что Centaur достиг высокой точности предсказаний, его поведение отличается от поведения реальных участников, что снижает его ценность в качестве модели и симулятора поведения. Таким образом, Centaur может быть полезен для моделирования, но еще далек от того, чтобы стать верным аналогом человеческого участника в экспериментах. ## Метод Centaur был создан на основе широко известной модели языка (LLM), подвергнутой дополнительной обучению на основе 160 экспериментов. Основная цель этого новый подхода заключается в том, чтобы система могла не только анализировать информацию, но и генерировать поведение, похожее на человеческое. Метод состоял в том, чтобы система прошла подборку на основе человеческих данных, чтобы далее моделировать поведение в различных ситуациях. Однако, несмотря на то, что Centaur может скорее предсказывать поведение, он не должен был быть принят как полноценный симулятор поведения, так как пока не может представлять собой надежное зеркало реальных человеческих процессов. ## Результаты В результате экспериментов Centaur показал высокую точность в предсказании поведения, однако его производительность в тестах, которые отражают поведение реальных участников, оставалась ниже ожидаемого уровня. Несмотря на то, что модель может предсказывать результаты в разных экспериментах с высокой точностью, она не может полностью соответствовать реальному поведению человека в этих тестах. Это отклонение значительно снижает ценность Centaur в качестве модели поведения и симулятора. Из экспериментов также выяснилось, что Centaur не отражает некоторые факторы, которые влияют на поведение человека, например, эмоциональные реакции и контекст. ## Значимость Centaur может быть полезен в определенных областях, например, для моделирования и анализа поведения в некоторых экспериментах. Однако, несмотря на это, он не может быть принят в кач

Annotation:

Simulators have revolutionized scientific practice across the natural sciences. By generating data that reliably approximate real-world phenomena, they enable scientists to accelerate hypothesis testing and optimize experimental designs. This is perhaps best illustrated by AlphaFold, a Nobel-prize winning simulator in chemistry that predicts protein structures from amino acid sequences, enabling rapid prototyping of molecular interactions, drug targets, and protein functions. In the behavioral s...

ID: 2508.07887v1 cs.LG, cs.AI

arXiv PDF

📄 WeChat-YATT: A Simple, Scalable and Balanced RLHF Trainer

2025-08-13

Авторы:

Junyu Wu, Weiming Chang, Xiaotao Liu, Guanyou He, Tingfeng Xian, Haoqiang Hong, Boqi Chen, Haotao Tian, Tao Yang, Yunsheng Shi, Feng Lin, Ting Yao

#### Контекст Reinforcement Learning from Human Feedback (RLHF) является важной методологией для обучения бо LARGE LANGUAGE MODELS (LLMs) и multimodal systems. Она позволяет моделям построить более точные и естественные ответы на запросы пользователей, используя постоянное обучение на данных, собранных в реальном времени. Несмотря на прогрессы, полученные с помощью RLHF, существуют затруднения, связанные с его масштабированием для работы с multimodal workflows, а также адаптации к динамическим условиям обучения. Существующие системы часто сталкиваются с проблемами, такими как неэффективность в использовании ресурсов и централизованные архитектуры управления. Эти проблемы приводят к задержкам, неоптимальному использованию оборудования и потерей производительности. #### Метод WeChat-YATT представляет собой простую, масштабируемую и балансированную RLHF-платформу, разработанную для решения этих проблем. Она использует параллельное управление RLHF-процессами, что позволяет эффективно оркестровать сложные топологии обучения. Динамическая схема размещения ресурсов адаптивно распределяет GPU-ресурсы и планирует задачи, минимизируя время простоя и увеличивая GPU-использование при изменении объема данных. Кроме того, WeChat-YATT использует параллельные модели взаимодействия с моделью, чтобы уменьшить время отклика и повысить эффективность обучения. #### Результаты В ходе экспериментов, проведенных на различных multimodal datasets, WeChat-YATT показал значительное увеличение пропускной способности и уменьшение времени обучения в сравнении с состояниями технологий RLHF. Использовавшиеся данные включали multimodal сигналы, такие как текст, изображения и звуковые файлы, чтобы подтвердить гибкость и сложность фреймворка. Оценка производительности показала, что WeChat-YATT существенно улучшает GPU-использование и целостность процесса обучения при работе с большими моделями и постоянным потоком данных. #### Значимость WeChat-YATT может быть применен в различных областях, включая NLP, vision-language tasks, multimodal согласования и динамическое обучение моделей. Его динамическая настройка ресурсов обеспечивает эффективность в задачах с большим объемом данных и меняющимися условиями. Это снижает затраты на оборудование и улучшает производительность в реальном времени. Фреймворк уже применяется внутри WeChat для обучения моделей, которые поддерживают функции платформы для миллионов пользователей, демонстрируя надежность и высокую производительность в реальных условиях. #### Выводы WeChat-YATT успешно обходит большинство проблем, связанных с масштабированием RLHF-процессов и динамическим распределением ресурсов. Его архитектура делает его подходящим для многомодальных приложений, которые требую

Annotation:

Reinforcement Learning from Human Feedback (RLHF) has emerged as a prominent paradigm for training large language models and multimodal systems. Despite notable advances enabled by existing RLHF training frameworks, significant challenges remain in scaling to complex multimodal workflows and adapting to dynamic workloads. In particular, current systems often encounter limitations related to controller scalability when managing large models, as well as inefficiencies in orchestrating intricate RL...

ID: 2508.07970v1 cs.LG, cs.AI

arXiv PDF

📄 Learning to Select MCP Algorithms: From Traditional ML to Dual-Channel GAT-MLP

2025-08-13

Авторы:

Xiang Li, Shanshan Wang, Chenglong Xiao

#### Контекст Область исследования связана с комбинаторными задачами, в частности с Maximum Clique Problem (MCP), которая широко применяется в различных областях, таких как графовые теории, криптография, информатика, и другие. Несмотря на интенсивное исследование, существуют незначительные различия между различными алгоритмами MCP в зависимости от конкретных характеристик графических экземпляров. Это создает необходимость в разработке системы, которая могла бы выбирать подходящий алгоритм на основе особенностей графа. Данное работа посвящена разработке такого решения. #### Метод Предлагаемая модель GAT-MLP, которая использует двойной канал для обработки данных: Graph Attention Network (GAT) для локальной моделирования структуры графа и Multilayer Perceptron (MLP) для глобального моделирования. Для обучения и оценки данного подхода, был создан многочисленный набор графов, над которыми были проведены четыре вариантов точных алгоритмов для MCP. Данные были собраны в тренировочную выборку с классификатором, который моделирует характеристики графа, включая связность и топологическую структуру. Модель GAT-MLP была протестирована с помощью классических методов машинного обучения, таких как Random Forest, SVM и др. #### Результаты Эксперименты показали, что Random Forest (RF) показал самые высокие результаты в тестировании многих моделей на разных датасетах. Это свидетельствует о том, что RF может быть использован как базовая модель для алгоритма выбора. Были проведены анализы важности признаков, в результате которых были выявлены ключевые факторы, влияющие на выбор алгоритмов. В частности, связность и топологическая структура оказались сильными предикторами. Было также проведено тестирование двойного канала GAT-MLP, который показал лучшие результаты по сравнению с другими моделями. #### Значимость Разработанная модель может быть применена в различных графовых задачах, которые требуют выбора подходящего алгоритма максимальной клики. Например, модель может быть использована в графовой аналитике, в системах рекомендаций, в логистике и других областях, где графы имеют большое значение. С точки зрения преимуществ, модель GAT-MLP обеспечивает более точную оценку конкретных графов и позволяет выбирать наиболее эффективные алгоритмы для решения MCP. Это может повысить эффективность решения задач, связанных с графами, и сделать их более надежными. #### Выводы Результаты показали, что модель GAT-MLP показала сильные и последовательные результаты в поиске подходящего алгоритма для MCP. Это открывает новые возможности для автоматического выбора алгоритмов в графовых задачах. Будущие

Annotation:

Extensive experiments and prior studies show that no single maximum clique algorithm consistently performs best across all instances, highlighting the importance of selecting suitable algorithms based on instance features. Through an extensive analysis of relevant studies, it is found that there is a lack of research work concerning algorithm selection oriented toward the Maximum Clique Problem (MCP). In this work, we propose a learning-based framework that integrates both traditional machine le...

ID: 2508.08005v1 cs.LG, cs.AI

arXiv PDF

📄 BadPromptFL: A Novel Backdoor Threat to Prompt-based Federated Learning in Multimodal Models

2025-08-13

Авторы:

Maozhen Zhang, Mengnan Zhao, Bo Wang

## Контекст Область исследования, связанная с федеративным обучением и обучением с применением контекстной настройки (prompt-based tuning), набирает важность в связи с ростом использования визуально-языковых моделей. Эти модели позволяют эффективно применять сложные модели, не требуя полной оптимизации весов для каждого клиента. Несмотря на преимущества, возникают вопросы по безопасности, особенно в случае использования федеративного обучения в контексте многомодальных моделей. Атаки, направленные на подбор бэкдоров в таких системах, могут иметь серьезные последствия. Новая угроза, подлинность которой описывается в этой работе, подчеркивает необходимость углубленного изучения безопасности при работе с контекстными моделями в федеративных сетях. ## Метод Для создания атаки BadPromptFL разработана методология, которая включает в себя управляемую модификацию локальных моделей клиентов в федеративной сети. Это достигается путем внедрения локальных бэкдорных триггеров и координирования обновлений владения этими триггерами с обновлениями в контекстных слоях (промптов). Такой подход позволяет внедрять уязвимости в многомодальные модели, при этом ограничивая видимость атаки и уменьшая необходимое количество участвующих клиентов. Метод основывается на изучении характера обучения в CLIP-стиле, что позволяет достичь высокой эффективности с минимальным видимым воздействием. Объектом изучения являются федеративные сети, использующие визуально-языковые модели. ## Результаты В рамках экспериментов были изучены различные сценарии применения BadPromptFL, включая несколько датасетов и протоколы синхронизации. Атака доказала свою эффективность, показав высокую доле успешного внедрения бэкдоров (более 90%) при ограниченном взаимодействии с клиентами. Наблюдалось устойчивое поведение атаки при различных условиях федеративного обучения. Анализ показал, что BadPromptFL не требует модификации моделей и может быть эффективно применена для внедрения постоянных уязвимостей в глобальную модель. ## Значимость Рассматриваемая угроза имеет значительное значение для развития безопасности в сфере федеративного обучения. Это позволяет выявить новые риски, связанные с применением контекстных моделей и многомодальным ориентированным подходам. Угруза BadPromptFL может быть использована для проверки механизмов защиты в федеративных сетях, повышая уровень безопасности. Благодаря универсальности и эффективности, данный подход может быть применим в области безопасности многомодальных систем. ## Выводы В ходе работы была разработана новая модель атаки BadPromptFL, которая выделяется по степени стелсости и

Annotation:

Prompt-based tuning has emerged as a lightweight alternative to full fine-tuning in large vision-language models, enabling efficient adaptation via learned contextual prompts. This paradigm has recently been extended to federated learning settings (e.g., PromptFL), where clients collaboratively train prompts under data privacy constraints. However, the security implications of prompt-based aggregation in federated multimodal learning remain largely unexplored, leaving a critical attack surface u...

ID: 2508.08040v1 cs.LG, cs.AI

arXiv PDF

📄 On Understanding of the Dynamics of Model Capacity in Continual Learning

2025-08-13

Авторы:

Supriyo Chakraborty, Krishnan Raghavan

## Контекст Вопросы стабильности и пластичности, тесно связанные с модельной мощностью нейронных сетей в контексте непрерывного обучения (continual learning, CL), являются одними из основных проблем в этой области. Модельная мощность отражает способность нейронной сети сохранять прошлые знания и при этом учиться новым задачам. Однако в непрерывном обучении возникают ситуации, когда сеть должна быстро адаптироваться к новым задачам, что может привести к затуханию предыдущих знаний. Эта проблема называется "стабильность-пластичность" (stability-plasticity dilemma) и является ключевой задачей в теории и практике непрерывного обучения. Мы предлагаем новую метрику — "эффективная модельная мощность" (Effective Model Capacity, CLEMC), которая позволяет оценивать динамику этого баланса во время обучения. ## Метод Чтобы изучить динамику эффективной модельной мощности, мы разработали дифференциальное уравнение, описывающее зависимость модельной мощности от данных задач, архитектуры нейросети и оптимизационного процесса. Модель описывает не только статическую мощность, но и ее динамическое изменение во время обучения. Мы доказали, что эффективная модельная мощность является нестационарной, то есть она изменяется в зависимости от характера поступающих задач. Это зависимость можно продемонстрировать даже для разных архитектур нейронных сетей, включая простые feedforward сети, сверточные сети и большие модели на основе трансфортеров. Мы также разработали методы для эмпирического измерения CLEMC, что позволит проверить наши теоретические выводы на реальных данных. ## Результаты Мы провели серию экспериментов, используя разные архитектуры нейронных сетей, включая small feedforward networks, convolutional networks, graph neural networks и large transformer-based language models. Мы измерили CLEMC во время обучения на разных задачах и проверили, как она изменяется при изменении размера сети, типа задачи и других параметров. Наши результаты подтвердили, что для любой архитектуры нейронной сети, во время обучения на новых задачах, эффективная модельная мощность нестационарна и уменьшается, если новые задачи отличаются от предыдущих. Это означает, что нейронные сети теряют в способности представлять новые задачи, когда они неоднородны по своим характеристикам. ## Значимость Наши результаты имеют значительное значение для развития методов непрерывного обучения. Они показывают, что нестационарность эффективной модельной мощности является общим явлением, не зависящим от архитектуры или оптимизационного метода. Это понятие может быть использовано для моделирования и контроля баланса стабильности и пластичности в нейронных сетях. Благодаря CLEMC, можно разрабатывать более эф

Annotation:

The stability-plasticity dilemma, closely related to a neural network's (NN) capacity-its ability to represent tasks-is a fundamental challenge in continual learning (CL). Within this context, we introduce CL's effective model capacity (CLEMC) that characterizes the dynamic behavior of the stability-plasticity balance point. We develop a difference equation to model the evolution of the interplay between the NN, task data, and optimization procedure. We then leverage CLEMC to demonstrate that th...

ID: 2508.08052v1 cs.LG, cs.AI

arXiv PDF

📄 C-MAG: Cascade Multimodal Attributed Graphs for Supply Chain Link Prediction

2025-08-13

Авторы:

Yunqing Li, Zixiang Tang, Jiaying Zhuang, Zhenyu Yang, Farhad Ameri, Jianbang Zhang

## Контекст Обеспечение эффективности и устойчивости глобальных цепей поставок требует точной связки продуктов с подходящими производителями и поставщиками. Традиционные методы сталкиваются с трудностями при анализе комплексных характеристик производителей, таких как технические характеристики, сертификаты, географические ограничения и богатые данные многомодального характера. Эти ограничения приводят к неточности в прогнозировании связей между продуктами и производителями. В этой статье предлагается C-MAG (Cascade Multimodal Attributed Graphs) — мощная методология для точного прогнозирования таких связей, которая учитывает многообразие многомодальных данных и сложности реального мира. ## Метод C-MAG представляет собой двухступенчатую архитектуру для точного прогнозирования связей в задаче графов-справочников. В первой стадии используется модальность графа для выделения, интеграции и агрегирования текстовых и визуальных атрибутов в интерфейсные представления. Вторая стадия распространяет эти представления через многослойное пропускание сообщений (multiscale message passing) по графу, состоящему из производителей и продуктов. Эта архитектура позволяет учитывать интерактивность между различными модальностями и повышает точность прогнозирования связей. ## Результаты Проведенные эксперименты показали высокую точность C-MAG в прогнозировании связей в цепочках поставок. Использовались данные из PMGraph, включающего 8,888 производителей, 70k продуктов, 110k связей между ними и 29k изображений продуктов. Сравнение C-MAG с другими подходами показало его превосходство в аккуратности и устойчивости к шуму в данных. Эти результаты доказывают эффективность C-MAG в решении задач прогнозирования связей в реальных цепочках поставок. ## Значимость C-MAG предлагает перспективные возможности в приложениях, связанных с глобальными цепями поставок, таких как точное прогнозирование связей продуктов с производителями, оптимизация логистики и поддержка устойчивости цепей. Его мощь заключается в том, что он может обрабатывать многообразные многомодальные данные, обеспечивая высокую точность и устойчивость в носящих характер данных реального мира. ## Выводы C-MAG достигает высокой точности в прогнозировании связей в цепочках поставок за счет своей модальностно-ориентированной архитектуры. Дальнейшие исследования будут направлены на улучшение структуры графов и интеграцию дополнительных модальностей для еще большей точности и устойчивости.

Annotation:

Connecting an ever-expanding catalogue of products with suitable manufacturers and suppliers is critical for resilient, efficient global supply chains, yet traditional methods struggle to capture complex capabilities, certifications, geographic constraints, and rich multimodal data of real-world manufacturer profiles. To address these gaps, we introduce PMGraph, a public benchmark of bipartite and heterogeneous multimodal supply-chain graphs linking 8,888 manufacturers, over 70k products, more t...

ID: 2508.08071v1 cs.LG, cs.AI, J.1; I.2.4; H.2.8

arXiv PDF

📄 Grid2Guide: A* Enabled Small Language Model for Indoor Navigation

2025-08-13

Авторы:

Md. Wasiul Haque, Sagar Dasgupta, Mizanur Rahman

## Контекст Навигация внутри помещений остается значимой проблемой, особенно в сложных пространственных средах, где доступ к внешним сигналам позиционирования (GPS) или специальной инфраструктуре отсутствует. Традиционные системы, основанные на геопозиционировании, не могут обеспечить достоверную навигацию в помещениях из-за нестабильности сигналов или отсутствия подходящих сенсоров. Это приводит к усложнению пользовательского опыта и неэффективности, особенно в крупных комплексах, таких как здания с разными зонами или подземные транспортные системы. Grid2Guide предлагает новую модель для решения этой проблемы, которая использует простую архитектуру и эффективные методы для создания четких и понятных для пользователя текстовых инструкций навигации. Эта модель ориентируется на безопасность и надежность, даже при отсутствии доступа к сложным технологическим средствам. Она может применяться в различных сферах, таких как торговые центры, медицинские учреждения и жилые комплексы. ## Метод Grid2Guide основывается на сочетании двух технологий: A* поискового алгоритма и Small Language Model (SLM). Сначала бинарный матрицу оккупации пространства создается на основе исходной карты помещения. Затем, A* алгоритм вычисляет кратчайший путь от начальной точки до целевой, оптимизируя время и удобство пути. Чтобы сделать полученные шаги навигации более понятными для пользователя, SLM преобразует их в естественный язык. Это позволяет инструкциям быть читаемыми и простыми для понимания, даже для тех, кто не знаком с системами навигации. Эта связка позволяет Grid2Guide удовлетворять требованиям быстроты и точности в реальном времени. ## Результаты Эксперименты проводились в разных видах интерьеров, включая торговые центры, офисные здания и подземные станции метро. Использовались реальные карты и ситуации для эмуляции навигационных задач. Результаты показали, что Grid2Guide обеспечивает точные инструкции в пределах оптимального времени. Также проверена степень понятности инструкций для пользователя, и результаты подтвердили высокую читаемость и логичность текстов. Данные эксперименты показали, что Grid2Guide может быть эффективно использовано для поддержки навигации в режиме реального времени в различных средах без дополнительной инфраструктуры. ## Значимость Grid2Guide представляет собой новую модель для решения проблем навигации внутри помещений. Он может применяться в сферах, где требуется надежная и быстрая навигация без доступа к сложной инфраструктуре. Например, в зданиях с многоуровневой структурой или для поддержки людей с ограниченными

Annotation:

Reliable indoor navigation remains a significant challenge in complex environments, particularly where external positioning signals and dedicated infrastructures are unavailable. This research presents Grid2Guide, a hybrid navigation framework that combines the A* search algorithm with a Small Language Model (SLM) to generate clear, human-readable route instructions. The framework first conducts a binary occupancy matrix from a given indoor map. Using this matrix, the A* algorithm computes the o...

ID: 2508.08100v1 cs.LG, cs.AI

arXiv PDF

📄 Vision-Based Localization and LLM-based Navigation for Indoor Environments

2025-08-13

Авторы:

Keyan Rahimi, Md. Wasiul Haque, Sagar Dasgupta, Mizanur Rahman

## Контекст Индорн avigation, или навигация внутри помещений, остается значимой проблемой в условиях ограничения доступа к сигналам GPS и в условиях сложных архитектурных структур больших помещений. Особенно это актуально для местах, где требуется высокая точность и надежность, вроде госпиталей, аэропортов и учебных залов. Традиционные системы ориентации и навигации часто требуют дорогостоящих компонентов или инфраструктуры, которые могут быть недоступными в ресурсоподвержденных средах. Задача этого исследования — развитие эффективной и ресурсоемкой системы ориентации и навигации внутри помещений, используя доступные технологии. ## Метод Предлагаемая методология сочетает в себе два модуля: визуальное распознавание местоположения (localization) и генерацию направлений (navigation) с помощью больших языковых моделей (LLM). Для распознавания местоположения используется модель ResNet-50, которая была прикреплена к смартфонной камере для снимать изображения в реальном времени. Эта модель была тренирована на данных, имеющихся в ограниченных условиях видимости. Второй модуль — LLM — используется для генерации направлений. Он обрабатывает предобработанные изображения планов помещений и формирует пошаговые инструкции. Эта система обучена на данных с большого объема текста и изображений, чтобы она могла корректно воспринимать информацию о структурах помещений и предоставлять понятные инструкции. ## Результаты Проведенные эксперименты показали высокую точность распознавания местоположения. Система находила позицию пользователя с достоверностью 96%, даже в условиях ограниченной видимости и коротких запросов. Навигационные тесты, основанные на реальных фотограммах помещений, демонстрировали достижение средней точности 75% в инструкциях. Однако были выявлены ограничения, такие как трудности с нулевой разметкой и некоторые трудности в обработке текста в реальном времени. Эти результаты демонстрируют значительный потенциал системы, особенно в ресурсоскрутящих условиях. ## Значимость Этот подход может быть применен в различных областях, таких как здравоохранение, образование и общественный сектор. Он предлагает систему, которая не требует дорогостоящих инфраструктурных компонентов и может быть реализована в различных структурах. Улучшение навигационных систем внутри помещений может привести к более эффективной и доступной ориентации для людей с ограниченными возможностями, а также уменьшить время, потраченное на поиски мест. ## Выводы Результаты экспериментов показали возможность создания эффективной системы на

Annotation:

Indoor navigation remains a complex challenge due to the absence of reliable GPS signals and the architectural intricacies of large enclosed environments. This study presents an indoor localization and navigation approach that integrates vision-based localization with large language model (LLM)-based navigation. The localization system utilizes a ResNet-50 convolutional neural network fine-tuned through a two-stage process to identify the user's position using smartphone camera input. To complem...

ID: 2508.08120v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 MemoryKT: An Integrative Memory-and-Forgetting Method for Knowledge Tracing

2025-08-13

Авторы:

Mingrong Lin, Ke Deng, Zhengyang Wu, Zetao Zheng, Jie Li

## Контекст Knowledge Tracing (KT) — это область исследований, стремящаяся предсказывать знания и умения студентов на основе их исторических взаимодействий. Одной из главных проблем KT является точное описание динамики знаний и памяти, чтобы улучшить точность моделей и их интерпретируемость. Традиционные модели часто игнорируют персонализированные модели "забывания" (forgetting), что приводит к ограниченности их применения. Необходимо развитие более точных и индивидуальных моделей, чтобы улучшить моделирование и оценку знаний. ## Метод Предлагается MemoryKT — модель, основанная на временном вариационном автоэнкодере (Temporal Variational Autoencoder, TVAE). Эта модель учитывает три основных этапа процесса памяти: кодирование, хранение и восстановление, а также включает модуль персонализированного забывания. TVAE учитывает не только состояние памяти, но и индивидуальные модели забывания, что обеспечивает более точное моделирование динамики знаний. Модель обучается на данных об упражнениях и предсказывает динамику знаний студентов. ## Результаты Проведены эксперименты на четырёх общедоступных датасетах, показавшие, что MemoryKT достигает значительных улучшений по сравнению с современными моделями. На основе ошибок RMSE, MAE и AUC, MemoryKT показывает лучший результат, в том числе в сравнении с текущими лидерами в области KT. Это свидетельствует о том, что модель может более точно отражать знания и память студентов, чем существующие подходы. ## Значимость Модель MemoryKT может использоваться в различных областях, включая обучение, персонализацию контента и поддержку учебных процессов. Её главное преимущество заключается в том, что она учитывает индивидуальные модели забывания, что делает моделирование более точным и персонализированным. Это может улучшить качество рекомендаций, мотивацию и эффективность обучения. Будущие исследования могут сосредоточиться на расширении модели для других типов данных и её применении в реальных условиях. ## Выводы Предложенная MemoryKT является прорывом в области Knowledge Tracing, показывая значительные улучшения по сравнению с текущими моделями. Её индивидуальная модель забывания позволяет более точно отражать динамику знаний и памяти. Дальнейшие исследования должны направлены на расширение модели и её применение в практических задачах.

Annotation:

Knowledge Tracing (KT) is committed to capturing students' knowledge mastery from their historical interactions. Simulating students' memory states is a promising approach to enhance both the performance and interpretability of knowledge tracing models. Memory consists of three fundamental processes: encoding, storage, and retrieval. Although forgetting primarily manifests during the storage stage, most existing studies rely on a single, undifferentiated forgetting mechanism, overlooking other m...

ID: 2508.08122v1 cs.LG, cs.AI

arXiv PDF

1
2
276
277
278
279
280
290
291

Показано 2771 - 2780 из 2901 записей