📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

George Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov

## КОНТЕКСТ И ПРОБЛЕМАТИКА Контекст исследования заключается в развитии интерактивных мультимодальных агентов, которые могут эффективно использовать визуальные наблюдения для выполнения последовательности действий, условиями которых является языковой ввод. Такая задача представляет собой ключевой шаг к созданию систем, способных решать сложные задачи в реальном мире. Однако современные vision-language models (VLMs) ещё не обладают необходимыми способностями для эффективного выполнения таких задач в условиях динамических и непредсказуемых окружений. Прежние попытки применения reinforcement learning (RL) к VLMs сталкивались со значительными ограничениями. Многие методы требовали калибровки гиперпараметров, что делало их чувствительными к изменениям, или основывались на средах с высокой плотностью вознаграждений и низкой вариативностью состояний, что ограничивало их применимость в реальных ситуациях. Также, существующие подходы редко проверяли, насколько полученные модели могут обобщаться за пределами сред, в которых они были обучены. Это создавало значительный барьер для использования VLMs в реальных приложениях. Мотивацией исследования является разработка метода, который позволит обучать VLMs в простой и недорогой среде, но при этом обеспечит высокую способность к обобщению на реальных данных. Такой подход может стать важной вехой в развитии интеллектуальных систем, которые могут эффективно взаимодействовать с визуальной и языковой информацией в сложных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают Vision-Language Decoupled Actor-Critic (VL-DAC), новый легковесный алгоритм RL, предназначенный для обучения VLMs без необходимости гиперпараметрической настройки. Основной инновацией VL-DAC является декоуплирование обновлений для action tokens и value function. Алгоритм применяет Proximal Policy Optimization (PPO) на уровне action tokens, в то время как value function обучается только на уровне шагов в среде. Этот подход устраняет нестабильные весовые коэффициенты, которые характерны для традиционных RL-методов, и обеспечивает более быструю и надёжную сходимость. VL-DAC обучает VLMs последовательно в разных недорогих симуляторах, таких как MiniWorld, Gym-Cards, ALFWorld и WebShop. Это позволяет модели развивать универсальные стратегии, которые могут быть эффективно перенесены на реальные задачи. Архитектура VL-DAC проста в реализации и не требовательна к вычислительным ресурсам, что делает её пригодной для широкого круга приложений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось на нескольких бенчмарках, включая BALROG (для игрового контроля), VSI-Bench (для пространственного планирования) и VisualWebBench (для навигации в вебе). Результаты показали значительные улучшения: +50% относительного прироста на BALROG, +5% на самой сложной части VSI-Bench и +2% на VisualWebBench. Эти улучшения были достигнуты без ух peor данности общей точности распознавания изображений, что подтверждает эффективность VL-DAC в обеспечении обобщения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость VL-DAC заключается в его способности обучать VLMs в недорогих симуляторах, при этом обеспечивая высокую эффективность в реальных задачах. Это открывает новые возможности для применения VLMs в областях таких как агентский контроль, пространственное планирование и навигация в вебе. Метод также может быть использован в сферах, требующих высокого уровня взаимодействия между визуальными и языковыми компонентами, что делает его полезным для разработки интеллектуальных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует, что VL-DAC является первым алгоритмом, способным обучать VLMs в простых симуляторах и показывающим значительные результаты на реальных задачах. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности алгоритма и расширении его применимости к более сложным задачам и средам.
Annotation:
Interactive multimodal agents must convert raw visual observations into coherent sequences of language-conditioned actions -- a capability that current vision-language models (VLMs) still lack. Earlier reinforcement-learning (RL) efforts could, in principle, endow VLMs with such skills, but they have seldom tested whether the learned behaviours generalize beyond their training simulators, and they depend either on brittle hyperparameter tuning or on dense-reward environments with low state varia...
ID: 2508.04280v1 cs.LG, cs.AI
Авторы:

Yongyi Wang, Lingfeng Li, Bozhou Chen, Ang Li, Hanyu Liu, Qirui Zheng, Xionghui Yang, Wenxin Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее времение исследования в области reinforcement learning (RL) стали активно развиваться, особенно в контексте memory-augmented RL алгоритмов. Эти алгоритмы предназначены для работы в средах, характеризующихся частичной наблюдаемостью (Partially Observable Markov Decision Processes, POMDPs), где агенты должны использовать информацию из прошлых наблюдений для принятия решений. Несмотря на то, что существующие бенчмарки предлагают сложные реальному миру задачи, они часто не позволяют точно контролировать уровень сложности для моделей памяти. Это ограничение существенно осложняет процесс детальной оценки и разработки эффективных методов для memory-augmented RL. Синтетические среды, напротив, предлагают большую гибкость и контроль над динамикой, что делает их крайне полезными для тщательного анализа и тестирования. Исследование синтетических POMDPs позволяет моделировать различные уровни сложности и изучать их влияние на производительность алгоритмов RL. В этой области, однако, не существует универсального метода для моделирования и анализа POMDPs с учетом потребностей memory-augmented RL. Необходимо разработать концептуальный и практический фреймворк для создания синтетических сред, которые будут отвечать натуральным требованиям и предоставлять подробные данные о требованиях к памяти. Целью данного исследования является разработка такого фреймворка, который будет позволять создавать POMDP среды с заранее определенными свойствами и сложностями. Это позволит лучше понять проблемы, связанные с использованием памяти в RL, и обеспечить более эффективный выбор и оптимизацию моделей памяти. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данном исследовании разработана комплексная методология для создания и анализа POMDP сред, основанная на концепции Memory Demand Structure (MDS). Эта методология включает в себя три основных этапа: 1. **Теоретический фреймворк:** Был разработан фреймворк для анализа POMDPs, который основывается на понятиях MDS, инвариантности переходов и других математических понятий. Этот фреймворк позволяет формализовать свойства сред и определять уровни сложности для memory-augmented RL. 2. **Методология построения сред:** Используя линейные динамические процессы, агрегацию состояний и перераспределение наград, была разработана методика для построения POMDP сред с конкретными характеристиками. Этот подход позволяет создавать среды с предварительно заданными сложностями и требованиями к памяти. 3. **Экспериментальная валидация:** Была разработана серия POMDP сред с постепенно увеличивающейся сложностью. Эти среды были экспериментально проверены на их способность представлять различные уровни задач для RL алгоритмов. Такая методология позволяет детально анализировать влияние различных факторов, таких как сложность динамики и требования к памяти, на производительность RL алгоритмов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного метода была проведена серия экспериментов. Использовались различные наборы данных, созданные на основе синтетических POMDP сред. Эти данные были специально сконструированы для того, чтобы представлять задачи с различными уровнями сложности. В ходе экспериментов была произведена оценка производительности различных memory-augmented RL алгоритмов в зависимости от сложности сред. Результаты показали, что сложность среды имеет значительное влияние на производительность алгоритмов. Было также показано, что предложенный метод позволяет точно контролировать уровень сложности, что делает его эффективным инструментом для анализа и оптимизации RL алгоритмов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области разработки и оптимизации memory-augmented RL алгоритмов. Он может быть использован для создания более эффективных моделей памяти, которые будут лучше адаптированы к сложным задачам с частичной наблюваемостью. Кроме того, предложенный фреймворк может быть использован для разработки новых бенчмарков и сред для тестирования RL алгоритмов, что повысит качество их оценки и разработки. Потенциальное влияние этого исследования заключается в улучшении производительности RL алгоритмов в реальных приложениях, где частичная наблюдаемость играет ключевую роль. Это может быть применимо в таких областях, как робототехника, автономные транспортные системы и другие домены, требующие эффективного использования памяти для принятия решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования был разработан комплексный фреймворк для моделирования и анализа POMDP сред, основанный на концепции Memory Demand Structure. Это позволяет создавать среды с контролируемой сложностью, что делает их идеальными для тестирования и оптимизации memory-augmented RL алгоритмов. В будущем, этот подход может быть расширен для создания еще более сложных и реалистичных сред, что позволит дальше продвинуть исследования в области RL. Кроме того, предложенный метод может быть использован для разработки новых методологий и алгоритмов, которые будут эффективнее использовать память для решения сложных задач в частично наблюдаемых средах.
Annotation:
Recent research has developed benchmarks for memory-augmented reinforcement learning (RL) algorithms, providing Partially Observable Markov Decision Process (POMDP) environments where agents depend on past observations to make decisions. While many benchmarks incorporate sufficiently complex real-world problems, they lack controllability over the degree of challenges posed to memory models. In contrast, synthetic environments enable fine-grained manipulation of dynamics, making them critical for...
ID: 2508.04282v1 cs.AI
Авторы:

Phuc Hao Do, Tran Duc Le

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные системы связи, включая динамические спутниковые сети, требуют эффективных решений для маршрутизации, чтобы обеспечить надежность и высокую производительность. Традиционные классические подходы к маршрутизации сталкиваются с значительными сложностями в условиях динамических и непредсказуемых сетей. Квантовые вычисления, особенно ближние к реализации (near-term) квантовые алгоритмы, представляют собой перспективное направление для решения таких задач. Однако их применение к динамической маршрутизации спутниковых сетей сопряжено с значительными техническими и концептуальными проблемами. Ключевая мотивация данного исследования заключается в оценке эффективности двух основных подходов квантовых вычислений: статические квантовые оптимизаторы, такие как Variational Quantum Eigensolver (VQE) и Quantum Approximate Optimization Algorithm (QAOA), а также Quantum Reinforcement Learning (QRL) для онлайн-решения задач. Несмотря на обещающие перспективы, эти методы сталкиваются с существенными трудностями в реальных условиях. Например, статические квантовые оптимизаторы не могут эффективно решать даже относительно простые классические задачи, такие как поиск кратчайшего пути в сети из 4 узлов, из-за высокой сложности оптимизационного пространства. Аналогично, QRL-методы, основанные на полисигматических методах, не способны эффективно адаптироваться к динамическим условиям сети, демонстрируя результаты, не превосходящие случайные решения. Данная работа стремится критически оценить эти подходы, выявить их основные недостатки и предоставить направления для будущих исследований. Значимость этого исследования заключается в том, что оно позволяет определить фундаментальные препятствия, связанные с баррен-плато (barren plateaus) и нестабильностью обучения, которые должны быть преодолены для реального применения квантовых алгоритмов в области коммуникационных сетей. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования рассмотрены два ключевых подхода квантовых алгоритмов: статические оптимизаторы и Quantum Reinforcement Learning. **Статические квантовые оптимизаторы**, такие как VQE и QAOA, предназначены для решения задач оптимизации в автономном режиме. Они работают путем кодирования задачи маршрутизации в квантовое пространство состояний и использования параметрических квантовых схем для поиска оптимальных решений. Однако эти алгоритмы требуют тщательной настройки и сталкиваются с проблемами, такими как высокая сложность оптимизации и неэффективность в решении даже простых классических задач, таких как кратчайший путь в сети из 4 узлов. **Quantum Reinforcement Learning (QRL)** предлагает динамический подход к задаче маршрутизации, где квантовый агент обучается принимать решения в реальном времени на основе полисигматических методов. Агент интерактивно взаимодействует с сетевой средой, настраивая свою стратегию по мере получения обратной связи. Однако, как показано в исследовании, базовый QRL-агент не способен эффективно обучаться в среде из 8 узлов, демонстрируя результаты, соответствующие случайным решениям. Оба подхода испытывают серьезные трудности, связанные с баррен-плато (barren plateaus) — феноменом, при котором градиенты теряются в пространстве параметров, что делает обучение квантовых моделей неэффективным. Эти проблемы выделяют необходимость разработки новых методов для улучшения стабильности и эффективности квантовых алгоритмов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проведены эксперименты на идеальных, безшумных симуляциях для оценки эффективности квантовых алгоритмов. Для статических квантовых оптимизаторов, таких как VQE и QAOA, была использована модель задачи кратчайшего пути в сети из 4 узлов. Результаты показали, что эти алгоритмы не могут найти оптимальное решение из-за высокой сложности оптимизационного пространства и нестабильности градиентов. Для QRL-методов была моделирована динамическая сеть из 8 узлов. Однако QRL-агент, основанный на полисигматических методах, не смог эффективно обучиться, показывая результаты, не превосходящие случайных действий. Эти результаты подтверждают, что существующие квантовые алгоритмы не готовы к решению практических задач маршрутизации в динамических сетях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Несмотря на отрицательные результаты, это исследование имеет важные практические последствия. Оно выявляет ключевые проблемы, связанные с баррен-плато и нестабильностью обучения, которые должны быть решены для реального применения квантовых алгоритмов в области связи. Будущие исследования могут сосредоточиться на разработке новых стратегий для преодоления этих препятствий, что может открыть путь к эффективному применению квантовых вычислений в динамических сетях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует, что существующие квантовые алгоритмы сталкиваются с значительными проблемами при применении к задачам динамической маршрутизации. Баррен-плато и нестабильность обучения являются ключевыми факторами, ограничивающими эффективность этих методов. Будущие исследования должны сосредоточиться на разработке новых подходов для улучшения стабильности и эффективности квантовых алгоритмов, чтобы они могли быть использованы в реальных коммуникационных сетях.
Annotation:
Applying near-term variational quantum algorithms to the problem of dynamic satellite network routing represents a promising direction for quantum computing. In this work, we provide a critical evaluation of two major approaches: static quantum optimizers such as the Variational Quantum Eigensolver (VQE) and the Quantum Approximate Optimization Algorithm (QAOA) for offline route computation, and Quantum Reinforcement Learning (QRL) methods for online decision-making. Using ideal, noise-free simu...
ID: 2508.04288v1 quant-ph, cs.AI, cs.SY, eess.SY
Авторы:

Nirmal Gaud, Surej Mouli, Preeti Katiyar, Vaduguru Venkata Ramya

Данная статья предлагает NIRMAL (Novel Integrated Robust Multi-Adaptation Learning) — новую методику оптимизации, которая объединяет стратегии градиентного спуска, момента, стохастической погрешности, адаптивных обучений и нелинейных преобразований. Разработанный подход был протестирован на бенчмарковых датасетах MNIST, FashionMNIST, CIFAR-10 и CIFAR-100 с использованием пользовательской архитектуры CNN. Результаты показали, что NIRMAL демонстрирует высокую эффективность, особенно на сложных датасетах, таких как CIFAR-100, где достиг тестовой точности 45,32% и F1-score 0,4328. Это приемлемо превышает результаты Adam (41,79% точность, 0,3964 F1-score) и примерно соответствует SGD с моментом (46,97% точность, 0,4531 F1-score). Также NIRMAL проявил сильные тренды устойчивости при обучении и хорошую общей способность. Эти результаты подтверждают значительную потенциальную эффективность NIRMAL для решения задач в области глубокого обучения.
Annotation:
This study proposes NIRMAL (Novel Integrated Robust Multi-Adaptation Learning), a novel optimization algorithm that combines multiple strategies inspired by the movements of the chess piece. These strategies include gradient descent, momentum, stochastic perturbations, adaptive learning rates, and non-linear transformations. We carefully evaluated NIRMAL against two widely used and successful optimizers, Adam and SGD with Momentum, on four benchmark image classification datasets: MNIST, FashionM...
ID: 2508.04293v1 cs.IR, cs.AI
Авторы:

Magnus Bengtsson

Огромные языковые модели, хотя и эффективны, требуют больших ресурсов для обучения и работы, что ограничивает их применение в устройствах с ограниченными мощностями и высокими требованиями к производительности. В статье "Compressing Large Language Models with PCA Without Performance Loss" авторы рассматривают метод сжатия моделей с помощью главных компонент анализа (PCA), позволяющий сократить модели без ущерба для их качества. Авторы демонстрируют результаты этого подхода на разных задачах, включая задачу классификации MNIST, обучение трансформера на данных 20 Newsgroups и генерацию токенов с помощью transformer-декодера. Они доказывают, что PCA-сжатие позволяет сократить модели до 17% от оригинального размера, при этом сохраняя высокую точность и гранулярность. Этот подход предлагается как эффективный способ уменьшить требования ресурсов для языковых моделей без потери качества.
Annotation:
We demonstrate that Principal Component Analysis (PCA), when applied in a structured manner, either to polar-transformed images or segment-wise to token sequences, enables extreme compression of neural models without sacrificing performance. Across three case studies, we show that a one-layer classifier trained on PCA-compressed polar MNIST achieves over 98 percent accuracy using only 840 parameters. A two-layer transformer trained on 70-dimensional PCA-reduced MiniLM embeddings reaches 76.62 pe...
ID: 2508.04307v1 cs.CE, cs.AI
Авторы:

Zizhan Ma, Wenxuan Wang, Guo Yu, Yiu-Fai Cheung, Meidan Ding, Jie Liu, Wenting Chen, Linlin Shen

**Резюме** Появление больших языковых моделей (LLMs) в области медицины открыло новые возможности, но остается спорным из-за недостатка надежности оценочных бенчмарков. Большинство таких бенчмарков либо недостаточно приближены к реальной клинической практике, либо страдают от проблем с данными, такими как попадание контролируемых случаев в обучающие выборки. Для устранения этих проблем авторы предлагают MedCheck — первую разработку, ориентированную на жизненный цикл бенчмарков, с целью глубокого анализа их качества. MedCheck включает 46 критериев, разделенных на 5 этапов жизненного цикла бенчмарков, начиная от разработки и заканчивая государственным управлением. Исследователи применяют MedCheck к 53 LLM-бенчмаркам, выявляя серьезные проблемы, включая отсутствие связи с клинической практикой, риски данных из-за негативного воздействия и недостаток оценки стойкости моделей и их понимания неопределенности. Результаты показывают, что MedCheck может стать мощным инструментом для оценки и улучшения бенчмарков, способствуя более надежной и транспаренной оценке AI в медицине.
Annotation:
Large language models (LLMs) show significant potential in healthcare, prompting numerous benchmarks to evaluate their capabilities. However, concerns persist regarding the reliability of these benchmarks, which often lack clinical fidelity, robust data management, and safety-oriented evaluation metrics. To address these shortcomings, we introduce MedCheck, the first lifecycle-oriented assessment framework specifically designed for medical benchmarks. Our framework deconstructs a benchmark's dev...
ID: 2508.04325v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM
Авторы:

Francisco Bolaños, Angelo Salatino, Francesco Osborne, Enrico Motta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Анализ научной литературы является ключевой задачей в научных исследованиях, поскольку позволяет выявить тенденции, проблемы и направления развития в различных областях знания. Однако, несмотря на широкий выбор методов и инструментов для анализа научных текстов, существуют значительные трудности в автоматизации процесса создания и классификации литературных обзоров. Одним из ключевых факторов, ограничивающих эффективность таких систем, является отсутствие точных и стандартизированных методов для аннотации текстов по ретוריческим ролям, таким как исследования, результаты, ограничения и расширения существующих методологий. В последние годы применение искусственного интеллекта (ИИ) в анализе научной литературы стало все более популярным, однако достижение высокого качества в автоматическом классификации текстовых фрагментов по-прежнему представляет собой сложную задачу. Многие существующие модели искусственного интеллекта (в том числе большие языковые модели, Large Language Models, LLMs) успешно применяются для решения различных задач, но их эффективность в классификации ретוריческих ролей в научных текстах остается недостаточно изученной. Данная статья предлагает решение этих проблем путем разработки новой аннотационной схемы, специально предназначенной для поддержки генерации литературных обзоров, и проведения комплексной оценки различных LLMs на задаче классификации ретוריческих ролей. Разработанная схема аннотации имеет потенциал для создания систем, способных генерировать высококачественные обзоры научной литературы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи предлагают новую аннотационную схему, ориентированную на классификацию текстовых фрагментов по ретוריческим ролям, таким как "исследования", "результаты", "ограничения" и "расширения методологии". Эта схема разработана специально для поддержки процесса генерации литературных обзоров и включает в себя несколько ключевых элементов. Во-первых, авторы представляют Sci-Sentence, новый многодисциплинарный бенчмарк, который состоит из 700 фрагментов текста, аннотированных вручную экспертами, и 2240 фрагментов, аннотированных с помощью LLMs. Данный бенчмарк представляет собой важный инструмент для оценки эффективности моделей на задаче классификации ретוריческих ролей. Во-вторых, авторы оценивают 37 различных LLMs, представляющих собой разнообразные модели, включая как закрытые (проприетарные) модели, такие как GPT-4o, так и открытые модели. Оценка проводится в рамках двух подходов: zero-shot learning (обучение без дополнительных данных) и fine-tuning (дообучение модели на специально подготовленных данных). Третья часть методологии заключается в использовании семи-синтетических данных, сгенерированных LLMs, для дообучения моделей. Это позволяет улучшить качество классификации, особенно для малых моделей и открытых моделей, которые обычно имеют меньшие ресурсы по сравнению с закрытыми моделями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках экспериментов были использованы 37 LLMs, включая модели различных размеров и семейств. Авторы провели оценку этих моделей на Sci-Sentence бенчмарке, используя zero-shot learning и fine-tuning. Результаты показали, что современные LLMs достигают высоких показателей точности (F1-меры выше 96%) при fine-tuning на высококачественных данных. Особенно высокие результаты показали закрытые модели, такие как GPT-4o, но некоторые легковесные открытые модели также показали отличные результаты. Кроме того, использование семи-синтетических данных, сгенерированных LLMs, показало свою эффективность в улучшении качества классификации. Это позволило малым моделям достичь более высоких результатов и значительно улучшило результаты нескольких открытых моделей с декодером. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанная аннотационная схема и Sci-Sentence бенчмарк имеют значительный потенциал для применения в области анализа научной литературы. Они могут быть использованы для создания систем, способных автоматически генерировать высококачественные литературные обзоры, что является важной задачей в научном сообществе. Преимущества метода включают в себя возможность использования открытых моделей с высоким качеством классификации, что делает метод более доступным для широкого круга исследователей. Кроме того, использование семи-синтетических данных может существенно повысить эффективность моделей, особенно для малых и открытых моделей, что позволяет расширить область их применения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы были достигнуты значительные результаты в области классификации ретוריческих ролей в научной литературе. Авторы подтвердили высокую эффективность современных LLMs при fine-tuning на высококачественных данных и показали потенциал открытых моделей в этой области. Будущие исследования могут фокусироваться на дальнейшем улучшении аннотационной схемы и разработке более эффективных методов для генерации высококачественных синтетических данных. Кроме того, необходимо продолжать исследования в области открытых моделей, чтобы сделать их более доступными и эффективными для широкого круга пользователей.
Annotation:
Previous work has demonstrated that AI methods for analysing scientific literature benefit significantly from annotating sentences in papers according to their rhetorical roles, such as research gaps, results, limitations, extensions of existing methodologies, and others. Such representations also have the potential to support the development of a new generation of systems capable of producing high-quality literature reviews. However, achieving this goal requires the definition of a relevant ann...
ID: 2508.04337v1 cs.CL, cs.AI, cs.HC, cs.IR
Авторы:

Anran Xu, Jincheng Wang, Baigen Cai, Tao Wen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Большие языковые модели (LLMs) достигли впечатляющих результатов в задачах естественного языка, однако они часто сталкиваются с трудностями в логическом резонировании, особенно когда семантические гейзинги конфликтуют с решающими факторами. Это явление, которое авторы называют "когнитивными ловушками", приводит к недостаточной логической согласованности ответов моделей. Традиционные подходы к резонированию основаны на максимизации вероятности ответов, что может привести к недостаточной учету противоречивых или неоднозначных доказательств. Ключевая проблема заключается в том, что существующие модели не в состоянии эффективно отслеживать состояния убеждений (belief states) и оценивать неопределенность (epistemic uncertainty) при проведении логических выводов. Это ограничивает их способность к интерпретируемому и надежному резонированию, особенно в ситуациях, где необходимо учитывать контекстуальные и конфликтующие доказательства. Мотивацией для разработки нового подхода является необходимость создания моделей, способных проводить более консистентный и интерпретируемый логический вывод, особенно в сложных или противоречивых ситуациях. Авторы предлагают переосмыслить задачу логического резонирования как процесс минимизации неопределенности, а не максимизации вероятности, что позволяет сосредоточиться на внутренней согласованности доказательств. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают **Deliberative Reasoning Network (DRN)**, новый парадигматический подход к логическому резонированию, основанный на минимизации неопределенности. DRN представляет собой систему, которая явно отслеживает состояния убеждений (belief states) и выполняет итеративный процесс синтеза доказательств для оценки консистентности и неопределенности различных гипотез. Для реализации этой концепции предложены две комплементарные архитектуры: 1. **Беспечная дискриминативная модель**, которая прямо воплощает принципы минимизации неопределенности. 2. **Легковесный верификационный модуль**, который может быть интегрирован в существующие генеративные модели, такие как Mistral-7B, для улучшения их способности к логическому резонированию. DRN оперирует на основе следующих принципов: - **Явное отслеживание убеждений**: модель динамически обновляет состояния убеждений в процессе анализа доказательств. - **Количественная оценка неопределенности**: DRN использует метрики неопределенности для определения наиболее консистентной гипотезы. - **Итеративный синтез доказательств**: модель последовательно анализирует и объединяет доказательства, стремясь к наиболее логически консистентному выводу. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности DRN авторы разработали новый бенчмарк **LCR-1000**, специально созданный для выявления "когнитивных ловушек". Эксперименты показали, что беспечная дискриминативная модель DRN достигает улучшения результатов до 15,2% по сравнению со стандартными базовыми моделями. Кроме того, когда DRN использовался в качестве верификатора для Mistral-7B, точность модели в решении самых сложных задач выросла с 20% до 80%. Это демонстрирует высокую эффективность интеграции DRN в качестве параметрически эффективного дополнения к существующим генеративным моделям. DRN также демострирует **сильную нуль-шот генерализацию**, улучшив результаты на датасете TruthfulQA без дополнительного обучения на 23,6%. Это показывает, что универсальные принципы резонирования, основанные на минимизации неопределенности, могут эффективно переноситься на различные задачи. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод DRN имеет широкое применение в областях, требующих надежного и интерпретируемого логического резонирования. Это может включать задачи в областях медицины, финансов, юриспруденции и других сферах, где важно обеспечить высокую точность и консистентность выводов. Преимущества DRN включают: - **Интерпретируемость**: явное отслеживание убеждений и неопределенности позволяет пользователям понимать процесс принятия решений. - **Эффективность**: легковесный верификатор может быть легко интегрирован в существующие модели без значительного увеличения их размера. - **Универсальность**: способность DRN к нуль-шот генерализации демонстрирует его потенциал для решения различных задач без необходимости дополнительного обучения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Deliberative Reasoning Network (DRN) представляет собой инновационный подход к логическому резонированию, основанный на принципе минимизации неопределенности. Результаты экспериментов показывают, что DRN может значительно улучшить точность и консистентность выводов языковых моделей, особенно в ситуациях, где требуется учет противоречивых доказательств. В будущем могут быть исследованы дополнительные способы интеграции DRN в различные модели и приложения, а также расширение его возможностей для решения более широкого круга задач. DRN может стать ключевым компонентом для создания более надежных и доверительных искусственных интеллектуальных систем.
Annotation:
Large language models often fail at logical reasoning when semantic heuristics conflict with decisive evidence - a phenomenon we term cognitive traps. To address this fundamental limitation, we introduce the Deliberative Reasoning Network (DRN), a novel paradigm that reframes logical reasoning from probability maximization to uncertainty minimization. Instead of asking "Which answer is most likely?", DRN asks "Which hypothesis has the most internally consistent evidence?". DRN achieves intrinsic...
ID: 2508.04339v1 cs.AI
Авторы:

Hongze Tan, Jianfei Pan

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время получение глубокой и точной информации из больших языковых моделей (Large Language Models, LLMs) стало важной задачей. Одним из ключевых методов для достижения этой цели является Reinforcement Learning (RL), который стремится улучшить точность и согласованность моделей. Однако существующие подходы, такие как Group Relative Policy Optimization (GRPO), сталкиваются с проблемой грубого распределения наград (credit assignment) по токенам в последовательности. Это ограничивает их эффективность в задачах сложной цепочки рассуждений, где необходимо выделять и усиливать конкретные элементы последовательности. Традиционные методы RL, такие как DAPO, применяют одинаковые награды ко всем токенам в последовательности, что может привести к неточному обучению. Это особенно заметно в задачах, требующих точного понимания и логического рассуждения, где некоторые токены могут быть более важными для правильного решения, чем другие. Недостаточное распределение наград также может привести к неэффективному использованию модельных ресурсов и неоптимальному обучению. Авторы статьи предлагают решение этой проблемы с помощью **Dynamic Entropy Weighting**, который позволяет создавать более тонкие и динамические награды для токенов и последовательностей. Идея заключается в том, что высокий уровень энтропии в токенах, составляющих корректные ответы, может служить руководством для улучшения модели. Это позволяет направить обучение в нужном направлении, оптимизировав политику на основе энтропии. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают два новых метода для улучшения обучения RL: **Group Token Policy Optimization (GTPO)** и **Sequence-Level Group Relative Policy Optimization (GRPO-S)**. Оба метода основываются на концепции **Dynamic Entropy Weighting**, которая использует энтропию токенов для формирования более точных наград. ### GTPO (Group Token Policy Optimization) В GTPO каждый токен в последовательности назначается своей наградой, которая основывается на его энтропии. Токены с высокой энтропией получают большие награды, тогда как токены с низкой энтропией получают меньшие награды. Это позволяет создавать более детальные и точные сигналы для обновления модельной политики, что в конечном счете приводит к лучшему обучению. ### GRPO-S (Sequence-Level Group Relative Policy Optimization) В GRPO-S награда назначается не только на уровне токенов, но и на уровне последовательностей. Каждая последовательность получает награду, основанную на средней энтропии её токенов. Это позволяет выделять целые последовательности, которые являются более полезными для обучения, и направлять модель на оптимизацию этих последовательностей. Оба метода, GTPO и GRPO-S, используют энтропию для создания более детальных сигналов для обучения, что позволяет модели более эффективно распознавать и оптимизировать важные элементы последовательности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности их методов. Использовались данные из различных доменов, включая задачи логических рассуждений и понимания естественного языка. Эксперименты проводились на базе модели DAPO, которая служила базой для сравнения. Результаты показали, что методы GTPO и GRPO-S значительно превосходят DAPO в терминах точности и качества получаемых результатов. Использование энтропии в качестве ключевого фактора для формирования наград позволило достичь лучших результатов в задачах, требующих глубокого рассуждения. Было показано, что токены с высокой энтропией действительно играют ключевую роль в улучшении модельной политики. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемые методы GTPO и GRPO-S имеют широкое применение в областях, требующих глубокого понимания и рассуждения. Они могут быть использованы для улучшения точности моделей в таких задачах, как автоматическое завершение предложений, вопросов и ответов, а также в областях, где важна точная логическая структура ответов. Основными преимуществами данных методов являются: - **Улучшенная точность**: Благодаря более точному распределению наград, модели становятся более точными в решении сложных задач. - **Эффективность обучения**: Динамическое присвоение наград позволяет оптимизировать процесс обучения, сокращая время и ресурсы, необходимые для достижения хороших результатов. - **Применимость в реальных сценариях**: Методы могут быть интегрированы в различные приложения, требующие высокого качества рассуждений, такие как чат-боты, системы поддержки и автоматические помощники. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлены два новых метода, GTPO и GRPO-S, которые используют энтропию токенов для формирования более точных наград в RL. Эти методы показали значительные улучшения по сравнению с традиционными подходами, такими как DAPO. В будущем можно исследовать дальнейшие возможности улучшения этих методов, например, используя другие критерии для формирования наград или применяя их в более широких областях, таких как многомодальные модели и задачи, связанные с визуальным восприятием. Также важно изучить влияние этих методов на модели с различными архитектурами и размерами. В целом, предложенные методы открывают новые возможности для улучшения глубоких моделей рассуждений, что может иметь значительное влияние на развитие искусственного интеллекта.
Annotation:
Reinforcement learning (RL) with algorithms like Group Relative Policy Optimization (GRPO) improves Large Language Model (LLM) reasoning, but is limited by a coarse-grained credit assignment that applies a uniform reward to all tokens in a sequence. This is a major flaw in long-chain reasoning tasks. This paper solves this with \textbf{Dynamic Entropy Weighting}. Our core idea is that high-entropy tokens in correct responses can guide the policy toward a higher performance ceiling. This allows u...
ID: 2508.04349v1 cs.CL, cs.AI
Авторы:

Nima Iji, Kia Dashtipour

**Резюме** В статье представлен фреймворк Chain of Questions (CoQ), расширяющий метод chain-of-thought для повышения логических и рациональных способностей в multimodal language models. Основная проблема заключается в том, что нынешние модели сталкиваются с трудностями при работе с multimodal data, не в состоянии активно выбирать и использовать информацию из разных модальностей (вид, звук, спациальная перцепция) для точного рассуждения. CoQ предлагает стратегию, в которой модель сама формирует и задает targeted questions, ориентируясь на потребности в конкретных модальностях для построения правильного решения. Результаты экспериментов на собственном multimodal датасете, объединяющем WebGPT, ScienceQA, AVSD и ScanQA, показали, что CoQ улучшает модельную точность, при этом увеличивая интерпретируемость и адекватность процесса рассуждения к задаче. Таким образом, CoQ демонстрирует свою эффективность в работе с multimodal сценариями, повышая качество интеллектуальных задач.
Annotation:
Reasoning capabilities in large language models (LLMs) have substantially advanced through methods such as chain-of-thought and explicit step-by-step explanations. However, these improvements have not yet fully transitioned to multimodal contexts, where models must proactively decide which sensory modalities such as vision, audio, or spatial perception to engage when interacting with complex real-world environments. In this paper, we introduce the Chain of Questions (CoQ) framework, a curiosity-...
ID: 2508.04350v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA
Показано 14141 - 14150 из 14425 записей