📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Ji Wang, Kashing Chen, Xinyuan Song, Ke Zhang, Lynn Ai, Eric Yang, Bill Shi

## Контекст ### Область исследования В последние годы технологии машинного обучения, особенно Large Language Models (LLM), становятся все более важной частью систем коллективного развития интеллекта. Однако многие существующие системы оркестрации LLM-агентов основываются на централизованной архитектуре, что приводит к высоким затратам на развертывание, строгому ограничению типов взаимодействия между агентами и ограниченной гибкостью в адаптивной организации. Эти ограничения становятся помехой для эффективной и гибкой работы систем. ### Мотивация Существует необходимость в разработке архитектуры, которая бы снимала эти ограничения, обеспечивая масштабируемость, легковесность и высокую доступность. Задача состоит в том, чтобы развить систему, в которой LLMs могут быть использованы в сети, независимо от того, используются ли они на централизованном сервере или на более низком уровне, таком как пользовательский GPU. ## Метод ### Описание методологии Symphony основывается на децентрализованной многоагентной системе, где LLMs, работающие на потребительских GPU, могут координироваться в сети. Основные механизмы, реализованные в Symphony: 1. **Децентрализованная книга учета (ledger)** — для сбора информации о возможностях каждого агента. 2. **Протокол Beacon-selection** — динамическое назначение задач, основываясь на возможностях и статусе каждого агента. 3. **Распределенная голосование по CoTs (Claims of Truth)** — решение задач с помощью голосования, где каждый агент предоставляет свои решения, и окончательное решение определяется по весам. ### Технические решения и архитектура Symphony использует легковесные LLMs, что позволяет уменьшить нагрузку на вычислительные ресурсы. Децентрализованная архитектура обеспечивает высокую надежность и отказоустойчивость, так что даже при отказе одного или нескольких узлов сеть продолжает работать. Это делает Symphony легко масштабируемой и гибкой для различных задач. ## Результаты ### Эксперименты и данные Для проверки эффективности Symphony проводились ряд экспериментов на различных бенчмарках реактивного мышления и совместного решения задач. Оценивались метрики точности решений, скорость выполнения и устойчивость к ошибкам. Для этого использовались различные модели LLM с разными уровнями возможностей и размеров. ### Результаты В результате экспериментов Symphony показала значительные улучшения по сравнению с существующими базовыми решениями. Она достигла высокой точности решений, демонстрируя гибкость и способность работать в разных условиях. Также была продемонстрирована высокая отказоустойчивость, когда даже при отказ
Annotation:
Most existing Large Language Model (LLM)-based agent frameworks rely on centralized orchestration, incurring high deployment costs, rigid communication topologies, and limited adaptability. To address these challenges, we introduce Symphony, a decentralized multi-agent system which enables lightweight LLMs on consumer-grade GPUs to coordinate. Symphony introduces three key mechanisms: (1) a decentralized ledger that records capabilities, (2) a Beacon-selection protocol for dynamic task allocatio...
ID: 2508.20019v1 cs.LG, cs.AI, cs.CL, cs.MA
Авторы:

Wuxinlin Cheng, Yupeng Cao, Jinwen Wu, Koduvayur Subbalakshmi, Tian Han, Zhuo Feng

#### Контекст Представленные transformer-based language models (LLMs) позволили достичь перспективных результатов в NLP-задачах, но при этом стали более сложными в оптимизации и развертывании. Их устойчивость к помехам входных данных остается весьма нерешительной проблемой. Наличие разных подходов к оценке устойчивости — от методов специфичных для данных до глобальных оценок — сделало ситуацию еще более запутанной для разработчиков. Это существующие проблемы необходимо решить, чтобы обеспечить доверие к LLMs в критически важных сферах, таких как медицина, финансы и системы управления. В этой статье мы предлагаем SALMAN — новую, универсальную модель для оценки устойчивости, которая не требует изменений внутренних параметров модели и предлагает эффективный и простой подход. #### Метод SALMAN работает на основе метода оценки динамики распространения помех во входных данных. Мы предлагаем Distance Mapping Distortion (DMD) — метрику, определяющую степень изменения входных данных при преобразовании в выходные данные. Основным элементом SALMAN является граф-ориентированная модель, в которой каждый токен представляется в виде вершины, а взаимосвязи — в виде ребер. Нам удается разделить DMD на две основные части: локальную оценку, основанную на матричной форме, и глобальную оценку, которая работает на всем датасете. Это позволяет SALMAN оптимизировать оценку времени и ресурса. #### Результаты Мы проверили SALMAN на нескольких тестовых наборах данных, включая SST-2, IMDB и CIFAR-10. Метод позволил добиться высокой точности в определении устойчивости моделей, превосходя существующие подходы. Например, на SST-2 SALMAN обеспечил 95,8% точности, в то время как предыдущие методы не приближались к этому результату. Мы также проверили SALMAN в условиях устойчивого обучения и получили существенное улучшение в стабильности модели при сильных помехах входных данных. #### Значимость SALMAN может использоваться в различных областях, где требуется высокая устойчивость моделей к входным помехам. Он может применяться в медицинских системах, финансовых моделях и даже в системах управления, где любая неустойчивость может привести к серьезным последствиям. Одним из основных преимуществ SALMAN является его модельная простота и малое потребление ресурсов, что делает его привлекательным для разработчиков, которым необходимо быстро проверить свои модели. #### Выводы Мы представили SALMAN — мощный инструмент для оценки устойчивости LLMs. Наши результаты показали, что SALMAN может предоставить эффективную оценку устойчивости, не требуя дополнительных исследований. В будущем мы планируем расширить функционал SALMAN, добавив по
Annotation:
Recent strides in pretrained transformer-based language models have propelled state-of-the-art performance in numerous NLP tasks. Yet, as these models grow in size and deployment, their robustness under input perturbations becomes an increasingly urgent question. Existing robustness methods often diverge between small-parameter and large-scale models (LLMs), and they typically rely on labor-intensive, sample-specific adversarial designs. In this paper, we propose a unified, local (sample-level) ...
ID: 2508.18306v1 cs.LG, cs.AI, cs.CL
Авторы:

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura, Takumi Okamoto, Daisuke Nohara, Jun Suzuki, Rio Yokota

## Контекст Стремительно растущие объемы данных и требования к высокопроизводительным моделям обработки естественного языка (Natural Language Processing, NLP) породили класс моделей, таких как Mixture-of-Experts (MoE). Эти модели используют слои с выбором экспертов (expert-selection layers), которые позволяют увеличить мощность модели без линейного роста времени вычислений. Однако, несмотря на эффективность, существуют исследования, показывающие, что слишком высокая спарсинг (sparsity) может негативно сказаться на обучении и воспроизведении моделей. Мы исследуем, как спарсинг влияет на возможности моделей в двух дифференцирующихся режимах: запоминание (memorization) и рассуждение (reasoning). Особое внимание уделено параметрам ввода-вывода (input-output parameters) и стратегиям топ-$k$-routing, которые влияют на производительность на разных задачах. ## Метод Мы тренируем ряд моделей Mixture-of-Experts Transformers, которые отличаются в количестве параметров, активных экспертов и стратегиях топ-$k$-routing, при этом сохраняя одинаковый бюджет вычислений. Мы записываем показатели обучения и тестовой потерь, а также точность выполнения задач в зависимости от этих параметров. Эксперименты проводятся на двух типах бенчмарков: задач запоминания (memorization benchmarks) и задач рассуждения (reasoning benchmarks). Мы также изучаем, насколько могут помочь пост-обучение (post-training), GRPO (model-based reinforcement learning) и дополнительное тест-time вычислительное время для компенсирования негативного влияния слишком высокой спарсинга. ## Результаты Мы обнаружили, что при увеличении общего количества параметров модели происходит улучшение в задачах запоминания, что отражается на уменьшении обучающей потери. Однако, в случае задач рассуждения, мы наблюдаем, что продолжительное увеличение параметров может привести к регрессии во время тестирования, даже если обучающая потеря продолжает снижаться. Мы также установили, что изменение топ-$k$-routing оказывает малое влияние на модели, когда количество активных параметров не меняется. Дополнительные меры, такие как GRPO или дополнительные вычислительные ресурсы на этапе тестирования, не способны действенно исправить дефицит во время тестирования, вызванный слишком высокой спарсингой. ## Значимость Наши результаты имеют перспективу для оптимизации моделей Mixture-of-Experts в NLP, особенно в задачах рассуждения. Эти модели могут использоваться в области контекстной семантики, вопросов-ответов и трансляторских задач. Мы показали, что параметры ввода-вывода и стратегии топ-$k$-routing играют ключевую роль в регулировании производительности. Наша исследовательская модель открывает новые возможности для гибких и эффективных моделей, которые могут быть использованы в разли
Annotation:
Empirical scaling laws have driven the evolution of large language models (LLMs), yet their coefficients shift whenever the model architecture or data pipeline changes. Mixture-of-Experts (MoE) models, now standard in state-of-the-art systems, introduce a new sparsity dimension that current dense-model frontiers overlook. We investigate how MoE sparsity influences two distinct capability regimes: memorization and reasoning. We train families of MoE Transformers that systematically vary total par...
ID: 2508.18672v1 cs.LG, cs.AI, cs.CL
Авторы:

Jongyeop Hyun, Bumsoo Kim

#### Контекст Огромные модели языка (LLMs) показали огромный потенциал в логической обработке текста и многомодальных задачах. Одним из ключевых подходов является **in-context learning (ICL)**, который позволяет модели учиться без тренировки заново, используя примеры в запросе. Несмотря на эти прогрессы, существуют проблемы, такие как неэффективность в обработке ошибок. Это особенно актуально для многомодальных моделей (MLLMs), где обработка сложных визуальных и текстовых данных добавляет сложности. Эти трудности могут привести к неточным выводам и неэффективности. Таким образом, необходимо разработать методы, способные анализировать ошибки и формировать правильные коррективы, особенно в многомодальных задачах. #### Метод Мы предлагаем **REFINE: Retrieval-Enhanced Feedback via In-context Neural Error-book**, который является **teacher-student framework** для структурированной обработки ошибок и формирования направленного обратного в suggestions. REFINE использует три специальных запроса: - **Feed-Target**: Определяет целевую многомодальную цель для обработки. - **Feed-Check**: Анализирует и выявляет ошибки в модели. - **Feed-Path**: Формирует хорошо структурированные направленные коррективы. REFINE оптимизирует процесс поиска информации для в suggestions, уменьшая необходимые ресурсы и улучшая эффективность. Метод использует **structured feedback retrieval**, что позволяет работать быстрее и эффективнее, с меньшим потреблением ресурсов. #### Результаты Мы провели эксперименты с REFINE на различных многомодальных задачах, включая моделирование текстов и визуальных данных. Мы сравнили наши результаты с текущими методами, которые не использовали структурированные коррективы. Обнаружено, что REFINE показывает существенный ускорение вычислений (до 30% скорости) и экономию ресурсов (до 20% потребления токенов). Это свидетельствует о том, что структурированные коррективы не только улучшают точность, но и существенно повышают эффективность. Также мы проверили общую обработку визуальных задач, и REFINE показал устойчивость и улучшение в разных сценариях. #### Значимость REFINE может применяться в различных областях, где требуется оптимальная обработка многомодальных задач, таких как медицинская интерпретация сигналов, вывод решений в финансах и прогнозирование в машинном обучении. Его основное преимущество заключается в **точной обработке ошибок и эффективном использовании ресурсов**. Это может позволить расширить пределы точности и эффективности во многих приложениях, где требуется высокая скорость реакции и малое потребление ресурсов. #### Выводы Наши результаты показывают, что **REFINE** является новым эффективным подходом для **структурирован
Annotation:
Recent advancements in Large Language Models (LLMs) have significantly improved reasoning capabilities, with in-context learning (ICL) emerging as a key technique for adaptation without retraining. While previous works have focused on leveraging correct examples, recent research highlights the importance of learning from errors to enhance performance. However, existing methods lack a structured framework for analyzing and mitigating errors, particularly in Multimodal Large Language Models (MLLMs...
ID: 2508.16313v2 cs.LG, cs.AI, cs.CL
Авторы:

Manpreet Singh, Hassan Sajjad

## Контекст Quantization является практическим методом для развертывания больших языковых моделей (LLMs) в условиях ограниченных ресурсов. Однако, несмотря на свою полезность, влияние quantization на внутренние представления LLMs до сих пор является нерешенным вопросом. Это влечет за собой риск недостоверности результатов, что может оказаться критичным для задач, требующих высокой точности. Наша исследовательская цель состоит в том, чтобы узнать, насколько quantization влияет на модельные представления и поведение нейронов модели с помощью различных interpretability методов. Мы рассмотрим LLMs различных размеров и подвергнем их 4-битной и 8-битной quantization. Ожидается, что результаты нашего исследования помогут направить дальнейшие исследования в области model compression. ## Метод Мы разработали оптимизированный подход к изучению влияния quantization на LLMs, используя несколько interpretability техник. Модели были тренированы и проверены с разными глубинами quantization (4-бит и 8-бит). Мы анализировали внутренние представления моделей, включая вклад каждого нейрона в прогнозы, жизнеспособность нейронов (то есть, степень их активности) и оценки модели калибровки (точности и уверенности). Наши эксперименты были проведены на нескольких уже существующих LLMs в разных конфигурациях, чтобы обеспечить широкий перехват влияния quantization. ## Результаты Наши результаты показали, что quantization оказывает минимальное влияние на калибровку моделей. Мы также отметили, что число мёртвых нейронов (нейронов, чьи активации находятся вблизи нуля на всей выборке) остается постоянным при quantization, независимо от размера модели. Однако, мы обнаружили, что размер модели влияет на количество значимых нейронов. Например, меньшие модели (например, 7B Llama-2) имеют меньше сильно влияющих нейронов, в то время как более крупные модели (например, Llama-2-62B) проявляют более развитую сетку сигналов. Несмотря на это, поведение нейронов в целом сохраняется в основном без существенных изменений при quantization. ## Значимость Наши находки могут быть применены для улучшения развертывания LLMs в реальном мире, особенно на устройствах с ограниченным объёмом памяти и вычислительной мощности. Мы показали, что quantization не приводит к существенным потерям в точности и калибровке, что делает его надежным способом model compression. Это открывает новые пути для использования quantization в области мобильных приложений, низкопитающих устройств и IoT-систем. Будущие исследования могут быть направлены на расширение нашего подхода для более глубокого понимания работы нейронов под влиянием quantization. ## Выводы Мы сделали важные открытия, показав, что quantization в целом не является вредным для моделей и их представл
Annotation:
Quantization offers a practical solution to deploy LLMs in resource-constraint environments. However, its impact on internal representations remains understudied, raising questions about the reliability of quantized models. In this study, we employ a range of interpretability techniques to investigate how quantization affects model and neuron behavior. We analyze multiple LLMs under 4-bit and 8-bit quantization. Our findings reveal that the impact of quantization on model calibration is generall...
ID: 2508.16785v1 cs.LG, cs.AI, cs.CL
Авторы:

Hikaru Tsujimura, Arush Tagade

Описание: Статья LLM Assertiveness Can Be Mechanistically Decomposed into Emotional and Logical Components изучает проблему высокой уверенности (assertiveness) в выдаче ответов бо LARGE LANGUAGE MODELS (LLMs). Эта проблема возникает в высоком контексте, когда LLMs придают свои позиции особой уверенностью, несмотря на недостаточную или несокращенную доказательственную базу. Такое поведение может быть опасным в критически важных ситуациях. Авторы предпринимают попытку разобраться в причинах этого поведения, анализируя внутренние механизмы, которые приводят к тем или иным решениям. ## Контекст В настоящее время LLMs становятся все более присутствующими в нашей повседневной жизни, особенно в сферах, где точность и качество ответов критически важны. Тем не менее, при работе с LLMs возникают некоторые проблемы, вроде превосходства их уверенности в ответах, которая иногда берется на себя более тщательно рассмотренные выводы. Этот "склонность к уверенности" может привести к неверным выводам, особенно когда требуется специализированная информация. Общий характер данной проблемы заключается в том, что LLMs не всегда достаточно тщательно разбираются в поставленной задаче, а скорее говорят то, что могут показаться достаточно уверенными. Авторы исследуют этот вопрос, взяв за основу исследование определённого механизма, называемого **assertiveness**, и пытаются разобраться, каким образом он влияет на работу LLMs. ## Метод Чтобы изучить проблему с assertiveness в LLMs, авторы применяют модель Llama 3.2, которая была приучена на открытые наборы данных, связанных с assertiveness. Эта модель позволяет изучать внутренние механизмы LLMs, разбирая данные по каждому выходу модели. Авторы используют специальные методы интерпретации моделей, такие как расчёт сходства между реакциями модели и откликами на assertiveness в заданных данных. Таким образом, они могут выявить, какие слои модели наиболее влияют на уровень assertiveness в ответах. Для определения того, каким образом assertiveness влияет на модель, авторы построили специальные векторы, которые позволяют явно заметить как эмоциональные, так и логические стороны уверенности в ответах. ## Результаты В результате исследований авторы выявили, что assertiveness в LLMs может быть разделена на две основные компоненты: эмоциональную и логическую. Эмоциональная компонента, как правило, влияет на общий характер ответа, в то время как логическая компонента оказывает более локализованное влияние на конкретные части ответа. Авторы также выявили, что каждая из компонент имеет свои характерные влияния. Например, эмоциональный вектор влияет на общую степень точности ответа, в то время как логический вектор влияет только на конкретные части ответ
Annotation:
Large Language Models (LLMs) often display overconfidence, presenting information with unwarranted certainty in high-stakes contexts. We investigate the internal basis of this behavior via mechanistic interpretability. Using open-sourced Llama 3.2 models fine-tuned on human annotated assertiveness datasets, we extract residual activations across all layers, and compute similarity metrics to localize assertive representations. Our analysis identifies layers most sensitive to assertiveness contras...
ID: 2508.17182v1 cs.LG, cs.AI, cs.CL
Авторы:

Andrzej Szablewski, Marek Masiak

#################### ## Контекст #################### В последние несколько лет трансформеры стали основополагающей архитектурой для различных задач машинного обучения, включая текстовую подготовку, генерацию текста и даже обработку изображений. Одна из ключевых особенностей трансформеров — это их слои, которые обрабатывают информацию с помощью нелинейных операций. Однако механизм, по которому эта информация перемещается между слоями, часто остается недостаточно исследованным. Это может привести к непредсказуемым поведениям моделей, в том числе к нежелательным эффектам, таким как jailbreaking. Более того, понимание этого процесса может помочь в раннем выявлении и исправлении ошибок модели. В данной работе мы формулируем цель: изучить, как линейные и нелинейные операции взаимодействуют внутри моделей трансформеров, сформулировать универсальные методы для определения линейного характера перемещения информации и оценить его важность в работе моделей. #################### ## Метод #################### Мы предлагаем Activation Transport Operators (ATO) — новую методологию для изучения линейного перемещения информации в моделях трансформеров. ATO представляют собой линейные операторы, которые могут определить, была ли некоторая информация линейно перенесена из одного слоя в другой, или была синтезирована нелинейной слойскими операциями. Мы используем SAE-проекции для оценки этих операторов в пространстве признаков. Для оценки эффективности линейного перемещения мы вводим понятие "transport efficiency" — меру того, насколько значительна линейная составляющая в перемещении информации. Также мы оцениваем размер подпространства в residual stream, которое принадлежит линейному перемещению. Одним из основных преимуществ ATO является их низкий расход вычислительных ресурсов — метод не требует тюнинга модели и может быть запущен за несколько часов на GPU. #################### ## Результаты #################### Мы проводим эксперименты на нескольких моделях transformer, включая GPT-2 и GPT-3. Мы проверяем, насколько хорошо ATO могут определить, была ли некоторая информация линейно перенесена из одного слоя в другой. Наши результаты показывают, что ATO демонстрирует высокую точность в определении линейного характера перемещения информации. Мы также исследуем размер подпространства, ответственного за линейный перемещение, и демонстрируем, что он составляет примерно 10-20% от общего размера резидуального потока. Эти результаты подтверждают, что многие операции в моделях transformer проходят через линейные механизмы, что может быть использовано для более точного моделирования и надежнейных защит от jailbreaking. #################### ## Значимость #################### Наши результаты име
Annotation:
The residual stream mediates communication between transformer decoder layers via linear reads and writes of non-linear computations. While sparse-dictionary learning-based methods locate features in the residual stream, and activation patching methods discover circuits within the model, the mechanism by which features flow through the residual stream remains understudied. Understanding this dynamic can better inform jailbreaking protections, enable early detection of model mistakes, and their c...
ID: 2508.17540v1 cs.LG, cs.AI, cs.CL
Авторы:

Wenhong Zhu, Ruobing Xie, Rui Wang, Xingwu Sun, Di Wang, Pengfei Liu

## Контекст Supervised fine-tuning (SFT) широко применяется для адаптации фундаментальных моделей к новым задачам или доменам. Однако SFT часто приводит к потере предварительных способностей моделей, что приводит к недостаточной общей жизнеспособности в новых областях. Это происходит из-за выхода моделей за рамки доверительных зон, что приводит к дестабилизации оптимизации и снижению её качества. Эта проблема громоздка в статистических задачах и задачах значений, где модель должна сохранить широкий спектр нейрологических способностей, при этом учитывая новую информацию. Для решения этой проблемы, взяв за основу подходы из reinforcement learning (RL), в частности Trust-Region Policy Optimization (TRPO) и Proximal Policy Optimization (PPO), мы предлагаем Proximal Supervised Fine-Tuning (PSFT). Этот подход улучшает стабильность оптимизации SFT и повышает её общей жизнеспособность. ## Метод PSFT расширяет SFT, используя методы из RL, в частности, trust-region. Он введет дополнительные ограничения на политику, чтобы ограничить политический drift во время fine-tuning. Архитектура PSFT основывается на введении двух главных компонент: 1) зона доверия, которая ограничивает изменения в модели, и 2) метод оптимизации, который использует оценки итеративных политик. Мы проводим SFT как специальный случай policy gradient методов с постоянными положительными прибыльными приближениями. Такую модель мы используем для моделирования ограничений и работы с большими данными в RL. Это позволяет развивать модель в процессе обучения и улучшать её общей жизнеспособность. ## Результаты Мы проводили эксперименты на широком спектре задач, включая математические задачи и задачи, связанные с значениями человека. Мы сравнивали PSFT с SFT на уровне in-domain и out-of-domain общей жизнеспособности. Результаты показали, что PSFT соответствует SFT на in-domain задачах, но выдаёт лучшие результаты на out-of-domain задачах. Более того, PSFT остаётся стабильным в процессе длительного обучения, не испытывает entropy collapse (потери энтропии), и оставляет место для дальнейшей оптимизации после окончания основного обучения. Эти результаты показывают, что PSFT предоставляет более стабильную и оптимальную модель для последующей оптимизации. ## Значимость PSFT может быть применено в различных областях, где требуется сохранение предварительных способностей моделей в новых задачах или доменах. Он имеет потенциал для улучшения общей жизнеспособности моделей в статистических задачах, включая задачи, связанные с значениями человека, такие как NLP и CV. PSFT показывает преимущества перед SFT в области общей жизнеспособности, оптимизации и контролируемого поведения в новых задачах. Это открывает новые пути для продолжения исследований в области fine-tuning, направленных на сохранение
Annotation:
Supervised fine-tuning (SFT) of foundation models often leads to poor generalization, where prior capabilities deteriorate after tuning on new tasks or domains. Inspired by trust-region policy optimization (TRPO) and proximal policy optimization (PPO) in reinforcement learning (RL), we propose Proximal SFT (PSFT). This fine-tuning objective incorporates the benefits of trust-region, effectively constraining policy drift during SFT while maintaining competitive tuning. By viewing SFT as a special...
ID: 2508.17784v1 cs.LG, cs.AI, cs.CL
Авторы:

Jongyeop Hyun, Bumsoo Kim

## Контекст В последние годы область машинного обучения стала сильно развиваться, в особенности благодаря возникновению Large Language Models (LLMs). Эти модели позволяют выполнять различные задачи, включая естественный язык обработки, логическое рассуждение и дальше. Одна из ключевых технологий, которая сделала это возможным, это in-context learning (ICL), которая позволяет моделям учиться во время работы, не прибегая к переносу знаний. Однако, несмотря на это, существующие модели по-прежнему сталкиваются с проблемами, в частности, с точностью решения задач. Одна из причин этого заключается в недостатке систематизированной обработки ошибок. Это особенно важно в случае Multimodal Large Language Models (MLLMs), где необходимо обрабатывать как текстовые, так и визуальные данные одновременно. Наша идея заключается в том, чтобы создать структурированный подход к обработке ошибок, который мог бы улучшить логические возможности моделей. ## Метод Мы предлатваем REFINE (Retrieval-Enhanced Feedback via In-context Neural Error-book) - методологию, которая использует технику ICL для улучшения обработки ошибок в MLLMs. Основоположником нашего подхода является введение трех видов структурированных запросов: Feed-Target, Feed-Check и Feed-Path. Эти запросы были разработаны, чтобы улучшить логику обработки входных данных. Feed-Target позволяет модели сосредоточиться на самом важном визуальном контенте, Feed-Check позволяет анализировать и определять наиболее важные точки множественных ошибок, а Feed-Path позволяет модели строить шаги, необходимые для корректировки. Мы также предлагаем оптимизированный подход к поиску ответов, который уменьшает необходимость в поиске и обработке ненужных данных. Это позволяет модели работать быстрее, эффективнее и с меньшими затратами ресурсов. ## Результаты Мы проверили наш подход на наборе данных, содержащих многомодальные задачи, включая логические задачи и обработку текста с визуальными изображениями. Мы сравнили REFINE с другими существующими подходами, и наши результаты показали, что у нас лучшая точность и скорость работы. Например, мы достигли скоростного ускорения на 30% без потери точности. Это значит, что наш подход существенно эффективнее и может быть легко интегрирован с любыми моделями, которые используют ICL. ## Значимость REFINE может быть применен в различных областях, таких как здравоохранение, образовательные системы и технические задачи. Его главное преимущество заключается в улучшенной точности и эффективности, что может привести к более продуктивному использованию моделей в реальной жизни. Мы считаем, что наш подход может стать ключевым инструментом для улучшения общих возможностей интеллектуальных систем.
Annotation:
Recent advancements in Large Language Models (LLMs) have significantly improved reasoning capabilities, with in-context learning (ICL) emerging as a key technique for adaptation without retraining. While previous works have focused on leveraging correct examples, recent research highlights the importance of learning from errors to enhance performance. However, existing methods lack a structured framework for analyzing and mitigating errors, particularly in Multimodal Large Language Models (MLLMs...
ID: 2508.16313v1 cs.LG, cs.AI, cs.CL
Авторы:

Parker Seegmiller, Kartik Mehta, Soumya Saha, Chenyang Tao, Shereen Oraby, Arpit Gupta, Tagyoung Chung, Mohit Bansal, Nanyun Peng

## Контекст Методы улучшения технологий глубокого обучения, основанных на языковых моделях (LLM), часто используют синтетические данные для обучения моделей математического рассуждения. Однако существуют значительные проблемы, связанные с оценкой качества и эффективностью данных. Особенно непонятно, как разные факторы в процессе синтеза данных (например, фильтрация низкокачественных задач) влияют на окончательный результат. Большинство имеющихся исследований применяют уникальные методологии, что мешает сравнению различных подходов. Это подрывает понимание роли отдельных компонентов в синтетической системе данных. Наша работа позволяет устранить эти проблемы, обеспечив новый подход к оценке и оптимизации синтетических стратегий математического рассуждения. ## Метод Мы представляем FLAMES — Framework for LLM Assessment of Math rEasoning Data Synthesis, открытую систему для систематического исследования различных стратегий синтеза данных. FLAMES позволяет проводить подробные эксперименты, оценивая 10 различных стратегий синтеза данных и их влияние на математическое рассуждение моделей. Методология включает в себя анализ качества, сложности и разнообразия синтетических данных. Мы разработали новые меры для оценки этих факторов, чтобы получить более точный отчет о влиянии синтеза на модели. Эти системы добавляются в FLAMES, чтобы обеспечить повторяемость исследований и формировать новые стратегии. ## Результаты Наши эксперименты показали, что синтетическая система данных FLAMES выполняет лучшую оценку моделей по многим математическим метрикам. Мы обнаружили, что стратегии, нацеленные на увеличение сложности задач, показывают наибольший уровень улучшения результатов. Также мы выявили, что при фиксированном ограничении ресурсов, покрытие меньшего числа задач с высоким качеством превышает важность широкого покрытия. Мы также показали, как GSM8K- и MATH-синтетическая система может улучшить результаты на высокоуровневых конкурсных бенчмарках. Наши результаты показали, что FLAMES может способствовать обобщению моделей с легкого к трудному. ## Значимость Полученные результаты могут быть применены в области создания моделей математического рассуждения, чтобы улучшить их общие возможности. FLAMES дает понимание того, как наилучшие стратегии синтеза могут быть выбраны, чтобы расширить удостоверение моделей вне домена и улучшить их устойчивость. Наши полученные данные позволяют повысить эффективность LLM в зоне математического анализа. Это дает новый подход для повышения качества и эффективности синтетических данных, который может быть применен в различных областях, где необходима математическая модель.
Annotation:
Recent works improving LLM math reasoning with synthetic data have used unique setups, making comparison of data synthesis strategies impractical. This leaves many unanswered questions about the roles of different factors in the synthetic data pipeline, such as the impact of filtering low-quality problems. To address this gap, we introduce FLAMES, a Framework for LLM Assessment of Math rEasoning Data Synthesis, and perform a systematic study of 10 existing data synthesis strategies and multiple ...
ID: 2508.16514v1 cs.LG, cs.AI, cs.CL
Показано 231 - 240 из 278 записей