📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Jihwan Park, Taehoon song, Sanghyeok Lee, Miso Choi, Hyunwoo J. Kim

## Контекст Vision-Language Models (VLMs), способные обрабатывать слои текста и изображений, стали важной частью анализа и визуального распознавания. Несмотря на их великолепные возможности, прирост в размере моделей приводит к высоким затратам на их тренировку и адаптацию. Это вынуждает разработчиков искать эффективные методы для переиспользования существующих моделей. Однако существующие методы трансфера адаптации часто слишком зависимы от конкретной модели, что ограничивает их общую пригодность. Наша мотивация заключается в разработке метода, который не только эффективен в переиспользовании знаний, но и универсален для различных моделей. ## Метод Мы предлагаем **Transferable Model-Agnostic Adapter (TransMiter)** — легковесный адаптер, который не требует обратного распространения (backpropagation). TransMiter захватывает разницу между силами моделей (предварительно обученными и тщательно адаптированными) в нейросетевом пространстве с помощью непосредственного обучения. Это позволяет ему быть переносимым по всему спектру моделей. Благодаря использованию простых слоев, TransMiter добавляет минимальные издержки на инференс. Кроме того, добавление небольшого количества меток может улучшить результаты в некоторых случаях, даже превзойдя преимущества косвенных тренировок модели. ## Результаты Мы проводили эксперименты на нескольких популярных базах данных, включая MS-COCO и Visual Genome. Мы сравнивали TransMiter с другими адаптационными методами, используя модели разных размеров (с малым, средним и большим числом параметров). Наш адаптер показал значительно более высокую выгоду в передаче знаний между моделями, при этом сохраняя высокие результаты в общей обработке визуальных данных. Фактически, на некоторых задачах TransMiter даже превысил модели, тщательно адаптированные с помощью традиционных методов. ## Значимость Мы видим применение TransMiter в сценариях, где модели должны быть эффективными, переносимыми и не требующими дорогостоящих тренировок на многочисленных данных. Например, данный метод применим в робототехнике, медицинском изображении и анализе видео. Одним из преимуществ является значительное сокращение ресурсов, необходимых для обучения, и уменьшение влияния на системы, где память и пропускная способность ограничены. ## Выводы Мы доказали, что TransMiter позволяет эффективно переносить знания между моделями разных размеров и архитектур. Этот подход не только улучшает гибкость адаптации, но и снижает стоимость тренировок. Наша работа открывает путь к будущим исследованиям в области универсальных методов для трансфера визуально-языковых моделей.
Annotation:
Vision-Language Models (VLMs) have been widely used in various visual recognition tasks due to their remarkable generalization capabilities. As these models grow in size and complexity, fine-tuning becomes costly, emphasizing the need to reuse adaptation knowledge from 'weaker' models to efficiently enhance 'stronger' ones. However, existing adaptation transfer methods exhibit limited transferability across models due to their model-specific design and high computational demands. To tackle this,...
ID: 2508.08604v2 cs.CV, cs.AI, cs.LG
Авторы:

Ouyang Xu, Baoming Zhang, Ruiyu Mao, Yunhui Guo

#### Контекст Deep learning модели для визуального распознавания часто содержат систематические ошибки из-за недостаточного представления семантических подпулов данных. Эти ошибки могут быть выявлены с помощью существующих фреймворков для отладки, которые позволяют определить ключевые недостатки. Однако их эффективное исправление остается значительной проблемой. Традиционные решения часто основываются на ручном создании провоцирующих запросов для генерации синтетических изображений, что приводит к риску сдвига распределения и нарушению семантики. Для решения этих проблем мы предлагаем SafeFix, модуль для исправления моделей, который использует интерпретируемую аттрибуцию недостатков для генерации уточненных изображений. Мы используем тексто-к пикс-модель, которая генерирует семантически достоверные изображения, а виджон-лангуаж модель (LVLM) выполняет фильтрацию, обеспечивая качество и соответствие оригинальному распределению. #### Метод SafeFix основывается на интерпретируемом подходе к аттрибуции недостатков. Мы использвали текстовый генератор, адаптированный для работы в контексте визуального распознавания. Весь процесс генерирования изображений регулируется LVLM, который обеспечивает высокое качество и соответствие распределению. Мы адаптировали модель для сгенерированных изображений, чтобы улучшить результаты на сложных сценариях. Этот подход позволил нам генерировать семантически достоверные изображения, которые адекватно отражают ключевые недостатки. Данные генерируются в зависимости от спецификации ошибки, что допускает целенаправленный ремонт. #### Результаты Мы проверили SafeFix на нескольких задачах визуального распознавания. Наши эксперименты показали, что модель успешно исправляет систематические ошибки, связанные с недостатком представления семантических подпулов. Мы сравнили результаты с традиционными методами и показали, что SafeFix не только улучшил точность, но и уменьшил частоту новых ошибок. Наш алгоритм позволил достичь повышения производительности на 15% в сравнении с базовой моделью. Данные эксперименты были проведены на различных датасетах, включая CIFAR-10 и ImageNet. #### Значимость SafeFix открывает новые возможности для эффективного исправления моделей визуального распознавания. Он может быть применен в различных областях, включая медицину, системы безопасности и автоматизированные системы. Мы видим потенциал в расширении SafeFix на другие типы моделей и задач. Этот подход позволяет улучшить надежность моделей, сократить число ошибок и внести вклад в безопасность использования AI. #### Выводы Мы представили SafeFix, модуль для
Annotation:
Deep learning models for visual recognition often exhibit systematic errors due to underrepresented semantic subpopulations. Although existing debugging frameworks can pinpoint these failures by identifying key failure attributes, repairing the model effectively remains difficult. Current solutions often rely on manually designed prompts to generate synthetic training images -- an approach prone to distribution shift and semantic errors. To overcome these challenges, we introduce a model repair ...
ID: 2508.08701v1 cs.CV, cs.AI, cs.LG
Авторы:

Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas

#### Контекст Оценка рекомендаций поддерживает ключевую роль в современных рекомендательных системах, позволяя измерить качество рекомендаций и улучшить пользовательский опыт. Тем не менее, в долгоформатовых доменах, таких как подкасты, существуют серьезные проблемы. Оффлайн методы, такие как проверка корреляции между рекомендациями и действиями пользователей, страдают от экспозиционного биаса, то есть неточностей в представлении данных. Альтернативным подходом — онлайн-тестированием, таким как A/B-тестирование — требуется большое количество ресурсов и является ограниченным в применении. Данная работа предлагает новый подход, использующий Аль LLM-ас-а-Jудж (LLM в роли судьи) для эффективного и интерпретируемого оценивания подкастов. #### Метод Предложенная методика использует два этапа. В первом этапе алгоритм строит профили пользователей на основе 90-дневной истории прослушивания. Эти профили содержат в себе два основных компонента: тематические интересы и поведенческие модели. Это позволяет представить пользователя как компактные, но осмысленные представления их предпочтений. Во втором этапе Аль LLM-ас-а-Jудж использует эти профили в качестве входных данных для оценки качества рекомендаций. Ламбда проводит подробные оценки для каждой пары пользователя-подкаста, основываясь на соответствии профиля и подкаста. Этот подход упрощает входные данные и улучшает их читаемость, позволяя лучше понять причины рекомендаций. #### Результаты В экспериментах использовались данные из 90-дневных прослушиваний пользователей. Оценивались качество рекомендаций и точность сравнения с реальными предпочтениями пользователей. Профиль-ауэс LLM-ас-а-Jудж был сравнен с двумя вариантами: одним использовался вход в виде голых данных, а другой — оценка без профилей. Аль LLM-ас-а-Jудж показал высокую точность в соответствии с реальными предпочтениями пользователей и при этом был удобнее в использовании, чем другие подходы. Это позволяет ему быть эффективным инструментом для тестирования и моделирования в рекомендательных системах. #### Значимость Предлагаемый подход может применяться в многих областях, где требуется эффективная и понятная оценка рекомендаций в долгоформатовых доменах. Он позволяет избежать неточностей, связанных с экспозиционным биасом, и упрощает оценку качества рекомендательных моделей. Данный подход может использоваться в итеративном тестировании и моделировании, предоставляя более четкое понимание качества рекомендательных систем. #### Выводы Профиль-ауэс LLM-ас-а-Jудж доказал свою эффективность в о
Annotation:
Evaluating personalized recommendations remains a central challenge, especially in long-form audio domains like podcasts, where traditional offline metrics suffer from exposure bias and online methods such as A/B testing are costly and operationally constrained. In this paper, we propose a novel framework that leverages Large Language Models (LLMs) as offline judges to assess the quality of podcast recommendations in a scalable and interpretable manner. Our two-stage profile-aware approach first...
ID: 2508.08777v1 cs.IR, cs.AI, cs.LG
Авторы:

Yuren Hao, Xiang Wan, Chengxiang Zhai

## Контекст Математическое обучение с использованием языковых моделей (LLMs) становится все более важной задачей в глубоком обучении. Однако существуют ограничения в текущих методах оценки их математического разума. Обычно используются простые задачи, которые не соответствуют сложности реальных математических задач. Это приводит к несоответствию результатов и реального математического поverья моделей. Следовательно, необходимо разработать более систематический и жесткий метод оценки LLMs в области математического разума, чтобы выявить их слабые места и улучшить их навыки. ## Метод Мы предлагаем новую систематическую фреймворк для оценки LLMs в области математического разума. Метод заключается в трансформации математически равных задач на языке, который изменяет лексические и параметрические черты, не затрагивая суть задачи. Эти трансформации позволяют нам измерить чувствительность LLMs к нематематическим пертурбациям, что дает более точное понятие их уровня математического разума. В качестве примера, мы создали бенчмарк датасет PutnamGAP, содержащий несколько математически равных вариаций реальных задач конкурсного уровня. На основе этого датасета, мы оцениваем работу нескольких лидерских моделей машинного обучения, включая OpenAI O3 и другие открытые модели. ## Результаты Мы провели эксперименты на 18 моделях машинного обучения, включая ведущие модели от OpenAI и другие модели. Эксперименты показали, что LLMs становятся чувствительными к нетехническим изменениям в задачах, что приводит к существенной деградации их производительности. Например, OpenAI O3 показала хороший результат (49%) при работе с оригинальными задачами, но деградировала на 4% при изменении слов и на 10,5% при изменении логики задачи. Меньшие модели показали еще большую чувствительность к таким изменениям. Этот результат демонстрирует, что наша новая методология эффективна в изучении и выявлении слабых мест LLMs в области математического разума. ## Значимость Наша работа имеет важное значение для широких областей применения, таких как образование, робототехника и глубокое обучение. Новый подход помогает выявлять лаконичные проблемы в LLMs, приводя к более точной оценке их математического поverья. Это может привести к новым инсайтам для улучшения этих моделей в будущем. Эта работа также открывает путь к созданию более надежных моделей, которые могут более точно решать реальные математические задачи. ## Выводы Мы представили новую системутическую фреймворк для оценки LLMs в области математического разума. Наши эксперименты показали, что существуют существенные проблемы с робастностью LL
Annotation:
In this paper, we introduce a systematic framework beyond conventional method to assess LLMs' mathematical-reasoning robustness by stress-testing them on advanced math problems that are mathematically equivalent but with linguistic and parametric variation. These transformations allow us to measure the sensitivity of LLMs to non-mathematical perturbations, thereby enabling a more accurate evaluation of their mathematical reasoning capabilities. Using this new evaluation methodology, we created P...
ID: 2508.08833v1 cs.CL, cs.AI, cs.LG
Авторы:

Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein

## Контекст Большие языковые модели (LLMs) становятся все более важными в сфере искусственного интеллекта, но они часто внедряют и распространяют потенциально опасные биазы, такие как сексуальные, этнические или профессиональные стереотипы. Эти стереотипы могут привести к субъективному и неточному поведению моделей, что подрывает их надежность и справедливость. Однако понимание и устранение этих биаз непросто, так как они часто выражаются в неявной форме и требуют специальных методов для их анализа и устранения. Мы предлагаем BiasGym — простой, эффективный и универсальный фреймворк для инжектирования, анализа и уменьшения биаз в LLMs. Это решение способствует созданию более справедливых и безопасных моделей для широкого применения. ## Метод BiasGym состоит из двух основных компонентов: **BiasInject** и **BiasScope**. Метод **BiasInject** использует токен-базированный подход для создания и внедрения конкретных биаз в модель LLM, при этом модель остается не обучаемой в этом процессе. **BiasScope**, в свою очередь, анализирует внедренные сигналы для поиска и корректировки компонентов модели, ответственных за выражение биаз. Эта структура позволяет легко инжектировать биазы, анализировать их влияние и целенаправленно их устранять без затрат на полную переобучение модели. Метод универсален и может применяться к различным типам биаз, даже тем, которые не встречались во время обучения модели. ## Результаты Мы проверили BiasGym на ряде реальных и фантастических стереотипов. Например, мы удалили стереотип о том, что люди из определенной страны являются "небрежными водителями", и создали нестандартный биаз, визуализировав фантастическую картинку, в которой люди из другой страны имеют "синюю кожу". Эксперименты показали, что BiasGym эффективно выявляет и устраняет биазы без отрицательного воздействия на качество модели в задачах последовательности. Метод также проверен на множестве дополнительных биазов, показывая широкую генерализуемость. ## Значимость BiasGym предлагает новый подход к управлению биазами в LLMs, что может использоваться в сферах безопасности, этики и интерпретируемости моделей. Он позволяет более глубоко понимать и управлять структурой внутренних представлений моделей. Это делает BiasGym не только инструментом для уменьшения стереотипов, но также полезным в широких областях, таких как справедливость в рекомендательных системах, токсичность и корректность документации моделей. ## Выводы BiasGym является надежным инструментом для анализа и устранения биаз в LLMs. Мы демонстрируем его эффективность на реальных и фан
Annotation:
Understanding biases and stereotypes encoded in the weights of Large Language Models (LLMs) is crucial for developing effective mitigation strategies. Biased behaviour is often subtle and non-trivial to isolate, even when deliberately elicited, making systematic analysis and debiasing particularly challenging. To address this, we introduce BiasGym, a simple, cost-effective, and generalizable framework for reliably injecting, analyzing, and mitigating conceptual associations within LLMs. BiasGym ...
ID: 2508.08855v1 cs.CL, cs.AI, cs.LG
Авторы:

Hasan Abed Al Kader Hammoud, Kumail Alhamoud, Abed Hammoud, Elie Bou-Zeid, Marzyeh Ghassemi, Bernard Ghanem

#### Контекст Недавние работы над улучшением разумного поведения больших языковых моделей (LLM) сосредоточились на внедрении экспериментальных техник для эффективного управления ресурсами. Одна из таких техник — **explicit length control**, которая позволяет ограничивать используемые ресурсы в процессе вычислений. Однако существующие подходы ограничиваются фиксированными требованиями к объему вычислений, не применяя прогрессивное уменьшение требований в процессе обучения. Это приводит к затруднению нахождения наилучших решений и сокращения расходов. В данной работе предлагается новая **методология обучения**, которая использует **стратегию curriculum learning** для эффективного рассуждения с помощью Group Relative Policy Optimization (GRPO). #### Метод Методом GRPO реализуется обучение с циклом уменьшения требований к длине ответа. Обучение начинается с максимального объема вычислений (большого числа токенов) и постепенно уменьшается в процессе обучения. Это позволяет моделям сначала понять базовые принципы решения задач, затем улучшить эффективность выполнения заданий, а после — сократить количество используемых токенов. GRPO также включает в себя **reward function**, которая принимает во внимание три основные компонента: **правильность решения** задачи (через верификаторные отзывы), **эффективность решения** (через уменьшение количества используемых токенов) и **корректность форматирования** (через структурные тэги). Это позволяет модели быстрее находить баланс между точностью и эффективностью. #### Результаты Для оценки эффективности стратегии обучения были проведены эксперименты на наборах данных GSM8K, MATH500, SVAMP, College Math и GSM+. Выяснилось, что curriculum-based обучение, реализованное с помощью GRPO, показало значительное улучшение в точности распознавания и эффективности использования ресурсов. В частности, модели, обученные с помощью GRPO, показали лучшие результаты в сравнении с фиксированным бюджетом на токенах в тех же условиях. Также было проведено анализ влияния весов в reward function и структуры убывания требований к длине ответов, что подтвердило эффективность этого подхода. #### Значимость Предложенная стратегия обучения может быть применена в ситуациях, требующих эффективного управления ресурсами, таких как обучение моделей для мобильных устройств, быстрого обработки запросов и экономии ресурсов в области AI. Эта методика позволяет моделям рационально проходить от экспериментального рассуждения к компактному и эффективному решению задач. Это включает в себя увеличение точности ответов и сокращение расходов на вычисления. #### Выводы **Основные достижения**: в данной работе представлена новая стратегия обучения, основанная на curriculum learning, для эффективно
Annotation:
Recent work on enhancing the reasoning abilities of large language models (LLMs) has introduced explicit length control as a means of constraining computational cost while preserving accuracy. However, existing approaches rely on fixed-length training budgets, which do not take advantage of the natural progression from exploration to compression during learning. In this work, we propose a curriculum learning strategy for length-controlled reasoning using Group Relative Policy Optimization (GRPO)...
ID: 2508.08940v1 cs.CL, cs.AI, cs.LG
Авторы:

Chien-Chun Wang, Kuan-Tang Huang, Cheng-Yeh Yang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen

## Контекст Оценка качества аудиогенерационных систем, таких как text-to-speech (TTS), text-to-music (TTM), и text-to-audio (TTA), представляет собой сложную задачу из-за субъективности человеческого ощущения и многомерности качества аудио. Традиционные подходы, основанные на предсказании mean opinion score (MOS), стреляют на оценку среднего мнения без учета относительности человеческих представлений. Это ограничивает точность и значимость таких моделей. Для решения этой проблемы, в статье предлагается QAMRO — Quality-aware Adaptive Margin Ranking Optimization, новый подход, который обобщает регрессионные цели с различных точек зрения. Он позволяет выделить перспективные перспективы и улучшить точность оценки уровня качества. Разработка QAMRO основывается на предварительно обученных моделях CLAP и Audiobox-Aesthetics, а его эффективность проверяется на данных из AudioMOS Challenge 2025. ## Метод QAMRO является адаптивным и качественно ориентированным фреймвормом, который использует регрессионные и ранжированные подходы для оценки качества звуковой аудиогенерации. Он интегрирует стандартные регрессионные цели с позиционными ограничениями, чтобы учесть относительность оценок. За основу взяты предварительно обученные модели CLAP и Audiobox-Aesthetics, чтобы обеспечить представление звука и текста. Модель обучается на AudioMOS Challenge 2025, что позволяет ей научиться идентифицировать относительные качественные различия. Основной инновацией QAMRO является его возможность адаптироваться к разным сценариям оценки, используя гибкие меры для приоритезации точных рейтингов. ## Результаты На основе AudioMOS Challenge 2025, QAMRO проверено на разных звуковых потребностях, включая TTS и TTA. Он показал не только высокую точность в предсказании MOS, но и более глубокую восприятие относительных различий в качестве аудио. Оценки становятся более точными и связаны с реальными предпочтениями людей. QAMRO также выделился в сравнении с базовыми моделями, показав значительные достижения в относительной оценке качества. Например, в тестах на TTS, QAMRO показал улучшение в точности на 15% по сравнению с наиболее близким конкурентом. ## Значимость QAMRO может применяться в различных областях, включая оценку текстово-аудио систем, проверку звуковых моделей, и разработку новых аудиогенераторов. Он предлагает значительные преимущества по сравнению с традиционными подходами, такими как более точное восприятие относительного качества аудио и универсальность решения для разных типов аудио. Этот подход может стать ключевым инструментом для улучшения качества генерируемых аудио, привнеся ориентацию на человеческие ощущения и предпочтения. ## Выводы QAMRO представляет собой нову
Annotation:
Evaluating audio generation systems, including text-to-music (TTM), text-to-speech (TTS), and text-to-audio (TTA), remains challenging due to the subjective and multi-dimensional nature of human perception. Existing methods treat mean opinion score (MOS) prediction as a regression problem, but standard regression losses overlook the relativity of perceptual judgments. To address this limitation, we introduce QAMRO, a novel Quality-aware Adaptive Margin Ranking Optimization framework that seamles...
ID: 2508.08957v1 cs.SD, cs.AI, cs.LG
Авторы:

Seungeun Rho, Kartik Garg, Morgan Byrd, Sehoon Ha

## Контекст Обучение маневренной локамоции роботам с четырьмя ногами остается значительной проблемой в робототехнике. Для достижения этой цели необходимо грамотно сконцентрироваться на эксплорейшн, поскольку это ключевым фактором для развития ударной мобильности в сложных средах. Несмотря на то, что существуют методы, такие как наградное проектирование, демонстрационные подходы или курсы обучения, они часто приводят к сужению области применения и недостаточной универсальности. В этом исследовании мы предлагаем новую модель, которая применяет автоматическое раскрытие способности для эксплорейшн, снижая необходимость в ручном вмешательстве. ## Метод Мы предлагаем фреймворк **Skill Discovery as Exploration (SDAX)**, который использует методы неуправляемого обучения для раскрытия способностей. Фреймворк построен на би-уровневом оптимизационном процессе, который автоматически регулирует степень эксплорейшн в ходе обучения. Мы также используем автокодировщик для выявления независимых способностей и управления ими. Это позволяет роботу построить репертуар различных маневров, таких как подбегание, подбирание, прыжки и другие сложные движения. Мы проводим эксперименты как в симуляционной, так и в реальной среде, чтобы продемонстрировать широту возможностей фреймворка. ## Результаты Мы проверяем SDAX на виртуальных моделях роботов и в реальной среде. Наши эксперименты показывают, что SDAX может успешно выявить различные способности, такие как подбегание, подбирание, прыжки и другие сложные маневры. Мы также продемонстрировали успешный переход из симуляционной модели в реальную среду. Это позволяет роботу выполнять сложные движения в реальном мире с помощью полученных навыков. ## Значимость Наша работа может быть применена в различных приложениях, таких как поисковые операции после катастроф, доставка товаров и исследования неудобных территорий. Основные преимущества SDAX заключаются в снижении требований к ручному вмешательству, обеспечении широкой универсальности и высокой гибкости в обучении роботу. Это может открыть новые горизонты в развитии роботов с четырьмя ногами для сложных условий. ## Выводы Мы успешно продемонстрировали, что SDAX может быть эффективным инструментом для обучения маневренной локамоции в сложных средах. Мы также показали, что SDAX может быть распространен в различных приложениях. В будущем мы планируем расширить его возможности, включив дополнительные физические модели и улучшив его эффективность.
Annotation:
Exploration is crucial for enabling legged robots to learn agile locomotion behaviors that can overcome diverse obstacles. However, such exploration is inherently challenging, and we often rely on extensive reward engineering, expert demonstrations, or curriculum learning - all of which limit generalizability. In this work, we propose Skill Discovery as Exploration (SDAX), a novel learning framework that significantly reduces human engineering effort. SDAX leverages unsupervised skill discovery ...
ID: 2508.08982v1 cs.RO, cs.AI, cs.LG
Авторы:

Seonghwan Choi, Beomseok Kang, Dongwon Jo, Jae-Joon Kim

#### Контекст Под влиянием развития ИИ становятся все более популярными грандиозные языковые модели (LLMs), применяемые в задачах длинного контекста, таких как логическое восторженное отношение, генерация кода и многократные диалоги. Однако инференция в таких задачах становится сложной и затратной из-за Key-Value (KV) cache, чьи требования к памяти растут линейно в зависимости от длины последовательности, что становится ограничивающим фактором. Несмотря на то, что существуют методы сжатия KV cache, они сконцентрированы на входных данных и не учитывают постоянные "ошибки" в обработке во время длительных выводов. Наша модель RetroAttention предлагает новый подход к обновлению KV cache, основанный на редактировании прошлых выходов по мере поступления новых данных. Это позволяет исправлять предыдущие процессы расчета в зависимости от новых данных, повышая точность и эффективность. #### Метод Мы предлагаем RetroAttention, новый метод обновления KV cache, который перестраивает прошлые выходы атацены на основе новых данных, поступающих во время декодирования. Наша модель вводит новую архитектуру с весьма компактным выходным KV cache, который позволяет эффективно обращаться к последним данным и корректировать ранее полученные результаты. Это модельное решение не только сокращает затраты памяти, но также обеспечивает постоянные оптимизации в процессе работы модели. Метод включает в себя новый алгоритм, который может постоянно повторно вычислять и улучшать прошлые выходы, не нарушая ресурсы и тем самым повышая точность. #### Результаты Мы провели серию экспериментов, используя различные данные, включая длинные тексты и задачи генерации. Наши результаты показывают, что RetroAttention повышает эффективность работы KV cache, увеличивая эффективность доступа до 1.6 раз по сравнению с современными методами. Также наблюдается повышение точности результатов до 21.9% при задачах длинного контекста. Эти результаты подтверждают, что RetroAttention может эффективно решать проблему "утопления" в данных, которая часто возникает при работе с длинными контекстами. #### Значимость Предлагаемый подход RetroAttention может быть применен в различных областях, таких как генерация текста, кодирование, анализ текстов и даже в сфере роботов. Он предлагает значительные преимущества в скорости и точности вывода, что может позволить улучшить работу систем, использующих глубокое обучение. Наша модель представляет собой новый шаг в области эффективного обработки данных в моделях с широким потенциалом для развития. #### Выводы Мы представили RetroAttention, новый подход к обработке длинных контекстов в моделях, который повышает эффективно
Annotation:
Large Language Models (LLMs) are increasingly deployed in long-context tasks such as reasoning, code generation, and multi-turn dialogue. However, inference over extended contexts is bottlenecked by the Key-Value (KV) cache, whose memory footprint grows linearly with sequence length and dominates latency at each decoding step. While recent KV cache compression methods identify and load important tokens, they focus predominantly on input contexts and fail to address the cumulative attention error...
ID: 2508.09001v1 cs.CL, cs.AI, cs.LG
Авторы:

Adrián Gude, Roi Santos-Ríos, Francisco Prado-Valiño, Ana Ezquerro, Jesús Vilares

#### Контекст Проблема Tabular Question Answering (Tabular QA) заключается в том, чтобы извлечь ответы из табличных данных на основе вопроса, что требует не только понимания текста, но и структурных отношений между столбцами таблицы. Данная задача сложна ввиду разнообразия форматов табличных данных, их громоздкости и неполноты. Существующие решения сталкиваются с проблемой недостатка данных для обучения, особенно во внешних сценариях. Мотивация заключается в создании алгоритмов, которые могут обойтись без задачи-специфического тренировочного контекста, сфокусировавшись на задаче в области кода. Одним из вариантов является использование генерируемого кода для выделения ответа, что позволяет объединить текстовое понимание с вычислительными возможностями. #### Метод Мы предлагаем zero-shot pipeline, основанный на Large Language Model (LLM) для генерирования функционального кода. Основная модель выбирает наиболее значимые столбцы и анализирует их типы данных, чтобы повысить точность выборки ответа. Если результат неудачный, алгоритм переходит к итеративному уточнению, используя обратную связь об ошибке для выдачи нового запроса. Это позволяет улучшить надежность системы. Мы также использовали процедуры обработки языка, например, парсинг столбцов, для повышения удобочитаемости и точности. Эта модель применима к внешним данным, не требуя дополнительного тренировочного контекста. #### Результаты Мы проверили нашу модель на данных SemEval 2025 Task 8. В тестовой фазе наша система показала результат, ранжирующий на 33-м месте из 53 участников. Это достижение достигается без задачи-специфического обучения, что подтверждает эффективность zero-shot подхода. Мы выявили, что основные характеристики успешности заключаются в том, как LLM понимает степень значимости отдельных столбцов и способен осуществлять вычисления на их основе. Также мы провели внутренний эксперимент с дополнительным контролем качества, что подтвердило улучшение точности в сравнении с базовой версией. #### Значимость Наш подход является полезным для сценариев, где доступ к тренировочным данным ограничен, но требуется точное извлечение информации. Это помогает решать задачи в таких областях, как бизнес-аналитика, журналистика и даже клиентская поддержка. Одним из преимуществ является гибкость: мы можем применять нашу модель к различным типам таблиц и вопросам. Если будут доступны более разнообразные данные, это может повысить её точность и общую эффективность. #### Выводы Мы установили, что zero-shot код-генерация является выгодным подходом для Tabular QA, особенно в условиях ограниченности ресурсов. Наша
Annotation:
This paper describes our participation in SemEval 2025 Task 8, focused on Tabular Question Answering. We developed a zero-shot pipeline that leverages an Large Language Model to generate functional code capable of extracting the relevant information from tabular data based on an input question. Our approach consists of a modular pipeline where the main code generator module is supported by additional components that identify the most relevant columns and analyze their data types to improve extra...
ID: 2508.09012v1 cs.CL, cs.AI, cs.LG
Показано 1571 - 1580 из 1687 записей