📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments

2025-08-14

Авторы:

Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Xuanjing Huang, Jiecao Chen

## Контекст Большие языковые модели (LLMs) широко используются для решения различных задач, но их эффективность сильно зависит от возможности эффективно использовать инструменты. Тем не менее, создание эффективных методологий для обучения моделей использования инструментов становится сложней из-за недостатка эффективных фреймворков для усовершенствования инструментального поведения. Эти проблемы возникают из-за необходимости создания стабильных обучающих сред и разработки верифицируемых механизмов вознаграждения. Это приводит к ограниченности возможностей моделей в использовании инструментов и, следовательно, к недостаточному использованию их потенциала в реальных ситуациях. ## Метод Мы предлагаем новый подход к созданию обучающих сред, позволяющий улучшить инструментальное поведение LLMs. Этот подход состоит из нескольких ключевых компонентов: сценарий декомпозиции, документации, интеграции функций и масштабирования сложности. Выделив эти компоненты, мы создаем высококачественные обучающие среды, которые обеспечивают подробный и измеримый отклик без необходимости использовать внешние инструменты. Этот подход также включает в себя разработку верифицируемого механизма вознаграждения, который оценивает как точность использования инструментов, так и полноту выполнения задачи. Эти компоненты могут быть легко интегрированы с существующими алгоритмами RL для обучения моделей. ## Результаты Мы проверили нашу методику на различных моделях различных размеров. Эксперименты показали, что наш подход существенно повышает производительность моделей при использовании инструментов, без ущерба для их общих качеств. Мы также отметили, что улучшения в инструментальном поведении моделей связаны с улучшением контекстного понимания и разума, которое достигается благодаря обновлению нижних слоев MLP при обучении. Эти результаты указывают на важность конкретной архитектуры и методологии, которые использовались в нашем подходе. ## Значимость Наш подход может быть использован в различных областях, где требуется инструментальное поведение LLMs, таких как автоматизация рабочих процессов, системы поддержки решений и системы управления. Он предлагает уникальные преимущества по сравнению с существующими методами, включая лучшую точность использования инструментов, гибкость в настройке и высокую степень универсальности. Это может привести к значительному повышению эффективности работы моделей в различных сферах применения. ## Выводы Мы пришли к выводу, что наш подход является эффективным для улучшения инструментального поведения LLMs. Он позволяет моделям более точно

Annotation:

Effective tool use is essential for large language models (LLMs) to interact meaningfully with their environment. However, progress is limited by the lack of efficient reinforcement learning (RL) frameworks specifically designed for tool use, due to challenges in constructing stable training environments and designing verifiable reward mechanisms. To address this, we propose an automated environment construction pipeline, incorporating scenario decomposition, document generation, function integr...

ID: 2508.08791v1 cs.CL, cs.AI

arXiv PDF

📄 An Investigation of Robustness of LLMs in Mathematical Reasoning: Benchmarking with Mathematically-Equivalent Transformation of Advanced Mathematical Problems

2025-08-14

Авторы:

Yuren Hao, Xiang Wan, Chengxiang Zhai

## Контекст Математическое обучение с использованием языковых моделей (LLMs) становится все более важной задачей в глубоком обучении. Однако существуют ограничения в текущих методах оценки их математического разума. Обычно используются простые задачи, которые не соответствуют сложности реальных математических задач. Это приводит к несоответствию результатов и реального математического поverья моделей. Следовательно, необходимо разработать более систематический и жесткий метод оценки LLMs в области математического разума, чтобы выявить их слабые места и улучшить их навыки. ## Метод Мы предлагаем новую систематическую фреймворк для оценки LLMs в области математического разума. Метод заключается в трансформации математически равных задач на языке, который изменяет лексические и параметрические черты, не затрагивая суть задачи. Эти трансформации позволяют нам измерить чувствительность LLMs к нематематическим пертурбациям, что дает более точное понятие их уровня математического разума. В качестве примера, мы создали бенчмарк датасет PutnamGAP, содержащий несколько математически равных вариаций реальных задач конкурсного уровня. На основе этого датасета, мы оцениваем работу нескольких лидерских моделей машинного обучения, включая OpenAI O3 и другие открытые модели. ## Результаты Мы провели эксперименты на 18 моделях машинного обучения, включая ведущие модели от OpenAI и другие модели. Эксперименты показали, что LLMs становятся чувствительными к нетехническим изменениям в задачах, что приводит к существенной деградации их производительности. Например, OpenAI O3 показала хороший результат (49%) при работе с оригинальными задачами, но деградировала на 4% при изменении слов и на 10,5% при изменении логики задачи. Меньшие модели показали еще большую чувствительность к таким изменениям. Этот результат демонстрирует, что наша новая методология эффективна в изучении и выявлении слабых мест LLMs в области математического разума. ## Значимость Наша работа имеет важное значение для широких областей применения, таких как образование, робототехника и глубокое обучение. Новый подход помогает выявлять лаконичные проблемы в LLMs, приводя к более точной оценке их математического поverья. Это может привести к новым инсайтам для улучшения этих моделей в будущем. Эта работа также открывает путь к созданию более надежных моделей, которые могут более точно решать реальные математические задачи. ## Выводы Мы представили новую системутическую фреймворк для оценки LLMs в области математического разума. Наши эксперименты показали, что существуют существенные проблемы с робастностью LL

Annotation:

In this paper, we introduce a systematic framework beyond conventional method to assess LLMs' mathematical-reasoning robustness by stress-testing them on advanced math problems that are mathematically equivalent but with linguistic and parametric variation. These transformations allow us to measure the sensitivity of LLMs to non-mathematical perturbations, thereby enabling a more accurate evaluation of their mathematical reasoning capabilities. Using this new evaluation methodology, we created P...

ID: 2508.08833v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Steering Towards Fairness: Mitigating Political Bias in LLMs

2025-08-14

Авторы:

Afrozah Nadeem, Mark Dras, Usman Naseem

#### Контекст Появление больших языковых моделей (LLMs) изменило способ обработки текстовых данных, сделав его более эффективным и доступным. Однако существуют заметные проблемы, связанные с возникновением политической биаса в этих моделях. Такие модели часто отражают идеологические аспекты вводимых данных, что может привести к необъективности или даже упреждающему суждению в отношении определенных политических взглядов. Такое поведение может оказаться недопустимым в приложениях, где ценность нейтральности и принципности являются приоритетными. Таким образом, существует необходимость в разработке методов, которые позволят устранять или по крайней мере снижать политические биасы в LLMs. #### Метод Мы предлагаем фреймворк по обнаружению и устранению политического биаса в LLMs, основанный на анализе внутренних представлений моделей. Метод основывается на Political Compass Test (PCT), который использует задачи сравнения пар для извлечения и сравнения активаций моделей в процессе обработки текста. Мы разрабатывали комплексный подход, который позволяет проводить анализ по каждому слою модели, определяя наличие биаса по отдельным политическим аспектам. Модели, использованные в нашем исследовании, включают Mistral и DeepSeek. Этот подход позволяет получить более глубокое понимание того, как политические биасы возникают в моделях и как они могут быть устранены. #### Результаты Для исследования мы применили наш фреймворк к данным с Political Compass Test и проанализировали поведение моделей во время обработки текста. Наши результаты показали, что LLMs внутренними представлениями систематически заражаются политическим биасом, который проявляется на разных слоях модели. Дальнейший анализ показал, что эти биасы могут быть активно контролированы и устранены с помощью специальных стиринг-векторов, которые позволяют изменять поведение модели в соответствии с желаемым политическим курсом. Этот подход позволит улучшить не только точность, но и объективность результатов, получаемых от моделей. #### Значимость Наша работа имеет практическое значение для многих областей, где нейтральность и объективность текстовой обработки являются ключевыми факторами успеха. Например, в области новостных сервисов, единообразии социальных сетей и экспертных систем. Метод, предложенный в нашей статье, предоставляет новые возможности для минимизации политического биаса, не вводя изменений в сами результаты. Это может сделать модели более универсальными и надежными для различных пользователей и приложений. #### Выводы Мы демонстрируем, что политические биасы в LLMs могут быть обнаружены и устранены с ис

Annotation:

Recent advancements in large language models (LLMs) have enabled their widespread use across diverse real-world applications. However, concerns remain about their tendency to encode and reproduce ideological biases, particularly along political and economic dimensions. In this paper, we propose a framework for probing and mitigating such biases in decoder-based LLMs through analysis of internal model representations. Grounded in the Political Compass Test (PCT), our method uses contrastive pairs...

ID: 2508.08846v1 cs.CL, cs.AI

arXiv PDF

📄 BiasGym: Fantastic Biases and How to Find (and Remove) Them

2025-08-14

Авторы:

Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein

## Контекст Большие языковые модели (LLMs) становятся все более важными в сфере искусственного интеллекта, но они часто внедряют и распространяют потенциально опасные биазы, такие как сексуальные, этнические или профессиональные стереотипы. Эти стереотипы могут привести к субъективному и неточному поведению моделей, что подрывает их надежность и справедливость. Однако понимание и устранение этих биаз непросто, так как они часто выражаются в неявной форме и требуют специальных методов для их анализа и устранения. Мы предлагаем BiasGym — простой, эффективный и универсальный фреймворк для инжектирования, анализа и уменьшения биаз в LLMs. Это решение способствует созданию более справедливых и безопасных моделей для широкого применения. ## Метод BiasGym состоит из двух основных компонентов: **BiasInject** и **BiasScope**. Метод **BiasInject** использует токен-базированный подход для создания и внедрения конкретных биаз в модель LLM, при этом модель остается не обучаемой в этом процессе. **BiasScope**, в свою очередь, анализирует внедренные сигналы для поиска и корректировки компонентов модели, ответственных за выражение биаз. Эта структура позволяет легко инжектировать биазы, анализировать их влияние и целенаправленно их устранять без затрат на полную переобучение модели. Метод универсален и может применяться к различным типам биаз, даже тем, которые не встречались во время обучения модели. ## Результаты Мы проверили BiasGym на ряде реальных и фантастических стереотипов. Например, мы удалили стереотип о том, что люди из определенной страны являются "небрежными водителями", и создали нестандартный биаз, визуализировав фантастическую картинку, в которой люди из другой страны имеют "синюю кожу". Эксперименты показали, что BiasGym эффективно выявляет и устраняет биазы без отрицательного воздействия на качество модели в задачах последовательности. Метод также проверен на множестве дополнительных биазов, показывая широкую генерализуемость. ## Значимость BiasGym предлагает новый подход к управлению биазами в LLMs, что может использоваться в сферах безопасности, этики и интерпретируемости моделей. Он позволяет более глубоко понимать и управлять структурой внутренних представлений моделей. Это делает BiasGym не только инструментом для уменьшения стереотипов, но также полезным в широких областях, таких как справедливость в рекомендательных системах, токсичность и корректность документации моделей. ## Выводы BiasGym является надежным инструментом для анализа и устранения биаз в LLMs. Мы демонстрируем его эффективность на реальных и фан

Annotation:

Understanding biases and stereotypes encoded in the weights of Large Language Models (LLMs) is crucial for developing effective mitigation strategies. Biased behaviour is often subtle and non-trivial to isolate, even when deliberately elicited, making systematic analysis and debiasing particularly challenging. To address this, we introduce BiasGym, a simple, cost-effective, and generalizable framework for reliably injecting, analyzing, and mitigating conceptual associations within LLMs. BiasGym ...

ID: 2508.08855v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Entangled in Representations: Mechanistic Investigation of Cultural Biases in Large Language Models

2025-08-14

Авторы:

Haeun Yu, Seogyeong Jeong, Siddhesh Pawar, Jisu Shin, Jiho Jin, Junho Myung, Alice Oh, Isabelle Augenstein

## Контекст Современные технологии обработки естественного языка (NLP) на основе крупных моделей языков (LLMs) востребованы во всемирных и культурно различных контекстах. Их применение способствует улучшению локализованных систем и увеличению охвата владельцев системы, однако они также сопрягаются с определенными рисками, в том числе сужением культурного разнообразия и объективности. В частности, LLMs могут проявлять предпочтения к "западной" культуре, игнорируя разнообразие культурных факторов, что может привести к формированию и распространению культурных предрассудков. Для того чтобы проанализировать это влияние, необходимо глубокое понимание того, как LLMs внутренние представления отражают культурные характеристики. Как следствие, этот аспект требует исследования, чтобы создать более включающие модели, которые могли бы более точно отражать культурное многообразие и сокращать пробелы в культурной компетентности. ## Метод Для эвристического изучения внутренних представлений LLMs в отношении культурных факторов, авторы предлагают **Culturescope** — инструментальный механизм, рассчитанный на проникновение в внутреннюю структуру данных моделей. Основной алгоритм Culturescope опирается на метод "патчей" для извлечения информации о культуре. Этот подход позволяет изучить, каким образом LLMs основываются на культурных факторах при обработке текста. Чтобы измерить культурные предрассудки внутри LLMs, авторы предлагают культурный скор «Cultural Flattening Score», который отражает степень уплотнения культурных факторов вокруг западных культур. С помощью этих мер и методов авторы исследуют, каким образом LLMs встраивают в свои представления Западное центризму и культурную уплотнение. ## Результаты В их экспериментах авторы применяли Culturescope к нескольким моделям LLM, включая универсальные модели и модели, ориентированные на конкретные регионы. Изученные модели проявили значительные предрассудки в части Западной культуры, что подтверждается высоким культурным скором «Cultural Flattening Score». Например, модели, ориентированные на западные культуры, сильнее всего воспроизводили культурные предрассудки и игнорировали менее документированные культуры. Эти модели также проявили ограниченную учетную способность для культур с низким ресурсом, что может быть связано с нехваткой данных в обучении. Лишь небольшое число моделей показало способность сдвигаться в сторону более равноправия между культурами, но даже в этих случаях оставались заметные баклажаны в воспроизведении культурных факторов. ## Значимость

Annotation:

The growing deployment of large language models (LLMs) across diverse cultural contexts necessitates a better understanding of how the overgeneralization of less documented cultures within LLMs' representations impacts their cultural understanding. Prior work only performs extrinsic evaluation of LLMs' cultural competence, without accounting for how LLMs' internal mechanisms lead to cultural (mis)representation. To bridge this gap, we propose Culturescope, the first mechanistic interpretability-...

ID: 2508.08879v1 cs.CL, cs.AI

arXiv PDF

📄 ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs

2025-08-14

Авторы:

Keyu Chen, Zhifeng Shen, Daohai Yu, Haoqian Wu, Wei Wen, Jianfeng He, Ruizhi Qiao, Xing Sun

## Контекст Главная проблема, которая ограничивает производительность больших языковых моделей (LLMs), лежит в своей последовательной природе декодирования. Эта структура требует предсказания токенов по очереди, что приводит к заметным задержкам и неэффективности. Далее, необходимость скорости и эффективности в приложениях, таких как боты-помощники и системы ответа на вопросы, возникает как реальное задание. Однако, внутренние свойства самих LLMs могут быть использованы для решения этих проблем: некоторые сегменты ответов могут быть выделены как потенциально параллельные. Этот факт мотивирует разработку методов, которые могут эффективно комбинировать серийное и параллельное декодирование. ## Метод Предлагается новый подход, называемый Adaptive Serial-Parallel Decoding (ASPD). Он работает над двумя основными задачами: автоматическом выявлении параллельных структур в ответах LLMs и реализацией гибкой системы, которая мгновенно переключается между серийным и параллельным декодированием. Для выявления таких структур вводится нейтральная методология, которая извлекает и проверяет эти сегменты на предмет параллельности. Для эффективного выполнения параллельных задач введен Hybrid Decoding Engine, который может переключаться между серийным и параллельным режимами с минимальным издержанием. Эта система обеспечивает реальное параллельное исполнение нескольких ответов с сохранением качества. ## Результаты Результаты опробованы на различных задачах, включая General Tasks, Retrieval-Augmented Generation и Mathematical Reasoning. ASPD показала скоростной прирост до 3.19x на Vicuna Bench, сохранив качество ответов на уровне 1% от стандартных авторегрессионных моделей. Это достижение означает значительную ускорение работы систем без ущерба к качеству ответов, что делает ASPD применимой в производительных сценариях, таких как системы ответа на вопросы и сервисы клиентской поддержки. ## Значимость Разработанный подход может быть использован в разных областях, где необходима чрезвычайная скорость ответов, таких как системы ответа на вопросы, боты-помощники и системы онлайн-помощи. Он предоставляет значительные преимущества в скорости и эффективности, что позволяет выполнять эти задачи в автоматическом режиме без потери в качестве. В будущем, ASPD может стать ключевым элементом для создания более производительных и быстрых систем AI, которые могут быть использованы в реальном времени. ## Выводы ASPD показалася эффективной стратегией для переключения между серийным и параллельным декодированием LLMs. Она доказала свою эффективность в различных задачах и зарекомендовала себя как мощный инструмент для ускорения работы языковых моделей. Будущ

Annotation:

The increasing scale and complexity of large language models (LLMs) pose significant inference latency challenges, primarily due to their autoregressive decoding paradigm characterized by the sequential nature of next-token prediction. By re-examining the outputs of autoregressive models, we observed that some segments exhibit parallelizable structures, which we term intrinsic parallelism. Decoding each parallelizable branch simultaneously (i.e. parallel decoding) can significantly improve the o...

ID: 2508.08895v1 cs.CL, cs.AI

arXiv PDF

📄 Munsit at NADI 2025 Shared Task 2: Pushing the Boundaries of Multidialectal Arabic ASR with Weakly Supervised Pretraining and Continual Supervised Fine-tuning

2025-08-14

Авторы:

Mahmoud Salhab, Shameed Sait, Mohammad Abusheikh, Hasan Abusheikh

#### Контекст Автоматическое распознавание речи (ASR) является ключевым компонентом для создания эффективного взаимодействия между человеком и машиной в таких областях, как виртуальные помощники, промышленная автоматизация, поддержка клиентов и реальное время транскрипции. Однако, для низкоресурсных языков, таких как арабский, развитие точных систем ASR представляет серьезные трудности из-за недостатка меток данных и сложности, возникающих из разнообразия диалектов. Для арабского языка, отличающегося разнообразием диалектов, эта сложность возрастает. В данной работе мы предлагаем метод построения ASR-систем, который объединяет методы неполностью отмеченного обучения с последующим тонко tuning-ом с моделью. Этот подход позволяет обеспечить высокую точность распознавания, даже при ограниченном количестве данных. #### Метод Мы предлагаем подход, сочетающий неполностью отмеченное обучение с последующим тонко tuning-ом. На первом этапе, система обучается на 15 000 часов неполностью отмеченных звуковых данных, включающих как Modern Standard Arabic (MSA), так и различные диалекты арабского языка. На втором этапе проводится тонкое tuning на смеси неполностью отмеченных данных и небольшого количества высококачественных данных с метками. Эта методика позволяет эффективно использовать малое количество высококачественных данных, улучшая производительность ASR-системы. Мы также используем архитектуру Transformer-based ASR, которая подходит для обработки различных диалектов, включая те, которые не были видны во время предварительного обучения. #### Результаты Для оценки эффективности нашего подхода, мы приняли участие в соревновании NADI 2025 Shared Task 2, посвященном развитию ASR для многодиалектного арабского языка. Модель показала лучшие результаты, победив в трех из трех подзадач. Это демонстрирует силу тонкого tuning-а на неполностью отмеченных данных, что позволяет достичь высокой точности даже при ограниченных ресурсах. Мы также проводили дополнительные эксперименты для проверки качества на различных диалектах, что дало дополнительную поддержку нашей модели. #### Значимость Наш подход имеет значительное значение в области развития ASR для низкоресурсных языков, особенно для арабских диалектов. Он доказывает, что неполностью отмеченные данные могут быть эффективно использованы для обучения моделей, даже для языков с богатым диалектическим разнообразием. Это открывает новые возможности для развития ASR-систем в других низкоресурсных языках, где доступ к метким данным ограничен. Мы также отмечаем, что наш подход может быть применен для поддержки ре

Annotation:

Automatic speech recognition (ASR) plays a vital role in enabling natural human-machine interaction across applications such as virtual assistants, industrial automation, customer support, and real-time transcription. However, developing accurate ASR systems for low-resource languages like Arabic remains a significant challenge due to limited labeled data and the linguistic complexity introduced by diverse dialects. In this work, we present a scalable training pipeline that combines weakly super...

ID: 2508.08912v1 cs.CL, cs.AI

arXiv PDF

📄 Train Long, Think Short: Curriculum Learning for Efficient Reasoning

2025-08-14

Авторы:

Hasan Abed Al Kader Hammoud, Kumail Alhamoud, Abed Hammoud, Elie Bou-Zeid, Marzyeh Ghassemi, Bernard Ghanem

#### Контекст Недавние работы над улучшением разумного поведения больших языковых моделей (LLM) сосредоточились на внедрении экспериментальных техник для эффективного управления ресурсами. Одна из таких техник — **explicit length control**, которая позволяет ограничивать используемые ресурсы в процессе вычислений. Однако существующие подходы ограничиваются фиксированными требованиями к объему вычислений, не применяя прогрессивное уменьшение требований в процессе обучения. Это приводит к затруднению нахождения наилучших решений и сокращения расходов. В данной работе предлагается новая **методология обучения**, которая использует **стратегию curriculum learning** для эффективного рассуждения с помощью Group Relative Policy Optimization (GRPO). #### Метод Методом GRPO реализуется обучение с циклом уменьшения требований к длине ответа. Обучение начинается с максимального объема вычислений (большого числа токенов) и постепенно уменьшается в процессе обучения. Это позволяет моделям сначала понять базовые принципы решения задач, затем улучшить эффективность выполнения заданий, а после — сократить количество используемых токенов. GRPO также включает в себя **reward function**, которая принимает во внимание три основные компонента: **правильность решения** задачи (через верификаторные отзывы), **эффективность решения** (через уменьшение количества используемых токенов) и **корректность форматирования** (через структурные тэги). Это позволяет модели быстрее находить баланс между точностью и эффективностью. #### Результаты Для оценки эффективности стратегии обучения были проведены эксперименты на наборах данных GSM8K, MATH500, SVAMP, College Math и GSM+. Выяснилось, что curriculum-based обучение, реализованное с помощью GRPO, показало значительное улучшение в точности распознавания и эффективности использования ресурсов. В частности, модели, обученные с помощью GRPO, показали лучшие результаты в сравнении с фиксированным бюджетом на токенах в тех же условиях. Также было проведено анализ влияния весов в reward function и структуры убывания требований к длине ответов, что подтвердило эффективность этого подхода. #### Значимость Предложенная стратегия обучения может быть применена в ситуациях, требующих эффективного управления ресурсами, таких как обучение моделей для мобильных устройств, быстрого обработки запросов и экономии ресурсов в области AI. Эта методика позволяет моделям рационально проходить от экспериментального рассуждения к компактному и эффективному решению задач. Это включает в себя увеличение точности ответов и сокращение расходов на вычисления. #### Выводы **Основные достижения**: в данной работе представлена новая стратегия обучения, основанная на curriculum learning, для эффективно

Annotation:

Recent work on enhancing the reasoning abilities of large language models (LLMs) has introduced explicit length control as a means of constraining computational cost while preserving accuracy. However, existing approaches rely on fixed-length training budgets, which do not take advantage of the natural progression from exploration to compression during learning. In this work, we propose a curriculum learning strategy for length-controlled reasoning using Group Relative Policy Optimization (GRPO)...

ID: 2508.08940v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Retrospective Sparse Attention for Efficient Long-Context Generation

2025-08-14

Авторы:

Seonghwan Choi, Beomseok Kang, Dongwon Jo, Jae-Joon Kim

#### Контекст Под влиянием развития ИИ становятся все более популярными грандиозные языковые модели (LLMs), применяемые в задачах длинного контекста, таких как логическое восторженное отношение, генерация кода и многократные диалоги. Однако инференция в таких задачах становится сложной и затратной из-за Key-Value (KV) cache, чьи требования к памяти растут линейно в зависимости от длины последовательности, что становится ограничивающим фактором. Несмотря на то, что существуют методы сжатия KV cache, они сконцентрированы на входных данных и не учитывают постоянные "ошибки" в обработке во время длительных выводов. Наша модель RetroAttention предлагает новый подход к обновлению KV cache, основанный на редактировании прошлых выходов по мере поступления новых данных. Это позволяет исправлять предыдущие процессы расчета в зависимости от новых данных, повышая точность и эффективность. #### Метод Мы предлагаем RetroAttention, новый метод обновления KV cache, который перестраивает прошлые выходы атацены на основе новых данных, поступающих во время декодирования. Наша модель вводит новую архитектуру с весьма компактным выходным KV cache, который позволяет эффективно обращаться к последним данным и корректировать ранее полученные результаты. Это модельное решение не только сокращает затраты памяти, но также обеспечивает постоянные оптимизации в процессе работы модели. Метод включает в себя новый алгоритм, который может постоянно повторно вычислять и улучшать прошлые выходы, не нарушая ресурсы и тем самым повышая точность. #### Результаты Мы провели серию экспериментов, используя различные данные, включая длинные тексты и задачи генерации. Наши результаты показывают, что RetroAttention повышает эффективность работы KV cache, увеличивая эффективность доступа до 1.6 раз по сравнению с современными методами. Также наблюдается повышение точности результатов до 21.9% при задачах длинного контекста. Эти результаты подтверждают, что RetroAttention может эффективно решать проблему "утопления" в данных, которая часто возникает при работе с длинными контекстами. #### Значимость Предлагаемый подход RetroAttention может быть применен в различных областях, таких как генерация текста, кодирование, анализ текстов и даже в сфере роботов. Он предлагает значительные преимущества в скорости и точности вывода, что может позволить улучшить работу систем, использующих глубокое обучение. Наша модель представляет собой новый шаг в области эффективного обработки данных в моделях с широким потенциалом для развития. #### Выводы Мы представили RetroAttention, новый подход к обработке длинных контекстов в моделях, который повышает эффективно

Annotation:

Large Language Models (LLMs) are increasingly deployed in long-context tasks such as reasoning, code generation, and multi-turn dialogue. However, inference over extended contexts is bottlenecked by the Key-Value (KV) cache, whose memory footprint grows linearly with sequence length and dominates latency at each decoding step. While recent KV cache compression methods identify and load important tokens, they focus predominantly on input contexts and fail to address the cumulative attention error...

ID: 2508.09001v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 LyS at SemEval 2025 Task 8: Zero-Shot Code Generation for Tabular QA

2025-08-14

Авторы:

Adrián Gude, Roi Santos-Ríos, Francisco Prado-Valiño, Ana Ezquerro, Jesús Vilares

#### Контекст Проблема Tabular Question Answering (Tabular QA) заключается в том, чтобы извлечь ответы из табличных данных на основе вопроса, что требует не только понимания текста, но и структурных отношений между столбцами таблицы. Данная задача сложна ввиду разнообразия форматов табличных данных, их громоздкости и неполноты. Существующие решения сталкиваются с проблемой недостатка данных для обучения, особенно во внешних сценариях. Мотивация заключается в создании алгоритмов, которые могут обойтись без задачи-специфического тренировочного контекста, сфокусировавшись на задаче в области кода. Одним из вариантов является использование генерируемого кода для выделения ответа, что позволяет объединить текстовое понимание с вычислительными возможностями. #### Метод Мы предлагаем zero-shot pipeline, основанный на Large Language Model (LLM) для генерирования функционального кода. Основная модель выбирает наиболее значимые столбцы и анализирует их типы данных, чтобы повысить точность выборки ответа. Если результат неудачный, алгоритм переходит к итеративному уточнению, используя обратную связь об ошибке для выдачи нового запроса. Это позволяет улучшить надежность системы. Мы также использовали процедуры обработки языка, например, парсинг столбцов, для повышения удобочитаемости и точности. Эта модель применима к внешним данным, не требуя дополнительного тренировочного контекста. #### Результаты Мы проверили нашу модель на данных SemEval 2025 Task 8. В тестовой фазе наша система показала результат, ранжирующий на 33-м месте из 53 участников. Это достижение достигается без задачи-специфического обучения, что подтверждает эффективность zero-shot подхода. Мы выявили, что основные характеристики успешности заключаются в том, как LLM понимает степень значимости отдельных столбцов и способен осуществлять вычисления на их основе. Также мы провели внутренний эксперимент с дополнительным контролем качества, что подтвердило улучшение точности в сравнении с базовой версией. #### Значимость Наш подход является полезным для сценариев, где доступ к тренировочным данным ограничен, но требуется точное извлечение информации. Это помогает решать задачи в таких областях, как бизнес-аналитика, журналистика и даже клиентская поддержка. Одним из преимуществ является гибкость: мы можем применять нашу модель к различным типам таблиц и вопросам. Если будут доступны более разнообразные данные, это может повысить её точность и общую эффективность. #### Выводы Мы установили, что zero-shot код-генерация является выгодным подходом для Tabular QA, особенно в условиях ограниченности ресурсов. Наша

Annotation:

This paper describes our participation in SemEval 2025 Task 8, focused on Tabular Question Answering. We developed a zero-shot pipeline that leverages an Large Language Model to generate functional code capable of extracting the relevant information from tabular data based on an input question. Our approach consists of a modular pipeline where the main code generator module is supported by additional components that identify the most relevant columns and analyze their data types to improve extra...

ID: 2508.09012v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
189
190
191
192
193
204
205

Показано 1901 - 1910 из 2042 записей