📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Chenxi Whitehouse, Sebastian Ruder, Tony Lin, Oksana Kurylo, Haruka Takagi, Janice Lam, Nicolò Busetto, Denise Diaz

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Ensuring native-like quality of large language model (LLM) responses across many languages is challenging. To address this, we introduce MENLO, a framework that operationalizes the evaluation of native-like response quality based on audience design-inspired mechanisms. Using MENLO, we create a dataset of 6,423 human-annotated prompt-response preference pairs covering four quality dimensions with high inter-annotator agreement in 47 language varieties. Our evaluation reveals that zero-shot LLM ju...
ID: 2509.26601v1 cs.CL, cs.AI, cs.LG
Авторы:

Mohammed Sabry, Anya Belz

#### Контекст В последние годы в области глубокого обучения наблюдается растущий интерес к вопросу о том, насколько эффективны различные подходы к обучению моделей естественного языка. Одной из актуальных проблем является оптимизация возможностей in-context learning (ICL), которая заключается в использовании моделей естественного языка для решения задач на основе контекста, не затрачивая дополнительных вычислительных ресурсов. Несмотря на выдающиеся достижения, возрастающий размер моделей и потребление ресурсов приводят к вопросам о том, какие приемлемые свойства моделей должны развиваться во время обучения. В частности, возникает вопрос о том, какой тип данных — натуральный текст или синтетические целенаправленные примеры — более эффективен для развития возможностей ICL при ограничении вычислительных бюджетов. Какие стратегии обучения могут ускорить возникновение индуктивных механизмов и улучшить эффективность ICL? #### Метод Чтобы расследовать эту проблему, авторы предлагают Bi-Induct — новую методику, которая включает в себя специальный курс для моделей естественного языка. Этот курс включает в себя три типа данных для обучения: forward-copy (Induction), backward-copy (Anti) и их смесь. Эти данные вставляются в процесс обучения с целью стимулировать развитие индуктивных механизмов. Модели обучаются в диапазоне от 0.13B до 1B параметров, при этом количество вычислительных операций (иso-FLOPs) сохраняется постоянным для каждого размера. Результаты оцениваются на нескольких наборах данных: (i) в тех задачах, требующих нескольких примеров обучения, (ii) в задачах, которые измеряют вклад отдельных "голов" (heads) модели в решение задач, и (iii) в задачах языковой моделирования. #### Результаты Исследователи выяснили, что Bi-Induct ускоряет процесс возникновения индуктивных механизмов при малых моделях (до 0.13B параметров), но это не всегда приводит к значительным улучшениям в ICL. В стандартных задачах языковой моделирования Bi-Induct демонстрирует результаты, схожие с результатами моделей, обученных на натуральном тексте без синтетических примеров. На задачах, которые требуют более сложного индуктивного поведения, 1B-модель с натуральным текстом показывает лучшие результаты. Анализ стресс-тестов (например, различных методов оценки HITS@1 и HITS@3) показал, что низкая производительность Bi-Induct связана с менее эффективным использованием индуктивных механизмов. Также было выявлено, что погрешность предсказания текста (perplexity) уменьшается с увеличением размера моделей, что указывает на то, что большие модели могут более эффективно воспринимать си
Annotation:
Does explicitly exercising the induction circuit during pretraining improve in-context learning (ICL), or is natural text sufficient when compute is held constant (iso-FLOPs)? To test whether targeted synthetic data can accelerate induction-head emergence and enhance ICL, we introduce Bi-Induct, a lightweight curriculum that injects forward-copy (Induction), backward-copy (Anti), or a balanced mix into the pretraining stream. We train models from 0.13B to 1B parameters under iso-FLOPs, evaluatin...
ID: 2509.22947v1 cs.CL, cs.AI, cs.LG
Авторы:

Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng

#### Контекст Одна из ключевых задач в современной глубокой обработке естественного языка заключается в предпочтениях лингвистических моделей, которые должны соответствовать человеческим ценностям и интересам. Одной из трудностей в этой области является расхождение между данными, собранными в предварительном режиме, и динамически меняющимся политикой модели. Это расхождение приводит к проблемам при оптимизации предпочтений, так как статические методы не могут адаптироваться к изменениям в модели во время обучения. Это делает необходимым разработку динамических подходов, которые могут адаптироваться к различным стадиям тренировки модели. #### Метод Мы предлагаем новую методологию, названную Meta-Weighted Adaptive Preference Optimization (MetaAPO), которая целенаправленно решает проблему расхождения между данными и политикой модели. Этот подход включает в себя мета-учителя, использующийся в качестве "алгоритма оценки разрыва в предпочтениях", что позволяет динамически оценивать потенциальные выгоды динамического онлайн-семплинга по сравнению с оффлайн-данными. Этот мета-учитель работает как динамический механизм, который регулирует между качеством онлайн-данных и их дистрибуцией, чтобы обеспечить оптимальное соотношение между двумя задачами. #### Результаты Мы проводили эксперименты в средах AlpacaEval 2, Arena-Hard и MT-Bench. Наши результаты показывают, что MetaAPO не только улучшает качество предпочтений, но и демонстрирует значительное сокращение необходимости в онлайн-анализах (до 42%). Это делает нашу модель эффективнее и более адаптивной в сравнении с предыдущими подходами, которые не обладают такой динамичностью. #### Значимость Подход MetaAPO может применяться в различных областях, где необходима эффективная оптимизация предпочтений моделей. Он позволяет сократить затраты на онлайн-анализ, улучшает качество результатов и динамически адаптируется к изменениям в модели. Это делает его выгодным для применения в сценариях, где модель должна быть регулярно апдейтена и настраиваться под задачи пользователя. #### Выводы Мы привносим новую точку зрения в проблему оптимизации предпочтений с использованием динамического маркирования и мета-учителя. Наш подход демонстрирует сильные результаты в различных сценариях и показывает, что динамические адаптивные методы могут значительно улучшить качество и эффективность оптимизации предпочтений. В будущем нам предстоит расширить эту работу, чтобы проверить нашу модель на более широком наборе задач и моделей.
Annotation:
Preference optimization is crucial for aligning large language models (LLMs) with human values and intentions. A significant challenge in this process is the distribution mismatch between pre-collected offline preference data and the evolving model policy. Existing methods attempt to reduce this gap using static heuristics or decoupled online sampling strategies, but they often fail to adapt to the model's dynamic learning state. To bridge this gap, we propose Meta-Weighted Adaptive Preference O...
ID: 2509.23371v1 cs.CL, cs.AI, cs.LG
Авторы:

Sebastian Bordt, Martin Pawelczyk

## Контекст Одна из основных проблем в исследованиях связанных с большими языковыми моделями (LLMs) — высокая стоимость подготовительных экспериментов. Изучение обучения, разума, меморизации и других аспектов моделей требует постоянного увеличения размера данных и вычислительных мощностей. Это приводит к ограничению в технических возможностях и невозможности проводить многочисленные эксперименты на одной модели. В этой работе предлагается решение этой проблемы за счет модификации подготовительного процесса. Вместо того чтобы проводить каждый эксперимент отдельно, авторы предлагают выполнять несколько экспериментов сразу в одном процессе обучения. Эта подход позволит экономить ресурсы, увеличить эффективность исследований и расширить широкость теоретических запросов. ## Метод Методология статьи основывается на применении нескольких подготовительных экспериментов в рамках одного процесса обучения большой языковой модели. Авторы используют модель с 1,5 миллиардом параметров, обученную на 210 миллиардов токенов. Они реализовали 10 различных экспериментов, включая исследования загрязнения данными, управления пометой, аккредитования знаний и другие. В процессе обучения были разработаны специальные механизмы для управления данными и адаптации модели во время обучения. Это позволило решать задачи, которые ранее требовали отдельных моделей или отдельных этапов обучения. Архитектура и методы использовались для оценки влияния каждого эксперимента на общую модель и для проверки взаимодействий между экспериментами. ## Результаты В результате использования этого подхода было достигнуто несколько результатов. Сначала, были повторены результаты из предыдущих работ по оценке загрязнения данных, вредоносных данных и моделированию. Затем, были проведены новые эксперименты, такие как исследование культурного воздействия квантовой методики в обучении моделей, а также вклад в математическое моделирование. В результате экспериментов было показано, что влияние множества экспериментов на общую модель минимально. Однако, существуют взаимодействия между экспериментами, которые необходимо протестировать в будущих исследованиях. Также был доказан эффект "одна модель — много экспериментов", что позволяет проводить многочисленные подготовительные тесты без дополнительного расхода на вычислительные мощности. ## Значимость Этот подход имеет значительное значение для области машинного обучения и искусственного интеллекта. Он позволяет значительно снизить затраты на вычислительные мощности, необходимые для подготовительных экспериментов. Это открытое возможности для широкого исполь
Annotation:
Recent work has demonstrated that controlled pretraining experiments are a powerful tool for understanding learning, reasoning, and memorization in large language models (LLMs). However, the computational cost of pretraining presents a significant constraint. To overcome this constraint, we propose to conduct multiple pretraining experiments simultaneously during a single training run. We demonstrate the feasibility of this approach by conducting ten experiments during the training of a 1.5B par...
ID: 2509.23383v1 cs.CL, cs.AI, cs.LG
Авторы:

Janvijay Singh, Austin Xu, Yilun Zhou, Yefan Zhou, Dilek Hakkani-Tur, Shafiq Joty

#### Контекст Достижения в области глубокого обучения позволили развить модели генеративного текста (LLM), которые могут выполнять различные задачи, включая оценку текстов, моделирование наград и финейзинг. Одним из важных направлений является использование моделей как "судей", которые оценивают ответы других моделей на заданные вопросы. Несмотря на очевидные преимущества этого подхода, существуют практические проблемы, которые необходимо учесть при финейзинге и использовании таких моделей в реальной жизни. Например, модели, обученные на данных одного поколения генераторов, могут сталкиваться с проблемами при оценке ответов других моделей, изменяющихся со временем. Этот аспект, также как и вопросы обратной совместимости и общеуниверсальности вопросов, требуют подробного изучения. #### Метод Мы рассматриваем проблему скейла и работоспособности временных моделей "судьи" с помощью объединенного подхода, который учитывает три аспекта: **future proofing**, **backward compatibility** и **question generalization**. Для экспериментов мы использовали три разных модели текстов (base models), в том числе T5, LLaMA и OPT. Финейзинг производилось с помощью двух методов: SFT (сокращенно от "supervised fine-tuning") и DPO (денормализованная потеря обучения). Мы строили различные выборки для обучения и тестирования, включая ответы, генерируемые моделями различных поколений, и неизвестные вопросы, которые модели не увидели во время обучения. #### Результаты Наши эксперименты показали, что **future proofing** оказался самым сложным заданием для осуществления. Модели, обученные на ответах одного поколения моделей, трудно регуляризировать для того, чтобы оценивать ответы других поколений. Однако **backward compatibility** была намного проще — модели, обученные на ответах старых моделей, оказались в большей степени способны оценивать ответы новых моделей. **Question generalization** показала, что все модели имели некоторую степень деградации показателей, когда им предлагались неизвестные вопросы. Мы также обнаружили, что **continual learning**, то есть обучение модели с помощью смешанных данных ответов с различных поколений, даёт более балансированный результат, чем только на обучение с ответов сильных или слабых моделей. #### Значимость Наши результаты имеют важное значение для разработчиков моделей, которые работают с финейзингом LLM-моделей в качестве судей. Мы показали, что **future proofing** является наиболее сложной задачей, но решения, основанные на **DPO-финейзинге**, демонстрируют лучшие результаты в этой области. **Backward compatibility**, наоборот, является примерно непроблематичным, и мы показали, что модели могут справляться с ним без особых проблем. Наконец, результаты по **question generalization** подчеркивают необ
Annotation:
The LLM-as-a-judge paradigm is widely used in both evaluating free-text model responses and reward modeling for model alignment and finetuning. Recently, finetuning judges with judge-specific data has emerged as an often preferred choice over directly prompting frontier models as judges, as the former achieves better performance with smaller model sizes while being more robust to common biases. However, the standard evaluation ignores several practical concerns of finetuned judges regarding thei...
ID: 2509.23542v1 cs.CL, cs.AI, cs.LG
Авторы:

Junliang Li, Yucheng Wang, Yan Chen, Yu Ran, Ruiqing Zhang, Jing Liu, Hua Wu, Haifeng Wang

## Контекст В последние годы большие языковые модели (LLMs) стали центральной частью искусственного интеллекта, применяемого в различных областях, от поиска информации до генерации текстов. Однако одним из ключевых ограничений этих моделей является их недостаточная точность и надежность в генерации долгосрочных текстов. Особенно актуальными являются проблемы "халлуцинаций" (генерация неподтвержденной информации) и несогласованности в фактической информации. Эти проблемы становятся особенно значительными в задачах, требующих высокого уровня достоверности и точности, таких как медицинские отчеты, юридические документы и техническая документация. Данная статья сосредотачивается на решении этих проблем, сформировав мотивацию для разработки новых методов, улучшающих точность и фактичность в генерации долгосрочных текстов. ## Метод Кадры из материалов работы Методология, предложенная в данной работе, называется Knowledge-Level Consistency Reinforcement Learning Framework (KLCF). Она представляет собой инновационный подход к улучшению фактической надежности LLMs в генерации долгосрочных текстов. Основной идеей KLCF является создание согласования между внутренним знанием модели (политики) и её внешним знанием (базовой моделью). Для этого разработана система Dual-Fact Alignment, которая оптимизирует как фактический "охват" (factual recall), так и фактическую "точность" (factual precision). Основной инновацией является фактические "чек-листы", построенные на основе предварительно обученных границ знаний модели. Эти "чек-листы" используются для вознаграждения модели за правильную фактическую информацию в генерируемом тексте. Дополнительно, в KLCF внедрена самостоятельная система оценки, основанная на внутреннем знании базовой модели, которая помогает улучшить точность генерации и уменьшить "халлуцинационный расход". Технически, KLCF легко интегрируется с существующими системами RLHF и требует минимальных дополнительных ресурсов для обучения. ## Результаты В ходе экспериментов были использованы несколько длинных текстовых бенчмарков, таких как LongBench и Fact-Eval. Модель KLCF показала существенные улучшения в фактической надежности по сравнению с современными RLHF-методами. Особенно выдающимися результатами KLCF проявилась в снижении частоты "халлуцинаций" и увеличении фактического "охвата" и "точности". На LongBench, например, KLCF улучшила фактическую точность на 15% по сравнению с самой близкой конкурентской моделью. Кроме того, KLCF продемонстрировала эффективность в сокращении времени обучения и требуемых ресурсов, благодаря своей легков
Annotation:
Hallucination and factuality deficits remain key obstacles to the reliability of large language models (LLMs) in long-form generation. Existing reinforcement learning from human feedback (RLHF) frameworks primarily rely on preference rewards, yet they often overlook the model's internal knowledge boundaries, exacerbating the so-called "hallucination tax". To address this challenge, we propose Knowledge-Level Consistency Reinforcement Learning Framework (KLCF), a novel framework that focuses on t...
ID: 2509.23765v1 cs.CL, cs.AI, cs.LG
Авторы:

Kaiyu He, Peilin Wu, Mian Zhang, Kun Wan, Wentian Zhao, Xinya Du, Zhiyu Chen

## Контекст С появлением больших языковых моделей (LLMs), исследования фокусируются на инструкционном следовании и дедуктивном разумении. Однако остается вопрос: могут ли эти модели создавать новые знания, и как их эффективность можно оценить? Абдуктивное разумение, которое заключается в генерации плюральных и предположительных гипотез для объяснения наблюдений, предлагается как возможность для экспериментов с получением новых знаний. Однако оценка таких моделей остается нетривиальной, требующей прозрачных и автоматизированных методов. ## Метод Мы предлагаем GEAR (General Evaluation for Abductive Reasoning) - автоматизированную, технически независимую и масштабируемую фреймворк для оценки абдуктивного разумения. Фреймворк основывается на трех ключевых метриках: **последовательность (consistency)**, которая гарантирует, что каждая гипотеза объясняет наблюдения; **генерализуемость (generalizability)**, которая проверяет, предсказывают ли гипотезы значимые результаты на невидимых входных данных; и **разнообразие (diversity)**, которое требует, чтобы комплект гипотез включал различные возможные варианты и структуры решений. Фреймворк не требует ручной маркировки золотыми ответами, стабильный и открытый для развития, так как оценки улучшаются только при появлении новых релевантных предположений. ## Результаты Мы использовали GEAR для оценки девяти моделей БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ (LLMs) на четырёх тестах абдуктивного разумения, состоящих из 1,500 задач. Эксперименты породили более 50,000 гипотез и раскрыли отличия моделей, не видимые в традиционных оценках с золотыми ответами. Например, хотя некоторые модели показали высокую точность в ответах на задачи, они ограничивались решениями в пределах ограниченных структур, в то время как другие модели демонстрировали более разнообразные решения, позволяя повысить разнообразие и генерализуемость по результатам. ## Значимость GEAR предоставляет области применения в обучении моделей к широкому спектру задач абдуктивного разумения, включая здравословное вмешательство в выводы, синтез новых теорий и развитие творческих решений. Этот фреймворк позволяет избегать ограничений традиционных методов с золотыми ответами, позволяя моделям развиваться в течение времени. Благодаря ему модели могут получать новые и разнообразные знания, что является ключевым для развития интеллектуальных систем. ## Выводы GEAR предоставляет мощный и автоматизированный метод для оценки абдуктивного разумения, предоставляя новые тренировочные сигналы для моделей БОЛЬШИХ ЯЗЫКОВЫХ
Annotation:
Since the advent of large language models (LLMs), research has focused on instruction following and deductive reasoning. A central question remains: can these models discover new knowledge, and how can we evaluate this ability? We address this by studying abductive reasoning-the generation of plausible hypotheses to explain observations-and introduce GEAR (General Evaluation for Abductive Reasoning), a general-purpose, fully automated, transparent, and label-free evaluation paradigm. GEAR scores...
ID: 2509.24096v1 cs.CL, cs.AI, cs.LG
Авторы:

Yida Chen, Yuning Mao, Xianjun Yang, Suyu Ge, Shengjie Bi, Lijuan Liu, Saghar Hosseini, Liang Tan, Yixin Nie, Shaoliang Nie

#### Контекст Большие логические модели (Large Reasoning Models, LRMs) становятся все более важными для решения задач, требующих рационального подхода. Однако существует ограниченное понимание того, как различные LRMs обрабатывают задачи, а также отличительные черты их мышления. Этот вопрос значительно ограничивает нашу возможность понять, как модели принимают решения, и почему они достигают разных результатов. Эта неясность является мотивацией для создания метода, позволяющего категоризировать и описывать различия в мышлении LRMs в человекочитаемом виде. Такая информация может быть полезна для улучшения этикологичности, настройки моделей и глубжего понимания их поведения. #### Метод Мы предлагаем LLM-proposed Open Taxonomy (LOT) — метод, который использует генерирующую модель языка для сравнения логических трасс (reasoning traces) двух LRMs и определяет их отличительные черты. LOT использует эти черты для классификации отдельных рассуждений и строит так называемый Open Taxonomy — человекочитаемую категорию, которая описывает как разные LRMs думают. Этот процесс повторяется над большим набором выборок, чтобы получить подробный анализ. Метод LOT также используется для проверки того, как различия в мышлении LRMs влияют на их производительность. Например, мы изучаем, как модели Qwen3 могут улучшить свою производительность, если их мышление будет более похожим на Qwen3 более крупного размера. #### Результаты Мы применяем LOT для сравнения 12 открытых LRMs, охватывающих задачи в области математики, науки и программирования. LOT достигает 80-100% точности при классификации отдельных рассуждений, показывая отличительные черты мышления LRMs. Это демонстрируется на примере того, как модели разных размеров, семейства и областей применения различаются в способе рационализации решений. Мы также изучаем, как эти различия в мышлении влияют на производительность. Например, мы проводим эксперимент, в котором Qwen3 модели с меньшим размером были настроены на мышление, более похожее на более крупную модель Qwen3, что привело к увеличению точности на задаче GPQA на 3.3-5.7%. #### Значимость Результаты LOT имеют значительное значение для нескольких областей. Во-первых, они позволяют понять, как разные LRMs принимают решения, что может улучшить понимание их поведения. Во-вторых, LOT может использоваться для оптимизации моделей, например, для улучшения производительности при различных задачах. В-третьих, эта работа может быть полезна для создания более этичных моделей, которые будут думать с учетом конкретных целей. Таким образом, LOT добавляет важной составляющей в понимание и улучшение логических моделей, позволяя лучше понять, как они работают в разных условиях. ####
Annotation:
Current comparisons of large reasoning models (LRMs) focus on macro-level statistics such as task accuracy or reasoning length. Whether different LRMs reason differently remains an open question. To address this gap, we introduce the LLM-proposed Open Taxonomy (LOT), a classification method that uses a generative language model to compare reasoning traces from two LRMs and articulate their distinctive features in words. LOT then models how these features predict the source LRM of a reasoning tra...
ID: 2509.24147v1 cs.CL, cs.AI, cs.LG
Авторы:

Ran Xu, Kaixin Ma, Wenhao Yu, Hongming Zhang, Joyce C. Ho, Carl Yang, Dong Yu

## Контекст Графические пользовательские интерфейсы (GUI) широко используются в современных цифровых системах для управления информацией и взаимодействия с пользователями. Однако автоматизация сложных цифровых задач через GUI-агенты на базе виденио-языковых моделей (VLM) сталкивается с некоторыми ограничениями. Эти ограничения включают недостаточное количество данных для обучения и сложность задач, которые часто требуют доступа к редким и непредсказуемым сценариям. Эти ограничения приводят к ограниченной эффективности таких агентов в реальных ситуациях. Многие текущие подходы стремятся решить эти проблемы, но требуют валидных средств обучения, включая большие наборы данных и сложные параметры. В этом контексте возникает необходимость в новом, легковесном решении, которое может увеличить эффективность GUI-агентов, особенно в сценариях с отсутствием или недостаточным количеством обучающих данных. ## Метод Предлагаемый подход, RAG-GUI (Retrieval-Augmented GUI Agents with Generative Guidelines), является легковесной моделью, интегрирующей веб-ресурсы во время выполнения. RAG-GUI разрабатывается с использованием двух этапов обучения: начальная супервизионная финетюнинг (SFT) и дополнительная самоуправляемая оценка при отклонении (RSF). Эти шаги позволяют модели лучше адаптироваться к новым сценариям, особенно тем, которые не были встречены во время обучения. Модель RAG-GUI является моделью с открытым кодом и модульной, то есть она может быть легко внедрена в различные VLM-агенты. Это решение предназначено для расширения глубины и ширины возможностей GUI-агентов без необходимости дополнительного тренировочного объема. ## Результаты Эксперименты проводились на трех различных задачах, включая сценарии взаимодействия с компьютером и мобильными приложениями. Результаты показали, что RAG-GUI превосходит базовые агенты на протяжении всех задач, показывая увеличение эффективности от 2.6% до 13.3% в зависимости от размера модели. Она также превосходит другие текущие модели по генеративному подходу в тех же задачах. Эти результаты подтверждают гибкость RAG-GUI в использовании в разных VLM-агентах и ее способность обеспечивать качественные результаты в реальных сценариях, даже в условиях нехватки данных. ## Значимость RAG-GUI может быть применена в различных областях, включая автоматизацию цифровых процессов, управление приложениями, интерактивные системы, и многое другое. Основные преимущества включают в себя увеличение эффективности GUI-агентов, уменьшение необходимости в больших наборах тренировочных данных, и легковесную модель, которая мо
Annotation:
GUI agents powered by vision-language models (VLMs) show promise in automating complex digital tasks. However, their effectiveness in real-world applications is often limited by scarce training data and the inherent complexity of these tasks, which frequently require long-tailed knowledge covering rare, unseen scenarios. We propose RAG-GUI , a lightweight VLM that leverages web tutorials at inference time. RAG-GUI is first warm-started via supervised finetuning (SFT) and further refined through ...
ID: 2509.24183v1 cs.CL, cs.AI, cs.LG
Авторы:

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi, Swastik Roy, Priya Pitre, Meng Lu, Morteza Ziyadi, Xuan Wang

## Контекст Современные языковые модели (ЯМ) широко распространены в различных областях применения, от работы с текстом до контроля роботов. Однако оценка их работы становится сложнее, так как статические бенчмарки рискуют загрязнением своим включением в обучающие данные моделей. Это затрудняет определение, выполняют ли модели настоящую рассужденную работу или только воспроизводят ответы из памяти. Данная статья предлагает BeyondBench — новую подходящую систему оценки, которая устраняет эту проблему за счет генерации алгоритмических задач на лету. ## Метод BeyondBench генерирует задачи вывода и вычисления алгоритмически, используя генеративные модели. Это позволяет создавать неповторимые задачи, которые не могут быть использованы в качестве обучающих данных. Оценка моделей происходит на 44 задачах, разделенных на три уровня сложности: - **Easy Suite (29 задач)** — для базовой арифметики и статистики; - **Medium Suite (5 задач, 49 вариантов)** — для последовательностей и рассуждения; - **Hard Suite (10 задач, 68 вариантов)** — для NP-полных задач и задач обязательного выполнения. Каждая задача порождает проблемы с комбинаторным пространством вида 10^15 уникальных вариантов, с вычислениями, проверенными через математические доказательства. ## Результаты Мы проверили 101 языковых моделей, в том числе 85 открытых и 16 закрытых, с размерами параметров от 0.5B до 141B и различными схемами квантования. Мы отметили значительные недостатки в рассуждении, особенно с увеличением сложности задач, от полиномиального до экспоненциального уровня. На Hard Suite, модели, такие как Gemini-2.5-pro, Llama-3.3-70B и Qwen2.5-72B, показали средние результаты в 56.38%, 26.91% и 33.60% соответственно. Без использования инструментов, модели, такие как GPT-5, GPT-5-mini и GPT-5-nano, показали снижение до 16.81%, 28.05% и 47.59% соответственно. Результаты могут быть посмотрены на нашем онлайн-лидереборде. ## Значимость BeyondBench может быть применено в разработке и оценке новых ЯМ, а также в сравнении их работы. Он предлагает более честную и точную оценку, так как не подвержен к загрязнению тренировочными данными. Эта новая методика позволяет видеть подробные слабые места моделей, что может привести к новым инновациям в области ИИ. ## Выводы В результате BeyondBench позволяет глубоко оценивать работу ЯМ, предоставляя независимый и отлично подготовленный бенчмарк. Настоящие слабые места моделей, особенно на NP-полных задачах, выявлены в наших исследованиях. Мы планируем расширить BeyondBench, включив более сложные задачи и проверяющие его на новых мо
Annotation:
Evaluating language models fairly is becoming harder as static benchmarks available on the internet risk contamination by training data. This makes it unclear whether models are truly reasoning or just recalling answers. In this paper, we introduce BeyondBench, an evaluation framework that avoids this problem by using algorithmic problem generation. Unlike traditional benchmarks that risk contamination from internet-scale training data, BeyondBench creates mathematically grounded problems on the...
ID: 2509.24210v1 cs.CL, cs.AI, cs.LG
Показано 201 - 210 из 370 записей