📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Rubing Yang, Huajun Bai, Song Liu, Guanghua Yu, Runzhi Fan, Yanbin Dang, Jiejing Zhang, Kai Liu, Jianchen Zhu, Peng Chen

#### Контекст Ло LRM (Large Reasoning Models, большие модели рассуждения) широко применяются в сложных задачах, таких как понимание естественного языка, вывод и решение задач. Однако они часто страдают от "продолжательного рассуждения" (overthinking), когда модель продолжает генерировать вывод даже после достижения точного ответа. Это приводит к высокой задержке (latency) и неэффективному использованию ресурсов. Дополнительно, существующие механизмы спекулятивного вывода (speculative decoding), которые пытаются обнаружить момент сразу после достижения правильного ответа, требуют дополнительных вычислительных затрат на проверку выхода, что вносит дополнительную нагрузку. Наша статья оправдана потребностью в эффективном решении проблемы задержек в LRM, чтобы увеличить их эффективность в реальных ситуациях. #### Метод Мы предлагаем SpecExit, новую модель, которая предсказывает как последующие токены, так и момент выхода из модели (early-exit signal) непосредственно из легковесной модели (draft model). Эта модель не требует дополнительных проверок, поскольку основывается на анализе внутренних состояний модели (hidden states). Мы создаем легковесную модель, которая может эффективно предсказывать следующие токены и выход. Метод SpecExit отличается тем, что он не требует дополнительного пробного вывода, а вместо этого анализирует состояния модели, чтобы определить, когда модель достигла корректного решения. Это позволяет уменьшить задержку без ущерба для точности. #### Результаты Мы провели эксперименты на нескольких LRM, включая большие модели для естественного языка. Мы сравнивали SpecExit с существующими методами спекулятивного вывода. Результаты показывают, что SpecExit существенно сокращает задержку (до 2,5 раз) и уменьшает длину вывода (до 66%), не ухудшая точность решения. Это демонстрирует эффективность SpecExit в сокращении задержек без снижения качества работы модели. Мы также проводим анализ на разных типах задач и проблем, что демонстрирует универсальность SpecExit. #### Значимость SpecExit может применяться в разных областях, где необходима быстрая реакция моделей, такие как chatbots, системы рекомендаций и мобильные приложения. У него есть два основных преимущества: (1) уменьшение задержки и (2) эффективность в использовании ресурсов. Наш подход может сделать LRM более пригодными для реального применения, повысив их скорость и экономию ресурсов. #### Выводы Мы представляем SpecExit, новый подход для ускорения LRM, основанный на анализе состояний модели. Наши эксперименты показали, что SpecExit эффективно решает проблему задержек без ущерба для точности. В будущем, мы планируем расширить SpecExit на другие типы моделей и приложений, а также исследовать новые способы исполь
Annotation:
Despite their strong performance on reasoning tasks, large reasoning models (LRMs) often suffer from overthinking, producing unnecessarily long outputs and incurring high end-to-end latency, a significant limitation to their real-world deployment. To address overthinking, early-exit mechanisms have been proposed to terminate reasoning before typical completion, showing that this approach can effectively shorten generation length with minimal impact on accuracy. However, their reliance on probing...
ID: 2509.24248v1 cs.AI, cs.CL, cs.LG
Авторы:

Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye

## Контекст В последние годы широко распространяются применения бо LARGE LANGUAGE MODELS (LLMs) в области научной разума. Несмотря на их выдающиеся способности, они столкнулись с серьезными вызовами в области проверки ответов, которые могут принимать разнообразные формы и выражаться в разнонаучных дисциплинах. Особенно сложной в этой области оказалась задача проверки ответов, поскольку LLM-ов требуется понимать и корректно оценивать не только корректность ответов, но и разнообразные структуры выводов и способы представления информации. Дополнительной сложностью является то, что ответы часто могут быть эквивалентными в разных формах, но оценивать их вручную очень сложно из-за отсутствия систематизированных критериев и методов. Это породило необходимость в разработанном подходе, который позволил бы наиболее эффективно проверять ответы и совершенствовать модели LLM. ## Метод Для решения этих проблем были предложены два основных подхода: одним из них является построение комплексного бенчмарка, а другим – разработка модели, которая способна осуществлять углубленную логическую рассуждение. Бенчмарк получил название SCI-VerifyBench и охватывает широкий спектр дисциплин, включая математику, физику, биологию, химию и общую научную аналитику. Он создан на основе реальных ответов LLMs и включает в себя дополнительные дополнения, которые усиливают сложность и реалистичность задач. Также была разработана модель SCI-Verifier, которая использует логический подход к проверке и имеет возможность адаптироваться к различным дисциплинам. Она оптимизирована для устойчивого и простого вывода, что позволяет увеличить ее эффективность в сложных научных задачах. ## Результаты При проверке SCI-VerifyBench были использованы данные, подготовленные как с помощью генерации систематических трансформаций ответов, так и с помощью разных экспертов. Результаты показали, что SCI-Verifier эффективно работает в различных научных областях, показывая высокую точность и устойчивость в проверке ответов. Была показана его способность отображать не только корректность ответов, но также различные способы их представления, которые могут быть эквивалентными. Такой подход позволил улучшить качество проверки и увеличить общую надежность LLM-ов в научных задачах. ## Значимость SCI-VerifyBench и SCI-Verifier предлагают новый подход к проверке ответов, становятся ключевыми инструментами для оценки и совершенствования моделей LLM в научных задачах. Их применение может распространиться на многие дисциплины, так как они обеспечивают универсальный и систематический подход к проверке ответов. Эти решения не только улучшают качество проверки, но и повыша
Annotation:
As large language models (LLMs) are increasingly applied to scientific reasoning, the complexity of answer formats and the diversity of equivalent expressions make answer verification a critical yet challenging task. Existing verification studies in scientific domains suffer from two major limitations: (a) the absence of systematic evaluation standards and insufficient disciplinary coverage, which hinders their comprehensive assessment; and (b) heavy reliance on cumbersome rule design or prompt ...
ID: 2509.24285v1 cs.AI, cs.CL, cs.LG
Авторы:

Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen

## Контекст Многомодальные большие языковые модели (МЛЛМ) широко применяются в различных областях, но их способность решать задачи, требующие способностей пространственного рассуждения, остается недостаточно развитой. Эти способности включают визуализацию и преобразование фигур, ментальную поворотную трансформацию объектов, оценку относительных позиций и заполнения, а также оценку количественных свойств. Такие ограничения моделей становятся причиной проблем в задачах, которые требуют геометрического мышления. Для решения этой проблемы, авторы предлагают использовать разрешительную геометрию в качестве структурного средства для улучшения пространственных способностей МЛЛМ. Характеристики задач геометрии, такие как логика и многоступенчатая выводимость, позволяют моделям развивать способности, которые могут быть применены к различным пространственным ситуациям. ## Метод Для решения этой проблемы была разработана мультимодальная датасет Euclid30K, содержащая примерно 30 000 задач геометрии, включающих плоскую и твердотельную геометрию. Для обучения моделей использовалась групповая оптимизация политики (Group Relative Policy Optimization, GRPO), которая позволяла моделям приобретать и применять геометрические принципы Евклида. Модели были настроены на выполнение задач, таких как идентификация форм, подсчет элементов и многоступенчатый вывод, используя принципы Евклида. Это позволило моделям развивать геометрические способности, которые могут быть использованы в других задачах, включая смежные задачи смыслового понимания. ## Результаты Проведенные эксперименты показали, что модели, настроенные на датасет Euclid30K, демонстрируют существенный показательный прирост в производительности на 4 различных бенчмарках пространственного рассуждения: Super-CLEVR, Omni3DBench, VSI-Bench и MindCube. Особый успех был показан в VSI-Bench, где увеличение точности в среднем составило 5.5 процентных единиц, набрав до 40.5%. Здесь RoboBrain2.0-Euclid-7B достиг 49.6% точности, превзойдя предыдущую скор лидера Spatial-MLLM. Эти результаты являются первым доказательством того, что геометрический анализ может стать сильным средством для улучшения пространственных способностей МЛЛМ. ## Значимость Результаты исследования открывают новые возможности для применения геометрического подхода в области мультимодальных языковых моделей. Датасет Euclid30K предоставляет широкие возможности для отработки пространственных задач, а методология GRPO позволяет моделям приобретать геометрические навыки, которые могут быть использованы для решения различных задач пространственного мышления. Это не то
Annotation:
Spatial intelligence spans a rich suite of abilities, including visualising and transforming shapes, mentally rotating objects, judging relational positions and containment, and estimating numerosity. However, it still remains a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To fill this gap, we propose to treat Euclidean geometry problem-solving as a surrogate task. Specifically, we meticulously constructed a curated multimodal dataset, called Euclid30K, comprising a...
ID: 2509.24473v1 cs.CV, cs.AI, cs.CL, cs.LG
Авторы:

Zhen Bi, Zhenlin Hu, Jinnan Yang, Mingyang Chen, Cheng Deng, Yida Xue, Zeyu Yang, Qing Shen, Zhenfang Liu, Kang Zhao, Ningyu Zhang, Jungang Lou

## Контекст Одним из ключевых аспектов развития бо LARGE LANGUAGE MODELS (LLMs) является их логическое рассуждение, которое тесно связано с качеством и структурой тренировочных данных. Несмотря на последние достижения, большинство исследований по-прежнему сосредотачиваются на преобразовании форматов данных, отдавая меньшее внимание логической сложности и внутренней структуре примеров. Это приводит к тому, что потенциал данных в логических задачах остается недооцененным. Наша мотивация заключается в том, чтобы измерить и оптимизировать логическую сложность примеров тренировочных данных, чтобы лучше использовать LLM's cognitive potential. ## Метод Мы предлагаем **Data Reasoning Intensity (DRI)** — новую метрику, которая измеряет логическую сложность примеров тренировочных данных путем декомпозиции и агрегации их логических структур. DRI позволяет измерить, насколько хорошо LLM использует логические сигналы в данных и выявить потенциальные проблемы с сильным расходом между потенциалом данных и модели. Кроме того, мы предлагаем **Re-cognizing Optimization Strategy** ( ReOS ), которая систематически улучшает логическую сложность примеров тренировочных данных, чтобы лучше выравнивать их с логическим рассуждением модели. Метод не увеличивает объем данных, а скорее оптимизирует существующие примеры, выравнивая их с логическим пределом модели. ## Результаты Мы проводим плотные эксперименты с множеством характеристик данных, чтобы проверить DRI и ReOS. Использованы такие данные, как **MATH-SHORT**, **MASTRO** и **RACE**. Наши результаты показывают, что **ReOS** существенно улучшает логическое рассуждение LLMs, обеспечивая значительные повышения в производительности и общей универсальности в сравнении с другими data-centric методами. Мы также проверяем нашу модель в reinforcement learning фреймворке, показывая, что оптимизация логической сложности примеров данных оказывается ключевым фактором для повышения логического рассуждения LLMs. ## Значимость Наша работа имеет значительное значение в области обучения LLMs. Она показывает, что логическая сложность примеров в тренировочных данных играет определяющую роль в улучшении логического рассуждения моделей, а не просто в объеме или структуре данных. Это открывает возможности для задач, где LLM должен принимать решения на основе логического рассуждения. Мы также показываем, что наш подход может быть применен в различных областях, включая образование, робототехнику, медицину и другие, где логическое рассуждение играет ключевую роль. ## Выводы Мы доказали, что **DRI** и **ReOS** являются эффективными стратегиями для улучшения логического рассуждения LLMs. Они позволяют лучше использовать потенциал
Annotation:
Recent advances in large language models (LLMs) highlight the importance of training data structure and quality in shaping reasoning behavior. However, most existing approaches focus on transforming data formats while neglecting the internal reasoning complexity of training samples, leaving the reasoning potential of data under-explored and underutilized. In this work, we posit that LLM logical reasoning performance is jointly constrained by the potential of the training data and the cognitive c...
ID: 2509.24836v2 cs.AI, cs.CL, cs.LG
Авторы:

Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston

## Контекст Контекст этого исследования заключается в оптимизации технологий глубокого обучения, которые используются для общения с человеком в реальном времени. На сегодняшний день, большинство моделей обучаются с помощью предварительно подготовленных данных, где человек оценивает или корректирует поведение модели. Однако, этот подход имеет ряд ограничений, включая невозможность адаптироваться в реальном времени к отзывам пользователя. Задача исследования — рассмотреть возможность обучения моделей непосредственно из потока реальных пользовательских интеракций, чтобы улучшить их личностную принадлежность и возможность выполнения инструкций. ## Метод Исследователи предлагают подход, называемый Reinforcement Learning from Human Interaction (RLHI). Основная идея заключается в том, что модель должна выучиваться непосредственно из пользовательских диалогов, используя навыки глубокого обучения, основанных на подкреплении (Reinforcement Learning). Метод включает две основные компоненты: (1) **RLHI с User-Guided Rewrites**, который использует пользовательские ответы для редактирования неудовлетворительных модельных ответов, и (2) **RLHI с User-Based Rewards**, который учитывает историю взаимодействия пользователя для оптимизации модели. Эти методики связывают длительную индивидуальность пользователя (персона) с его предпочтениями на уровне отдельных ответов. Эксперименты проводятся с использованием данных WildChat, в которых собраны многочисленные диалоги пользователей. ## Результаты Проведенные эксперименты показали, что оба варианта RLHI показали значительное улучшение в параметрах personalization (персональности ответов) и instruction-following (выполнение инструкций). Также, оба метода показали неплохой результат на решении различных логических задач (reasoning benchmarks). В частности, RLHI с User-Based Rewards показал свою эффективность в том, как модель может изучить индивидуальные предпочтения пользователя на основе его истории взаимодействий. Эти результаты зарекомендовали данные методики как сильные альтернативы существующим подходам, основанным на предварительно подготовленном гуманском знании. ## Значимость Результаты этого исследования могут иметь значительное значение в различных областях. Во-первых, это позволит создавать модели, которые будут более естественно взаимодействовать с пользователями, учитывая их индивидуальные особенности и привычки. Во-вторых, это демонстрирует возможность научить модели непосредственно из реальных диалогов, что может упростить процесс их обучения и улучшить их качество. В-третьих, это может оказаться критически важным для создания систем, которые могут быть использованы в различных сферах, включая образовательные технологии, помощь в решении задач, и даже в здравоохранении. ## Выводы В итоге
Annotation:
We posit that to achieve continual model improvement and multifaceted alignment, future models must learn from natural human interaction. Current conversational models are aligned using pre-annotated, expert-generated human feedback. In this work, we introduce Reinforcement Learning from Human Interaction (RLHI), a paradigm that learns directly from in-the-wild user conversations. We develop two complementary methods: (1) RLHI with User-Guided Rewrites, which revises unsatisfactory model outputs...
ID: 2509.25137v1 cs.AI, cs.CL, cs.LG
Авторы:

Anjiang Wei, Tarun Suresh, Tianran Sun, Haoze Wu, Ke Wang, Alex Aiken

## Контекст Программное тестирование и верификация являются ключевыми задачами в обеспечении надёжности и качества программного обеспечения. Одна из самых сложных задач в этой области — выявление циклических структур («инвариантов»), необходимых для доказательства поведения программы. Исследователи неоднократно сталкивались с проблемой, что автоматические методы выявления инвариантов часто неэффективны или неточны. Для улучшения этих процессов в последние годы набирают популярность глубоко обученные лингвистические модели (LLMs), которые, по мнению авторов, могут ускорить процесс выявления инвариантов. Тем не менее, пока недостаточно широко изучено, насколько эффективны LLMs в этой области и какие модели являются наиболее продвинутыми. ## Метод Для решения проблемы авторов предлагают фреймворк InvBench, который использует технологии глубокого обучения для выявления инвариантов в программах. Фреймворк основывается на свёрточной модели глубокого обучения, которая может работать напрямую с высокоуровневым представлением программ. InvBench включает не только синтез инвариантов, но и проверку их корректности. Для этих целей разработчики использовали стандартную подсистему верификации, чтобы обеспечить формальную гарантию корректности выявленных инвариантов. Таким образом, InvBench не только анализирует, но и оценивает эффективность полученных решений. ## Результаты В ходе экспериментов авторы проверили семь современных LLMs, включая модели Qwen3-Coder-480B и Claude-sonnet-4, в сравнении с традиционным способом UAutomizer. Эксперименты показали, что LLM-based verifiers могут приближаться к эффективности UAutomizer, но пока не могут предложить существенное преимущество. Наиболее заметные различия были замечены в моделях с разным потенциалом, что указывает на важность моделирования. Кроме того, авторы проверили два метода улучшения результатов: supervised fine-tuning и Best-of-N sampling. Например, fine-tuning на 3589 экземплярах повысил процент скоростного ускорения для Qwen3-Coder-480B с 8% до 29.2%, тогда как Best-of-N sampling с N=16 повысило процент успеха Claude-sonnet-4 с 8.8% до 22.1%. ## Значимость Исследование показывает, что InvBench может быть применимо в различных областях, таких как автоматизация программного обеспечения, анализ систем надежности, а также в обучении новых моделей с помощью LLMs. Одним из главных преимуществ является возможность ускорения процесса верификации, что может существенно уменьшить время и стоимость разработки программного обеспечения. Также InvBench открывает пути для дальнейшего исследования методов улучшения текущих моделей и их применения в реальных задачах. ## Выводы InvBench —
Annotation:
Program verification relies on loop invariants, yet automatically discovering strong invariants remains a long-standing challenge. We introduce a principled framework for evaluating LLMs on invariant synthesis. Our approach uses a verifier-based decision procedure with a formal soundness guarantee and assesses not only correctness but also the speedup that invariants provide in verification. We evaluate 7 state-of-the-art LLMs, and existing LLM-based verifiers against the traditional solver UAut...
ID: 2509.21629v1 cs.PL, cs.AI, cs.CL, cs.LG
Авторы:

Han Yuan, Yue Zhao, Li Zhang, Wuqiong Luo, Zheng Ma

## Контекст Область исследования связана с влиянием структурированного формата вывода на работу больших языковых моделей (LLMs). Структурированный вывод, особенно применяемый в промышленных приложениях, упрощает обработку генерируемых данных. Однако существуют разночтения относительно его совершенствования качества генерируемой информации. Некоторые исследования показали, что структурированный формат может улучшить точность и полноту вывода, в то время как другие отметили, что он может ограничить модели работы, снижать их реакцию на задачи, связанные с логикой и снижать общую точность. Предлагаемая работа целью имеет использовать методы каузального анализа для более точного понимания этого взаимодействия, так как предыдущие исследования часто ограничивались широкими метриками и недостаточно контролируемыми экспериментами. ## Метод Для изучения этого вопроса использовался метод каузального анализа, основанный на ассоциации (1) утверждений, (2) контролируемых задач и (3) методах интерпретации. Моделирование проводилось в рамках одного предположенного и двух строго сформулированных условий. Эксперименты проводились на семь разных задач логического анализа и одной разработанной. Анализ производился на модели GPT-4o. Для оценки вывода в рамках структурированного формата использовались общепринятые метрики, в том числе BLEU, ROUGE и METEOR. Для каузального анализа использовался метод графа причин и следствий (DAG). ## Результаты В результате исследования было получено несколько заметных фактов. В 43 из 48 случаев, когда работа GPT-4o была проверена с точки зрения структурированного вывода, были получены незначительные или неизменные результаты по метрикам, в том числе BLEU, ROUGE и METEOR. Однако в 5 случаях были выявлены зависимости, в основном связанные с конкретными инструкциями, которые могли существенно повлиять на результат. Методы каузального анализа показали, что в большинстве случаев структурированный вывод не оказывал значимого каузального влияния на результат. Однако в некоторых ситуациях структурированный формат мог влиять на результат, но только в условиях усложненных сочетаний факторов. ## Значимость Находки данного исследования имеют значительное значение в области развития и применения больших языковых моделей. Они открывают пути для более точной оценки влияния структурированного формата на результат. Это может привести к улучшению дизайна моделей, увеличению точности и устойчивости вывода. Данные результаты могут быть применены в промышленных приложениях, где нужно сохранить высокую точность и полноту вывода, а также в обла
Annotation:
Structured output from large language models (LLMs) has enhanced efficiency in processing generated information and is increasingly adopted in industrial applications. Prior studies have investigated the impact of structured output on LLMs' generation quality, often presenting one-way findings. Some suggest that structured format enhances completeness and factual accuracy, while others argue that it restricts the reasoning capacity of LLMs and leads to reductions in standard evaluation metrics. ...
ID: 2509.21791v1 cs.CL, cs.LG
Авторы:

Jingkai Guo, Chaitali Chakrabarti, Deliang Fan

#### Контекст Large Language Models (LLMs) становятся все более популярными благодаря своим возможностям в области текстового понимания и генерации. Однако их со временем становится все чаще целью атак на безопасность. Одной из таких угроз является Bit-Flip Attack (BFA), способ атаки, в котором действующий бит в памяти модели меняется на ноль. Ранее проводились исследования, показавшие, что даже небольшое количество таких битовых ошибок может стать причиной серьезного ухудшения качества работы моделей, достигая уровня случайного генерирования. В этом работе мы исследуем применение BFA к самым современным LLMs и продемонстрируем, что даже один бит может испортить работу модели. #### Метод Мы предлагаем Single Sneaky Bit Flip Attack (SBFA), новый атакующий алгоритм, который разработан для LLMs. Этот метод основывается на итерационной оценке и рейтинге параметров модели с помощью ImpactScore, метрики, которая учитывает градиентную чувствительность и ограничение переменных в разумных границах нормальных значений весов модели. Для повышения эффективности, мы применяем новую легковесную SKIP-методику, которая существенно сокращает сложность поиска. Это позволяет выполнить поиск в течение нескольких минут для современных моделей LLM. Мы применяем SBFA к моделям Qwen, LLaMA и Gemma, чтобы продемонстрировать свою эффективность. #### Результаты Мы проводили эксперименты с LLMs в разных условиях, включая BF16 и INT8 данные. Наши результаты показывают, что SBFA способен серьезно испортить работу моделей, ниже уровня случайного угадывания, с помощью только одного бита из миллиардов параметров. Это отмечается как на Qwen, так и на LLaMA и Gemma. Эти результаты показывают, что даже один небольшой битовый сбой может стать причиной катастрофической заваливания модели. #### Значимость Эти результаты являются важной новостью для развития безопасности моделей LLMs. Мы показываем, что уязвимость LLMs к таким атакам может быть использована для нанесения вреда, даже при минимальных вмешательствах. Это открывает новые пути для развития методов защиты LLMs и повышения их надежности в реальном мире. #### Выводы Наши результаты демонстрируют, что SBFA является эффективным инструментом для проведения BFA на современных LLMs. Мы показываем, что даже один бит может стать причиной серьезного недостатка модели. Будущие исследования будут направлены на развитие методов защиты от таких атак и расширение понимания уязвимостей LLMs.
Annotation:
Model integrity of Large language models (LLMs) has become a pressing security concern with their massive online deployment. Prior Bit-Flip Attacks (BFAs) -- a class of popular AI weight memory fault-injection techniques -- can severely compromise Deep Neural Networks (DNNs): as few as tens of bit flips can degrade accuracy toward random guessing. Recent studies extend BFAs to LLMs and reveal that, despite the intuition of better robustness from modularity and redundancy, only a handful of adver...
ID: 2509.21843v1 cs.CR, cs.CL, cs.LG
Авторы:

Idan Kashani, Avi Mendelson, Yaniv Nemcovsky

#### Контекст Large language models (LLMs) достигают впечатляющих результатов в различных задачах, а публичные репозитории постоянно расширяются, содержащие многочисленные предварительно обученные модели. Однако выбор наиболее подходящей модели для конкретной задачи представляется сложной задачей. До этого работы предлагали представление моделей с помощью обучения, но эти подходы имели ограниченную масштабируемость и потребовали дорогостоящего переобучения при добавлении новых моделей и данных. Также, полученные представления оказались неинтерпретируемыми. Наша работа предлагает новый, безучеточный подход, представляющий LLMs в качестве линейных операторов в пространстве задач семантических запросов, что обеспечивает легко интерпретируемую модель. Наш метод основывается на закрытом формуле и обеспечивает высокую масштабируемость и реактивность к динамичным изменениям репозитория. #### Метод Мы предлагаем метод, который представляет модели как линейные операторы в пространстве семантических запросов. Метод использует геометрические свойства, заключенные в закрытой форме, для вычисления представления модели в этом пространстве. Наши решения позволяют эффективно использовать ресурсы и обеспечивают реальному времени адаптацию к новым моделям и задачам. Мы описываем архитектуру, включающую эффективные вычисления и интерпретируемые представления, которые могут быть сразу применены к новым задачам без дополнительного обучения. #### Результаты Мы провели эксперименты для задач предсказания успеха и выбора моделей, используя различные данные. Наши результаты показали, что наш подход достигает конкурентных или лучших результатов в сравнении с другими методами. Мы также протестировали нашу модель в условиях out-of-sample, при этом она показала высокую реактивность и точность. Эксперименты подтвердили хорошую масштабируемость и реальное время применение нашего метода. #### Значимость Наш подход может применяться в различных областях, где требуется выбор подходящей модели LLM для конкретной задачи. Он обеспечивает интерпретируемость и эффективность, что делает его привлекательным для реального применения. Наш подход предлагает значительные преимущества в скорости и масштабируемости, что делает его привлекательным для практического использования в динамически меняющихся репозиториях. #### Выводы Мы представили новый подход для представления LLMs в пространстве семантических задач, который является безучеточным, масштабируемым и реально-временным. Наши результаты показали высокую эффективность и интерпретируемость, что делает наш метод привлекательным для применения.
Annotation:
Large language models (LLMs) achieve impressive results over various tasks, and ever-expanding public repositories contain an abundance of pre-trained models. Therefore, identifying the best-performing LLM for a given task is a significant challenge. Previous works have suggested learning LLM representations to address this. However, these approaches present limited scalability and require costly retraining to encompass additional models and datasets. Moreover, the produced representation utiliz...
ID: 2509.22506v1 cs.CL, cs.LG, 68T07, 68T50, 65F20, I.2.7; I.2.6; H.3.3
Авторы:

Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim

#### Контекст В последние годы визионно-языковые модели (VLMs) получили широкое применение в различных областях, таких как анализ изображений, генерация текста и семантический поиск. Однако существующие модели страдают от высоких затрат на вычисления при работе с высокорезольвентными изображениями, что ограничивает их эффективность в реальном времени. Эта проблема усиливается с развитием моделей " thinking with images", которые расширяют область научного исследования с текста на визуальные данные. Наша мотивация заключается в создании более эффективной модели для решения этих задач, оптимизируя процесс работы с высокорезольвентными изображениями. #### Метод Мы предлагаем ERGO (Efficient Reasoning & Guided Observation), метод, основанный на двухступенчатой "коарсе-то-файн" (грубая до строгой) пипейлни. В первой стадии сокращается разрешение изображения, чтобы выделить задачу-применимые области, а во второй стадии обрабатываются только эти области с полным разрешением. Для того чтобы отличить релевантные области, мы предлагаем решение, основанное на мультимодальном контексте, которое учитывает не только текстовую информацию, но и визуальную. Это позволяет управлять перцептивной неопределенностью, расширяя область обработки для ответа на запросы. Мы используем фреймворк реинфорсментного обучения для оптимизации этого процесса. #### Результаты Мы провёряли нашу модель на нескольких датасетах, включая V*, и сравнили её с оригинальной моделью и другими конкурентными подходами. ERGO достигла значительного улучшения производительности с меньшими затратами на вычисления. Например, на V* она превосходит Qwen2.5-VL-7B на 4.7%, при этом используя только 23% визуальных токенов и получая 3x ускорение в инференсе. Это демонстрирует эффективность нашего подхода в решении задач высокорезольвентного визуального понимания. #### Значимость Исследования ERGO могут применяться в различных областях, включая автоматизированный контент-анализ, робототехнику и системы опоры на реальном времени. Основное преимущество заключается в снижении вычислительных затрат, что особенно критично для мобильных устройств и реального времени. Наш подход также может расширить возможности визуально-языковых моделей, улучшив их точность и скорость работы. Это делает нашу модель привлекательной для применения в реальном мире. #### Выводы Мы представляем ERGO, метод, который эффективно решает проблему высоких затрат на работу с высокорезольвентными изображениями в визуально-языковых моделях. Наш подход демонстрирует высокую точность и эффективность, достигнутые за счёт двухступенчатого принципа обработки. Мы планируем дальней
Annotation:
Efficient processing of high-resolution images is crucial for real-world vision-language applications. However, existing Large Vision-Language Models (LVLMs) incur substantial computational overhead due to the large number of vision tokens. With the advent of "thinking with images" models, reasoning now extends beyond text to the visual domain. This capability motivates our two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is analyzed to identify task-relevant regions; th...
ID: 2509.21991v1 cs.CV, cs.AI, cs.CL, cs.LG
Показано 331 - 340 из 575 записей