📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal

## Контекст Одной из основных задач многомодальных бо LLM (MLLM) является выявление и интерпретация контекстных связей внутри изображений. Несмотря на то, что человеческая перцепция способна легко определять ориентацию изображений, даже при их многообразии, авторы указывают на возможную слабость моделей в распознавании ориентаций, особенно при поворотах на 90° и 270°. Это проблема может быть связана с недостаточной способностью моделей выполнять геометрическое и спациальное разумование, необходимое для выявления характерных признаков. Мотивация появления RotBench -- создать манновую базу данных для измерения этих способностей на современных MLLM-моделях. ## Метод Разработанный RotBench состоит из 350 ручному фильтрованию изображений, разделенных на 3 класса: лендинги, портреты и стиль жизни. Изображения были поворачиваны на разные углы: 0°, 90°, 180° и 270°. Для оценки моделей использовался тест на выявление направления вращения. Модели оценивались с использованием аудиокапций, вспомогательных данных и прочих технических решений, таких как chain-of-thought prompting. ## Результаты Результаты свидетельствуют, что самые мощные модели, включая GPT-5 и Gemini, не способны выявлять поворот на 90° и 270° с высокой точностью, даже при использовании дополнительных подсказок. Однако они успешно распознают поворот на 0° и, в определенных случаях, на 180°. Увеличение количества вариантов одного изображения с разными поворотами повышало точность, но не достигало значительных улучшений. Файн-тюнинг, в том числе с использованием цепочки мыслей, улучшал только распознавание на 180°, не влияя на 90° и 270°. ## Значимость Результаты RotBench показывают, что существует значительная разница между способностями MLLM и человеческой способностью распознавать ориентацию изображений. Данные модели слабо подходят для решения задач, которые требуют большого контекстного понимания и геометрического визуального рассуждения. RotBench может использоваться в качестве бенчмарка для развития новых моделей с улучшенными способностями визуального и логического рассуждения. ## Выводы Результаты исследования RotBench показывают, что текущие MLLM-модели имеют существующие проблемы в обработке задач, требующих высокого уровня визуального и геометрического рассуждения. Будущие исследования должны сфокусироваться на развитии моделей, которые способны лучше интерпретировать контекст и выполнять геометрическое визуальное рассуждение, чтобы закрыть нынешние пробелы в способностях моделей.
Annotation:
We investigate to what extent Multimodal Large Language Models (MLLMs) can accurately identify the orientation of input images rotated 0{\deg}, 90{\deg}, 180{\deg}, and 270{\deg}. This task demands robust visual reasoning capabilities to detect rotational cues and contextualize spatial relationships within images, regardless of their orientation. To evaluate MLLMs on these abilities, we introduce RotBench -- a 350-image manually-filtered benchmark comprising lifestyle, portrait, and landscape im...
ID: 2508.13968v2 cs.CV, cs.AI, cs.CL
Авторы:

Trang Tran, Trung Hoang Le, Huiping Cao, Tran Cao Son

## Контекст Данная работа основывается на области обработки естественного языка, а именно на задаче **Joint Entity-Relation Extraction (JERE)**, которая представляет собой идентификацию сущностей и их взаимосвязей в тексте. Несмотря на важность этой задачи в различных приложениях, таких как медицинская информатика, интернет-реклама и юридические приложения, создание эффективных систем JERE остается сложной задачей. Существующие подходы, основанные на машинном обучении, часто требуют больших объемов аннотированных данных и имеют ограниченную возможность интеграции доменной информации в модели. Это приводит к высокой сложности, дорогостоящему обучению и ограниченной гибкости. Исследователи призваны разработать более эффективный и гибкий подход к решению этой задачи. ## Метод Предлагаемый подход сочетает в себе мощь **generative pretrained large language models (LLMs)** и технологии **Answer Set Programming (ASP)**. Генерируемые LLMs обеспечивают мощь в разборе и понимании естественного языка, работая непосредственно с неаннотированным текстом. ASP, в свою очередь, предоставляет гибкие возможности знаний и разума, позволяя легко интегрировать доменные спецификации без внесения изменений в основной код. Разработанная рабочая схема JERE представляет собой гибкий инструмент, который может быть применен во всех доменах, не требуя изменений в основной логике ASP при расширении знаний. ## Результаты Эксперименты проводились на трех бенчмарках для JERE: **ACE2005**, **CoNLL-2004** и **SciERC**. Данные эксперименты были проведены с ограниченным количеством тренировочных данных, чтобы продемонстрировать выносливость и эффективность подхода. Результаты показали, что LLM + ASP-подход превосходит состояние технологий в нескольких аспектах. Особенно заметное улучшение было замечено в задаче **Relation Extraction** на корпусе **SciERC**, где LLM + ASP показал 2,5 раз более высокую точность (35% против 15%) при использовании только 10% обучающих данных в сравнении с состоянием технологий. ## Значимость Предложенный подход имеет широкие приложения во всех областях, где требуется выделение сущностей и их взаимосвязей, включая здравоохранение, юриспруденцию, интернет-рекламу и другие. Основные преимущества LLM + ASP заключаются в том, что он не требует больших объемов аннотированных данных, гибко интегрирует доменную информацию и показывает высокую эффективность даже при ограниченных ресурсах тренировочных данных. Это может привести к значительным экономиям времени и ресурсов в разработке моделей JERE. ## Выводы Основные достижения этой работы состоят в разработке универсальной рабочей схемы JERE, которая объединяет мощ
Annotation:
Joint entity-relation extraction (JERE) identifies both entities and their relationships simultaneously. Traditional machine-learning based approaches to performing this task require a large corpus of annotated data and lack the ability to easily incorporate domain specific information in the construction of the model. Therefore, creating a model for JERE is often labor intensive, time consuming, and elaboration intolerant. In this paper, we propose harnessing the capabilities of generative pret...
ID: 2508.12611v1 cs.AI, cs.CL, I.2.7; F.4.1
Авторы:

Zenan Huang, Yihong Zhuang, Guoshan Lu, Zeyu Qin, Haokai Xu, Tianyu Zhao, Ru Peng, Jiaqi Hu, Zhanming Shen, Xiaomeng Hu, Xijun Gu, Peiyi Tu, Jiaxin Liu, Wenyu Chen, Yuzhuo Fu, Zhiting Fan, Yanmei Gu, Yuanyuan Wang, Zhengkai Yang, Jianguo Li, Junbo Zhao

Область исследований в данной статье посвящена развитию Reinforcement Learning from Verifiable Rewards (RLVR), который является мощным подходом для улучшения возможностей Large Language Models (LLMs). Особо отмечается успех ранее разработанных моделей, таких как o-series от OpenAI. Однако настоящая проблема RLVR заключается в его ограниченности к доменам, где выход модели может быть автоматически проверен. Данная статья подходит к решению этой проблемы, расширяя RLVR на открытые задачи с использованием базы данных верифицируемых критериев (rubrics), созданных человеком, либо с помощью совместных усилий человека и модели. Наибольший упор в статье сделан на разработке и применение этой новой методологии в обучении моделей. ### Контекст В настоящее время, Reinforcement Learning from Verifiable Rewards (RLVR) широко используется для улучшения функциональных возможностей моделей языка. Однако, ограничение этого подхода в том, что он работает только в ограниченных областях, где результаты модели могут быть проверены автоматически. Например, в программировании можно проверить код на соответствие тестам, а в математике - ответы на задачи. Это ограничивает область применения RLVR. Для устранения этого ограничения, авторы предлагают расширить RLVR на открытые задачи с помощью **rubric-based rewards**, т.е. структурированных критериев, которые могут быть автоматически оценены моделью. Эта идея позволяет расширить область применения RLVR, включив в нее такие задачи, как гуманитарные науки, где оценка обычно требует человеческого вмешательства. ### Метод Для решения данной проблемы авторы предлагают разработать новую методологию, основываясь на структурированных критериях (rubrics). Эти критерии являются программно определяемыми показателями, позволяющими автоматически оценивать ответы модели. Архитектура RLVR расширяется таким образом, что она может использовать эти rubrics в качестве знаков-анахорз (anchors) для обучения модели. Использование этого подхода позволяет значительно расширить область применения RLVR, включив в него такие задачи, как гуманитарные науки, где требуется человеческая оценка. Кроме того, авторы предлагают новую архитектуру Qwen-30B-A3B с использованием этой новой методологии, которая показывает существенные улучшения в открытых задачах. ### Результаты Авторы провели эксперименты с использованием новой архитектуры Qwen-30B-A3B, используя базу данных с более чем 10,000 rubrics, разработанными человеком, моделью или в совместной работе человека и модели. Они проверили свой подход на открытых бенчмарках, включая задачи в области гуманитарных наук. Результаты показали, что их модель демонстрирует значительные улучшения по сравнению с другими моделями. Например, она показала +5.2% улуч
Annotation:
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a powerful paradigm for enhancing Large Language Models (LLMs), exemplified by the success of OpenAI's o-series. In RLVR, rewards are derived from verifiable signals-such as passing unit tests in code generation or matching correct answers in mathematical reasoning. While effective, this requirement largely confines RLVR to domains with automatically checkable outcomes. To overcome this, we extend the RLVR paradigm to open-ende...
ID: 2508.12790v1 cs.AI, cs.CL, cs.LG
Авторы:

Felipe Maia Polo, Xinhe Wang, Mikhail Yurochkin, Gongjun Xu, Moulinath Banerjee, Yuekai Sun

## Контекст Large language models (LLMs) становятся все более популярными в качестве автоматизированных систем для оценки моделей. Однако их оценки часто сильно отличаются от человеческих оценок. Это может быть вызвано разными факторами, такими как различия в понимании языка, алгоритмов или наборах данных. Это расхождение приводит к проблемам в подготовке моделей и оценке их качества. Необходимо разработать методы, уменьшающие это расхождение и повышающие точность и достоверность автоматизированных оценок. ## Метод Разработана методология "Bridge", которая предлагает статистический подход для синхронизации оценок LLMs с человеческими оценками. Основная идея заключается в том, чтобы предположить скрытую ценность каждого пара prompt-response и определить, как это скрытое значение меняется в зависимости от различных ковариатов, влияющих на расхождения между LLM и человеческими оценками. Алгоритм Bridge использует модель линейных преобразований для предсказания и изменения значений, чтобы уменьшить расхождение. Также предлагается эффективный алгоритм для спецификации модели, обеспечивающий асимптотическую точность и интерпретируемость. ## Результаты Использовались шесть моделей LLM с двумя специальными наборами данных для оценки: BigGen Bench и Chatbot Arena. Результаты показали, что метод Bridge достиг более высокой точности и калибровки в сравнении с человеческими оценками. Он также удалось выявить места сильных расхождений между LLM и людьми, показав, где и почему происходят эти отклонения. Это позволило корректировать и оптимизировать модели, улучшая их соответствие реальным предпочтениям людей. ## Значимость Bridge может быть применен в различных областях, где необходимо автоматизированное оценочное жюри, такие как оценка текстовых моделей, принятие решений в юридических делах или анализ данных. Метод предоставляет значительные преимущества, такие как высокая точность, способность выявлять и оптимизировать расхождения, а также уменьшение времени и стоимости сбора человеческих данных. Потенциально, он может существенно повлиять на будущие направления в искусственном интеллекте, обеспечивая более точное и достоверное автоматизированное оценивание. ## Выводы Bridge представляет собой эффективный способ связать оценки LLMs с человеческими предпочтениями, уменьшив расхождения между ними. Он доказал свою эффективность на практике, повысив точность и калибровку оценок. Будущие исследования будут сфокусированы на расширении применимости Bridge к другим типам моделей и данных, а также на его использовании в широких областях применения.
Annotation:
Large language models are increasingly used as judges (LLM-as-a-judge) to evaluate model outputs at scale, but their assessments often diverge systematically from human judgments. We present Bridge, a unified statistical framework that explicitly bridges human and LLM evaluations under both absolute scoring and pairwise comparison paradigms. Bridge posits a latent human preference score for each prompt-response pair and models LLM deviations as linear transformations of covariates that capture s...
ID: 2508.12792v1 cs.LG, cs.AI, cs.CL, stat.ML
Авторы:

Jayneel Parekh, Pegah Khayatan, Mustafa Shukor, Arnaud Dapogny, Alasdair Newson, Matthieu Cord

## Контекст В последние годы широко распространены трансфорер-модели, которые обладают выдающимися возможностями в области обработки естественного языка. Однако существуют ряд сложностей, в том числе связанные с ретроспективным контролем поведения моделей. Многие приложения требуют, чтобы модели не только генерировали ответы, но и проявляли определенную стратегию, например, отказывались от ответа при необходимости, привлекались к экспертам или указывали на сторонние ресурсы. Этот подход, известный как "steering" (руководство), вызывает значительный интерес, особенно для моделей, обрабатывающих множество видов данных (multimodal large language models, MLLMs). Несмотря на существующие стратегии, такие как mean steering, они основываются на единственном статическом векторе направления, который не зависит от конкретного входного запроса. Это ограничение становится особенно заметным в случаях, когда результат должен зависеть от конкретного запроса. Например, правильное решение для запроса о медицинской информации может заключаться в указании на поиск квалифицированного специалиста. В данной статье предлагается новый подход, называемый **L2S (Learn-to-Steer)**, который адресует эти ограничения, применяя вводно-зависимую стратегию руководства. ## Метод MLLMs, такие как Flamingo и также многие другие, были разработаны для обработки разнообразного ввода, но их поведение часто недостаточно контролируется. Для решения этой проблемы предлагаются вводно-зависимые стратегии. Процесс L2S включает следующие этапы: 1. **Input-Specific Prompting**: Для каждого ввода создается уникальная интерпретация, которая включает в себя специальные добавления, направляющие модель в нужном направлении. 2. **Linear Shift Calculation**: Используя вводно-зависимую интерпретацию, вычисляется линейный сдвиг, который определяет изменение поведения модели. 3. **Training Auxiliary Module**: На этапе обучения применяется небольшой модуль, который предсказывает линейный сдвиг, используя в качестве входных данных вводно-зависимую интерпретацию. Этот подход позволяет выравнивать модель в соответствии с требованиями конкретного запроса, что делает ее более эффективной и безопасной в эксплуатации. ## Результаты На экспериментальных данных показано, что L2S значительно сокращает зависимость от статических стратегий и улучшает результаты в следующих областях: - **Reduction of Hallucinations**: Модель становится менее зависима от некорректных выводов, когда применяется L2S. - **Safety Enforcement**: Модель намеренно отказывается от ответов в случаях, когда ответ может быть небезопасен или неправильным. - **Comparison with Baselines**: Результаты L2S показывают значительные выигрыши по сравнению с
Annotation:
Steering has emerged as a practical approach to enable post-hoc guidance of LLMs towards enforcing a specific behavior. However, it remains largely underexplored for multimodal LLMs (MLLMs); furthermore, existing steering techniques, such as mean steering, rely on a single steering vector, applied independently of the input query. This paradigm faces limitations when the desired behavior is dependent on the example at hand. For example, a safe answer may consist in abstaining from answering when...
ID: 2508.12815v1 cs.LG, cs.AI, cs.CL, cs.CV
Авторы:

Ronghao Lin, Shuai Shen, Weipeng Hu, Qiaolin He, Aolin Xiong, Li Huang, Haifeng Hu, Yap-peng Tan

## Контекст Многомодальная эмпатическая генерация ответов (MERG) является ключевым компонентом создания эмоционально интеллектуальных взаимодействий между людьми и компьютерами. Несмотря на то, что большие языковые модели (LLMs) улучшили текстовую эмоциональную генерацию ответов, остаются сложности в обработке многомодального эмоционального контента и сохранении консистентности личности. Эти проблемы ограничивают эффективность текущих систем. Чтобы сделать MERG более эмоционально богатым и идентичным, необходимо использовать более совершенные подходы, которые учитывают комплексность эмоциональных сигналов и поддерживают консистентность личности в ходе взаимодействия. ## Метод Мы предлагаем E3RG, систему эмоционального эмпатического генерирования ответов на основе многомодальных LLMs. Методология E3RG декомпозирует задачу MERG на три модуля: понимание эмоций многомодального контента, восстановление эмоциональной памяти и многомодальное генерирование ответов. Эти модули используют новейшие модели для генерации речи и видео, что позволяет E3RG генерировать ответы, описывающие эмоциональное состояние, без дополнительной подготовки. Благодаря этому, E3RG обеспечивает натуральность, эмоциональную богатство и консистентность личности в ответах. ## Результаты В ходе экспериментов мы проверили E3RG на двух уровнях: zero-shot и few-shot. Мы использовали различные наборы данных для оценки системы на способности понимать эмоции и генерировать ответы. Результаты показали, что E3RG показывает высокую точность и эмоциональную корректность в сравнении с другими подходами. Наша система стала лидером на соревновании Avatar-based Multimodal Empathy Challenge в рамках ACM MM 2025. ## Значимость E3RG может применяться в различных сферах, включая области социальных роботов, виртуальных ассистентов и медицинских приложений, где эмоциональная коммуникация играет ключевую роль. Основные преимущества E3RG заключаются в том, что он сохраняет консистентность личности, быстро реагирует на эмоциональные сигналы и обеспечивает натуральную эмоциональную реакцию. Его потенциал заключается в улучшении качества взаимодействия с пользователем и создании более эмоционально приятных и естественных интерфейсов. ## Выводы Мы представили E3RG, мощную многомодальную систему для эмоционального эмпатического генерирования ответов. Наши эксперименты показали, что E3RG превосходит другие подходы в zero-shot и few-shot режимах. Мы посвятим будущим исследованиям улучшение моделей и их применение в различных сценариях, чтобы дальше улучшить эмоциональное понимание и генерирова
Annotation:
Multimodal Empathetic Response Generation (MERG) is crucial for building emotionally intelligent human-computer interactions. Although large language models (LLMs) have improved text-based ERG, challenges remain in handling multimodal emotional content and maintaining identity consistency. Thus, we propose E3RG, an Explicit Emotion-driven Empathetic Response Generation System based on multimodal LLMs which decomposes MERG task into three parts: multimodal empathy understanding, empathy memory re...
ID: 2508.12854v1 cs.AI, cs.CL, cs.CV, cs.HC, cs.MM
Авторы:

Pengcheng Huang, Shuhao Liu, Zhenghao Liu, Yukun Yan, Shuo Wang, Zulong Chen, Tong Xiao

#### Контекст Маскированные диффузионные модели (Masked Diffusion Models, MDMs) стали одними из самых мощных неавторегрессивных тактик для последовательного генерирования. Однако наши предварительные эксперименты показали, что качество генерации MDMs сильно зависит от выбора стратегии декодирования. Особенно заметны проблемы с доминированием тривиальных токенов в начале декодирования и отсутствием глобального контроля траектории. Эти ограничения сильно сказываются на потенциале MDMs. Мы предлагаем Position-Aware Confidence-Calibrated Sampling (PC-Sampler) — универсальную стратегию декодирования, которая объединяет планирование траектории и максимизацию информативности в контексте содержимого. #### Метод PC-Sampler использует позиционно-акцентированную взвешивание для регулирования траектории декодирования и квалибрированный скор уверенности для защиты от преждевременного выбора тривиальных токенов. Основные компоненты: 1. **Планирование траектории**: использование позиционной информации для управления глобальной траекторией декодирования. 2. **Калибровка уверенности**: добавление квалибрированного компонента в скор уверенности для подавления выбора тривиальных токенов в ранних этапах. 3. **Интеграция**: синергетическое объединение двух компонентов для улучшения качества генерации. #### Результаты Мы проверили PC-Sampler на трех моделях MDM (T5, BART, LLaMA) по метрикам BLEU, ROUGE и METEOR на семь бенчмарок, включая задачи логического рассуждения и планирования. Результаты показали, что PC-Sampler повышает производительность этих моделей на 10% в среднем по сравнению с другими стратегиями декодирования. Основные выводы: - Улучшенная точность и консистентность генерации. - Снижение частоты выбора тривиальных токенов. - Значительное сужение разрыва с авторегрессионными моделями. #### Значимость PC-Sampler может применяться в различных областях, где необходимо высокое качество генерации последовательностей, такие как логическое рассуждение, планирование и моделирование текста. Основные преимущества: - Улучшение качества генерации с помощью позиционно-акцентированного управления. - Уменьшение частоты тривиальных выборов за счет калиброванной уверенности. - Устранение ограничений других стратегий декодирования. #### Выводы PC-Sampler достигает существенных улучшений в производительности MDMs и сужает разрыв с авторегрессионными моделями. Наши результаты открывают новые пути для развития неавторегрессивных моделей. Будущие исследования будут сфокусированы на оптимизации PC-Sampler для задач с большим количеством токенов и улучшении его мобильности в разных сценариях.
Annotation:
Recent advances in masked diffusion models (MDMs) have established them as powerful non-autoregressive alternatives for sequence generation. Nevertheless, our preliminary experiments reveal that the generation quality of MDMs is still highly sensitive to the choice of decoding strategy. In particular, widely adopted uncertainty-based samplers suffer from two key limitations: a lack of global trajectory control and a pronounced bias toward trivial tokens in the early stages of decoding. These sho...
ID: 2508.13021v2 cs.AI, cs.CL
Авторы:

Hael Abdulhakim Ali Humran, Ferdi Sonmez

#### Контекст Коды программ, написанные на разных языках программирования, часто содержат серьезные уязвимости, которые трудно обнаружить с помощью статических анализаторов. Традиционные алгоритмы, основанные на правилах, некорректно обрабатывают контекстные зависимости и часто генерируют ложные срабатывания. В последние годы искусственный интеллект (AI), особенно преобразовательные модели типа CodeBERT и CodeLlama, показали способность лучше обнаруживать такие уязвимости. Наша исследовательская мотивация заключается в изучении потенциала этих моделей для детектирования уязвимостей в коде на разных языках. Наша цель — показать, как эти модели могут быть применены к разным классам уязвимостей и сравнить их эффективность с существующими анализаторами. #### Метод Мы применяем преобразовательные модели CodeBERT и CodeLlama для детектирования уязвимостей в коде. Наша методология включает следующие этапы: 1. **Сбор данных**: Объединение данных из разных источников, включая уязвимый и безопасный код, для обучения и проверки моделей. 2. **Нормализация языка**: Преобразование кода в формат, пригодный для обработки моделями AI. 3. **Динамическая тюнинг моделей**: Обучение моделей на конкретных классах уязвимостей, учитывая контекст. 4. **Использование ensemble learning**: Сочетание нескольких моделей для улучшения точности. 5. **Применение explainable AI**: Обеспечение прозрачности решений модели. Эти шаги позволяют извлечь максимальную эффективность из моделей и сделать их более доступными для реального применения. #### Результаты Мы провели эксперименты на нескольких наборах данных, сравнивая результаты моделей CodeBERT и CodeLlama с существующими статическими анализаторами. В результатах показано, что CodeBERT может достигать точности выше 97% при детектировании уязвимостей. Однако, мы также выявили, что модель CodeLlama демонстрирует высокую полноту (recall), но значительно нижую точность (precision), что может привести к ложноположительным срабатываниям. Для решения этой проблемы мы использовали hybrid models и тщательные процедуры валидации. Эти меры позволили сократить ложноположительные срабатывания и улучшить общую надежность моделей. #### Значимость Наши результаты имеют широкое применение в области безопасности программного обеспечения. Автоматизированные системы детектирования уязвимостей могут существенно сократить время и ресурсы, потраченные на ручной анализ кода. Важное преимущество AI-моделей заключается в их гибкости и возможности обнаруживать уязвимости в разных языках программирования. Это означает уменьшение затрат на поддержку и адаптацию систем безопасности к новым языкам. Будущие иссле
Annotation:
Security vulnerabilities present in a code that has been written in diverse programming languages are among the most critical yet complicated aspects of source code to detect. Static analysis tools based on rule-based patterns usually do not work well at detecting the context-dependent bugs and lead to high false positive rates. Recent developments in artificial intelligence, specifically the use of transformer-based models like CodeBERT and CodeLlama, provide light to this problem, as they show...
ID: 2508.11710v1 cs.CR, cs.AI, cs.CL
Авторы:

Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

## Контекст Ovis2.5 является усовершенствованием Ovis2, разработанным для нативного разрешения визуального восприятия и сильного многомодального разума. Он интегрирует трансформер визуального восприятия нативного разрешения, обрабатывающий изображения в их первоначальных, переменных разрешениях. Это позволяет избежать ухудшения качества, связанного с фиксированным разрешением, и сохранить как тонкие детали, так и глобальный макет, что крайне важно для текстов с большим количеством информации, таких как сложные чарты. Дополнительно, модель обучена перейти за линейный цепочный способ мышления и выполнять рефлексию, включая самопроверку и корректировку. Эта расширенная функция доступна в качестве дополнительного "режима мышления" во время интерпретации, позволяя пользователям соотносить затраты на процессорное время с улучшением точности в сложных задачах. Обучение Ovis2.5 проходит через пятиэтажную систему курса, постепенно углубляющую свои навыки. Эта процедура начинается с основных визуальных и многомодальных предварительных тренировок, потом переходит к широкомасштабному тюнингу инструкций и заканчивается выравниванием и улучшением разума с помощью DPO и GRPO. Для эффективного масштабирования этих улучшений, авторы использовали мультимодальный пакетный данных и гибридную параллельность, что привело к значительному ускорению в общем виде. ## Метод Ovis2.5 использует совершенно новую конструкцию, включающую в себя трансформер визуального восприятия нативного разрешения, который обрабатывает изображения в их исходных разрешениях. Это позволяет избежать потерь деталей и глобального макета, которые могут возникнуть при использовании фиксированного разрешения. Более того, модель обучена выступать в режиме "мышления", что позволяет перемещаться за линейный цепочный способ мышления и выполнять рефлексию, включая самопроверку и корректировку. Этот режим может быть активирован во время интерпретации, чтобы улучшить точность на сложных задачах, при этом это может привести к увеличению затрат на процессорное время. Для обучения использовалась пятиэтажная система курса, которая постепенно углубляет навыки модели. Этот процесс начинается с основных визуальных и многомодальных предварительных тренировок, затем переходит к широкомасштабному тюнингу инструкций и завершается выравниванием и улучшением разума с помощью DPO и GRPO. ## Результаты Проведенные эксперименты показали, что Ovis2.5-9B показал средний результат 78.3 на OpenCompass multimodal leaderboard, что значительно превышает результаты Ovis2-8B и других открытых моделей с менее чем 40B параметра
Annotation:
We present Ovis2.5, a successor to Ovis2 designed for native-resolution visual perception and strong multimodal reasoning. Ovis2.5 integrates a native-resolution vision transformer that processes images at their native, variable resolutions, avoiding the degradation from fixed-resolution tiling and preserving both fine detail and global layout -- crucial for visually dense content like complex charts. To strengthen reasoning, we train the model to move beyond linear chain-of-thought and perform ...
ID: 2508.11737v1 cs.CV, cs.AI, cs.CL, cs.LG
Авторы:

Peter Lindes, Kaoutar Skiker

## Контекст Современная технология развивается в графе создания автономных роботов, способных сотрудничать с людьми в процессе выполнения сложных задач в реальном мире. Одна из ключевых задач в этой области – обеспечение надежного естественноязыкового взаимодействия между роботом и человеком. Несмотря на то, что традиционные системы интерактивного обучения заданиям (Interactive Task Learning, ITL) могут обрабатывать некоторые типы задач с помощью ограниченного языкового понимания, их возможности остаются недостаточными для реализации полноценного естественноязыкового взаимодействия. В связи с этим появляется необходимость в развитии систем, использующих роль крупных языковых моделей (LLM), чтобы улучшить понимание естественного языка роботами. Но интеграция таких моделей в системы, работающие в физическом мире, представляет собой сложную задачу. Целью данного исследования является изучение способов создания роботов, способных естественно языковому общению, и оценка потенциальных преимуществ этого подхода. ## Метод Для достижения целей исследования использовался подход, основанный на использовании роботов с центральной системой управления AI Cognitive Agent, которая способствует пониманию естественного языка, взаимодействию с человеком и сбору ситуационного знания во время выполнения задач. Работа системы основывается на использовании LLM, такого как ChatGPT, для разбора и восприятия естественного языка. Основными этапами методологии являются: сбор и анализ данных, разработка методов обработки естественного языка, интеграция LLM в систему управления роботом, и проведение экспериментов для проверки модели. ## Результаты В рамках исследования были проведены несколько простых экспериментов, обосновавших возможность применения LLM для роботов. Например, с использованием ChatGPT было продемонстрировано, что модель может понимать и воспринимать простые команды, отвечать на вопросы, а также взаимодействовать с роботом в логическом порядке. Также были проведены проверки на возможности синтеза естественного языка, чтобы робот мог генерировать ответы на вопросы или команды в доступном формате. Эксперименты показали, что модель LLM может улучшить понимание роботами естественных команд, но требуется продолжительная работа над системой для улучшения точности и реакции на контекст. ## Значимость Результаты работы открывают новые возможности для использования роботов в реальном мире, где естественное взаимодействие с людьми становится ключом к успеху. Использование LLM позволяет роботу не только выполнять задачи, но и общаться с человеком в естественной форме, что увеличивает удобство испо
Annotation:
We have a vision of a day when autonomous robots can collaborate with humans as assistants in performing complex tasks in the physical world. This vision includes that the robots will have the ability to communicate with their human collaborators using language that is natural to the humans. Traditional Interactive Task Learning (ITL) systems have some of this ability, but the language they can understand is very limited. The advent of large language models (LLMs) provides an opportunity to grea...
ID: 2508.11759v1 cs.RO, cs.AI, cs.CL
Показано 1141 - 1150 из 1292 записей