📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

2025-08-09

Авторы:

Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi

**Резюме** Многоязычные большие языковые модели (МЛЛМ) доказали свою эффективность в высокоресурсных языках, но в низкоресурсных языках их эффективность значительно снижается. Существующие подходы к улучшению многоязычности часто ограничиваются текстовыми данными или полагаются лишь на перевод машинным переводом. Эти методы способствуют развитию базовых языковых навыков, но не учитывают важность мультимодальности и культурного контекста, которые критически важны для поддержки низкоресурсных языков. В статье предлагается MELLA — мультимодальный многоязычный датасет, созданный для решения проблемы нехватки культурной осведомлённости и навыков работы с текстом в МЛЛМ. Данный датасет собирает сведения из сети (нативный web alt-text для культурной глубины и MLLM-генерируемые капшны для развития языковых навыков). Исследование показало, что после тюнинга на MELLA модели показывают улучшение по всему спектру задач, включая продуктивность в "толстых описаниях", благодаря улучшению как языковых навыков, так и культурной осведомлённости. Наши результаты свидетельствуют о важности сочетания этих двух параметров для эффективной работы МЛЛМ в низкоресурсных языках. Датасет доступен по адресу https://opendatalab.com/applyMultilingualCorpus.

Annotation:

Multimodal Large Language Models (MLLMs) have shown remarkable performance in high-resource languages. However, their effectiveness diminishes significantly in the contexts of low-resource languages. Current multilingual enhancement methods are often limited to text modality or rely solely on machine translation. While such approaches help models acquire basic linguistic capabilities and produce "thin descriptions", they neglect the importance of multimodal informativeness and cultural groundedn...

ID: 2508.05502v1 cs.CV, cs.CL

arXiv PDF

📄 Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

2025-08-09

Авторы:

Luozheng Qin, Jia Gong, Yuqing Sun, Tianjiao Li, Mengping Yang, Xiaomeng Yang, Chao Qu, Zhiyu Tan, Hao Li

Универсальная цепочка-мышлия (Uni-CoT) — это проработанная фреймворк для объединенного многомодального логического мышления, который позволяет объединить моделирование текста и изображений в одной модели. Деление логического процесса на высокоуровневую планировку (Macro-Level CoT) и низкоуровневую реализацию (Micro-Level CoT) позволяет эффективно распределить ресурсы и сократить вычислительные затраты. Эта модель использует модель распознавания и порождения изображений для анализа и генерации визуальных состояний, что обеспечивает корректное моделирование визуальных процессов. Основная инновация в Uni-CoT — внедрение структурированной подготовки модели с интерлейсом обучения на текстовых и изображениевых данных для макроуровня и многозадачного обучения для микроуровня. Эксперименты по бенчмаркам WISE, RISE и KRIS показали, что Uni-CoT показывает лидирующие результаты, доказав свою эффективность и гибкость в многомодальном логическом мышлении.

Annotation:

Chain-of-Thought (CoT) reasoning has been widely adopted to enhance Large Language Models (LLMs) by decomposing complex tasks into simpler, sequential subtasks. However, extending CoT to vision-language reasoning tasks remains challenging, as it often requires interpreting transitions of visual states to support reasoning. Existing methods often struggle with this due to limited capacity of modeling visual state transitions or incoherent visual trajectories caused by fragmented architectures. ...

ID: 2508.05606v1 cs.CV, cs.CL

arXiv PDF

📄 CAPO: Towards Enhancing LLM Reasoning through Verifiable Generative Credit Assignment

2025-08-09

Авторы:

Guofu Xie, Yunsheng Shi, Hongtao Tian, Ting Yao, Xiao Zhang

**Резюме** В статье предлагается CAPO (Credit Assignment Policy Optimization) — метод, улучшающий точность подкрепленного обучения с верифицируемыми наградами (RLVR) для бо LLM. Проблема заключается в том, что традиционные методы RLVR назначают одинаковый вес всем токенам ответа, что затрудняет точное присвоение кредита за успех или неудачу каждого токена. Разработанный CAPO использует общецелевую обработку естественных языков для построения шаг за шагом критики ответа, что позволяет назначить точные, проверяемые награды на уровне токенов. Для повышения точности используется механизм голосования, основанный на нескольких генерируемых критиках. Эксперименты показали, что CAPO превосходит супервизированные и другие RL-методы на математических и других бенчмарках, подтверждая его эффективность в улучшении точности и эффективности обучения бол LLMs.

Annotation:

Reinforcement Learning with Verifiable Rewards (RLVR) has improved the reasoning abilities of Large Language Models (LLMs) by using rule-based binary feedback, helping to mitigate reward hacking. However, current RLVR methods typically treat whole responses as single actions, assigning the same reward to every token. This coarse-grained feedback hampers precise credit assignment, making it hard for models to identify which reasoning steps lead to success or failure, and often results in suboptim...

ID: 2508.02298v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

2025-08-09

Авторы:

Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu

Ограничения системы и трудности в обучении omni-modal LLMs влекут за собой низкую эффективность и высокий инженерный затрат. Мы предлагаем VeOmni — модульный и производительный фреймворк, который ускоряет развитие omni-modal LLMs. Основной идеей VeOmni является использование модельно-центрических распределенных рецептов, разделяющих коммуникацию от вычислений. Это позволяет эффективно использовать трехмерную параллельность при обучении omni-modal LLMs. Кроме того, VeOmni обеспечивает гибкую настройку, позволяя легко добавлять новые модели с минимальным кодовым изменением. Тестирование показало, что VeOmni обеспечивает высокую производительность: 30B-параметровый модельный хранилищ поддерживает обучение с 2,800 токенами/секунду/GPU и достигает 160K контекстных длин на 128 GPU. Это открывает новые возможности для эффективного обучения omni-modal LLMs с большими моделями и длинными контекстами.

Annotation:

Recent advances in large language models (LLMs) have driven impressive progress in omni-modal understanding and generation. However, training omni-modal LLMs remains a significant challenge due to the heterogeneous model architectures required to process diverse modalities, necessitating sophisticated system design for efficient large-scale training. Existing frameworks typically entangle model definition with parallel logic, incurring limited scalability and substantial engineering overhead for...

ID: 2508.02317v3 cs.CL, cs.AI, cs.DC

arXiv PDF

📄 CompressKV: Semantic Retrieval Heads Know What Tokens are Not Important Before Generation

2025-08-09

Авторы:

Xiaolin Lin, Jingcun Wang, Olga Kondrateva, Yiyu Shi, Bing Li, Grace Li Zhang

**Резюме** Современные большие языковые модели (LLMs) сверточных архитектур способны обрабатывать длинные контексты, однако впоследствии сталкиваются с проблемой эффективности памяти из-за растущего размера кэша ключ-значение (KV). Большинство методов сжатия KV-кэша основываются на групповом запросе (GQA) и используют все аттенционные головы для определения важных токенов. Это приводит к неоптимальным выборам, так как не все головы имеют одинаковый вклад в выделение смысла. Предлагаемый подход CompressKV расширяет эту идею, идентифицируя головы каждого слоя, которые особенно эффективны в поиске ключевых токенов и учете их семантического окружения. Эти головы используются для определения важных токенов и сохранения соответствующих им пар KV-кэша. Также вводится адаптивная стратегия распределения KV-кэша по каждому слою. Эксперименты показали, что CompressKV превосходит современные методы по индикаторам потребления памяти и производительности на LongBench и Needle-in-a-Haystack. Результаты доступны в открытом доступе по адресу: https://github.com/TUDa-HWAI/CompressKV.git.

Annotation:

Recent advances in large language models (LLMs) have significantly boosted long-context processing. However, the increasing key-value (KV) cache size poses critical challenges to memory and execution efficiency. Most KV cache compression methods rely on heuristic token eviction using all attention heads in Grouped Query Attention (GQA)-based LLMs. This method ignores the different functionalities of attention heads, leading to the eviction of critical tokens and thus degrades the performance of ...

ID: 2508.02401v1 cs.CL, cs.AI

arXiv PDF

📄 AIAP: A No-Code Workflow Builder for Non-Experts with Natural Language and Multi-Agent Collaboration

2025-08-09

Авторы:

Hyunjn An, Yongwon Kim, Wonduk Seo, Joonil Park, Daye Kang, Changhoon Oh, Dokyun Kim, Seunghyun Lee

**Резюме** Возникновение AIAP (AI Assistance Platform) ставится перед проблемой непосредственного взаимодействия между неэкспертными пользователями и сложными системами AI. Несмотря на многочисленные инструменты для проектирования AI, неэкспертные пользователи часто сталкиваются с трудностями в конкретном выражении своей интенции и управлении сложностью системы. Исследование показывает, что AIAP — это новое, нетехническое решение, которое использует ввод в естественной речи и визуальные рабочие процессы, объединенные с системой многоагентного взаимодействия. AIAP декомпозирует неясные пользовательские инструкции в модульные, действительные шаги, недоступные для пользователя, но управляемые через прозрачный интерфейс. Исследование с 32 участниками демонстрирует, что AIAP's АI-генерируемые рекомендации, модульные рабочие процессы и автоматическое определение данных, действий и контекста значительно упрощают процесс создания AI-сервисов, делая его более интуитивным. Эти результаты подтверждают, что новый подход, основанный на естественной речи и визуальном программировании, значительно снижает барьеры для неэкспертных пользователей и повышает их удобство при проектировании AI-сервисов.

Annotation:

While many tools are available for designing AI, non-experts still face challenges in clearly expressing their intent and managing system complexity. We introduce AIAP, a no-code platform that integrates natural language input with visual workflows. AIAP leverages a coordinated multi-agent system to decompose ambiguous user instructions into modular, actionable steps, hidden from users behind a unified interface. A user study involving 32 participants showed that AIAP's AI-generated suggestions,...

ID: 2508.02470v1 cs.HC, cs.AI, cs.CL, cs.MA, cs.SE

arXiv PDF

📄 OptiHive: Ensemble Selection for LLM-Based Optimization via Statistical Modeling

2025-08-09

Авторы:

Maxime Bouscary, Saurabh Amin

Оптимизационные задачи часто требуют надежных систем, но LLM-based solvers, несмотря на их перспективы, часто оставляют желать лучшего из-за высокой задержки и неустойчивости результатов. Мы предлагаем OptiHive — рамформу, которая включает в себя LLM для генерации солверов для задач оптимизации на основе естественного языка. Отличительная черта OptiHive заключается в использовании единого пакетного запроса для генерации разнообразных компонентов (солверов, задач и валидационных тестов), а также в использовании статистической модели для оценки их достоверности. Это позволяет существенно повысить точность и доверие к результатам, даже при несовершенстве генерируемых компонентов. На различных типах задач оптимизации, включая разновидности Multi-Depot Vehicle Routing Problem, OptiHive показала значительное превосходство над базовыми алгоритмами, увеличив оптимальность решений от 5% до 92% в самых сложных случаях.

Annotation:

LLM-based solvers have emerged as a promising means of automating problem modeling and solving. However, they remain unreliable and often depend on iterative repair loops that result in significant latency. We introduce OptiHive, an LLM-based framework that produces high-quality solvers for optimization problems from natural-language descriptions without iterative self-correction. OptiHive uses a single batched LLM query to generate diverse components (solvers, problem instances, and validation ...

ID: 2508.02503v1 cs.AI, cs.CL

arXiv PDF

📄 Test-time Prompt Intervention

2025-08-09

Авторы:

Chenxu Yang, Qingyi Si, Mz Dai, Dingyu Yao, Mingyu Zheng, Minghui Chen, Zheng Lin, Weiping Wang

**Резюме** Проблема: Многие современные л LLM, особенно те, что используют длинные цепочки мышления (CoTs) для улучшения логических выводов, страдают от избыточной реплитации и непоследовательности в цепочках принятия решений. Это возникает из-за ориентации на пост-тренировочные модели, сконцентрированных на получении высокого награды в итоге, а не на оптимизации процесса мышления. Данные для регулирования промежуточных шагов малоизвестны и сложно получить в масштабе. Решение: Мы предлагаем Test-time Prompt Intervention (PI), новую архитектуру для динамического управления принятием решений во время выполнения. Она включает три модуля: когда (When), как (How) и что (Which). Эти модули позволяют взаимодействовать с моделью во время работы, управляя процессом уточняющими интервенциями и улучшая контролируемость и прозрачность. Основные выводы: Тестирование показало, что PI существенно сокращает длину CoTs, уменьшает ошибки при семантическом разборе и повышает надежность моделей. Это новая шаг в практическом интегрировании экспертных принципов логического мышления в традиционные л LLM.

Annotation:

Test-time compute has led to remarkable success in the large language model (LLM) community, particularly for complex tasks, where longer chains of thought (CoTs) are generated to enhance reasoning capabilities. However, growing evidence reveals that such reasoning models often produce CoTs plagued by excessive redundancy, including unnecessary verification steps and repetitive reasoning shifts. The root cause lies in post-training of them that overly rely on outcome reward paradigms, as the dat...

ID: 2508.02511v1 cs.AI, cs.CL

arXiv PDF

📄 Modular Arithmetic: Language Models Solve Math Digit by Digit

2025-08-09

Авторы:

Tanja Baeumel, Daniil Gurgurov, Yusser al Ghussin, Josef van Genabith, Simon Ostermann

Научная статья **"Modular Arithmetic: Language Models Solve Math Digit by Digit"** рассматривает проблему того, каким образом Large Language Models (LLMs) решают простые арифметические задачи. Несмотря на то, что ранее были выявлены некоторые стратегии LLMs для таких задач, полное понимание их механизмов остается неизвестным. Авторы показывают, что LLMs представляют числа по дизициям и используют отдельные подгруппы нейронов модульного слоя (MLP) для обработки каждой цифры в числе. Эти подгруппы независимо взаимодействуют с разными дизициями (единицы, десятки, сотни), независимо от размера модели и токенизационной стратегии (для чисел, записанных целиком или по дизициям). Используя методы Feature Importance и Causal Interventions, авторы выяснили, что эти подгруппы нейронов являются ключевыми для решения задач арифметики. Таким образом, статья демонстрирует, что LLMs решают математические задачи с помощью последовательной обработки каждой цифры.

Annotation:

While recent work has begun to uncover the internal strategies that Large Language Models (LLMs) employ for simple arithmetic tasks, a unified understanding of their underlying mechanisms is still lacking. We extend recent findings showing that LLMs represent numbers in a digit-wise manner and present evidence for the existence of digit-position-specific circuits that LLMs use to perform simple arithmetic tasks, i.e. modular subgroups of MLP neurons that operate independently on different digit ...

ID: 2508.02513v1 cs.CL, cs.AI

arXiv PDF

📄 What are you sinking? A geometric approach on attention sink

2025-08-09

Авторы:

Valeria Ruscio, Umberto Nanni, Fabrizio Silvestri

**Резюме** В статье анализируется признак "attention sink" (AS) — постоянный узкий пик в transformer attention maps, когда токены (особенно специальные или позиционные) привлекают существенно больше внимания, чем другие. Авторы показывают, что AS не является просто особенностью архитектуры, а является результатом основного геометрического принципа: установки ссылочных систем в высокомерных пространствах. Они выявляют три типа ссылочных систем — централизованные, распределенные и бинаризационные — которые соответствуют AS и возникают в ранних этапах обучения как эффективные решения для установки стабильных систем координат. Авторы также изучают, как различные компоненты архитектуры, особенно реализации позиционных кодировок, влияют на тип ссылочной системы. Это новое представление transformer attention механизмов обеспечивает понимание AS и помогает в дизайне моделей и анализе этого явления.

Annotation:

Attention sink (AS) is a consistent pattern in transformer attention maps where certain tokens (often special tokens or positional anchors) disproportionately attract attention from other tokens. We show that in transformers, AS is not an architectural artifact, but it is the manifestation of a fundamental geometric principle: the establishment of reference frames that anchor representational spaces. We analyze several architectures and identify three distinct reference frame types, centralized,...

ID: 2508.02546v1 cs.LG, cs.AI, cs.CL

arXiv PDF

Показано 7381 - 7390 из 7506 записей