📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

2025-08-09

Авторы:

Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu

Ограничения системы и трудности в обучении omni-modal LLMs влекут за собой низкую эффективность и высокий инженерный затрат. Мы предлагаем VeOmni — модульный и производительный фреймворк, который ускоряет развитие omni-modal LLMs. Основной идеей VeOmni является использование модельно-центрических распределенных рецептов, разделяющих коммуникацию от вычислений. Это позволяет эффективно использовать трехмерную параллельность при обучении omni-modal LLMs. Кроме того, VeOmni обеспечивает гибкую настройку, позволяя легко добавлять новые модели с минимальным кодовым изменением. Тестирование показало, что VeOmni обеспечивает высокую производительность: 30B-параметровый модельный хранилищ поддерживает обучение с 2,800 токенами/секунду/GPU и достигает 160K контекстных длин на 128 GPU. Это открывает новые возможности для эффективного обучения omni-modal LLMs с большими моделями и длинными контекстами.

Annotation:

Recent advances in large language models (LLMs) have driven impressive progress in omni-modal understanding and generation. However, training omni-modal LLMs remains a significant challenge due to the heterogeneous model architectures required to process diverse modalities, necessitating sophisticated system design for efficient large-scale training. Existing frameworks typically entangle model definition with parallel logic, incurring limited scalability and substantial engineering overhead for...

ID: 2508.02317v3 cs.CL, cs.AI, cs.DC

arXiv PDF

📄 CompressKV: Semantic Retrieval Heads Know What Tokens are Not Important Before Generation

2025-08-09

Авторы:

Xiaolin Lin, Jingcun Wang, Olga Kondrateva, Yiyu Shi, Bing Li, Grace Li Zhang

**Резюме** Современные большие языковые модели (LLMs) сверточных архитектур способны обрабатывать длинные контексты, однако впоследствии сталкиваются с проблемой эффективности памяти из-за растущего размера кэша ключ-значение (KV). Большинство методов сжатия KV-кэша основываются на групповом запросе (GQA) и используют все аттенционные головы для определения важных токенов. Это приводит к неоптимальным выборам, так как не все головы имеют одинаковый вклад в выделение смысла. Предлагаемый подход CompressKV расширяет эту идею, идентифицируя головы каждого слоя, которые особенно эффективны в поиске ключевых токенов и учете их семантического окружения. Эти головы используются для определения важных токенов и сохранения соответствующих им пар KV-кэша. Также вводится адаптивная стратегия распределения KV-кэша по каждому слою. Эксперименты показали, что CompressKV превосходит современные методы по индикаторам потребления памяти и производительности на LongBench и Needle-in-a-Haystack. Результаты доступны в открытом доступе по адресу: https://github.com/TUDa-HWAI/CompressKV.git.

Annotation:

Recent advances in large language models (LLMs) have significantly boosted long-context processing. However, the increasing key-value (KV) cache size poses critical challenges to memory and execution efficiency. Most KV cache compression methods rely on heuristic token eviction using all attention heads in Grouped Query Attention (GQA)-based LLMs. This method ignores the different functionalities of attention heads, leading to the eviction of critical tokens and thus degrades the performance of ...

ID: 2508.02401v1 cs.CL, cs.AI

arXiv PDF

📄 Modular Arithmetic: Language Models Solve Math Digit by Digit

2025-08-09

Авторы:

Tanja Baeumel, Daniil Gurgurov, Yusser al Ghussin, Josef van Genabith, Simon Ostermann

Научная статья **"Modular Arithmetic: Language Models Solve Math Digit by Digit"** рассматривает проблему того, каким образом Large Language Models (LLMs) решают простые арифметические задачи. Несмотря на то, что ранее были выявлены некоторые стратегии LLMs для таких задач, полное понимание их механизмов остается неизвестным. Авторы показывают, что LLMs представляют числа по дизициям и используют отдельные подгруппы нейронов модульного слоя (MLP) для обработки каждой цифры в числе. Эти подгруппы независимо взаимодействуют с разными дизициями (единицы, десятки, сотни), независимо от размера модели и токенизационной стратегии (для чисел, записанных целиком или по дизициям). Используя методы Feature Importance и Causal Interventions, авторы выяснили, что эти подгруппы нейронов являются ключевыми для решения задач арифметики. Таким образом, статья демонстрирует, что LLMs решают математические задачи с помощью последовательной обработки каждой цифры.

Annotation:

While recent work has begun to uncover the internal strategies that Large Language Models (LLMs) employ for simple arithmetic tasks, a unified understanding of their underlying mechanisms is still lacking. We extend recent findings showing that LLMs represent numbers in a digit-wise manner and present evidence for the existence of digit-position-specific circuits that LLMs use to perform simple arithmetic tasks, i.e. modular subgroups of MLP neurons that operate independently on different digit ...

ID: 2508.02513v1 cs.CL, cs.AI

arXiv PDF

📄 EHSAN: Leveraging ChatGPT in a Hybrid Framework for Arabic Aspect-Based Sentiment Analysis in Healthcare

2025-08-09

Авторы:

Eman Alamoudi, Ellis Solaiman

**Резюме** В статье представлена EHSAN, первая гибридная модель для арабского аспект-базированного мнения в сфере здравоохранения. Арабский язык представляет сложности из-за богатого диалектного разнообразия и недостатка меток аспектного мнения. Разработанная модель EHSAN объединяет машинное обучение с глубоким представлением языка ChatGPT и целенаправленным корректированием человеческим рецензентом, чтобы создать полностью новый языковой ресурс в области здравоохранения. Эта модель обучена на трёх версиях данных: полностью аннотированных человеком, частично аннотированных человеком и полностью подготовленных ChatGPT. Эксперименты показали, что даже с минимальными ручными корректировками модель достигает высокой точности. Меньшее количество классов аспектов также улучшало результаты. Результаты указывают на простоту и эффективность гибридного подхода в создании семантических моделей для арабского языка в здравоохранении. Будущие работы будут направлены на улучшение модели пространством применения и наращивании транспарентности.

Annotation:

Arabic-language patient feedback remains under-analysed because dialect diversity and scarce aspect-level sentiment labels hinder automated assessment. To address this gap, we introduce EHSAN, a data-centric hybrid pipeline that merges ChatGPT pseudo-labelling with targeted human review to build the first explainable Arabic aspect-based sentiment dataset for healthcare. Each sentence is annotated with an aspect and sentiment label (positive, negative, or neutral), forming a pioneering Arabic dat...

ID: 2508.02574v1 cs.CL, cs.AI, cs.LG, cs.SI

arXiv PDF

📄 MArgE: Meshing Argumentative Evidence from Multiple Large Language Models for Justifiable Claim Verification

2025-08-09

Авторы:

Ming Pok Ng, Junqi Jiang, Gabriel Freedman, Antonio Rago, Francesca Toni

Настоящая работа предлагает MArgE, новую архитектуру для объединения выводов нескольких больших языковых моделей (LLM) при выполнении задачи проверки утверждений. Основная проблема заключается в том, что нынешние методы комбинации выводов нескольких LLMs часто основываются на неструктурированных интеракциях (например, свободных дебатах), что приводит к недостоверной и незащищаемой окончательной ответной модели. Разработанная архитектура MArgE использует ArgLLMs для построения структурированных деревьев аргументов для каждого LLM, чтобы обеспечить прозрачную и доказуемую логику вывода. Экспериментальные исследования показали, что MArgE превосходит открытые LLM модели, включая GPT-4o-mini, а также другие методы для решения этой задачи, демонстрируя преимущество формальных методов аргументированного рассуждения при объединении выводов нескольких LLM.

Annotation:

Leveraging outputs from multiple large language models (LLMs) is emerging as a method for harnessing their power across a wide range of tasks while mitigating their capacity for making errors, e.g., hallucinations. However, current approaches to combining insights from multiple LLMs often involve unstructured interactions (e.g., free debate), resulting in model generations that are not faithfully justifiable. In this work, we introduce MArgE, a novel framework to provide formal structure to the ...

ID: 2508.02584v1 cs.CL, cs.AI

arXiv PDF

📄 Large Reasoning Models Are Autonomous Jailbreak Agents

2025-08-09

Авторы:

Thilo Hagendorff, Erik Derner, Nuria Oliver

Резюме: Опасность атак-якорников (jailbreaking) в AI, заключающаяся в обходе встроенных механизмов безопасности моделей, ранее требовала сложных технических процедур или специализированных навыков. В данном исследовании показано, что большие модели рационального мышления (LRMs) упрощают и расширяют такие атаки, превратив их в доступную даже не для экспертов деятельность. Исследователи оценили возможности четырех LRMs (DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B) в качестве автономных адверсарных субъектов в многослойных диалогах с девятью моделями. Используя системные подсказки, LRMs планировали и выполняли jailbreaks без дополнительного управления. Атаки проводились на бенчмарке из 70 запросов по 7 чувствительным областям. В результате удалось получить успешность атак в 97,14%. Исследование открыло возможность «регрессии вспятия», когда LRMs способны активно сдерживать безопасность других моделей, что требует усилий по улучшению устойчивости моделей и предотвращению их использования для атак.

Annotation:

Jailbreaking -- bypassing built-in safety mechanisms in AI models -- has traditionally required complex technical procedures or specialized human expertise. In this study, we show that the persuasive capabilities of large reasoning models (LRMs) simplify and scale jailbreaking, converting it into an inexpensive activity accessible to non-experts. We evaluated the capabilities of four LRMs (DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B) to act as autonomous adversaries conducting multi-t...

ID: 2508.04039v1 cs.CL, cs.AI, cs.CR

arXiv PDF

📄 Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation

2025-08-09

Авторы:

Radhika Dua, Young Joon, Kwon, Siddhant Dogra, Daniel Freedman, Diana Ruan, Motaz Nashawaty, Danielle Rigau, Daniel Alexander Alber, Kang Zhang, Kyunghyun Cho, Eric Karl Oermann

**Резюме** Авторы предлагают **ICARE** (Interpretable and Clinically-grounded Agent-based Report Evaluation) — инновационный подход для оценки качества автоматически сгенерированных радиологических отчетов. Одной из основных проблем в этой области является отсутствие интерпретируемых метрик, которые бы стабильно отражали грамотность отчета с точки зрения клинической актуальности и точности. ICARE основывается на динамическом методе, использующем вопрос-ответ с помощью LLMs-агентов: каждый агент выступает с двумя версиями отчета (генерируемой и истинной) и проводит клинически содержательный диалог, сравнивая ответы. Это заставляет ICARE выделяться за счет прозрачности и понимаемости его результатов. Испытания на клинических экспертах показали, что ICARE намного более точно отражает их оценки по сравнению с предыдущими методами. Анализы пертурбаций подтвердили результаты как надежные и репродуцируемые. ICARE представляет собой значительный шаг в обеспечении надёжности и точности оценки радиологических отчетов.

Annotation:

Radiological imaging is central to diagnosis, treatment planning, and clinical decision-making. Vision-language foundation models have spurred interest in automated radiology report generation (RRG), but safe deployment requires reliable clinical evaluation of generated reports. Existing metrics often rely on surface-level similarity or behave as black boxes, lacking interpretability. We introduce ICARE (Interpretable and Clinically-grounded Agent-based Report Evaluation), an interpretable evalu...

ID: 2508.02808v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Can LLMs Generate High-Quality Task-Specific Conversations?

2025-08-09

Авторы:

Shengqi Li, Amarnath Gupta

Данная работа предлагает фреймворк для контроля качества диалогов в бо LLM, который определяет 9 ключевых параметров в 6 областях, влияющих на структуру и содержание бесед. Исследование проводилось с использованием современных LLMs, показав возможность значительного улучшения показателей значимости бесед по таким критериям, как последовательность знаний, гранулярность управления и логичность разговора. Это решение делает модели более эффективными в различных сферах, включая образование, терапию, сервис клиентов и развлечения. Основные выводы: универсальный подход к управлению качеством разговоров может повысить адаптацию ботов к конкретным задачам, при этом в дальнейшем планируется расширение фреймворка и создание баз данных для валидации.

Annotation:

This paper introduces a parameterization framework for controlling conversation quality in large language models. We explore nine key parameters across six dimensions that enable precise specification of dialogue properties. Through experiments with state-of-the-art LLMs, we demonstrate that parameter-based control produces statistically significant differences in generated conversation properties. Our approach addresses challenges in conversation generation, including topic coherence, knowledge...

ID: 2508.02931v1 cs.CL, cs.AI

arXiv PDF

📄 Long Story Generation via Knowledge Graph and Literary Theory

2025-08-09

Авторы:

Ge Shi, Kaiyu Huang, Guochen Feng

Работа предлагает новый подход к генерации длинных текстов, ориентированный на улучшение качества творческих рассказов с помощью графов знаний и литературной теории. Основная проблема — выход из темы и неестественность сюжета в существующих методах, основанных на раздельной генерации и оформлении сюжета. Решением является многоагентная система, использующая LLMs в качестве основы. Для предотвращения выхода из темы предложено два уровня памяти: хранения важных моментов на длинном сроке и непосредственного опыта на коротком. Для обеспечения привлекательности сюжета разработана тематическая фреймворк-область, основанная на литературной теории, включающая неопределённые факторы и критерии оценки. Многоагентная система также включает диалогические интеракции для повышения консистентности и логики текста. Результаты показывают, что этот подход способен генерировать более качественные и логичные длинные рассказы по сравнению с предыдущими методами.

Annotation:

The generation of a long story consisting of several thousand words is a sub-task in the field of long text generation~(LTG). Previous research has addressed this challenge through outline-based generation, which employs a multi-stage method for generating outlines into stories. However, this approach suffers from two common issues: almost inevitable theme drift caused by the loss of memory of previous outlines, and tedious plots with incoherent logic that are less appealing to human readers. ...

ID: 2508.03137v1 cs.CL, cs.AI

arXiv PDF

📄 RCP-Merging: Merging Long Chain-of-Thought Models with Domain-Specific Models by Considering Reasoning Capability as Prior

2025-08-09

Авторы:

Junyao Yang, Jianwei Wang, Huiping Zhuang, Cen Chen, Ziqian Zeng

Large Language Models (LLMs) с длинными chain-of-thought (CoT) могут решать сложные задачи за счет многоступенчатого логического рассуждения. Однако объединение таких моделей с domain-specific LLMs часто приводит к ухудшению логической способности и деградации качества результатов. Для решения этой проблемы предложен метод RCP-Merging, основанный на принципе сохранения фундаментальной CoT-способности при мерже domain-specific моделей. Метод использует метрику reasoning capability indicator для оценки и сохранения весов логической модели, при этом активно интегрируя значимые weight-ы domain-specific модели. Эксперименты на моделях Qwen2.5-7B, Llama3.1-8B и Qwen2.5-1.5B в области BioMedicine и Finance показали, что RCP-Merging улучшает task-performance в домене на 9.5% и 9.2% по сравнению с состояниями техники, при этом существенно не снижая CoT-способности. Этот подход проявляет высокую ресурсоэффективность и широкую применимость для создания моделей совмещающих общий и доменный знания.

Annotation:

Large Language Models (LLMs) with long chain-of-thought (CoT) capability, termed Reasoning Models, demonstrate superior intricate problem-solving abilities through multi-step long CoT reasoning. To create a dual-capability model with long CoT capability and domain-specific knowledge without substantial computational and data costs, model merging emerges as a highly resource-efficient method. However, significant challenges lie in merging domain-specific LLMs with long CoT ones since nowadays mer...

ID: 2508.03140v1 cs.CL, cs.AI

arXiv PDF

Показано 1971 - 1980 из 2042 записей