📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Toward a Trustworthy Optimization Modeling Agent via Verifiable Synthetic Data Generation

2025-08-09

Авторы:

Vinicius Lima, Dzung T. Phan, Jayant Kalagnanam, Dhaval Patel, Nianjun Zhou

Мы предлагаем рамку для обучения надежных генеративных моделей языка, нацеленных на моделирование задач оптимизации. Наш подход основывается на систематическом генерировании верифицированных синтетических данных, обеспечивающих доказательство качества моделей. Он охватывает линейную и смешанную линейную программу оптимизации, начиная от символических представлений и заканчивая текстовыми описаниями, математическими моделями и программным кодом, выполнимым средствами оптимизации. Таким образом, каждая демонстрация гарантированно имеет истинное решение, что позволяет автоматически отфильтровывать низкокачественные примеры. Мы представляем OptiTrust — модульный генеративный агент, который переводит задачи из естественного языка в готовый код для оптимизации, используя проверенные демонстрации и методы мульти-моделирования. Наш агент показал самый высокий результат на шести из семи бенчмарковых наборов, превосходя следующую модель на 8% в трех случаях. Мы предоставляем проверенный подход к созданию надежных генеративных моделей для решения реальных задач оптимизации.

Annotation:

We present a framework for training trustworthy large language model (LLM) agents for optimization modeling via a verifiable synthetic data generation pipeline. Focusing on linear and mixed-integer linear programming, our approach begins with structured symbolic representations and systematically produces natural language descriptions, mathematical formulations, and solver-executable code. By programmatically constructing each instance with known optimal solutions, the pipeline ensures full veri...

ID: 2508.03117v1 cs.AI

arXiv PDF

📄 Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback

2025-08-09

Авторы:

Jingyi Chen, Ju Seung Byun, Micha Elsner, Pichao Wang, Andrew Perrault

**Резюме** Проблема. Диффузионные модели генерации речи (TTS) обеспечивают высокое качество звука, но их работа неэффективна в реальном времени из-за длительных денойзинг-шагов и сложности моделирования интонации и ритма. Решение. Мы предлагаем Diffusion Loss-Guided Policy Optimization (DLPO), фреймворк RLHF для TTS-диффузионных моделей. DLPO интегрирует исходный функционал обучения в функцию награды, сохраняя порождающие способности модели и оптимизируя её работу. Обучение происходит с использованием естественности речи в качестве отзывов. Основные выводы. На модели WaveGrad 2 DLPO показал улучшение в объективных метриках (UTMOS 3.65, NISQA 4.02) и подверждался предпочтению человеческого слушателя в 67% случаев. Это демонстрирует перспективу DLPO для эффективной и качественной генерации речи в реальном времени.

Annotation:

Diffusion models produce high-fidelity speech but are inefficient for real-time use due to long denoising steps and challenges in modeling intonation and rhythm. To improve this, we propose Diffusion Loss-Guided Policy Optimization (DLPO), an RLHF framework for TTS diffusion models. DLPO integrates the original training loss into the reward function, preserving generative capabilities while reducing inefficiencies. Using naturalness scores as feedback, DLPO aligns reward optimization with the di...

ID: 2508.03123v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Attack the Messages, Not the Agents: A Multi-round Adaptive Stealthy Tampering Framework for LLM-MAS

2025-08-09

Авторы:

Bingyu Yan, Ziyi Zhou, Xiaoming Zhang, Chaozhuo Li, Ruilin Zeng, Yirui Qi, Tianbo Wang, Litian Zhang

**Резюме** В данной работе рассматривается проблема уязвимости коммуникационных каналов в Large Language Model-based Multi-Agent Systems (LLM-MAS), которые эффективно решают сложные и динамические задачи через интерактивное взаимодействие между агентами. Однако эти системы чрезвычайно восприимчивы к атакам, направленным на токсичность сообщений или напрямую направленные подделки, которые либо проявляются слишком очевидно, либо ограничиваются локальным воздействием. Мы предлагаем Multi-round Adaptive Stealthy Tampering (MAST), фреймворк, основанный на Monte Carlo Tree Search с использованием Direct Preference Optimization для обучения адаптивной политики атак, которая эффективно и легко заметно меняет логику коммуникации. Для сохранения стелсности применяются ограничения на семантическую и векторно-семантическую близость сообщений. Эксперименты показали, что MAST обеспечивает высокую эффективность атак с увеличенной стелсностью по сравнению с базовыми методами. Эти результаты подчеркивают важность создания эффективных механизмов безопасности коммуникаций в LLM-MAS.

Annotation:

Large language model-based multi-agent systems (LLM-MAS) effectively accomplish complex and dynamic tasks through inter-agent communication, but this reliance introduces substantial safety vulnerabilities. Existing attack methods targeting LLM-MAS either compromise agent internals or rely on direct and overt persuasion, which limit their effectiveness, adaptability, and stealthiness. In this paper, we propose MAST, a Multi-round Adaptive Stealthy Tampering framework designed to exploit communica...

ID: 2508.03125v1 cs.CR, cs.AI, cs.MA

arXiv PDF

📄 Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery

2025-08-09

Авторы:

Sai Ma, Zhuang Li, John A Taylor

Landsat30-AU — это крупномасштабный датасет для семантического понимания данных спутниковой съемки, сфокусированный на 30-метровом разрешении Landsat (5, 7, 8, 9) для Австралии за 36+ лет. Он включает две части: Landsat30-AU-Cap с 196,262 парами изображения-текст и Landsat30-AU-VQA с 17,725 визуальных задач вопроса-ответа (VQA), подтвержденными людьми. Датасет создан через итеративный процесс с использованием VLMs и ручной проверкой. Результаты нашего эксперимента показывают, что в спутниковой съемке существуют затруднения в понимании, даже с использованием существующих VLMs, в том числе EarthDial. Однако легкий файнтюнинг Qwen2.5-VL-7B на Landsat30-AU улучшил качество полученных ответов, что подтверждает потенциал таких подходов для дальнейшего оптимизации. Данные и код доступны на GitHub.

Annotation:

Vision language models (VLMs) that enable natural language interaction with satellite imagery can democratize Earth observation by accelerating expert workflows, making data accessible to non-specialists, and enabling planet-scale automation. However, existing datasets focus mainly on short-term, high-resolution imagery from a limited number of satellites, overlooking low-resolution, multi-satellite, long-term archives, such as Landsat, that are essential for affordable and bias-robust global mo...

ID: 2508.03127v2 cs.CV, cs.AI

arXiv PDF

📄 Long Story Generation via Knowledge Graph and Literary Theory

2025-08-09

Авторы:

Ge Shi, Kaiyu Huang, Guochen Feng

Работа предлагает новый подход к генерации длинных текстов, ориентированный на улучшение качества творческих рассказов с помощью графов знаний и литературной теории. Основная проблема — выход из темы и неестественность сюжета в существующих методах, основанных на раздельной генерации и оформлении сюжета. Решением является многоагентная система, использующая LLMs в качестве основы. Для предотвращения выхода из темы предложено два уровня памяти: хранения важных моментов на длинном сроке и непосредственного опыта на коротком. Для обеспечения привлекательности сюжета разработана тематическая фреймворк-область, основанная на литературной теории, включающая неопределённые факторы и критерии оценки. Многоагентная система также включает диалогические интеракции для повышения консистентности и логики текста. Результаты показывают, что этот подход способен генерировать более качественные и логичные длинные рассказы по сравнению с предыдущими методами.

Annotation:

The generation of a long story consisting of several thousand words is a sub-task in the field of long text generation~(LTG). Previous research has addressed this challenge through outline-based generation, which employs a multi-stage method for generating outlines into stories. However, this approach suffers from two common issues: almost inevitable theme drift caused by the loss of memory of previous outlines, and tedious plots with incoherent logic that are less appealing to human readers. ...

ID: 2508.03137v1 cs.CL, cs.AI

arXiv PDF

📄 RCP-Merging: Merging Long Chain-of-Thought Models with Domain-Specific Models by Considering Reasoning Capability as Prior

2025-08-09

Авторы:

Junyao Yang, Jianwei Wang, Huiping Zhuang, Cen Chen, Ziqian Zeng

Large Language Models (LLMs) с длинными chain-of-thought (CoT) могут решать сложные задачи за счет многоступенчатого логического рассуждения. Однако объединение таких моделей с domain-specific LLMs часто приводит к ухудшению логической способности и деградации качества результатов. Для решения этой проблемы предложен метод RCP-Merging, основанный на принципе сохранения фундаментальной CoT-способности при мерже domain-specific моделей. Метод использует метрику reasoning capability indicator для оценки и сохранения весов логической модели, при этом активно интегрируя значимые weight-ы domain-specific модели. Эксперименты на моделях Qwen2.5-7B, Llama3.1-8B и Qwen2.5-1.5B в области BioMedicine и Finance показали, что RCP-Merging улучшает task-performance в домене на 9.5% и 9.2% по сравнению с состояниями техники, при этом существенно не снижая CoT-способности. Этот подход проявляет высокую ресурсоэффективность и широкую применимость для создания моделей совмещающих общий и доменный знания.

Annotation:

Large Language Models (LLMs) with long chain-of-thought (CoT) capability, termed Reasoning Models, demonstrate superior intricate problem-solving abilities through multi-step long CoT reasoning. To create a dual-capability model with long CoT capability and domain-specific knowledge without substantial computational and data costs, model merging emerges as a highly resource-efficient method. However, significant challenges lie in merging domain-specific LLMs with long CoT ones since nowadays mer...

ID: 2508.03140v1 cs.CL, cs.AI

arXiv PDF

📄 Who is a Better Player: LLM against LLM

2025-08-09

Авторы:

Yingjie Zhou, Jiezhang Cao, Farong Wen, Li Xu, Yanwei Jiang, Jun Jia, Ronghui Li, Xiaohong Liu, Yu Zhou, Xiongkuo Min, Jie Guo, Zicheng Zhang, Guangtao Zhai

**Резюме** В статье предлагается инновационный подход к оценке технических и психологических качеств Large Language Models (LLMs) с помощью игр на адверсарной борде. Авторы представили Qi Town — платформу, позволяющую проводить турниры между 20 LLM-драйвенными игроками в 5 предпочитаемых играх. Используя Elo-систему и уникальный Performance Loop Graph (PLG), авторы измеряют технические навыки игроков и оценивают их ментальную устойчивость с помощью Positive Sentiment Score (PSS). Основные результаты показывают, что LLMs демонстрируют высокую адаптивность в высокоситуационных играх, часто оказываясь более стабильными по отношению к психологической реакции, чем люди. Однако PLG выявил некоторую нестабильность в их стратегической игре, что требует дальнейшего исследования. Эти результаты открывают путь к более глубокому пониманию характера LLM-игр и их будущих развитий.

Annotation:

Adversarial board games, as a paradigmatic domain of strategic reasoning and intelligence, have long served as both a popular competitive activity and a benchmark for evaluating artificial intelligence (AI) systems. Building on this foundation, we propose an adversarial benchmarking framework to assess the comprehensive performance of Large Language Models (LLMs) through board games competition, compensating the limitation of data dependency of the mainstream Question-and-Answer (Q&A) based benc...

ID: 2508.04720v1 cs.AI

arXiv PDF

📄 Frontier: Simulating the Next Generation of LLM Inference Systems

2025-08-09

Авторы:

Yicheng Feng, Xin Tan, Kin Hang Sew, Yimin Jiang, Yibo Zhu, Hong Xu

**Резюме** С появлением Mixture-of-Experts (MoE) моделей и распределенных архитектур, таких как разделение префилла и декодирования (PD) или аттенции и FFN (AF), интерпретировать и оптимизировать LLM-инференс стало сложнее. Традиционные симуляторы, разработанные для колоколонокных моделей, не могут адекватно описывать сложные системные динамики новых архитектур. Мы предлагаем систему Frontier, разработанную специально для моделирования систем с новыми парадигмами LLM-инференса. Frontier предлагает унифицированный фреймворк для моделирования колоколоночных и распределенных систем, включая MoE-инференс с экспертной параллелизмой. Он поддерживает моделирование сложных рабочих процессов, таких как кросс-кластерный роутинг экспертов и расширенные стратегии пайплайнинга. Для повышения точности и удобства Frontier включает усовершенствованные модели операторов. Это система, которая позволяет комьюнити разрабатывать и оптимизировать будущее технологий для LLM-инференса в масштабах.

Annotation:

Large Language Model (LLM) inference is growing increasingly complex with the rise of Mixture-of-Experts (MoE) models and disaggregated architectures that decouple components like prefill/decode (PD) or attention/FFN (AF) for heterogeneous scaling. Existing simulators, architected for co-located, dense models, are unable to capture the intricate system dynamics of these emerging paradigms. We present Frontier, a high-fidelity simulator designed from the ground up for this new landscape. Frontier...

ID: 2508.03148v1 cs.LG, cs.AI, cs.DC

arXiv PDF

📄 Can Large Language Models Bridge the Gap in Environmental Knowledge?

2025-08-09

Авторы:

Linda Smail, David Santandreu Calonge, Firuz Kamalov, Nur H. Orak

**Резюме** В статье Can Large Language Models Bridge the Gap in Environmental Knowledge? рассматривается возможность искусственных нейронных сетей (LLMs) устранить пробелы в знаниях о экологии студентов университетов. Исследование оценивает познавательную эффективность таких моделей, как GPT-3.5, GPT-4, GPT-4o, Gemini, Claude Sonnet и Llama 2, в контексте окружающих проблем. Это сделано с помощью стандартизированного теста Environmental Knowledge Test (EKT-19) и дополнительных вопросов, которые позволили сравнить ответы студентов и AI-моделей. Основной вывод заключается в том, что AI модели обладают богатой базой знаний, которая может стать ресурсом для обучения и развития в этой области. Однако необходима человеческая экспертиза в области экологии для проверки информации. Вывод: AI может упростить процесс обучения, но не заменяет профессионального знания в этой области.

Annotation:

This research investigates the potential of Artificial Intelligence (AI) models to bridge the knowledge gap in environmental education among university students. By focusing on prominent large language models (LLMs) such as GPT-3.5, GPT-4, GPT-4o, Gemini, Claude Sonnet, and Llama 2, the study assesses their effectiveness in conveying environmental concepts and, consequently, facilitating environmental education. The investigation employs a standardized tool, the Environmental Knowledge Test (EKT...

ID: 2508.03149v1 cs.AI

arXiv PDF

📄 Estimating Worst-Case Frontier Risks of Open-Weight LLMs

2025-08-09

Авторы:

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Заголовок: Оценка худшего сценария рисков от общедоступных грандиозных языковых моделей Аннотация: В статье рассматривается оценка худшего сценария рисков, связанных с релизом модели gpt-oss. Авторы представляют метод мальтинтенционного оточения (Malicious Fine-Tuning, MFT), нацеленный на максимизацию возможностей модели gpt-oss в сферах биологии и кибербезопасности. Для этого используются задачи, связанные с рисками создания угроз в биологии и задачи компьютерного кодирования в сфере безопасности. Результаты показывают, что MFT-модели gpt-oss менее эффективны по сравнению с существующими открытыми моделями в области биориска и кибербезопасности. Тем не менее, при маргинальном увеличении биориска, модель не значительно повышает риски в других сферах. Эти выводы подкрепляют решение авторов о релизе модели и предлагают подход MFT в качестве метода для оценки рисков от будущих релизов.

Annotation:

In this paper, we study the worst-case frontier risks of releasing gpt-oss. We introduce malicious fine-tuning (MFT), where we attempt to elicit maximum capabilities by fine-tuning gpt-oss to be as capable as possible in two domains: biology and cybersecurity. To maximize biological risk (biorisk), we curate tasks related to threat creation and train gpt-oss in an RL environment with web browsing. To maximize cybersecurity risk, we train gpt-oss in an agentic coding environment to solve capture-...

ID: 2508.03153v1 cs.LG, cs.AI

arXiv PDF

1
2
1442
1443
1444
1445
1446
1482
1483

Показано 14431 - 14440 из 14827 записей