📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Raymond Wilson, Cole Graham, Chase Carter, Zefeng Yang, Ruiqi Gu

**Резюме** В условиях информационного избытка актуальной проблемой является создание персонализированных новостных заголовков, которые были бы точными с точки зрения фактической информации и соответствовали предпочтениям конечного пользователя. Основные проблемы нынешних подходов заключаются в слабых способностях перехватывать сложные интересы пользователей и поддерживать фактическую точность, что приводит к сгенерированным генирическим или неточным заголовкам. В статье предлагается CAP-LLM — новый подход, основанный на использовании мощных технологий Large Language Models (LLMs) и интегрирующий в себя модель предпочтений пользователя, адаптированный для улучшения генерируемых заголовков. CAP-LLM включает в себя User Preference Encoder для понимания долгосрочных интересов пользователя, Context Injection Adapter для интеграции этих предпочтений и текстового контекста новостной статьи, а также Fact-Consistency Reinforcement Module для борьбы с затуханием фактической информации с помощью настроенного контрастивного потери. На реальном датасете PENS CAP-LLM достигает лучших результатов по всем метрикам, в том числе по фактической точности (FactCC 87.50) и персонализации (Pc(avg) 2.73, Pc(max) 17.25). Абляционные исследования и контрольные эксперименты подтверждают эффективность всех компонентов этой модели, демонстрируя ее способность достигать гармоничного баланса между персонализацией и точностью заголовков.
Annotation:
In the era of information overload, personalized news headline generation is crucial for engaging users by tailoring content to their preferences while accurately conveying news facts. Existing methods struggle with effectively capturing complex user interests and ensuring factual consistency, often leading to generic or misleading headlines. Leveraging the unprecedented capabilities of Large Language Models (LLMs) in text generation, we propose Context-Augmented Personalized LLM (CAP-LLM), a no...
ID: 2508.03935v1 cs.CL
Авторы:

Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang

Развитие AI-драйвенных кодинг-ассистентов, таких как GitHub Copilot, достигает новых высот, но их безопасность в высокорисковых сферах, таких как кибербезопасность, остается нерешительной. Большинство существующих средств red-teaming ограничены фиксированными бенчмарками или артефактами, не отражающими реальных сценариев использования. Мы представляем ASTRA — систему автоматизированных агентов, разработанную для точечного выявления уязвимостей в AI-системах кода и рекомендаций по безопасности. ASTRA работает в трех этапах: строит доменно-специфические знаний-графы для моделирования задач и известных уязвимостей, проводит онлайн-выявление уязвимостей через спациальную и темпоральную проверку взаимодействия модели, и генерирует реалистичные, воздействующие на эффективность тестовые случаи. В отличие от предыдущих подходов, ASTRA использует реалистичные запросы разработчиков и оптимизирует знаний-графы в реальном времени. Оно выявило 11–66% больше уязвимостей по сравнению с конкурентами и улучшило обучение модели на 17%, демонстрируя свою практическую значимость для улучшения безопасности AI-систем.
Annotation:
AI coding assistants like GitHub Copilot are rapidly transforming software development, but their safety remains deeply uncertain-especially in high-stakes domains like cybersecurity. Current red-teaming tools often rely on fixed benchmarks or unrealistic prompts, missing many real-world vulnerabilities. We present ASTRA, an automated agent system designed to systematically uncover safety flaws in AI-driven code generation and security guidance systems. ASTRA works in three stages: (1) it builds...
ID: 2508.03936v1 cs.CR, cs.CL, cs.LG, cs.SE
Авторы:

Md Arafat Sultan, Ramón Fernandez Astudillo

Многие задачи в области современного AI, такие как рассуждения по цепочке мыслей (chain-of-thought reasoning), требуют выделения большого числа токенов, что делает их применение в реальной жизни трудоемким. Одним из таких методов является self-consistency, который, несмотря на свою эффективность, требует значительных вычислительных ресурсов. В статье предлагается новый подход, называемый Confidence-Weighted Token Set Cover, для эффективного уменьшения необходимого числа токенов посредством раннего отбраковки ненужных гипотез. Решение основывается на двух простых признаках: достоверности модели в отношении гипотез и лексическом покрытии всех гипотез доступных вариантов. Авторы предлагают алгоритм, похожий на весовый метод покрытия множеств, который оптимально использует эти признаки. На пяти моделях глубокого обучения и трем бенчмаркам по математике показано, что предложенный подход улучшает эффективность использования токенов на 10–35% в многих случаях. Это демонстрирует перспективу применения нового метода в реальных задачах, где необходимо оптимизировать затраты на токены.
Annotation:
Despite its simplicity and efficacy, the high token expenditure of self-consistency can limit its practical utility. Here we investigate if self-consistency can be made more token-efficient for long chain-of-thought reasoning tasks, while preserving its parallelism, through early hypothesis pruning. Concretely, we generate all solutions in parallel, but periodically prune intermediate hypotheses that are deemed unnecessary based on two lightweight indicators: (a) the model's own confidence in in...
ID: 2508.03979v1 cs.CL
Авторы:

Xinyu Zhao, Zhen Tan, Maya Enisman, Minjae Seo, Marta R. Durantini, Dolores Albarracin, Tianlong Chen

Известно, что успешные коллективные мероприятия, такие как программы по изменению поведения, рабочие собрания и другие социальные контексты, должны способствовать личной концентрации, достижению целей и укреплению социальных связей. Однако фасилитаторы часто сталкиваются с трудностями в понимании социальных динамик, что влечет за собой необходимость разработки технологий, помогающих интерпретировать социальные взаимодействия. Мы предлагаем решение в виде социального робота-ко-фасилитатора, который анализирует мультимодальные данные совещаний и дает роботовские рекомендации фасилитатору. Фундаментальной особенностью этой системы является использование агентной модели концептных бутленков (CBM), основанной на человекочитаемых понятиях, таких как уровень участия и эмоциональные отзывы участников. Мы предлагаем рам框 работы для передачи экспертных моделей человеческого мышления в интерпретируемую роботовскую модель. Наши результаты показывают, что модель превосходно предсказывает необходимость вмешательства, а также обеспечивает гибкость в реальном времени. Благодаря этому, модель успешно распространяет навыки экспертов на новичков и повышает их эффективность в социальных задачах.
Annotation:
Successful group meetings, such as those implemented in group behavioral-change programs, work meetings, and other social contexts, must promote individual goal setting and execution while strengthening the social relationships within the group. Consequently, an ideal facilitator must be sensitive to the subtle dynamics of disengagement, difficulties with individual goal setting and execution, and interpersonal difficulties that signal a need for intervention. The challenges and cognitive load e...
ID: 2508.03998v1 cs.CL
Авторы:

Fengran Mo, Jinghan Zhang, Yuchen Hui, Jia Ao Sun, Zhichao Xu, Zhan Su, Jian-Yun Nie

**Резюме** В этой работе предлагается ConvMix, новая методология для датуинга в области конверзационного поиска. Основная проблема, которую рассматривают авторы, заключается в нехватке данных для обучения моделей конверзационного поиска. Авторы предложили ConvMix — мультикритерийную систему датуинга, которая расширяет подходы, используемые ранее. За счет применения больших языковых моделей, фреймворк ConvMix позволяет расширить датасеты с помощью двустороннего апгрейда релятивизации, обеспечивая большую модельность в задаче и ряд механизмов качественного контроля, чтобы получить разнообразные и хорошо сбалансированные данные для обучения. Эксперименты проводились на пяти стандартных бенчмарках, показав, что модель, обученная с помощью ConvMix, существенно превосходит другие базовые модели по метрикам качества. Таким образом, ConvMix демонстрирует свою эффективность и значимость в решении проблемы нехватки данных в конверзационном поиске.
Annotation:
Conversational search aims to satisfy users' complex information needs via multiple-turn interactions. The key challenge lies in revealing real users' search intent from the context-dependent queries. Previous studies achieve conversational search by fine-tuning a conversational dense retriever with relevance judgments between pairs of context-dependent queries and documents. However, this training paradigm encounters data scarcity issues. To this end, we propose ConvMix, a mixed-criteria framew...
ID: 2508.04001v1 cs.IR, cs.CL
Авторы:

Jiabing Yang, Yixiang Chen, Zichen Wen, Chenhang Cui, Peiyan Li, Yuan Xu, Bowen Fang, Yan Huang, Liang Wang

**Резюме** Controllable Text Generation (CTG) — важный подход в NLP, стремится генерировать текст, соответствующий заданным атрибутам. Однако существующие методы, ориентированные на короткие последовательности, мало рассматривают проблему генерирования длинных текстов. В статье предлагается новый подход DTPA, основанный на Air-Decoding, для решения этой проблемы. Авторы выявили, что снижается управляемость текста с увеличением длины последовательности, что связано с уменьшением внимания к префиксам. DTPA улучшает управляемость длинных текстов, используя динамическую акцентирование префиксов, обеспечивая более сильное влияние на атрибутные распределения. Также используется улучшение предложенных задач и опциональное управление первоначальным текстом для сбалансированной генерации. Эксперименты показывают, что DTPA существенно превосходит другие методы по управляемости, сохраняя высокую читаемость, разнообразие и тематическую привязку. Особо выгоден DTPA в генерации длинных текстов.
Annotation:
Controllable Text Generation (CTG) is a vital subfield in Natural Language Processing (NLP), aiming to generate text that aligns with desired attributes. However, previous studies commonly focus on the quality of controllable text generation for short sequences, while the generation of long-form text remains largely underexplored. In this paper, we observe that the controllability of texts generated by the powerful prefix-based method Air-Decoding tends to decline with increasing sequence length...
ID: 2508.04047v1 cs.CL
Авторы:

Wang Chen, Guanqiang Qi, Weikang Li, Yang Li, Deguo Xia, Jizhou Huang

**Резюме** В статье предлагается PAIRS, новая стратегия для Retrieval-Augmented Generation (RAG), способная улучшить его эффективность и точность. Основная проблема, решаемая PAIRS, состоит в двух аспектах: неэффективном использовании внешней информации для простых запросов и риске получения неподходящих документов при недостатке информационных признаков в запросе. Решением становится концепция Parametric-verified Adaptive Information Retrieval and Selection, которая включает два подхода: 1) двухканальная процедура генерации — LLM создает ответы как на основе внешних документов, так и самостоятельно, и 2) Adaptive Information Selection, которая позволяет выбирать документы с учетом их взаимных сходств. Таким образом, PAIRS может полностью обойти внешнюю поисковую систему для простых запросов и улучшить точность для сложных, при этом сократив вычислительные затраты на 25%. Оценка на шести бенчмарках показала, что PAIRS улучшает метрики Exact Match (+1.1%) и F1 (+1.0%) по сравнению с базовыми моделями.
Annotation:
Retrieval-Augmented Generation (RAG) has become a cornerstone technique for enhancing large language models (LLMs) with external knowledge. However, current RAG systems face two critical limitations: (1) they inefficiently retrieve information for every query, including simple questions that could be resolved using the LLM's parametric knowledge alone, and (2) they risk retrieving irrelevant documents when queries contain sparse information signals. To address these gaps, we introduce Parametric...
ID: 2508.04057v1 cs.CL
Авторы:

Julián Camilo Velandia Gutiérrez

Большие языковые модели (LLMs) являются мощными инструментами в AI, но их развертывание сталкивается с ограничениями при ресурсах и ограниченных знаниях. Данная работа предлагает стратегию для улучшения эффективности LLMs с помощью оптимизации данных, обучения и моделирования. Основываясь на магистерской работе, автор определил критерии для сбора надежных данных, проверил различные конфигурации и методы обучения, а также измерил результаты по критериям качества, скорости ответа и безопасности. Эксперименты показали, что сочетание стратегического датасета с уточненными методами моделирования позволяет повысить эффективность LLMs в ресурсозависимых средах и в условиях ограниченных знаний. Эти результаты подтверждают возможность создания более эффективных и безопасных моделей с помощью целенаправленного подхода.
Annotation:
Large Language Models (LLMs) have become a milestone in the field of artificial intelligence and natural language processing. However, their large-scale deployment remains constrained by the need for significant computational resources. This work proposes starting from a base model to explore and combine data processing and careful data selection techniques, training strategies, and architectural adjustments to improve the efficiency of LLMs in resource-constrained environments and within a deli...
ID: 2508.04073v1 cs.CL, cs.LG, I.2.7; I.2.6; I.5.1
Авторы:

Zhongyi Zhou, Kohei Uehara, Haoyu Zhang, Jingtao Zhou, Lin Gu, Ruofei Du, Zheng Xu, Tatsuya Harada

Многие работы, стремящиеся создавать данные для обучения моделей по работе с инструментами, используют последовательный подход: сначала генерируется запрос пользователя, а затем добавляются сложные заметки об использовании инструментов (например, с помощью DFS). Это приводит к высоким затратам и несовершенству генерируемых данных. В статье предлагается инверсный подход: ToolGrad, использующий "текстовые градиенты" для построения корректных цепочек использования инструментов, а затем генерирует соответствующие запросы пользователя. Таким образом, генерируются качественные данные с повышенной эффективностью и низкой стоимостью. Генерируемый набор данных ToolGrad-5k демонстрирует успех моделей, обученных на нем, при сравнении с базовыми данными и проприетарными глубокими нейросетевыми моделями, в том числе на неизвестных наборах данных (OOD).
Annotation:
Prior work synthesizes tool-use LLM datasets by first generating a user query, followed by complex tool-use annotations like DFS. This leads to inevitable annotation failures and low efficiency in data generation. We introduce ToolGrad, an agentic framework that inverts this paradigm. ToolGrad first constructs valid tool-use chains through an iterative process guided by textual "gradients", and then synthesizes corresponding user queries. This "answer-first" approach led to ToolGrad-5k, a datase...
ID: 2508.04086v1 cs.CL
Авторы:

Jianghangfan Zhang, Yibo Yan, Kening Zheng, Xin Zou, Song Dai, Xuming Hu

Multimodal Large Language Models (MLLMs) показывают выдающиеся возможности при многомодальном обработке, но сталкиваются с трудностями в выполнении сложных многошаговых задач математического рассуждения. Ошибки в визуальном исследовании или логических выводах могут приводить к неверным результатам. Для улучшения качества решений, авторы предлагают Generative Multimodal Process Reward Model (GM-PRM) — новую модель, превращающую Process Reward Model (PRM) из простого оценщика в активного участника процесса решения. GM-PRM не только выявляет заведомо неверные шаги, но и предлагает их корректировку, что дает новый подход к интерпретации и улучшению решений. Эта модель была проверена на нескольких многомодальных математических бенчмарках, где она демонстрирует существенный показатель улучшения тестирующей модели с минимальным объёмом обучающих данных (20K семплов). Это решение имеет большое значение для работы MLLMs в задачах, требующих точности и высокой объёмности вывода.
Annotation:
Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities but often struggle with complex, multi-step mathematical reasoning, where minor errors in visual perception or logical deduction can lead to complete failure. While Process Reward Models (PRMs) offer step-by-step supervision, existing multimodal PRMs are limited to being binary verifiers that can identify but not correct errors, offering little explanatory power. To address these deficiencies, we introduce the Generativ...
ID: 2508.04088v2 cs.CL
Показано 7311 - 7320 из 7506 записей