📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MegaChat: A Synthetic Persian Q&A Dataset for High-Quality Sales Chatbot Evaluation

2025-12-02

Авторы:

Mahdi Rahmani, AmirHossein Saffari, Reyhane Rahmani

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Small and medium-sized enterprises (SMEs) in Iran increasingly leverage Telegram for sales, where real-time engagement is essential for conversion. However, developing AI-driven chatbots for this purpose requires large, high-quality question-and-answer (Q&A) datasets, which are typically expensive and resource-intensive to produce, especially for low-resource languages like Persian. In this paper, we introduce MegaChat, the first fully synthetic Persian Q&A dataset designed to evaluate intellige...

ID: 2511.23397v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 iMAD: Intelligent Multi-Agent Debate for Efficient and Accurate LLM Inference

2025-11-17

Авторы:

Wei Fan, JinYi Yoon, Bo Ji

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Model (LLM) agent systems have advanced rapidly, driven by their strong generalization in zero-shot settings. To further enhance reasoning and accuracy on complex tasks, Multi-Agent Debate (MAD) has emerged as a promising framework that engages multiple LLM agents in structured debates to encourage diverse reasoning. However, triggering MAD for every query is inefficient, as it incurs substantial computational (token) cost and may even degrade accuracy by overturning correct singl...

ID: 2511.11306v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 Adaptive Multi-Agent Response Refinement in Conversational Systems

2025-11-15

Авторы:

Soyeong Jeong, Aparna Elangovan, Emine Yilmaz, Oleg Rokhlenko

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) have demonstrated remarkable success in conversational systems by generating human-like responses. However, they can fall short, especially when required to account for personalization or specific knowledge. In real-life settings, it is impractical to rely on users to detect these errors and request a new response. One way to address this problem is to refine the response before returning it to the user. While existing approaches focus on refining responses within a ...

ID: 2511.08319v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 The Geometry of Dialogue: Graphing Language Models to Reveal Synergistic Teams for Multi-Agent Collaboration

2025-11-01

Авторы:

Kotaro Furuya, Yuichi Kitagawa

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

While a multi-agent approach based on large language models (LLMs) represents a promising strategy to surpass the capabilities of single models, its success is critically dependent on synergistic team composition. However, forming optimal teams is a significant challenge, as the inherent opacity of most models obscures the internal characteristics necessary for effective collaboration. In this paper, we propose an interaction-centric framework for automatic team composition that does not require...

ID: 2510.26352v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 BenCao: An Instruction-Tuned Large Language Model for Traditional Chinese Medicine

2025-10-22

Авторы:

Jiacheng Xie, Yang Yu, Yibo Chen, Hanyao Zhang, Lening Zhao, Jiaxuan He, Lei Jiang, Xiaoting Tang, Guanghui An, Dong Xu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Traditional Chinese Medicine (TCM), with a history spanning over two millennia, plays a role in global healthcare. However, applying large language models (LLMs) to TCM remains challenging due to its reliance on holistic reasoning, implicit logic, and multimodal diagnostic cues. Existing TCM-domain LLMs have made progress in text-based understanding but lack multimodal integration, interpretability, and clinical applicability. To address these limitations, we developed BenCao, a ChatGPT-based mu...

ID: 2510.17415v1 cs.CL, cs.AI, cs.MA, cs.MM, cs.SE

arXiv PDF

📄 MedAgentAudit: Diagnosing and Quantifying Collaborative Failure Modes in Medical Multi-Agent Systems

2025-10-15

Авторы:

Lei Gu, Yinghao Zhu, Haoran Sang, Zixiang Wang, Dehao Sui, Wen Tang, Ewen Harrison, Junyi Gao, Lequan Yu, Liantao Ma

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

While large language model (LLM)-based multi-agent systems show promise in simulating medical consultations, their evaluation is often confined to final-answer accuracy. This practice treats their internal collaborative processes as opaque "black boxes" and overlooks a critical question: is a diagnostic conclusion reached through a sound and verifiable reasoning pathway? The inscrutable nature of these systems poses a significant risk in high-stakes medical applications, potentially leading to f...

ID: 2510.10185v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 CLARITY: Clinical Assistant for Routing, Inference, and Triage

2025-10-07

Авторы:

Vladimir Shaposhnikov, Aleksandr Nesterov, Ilia Kopanichuk, Ivan Bakulin, Egor Zhelvakov, Ruslan Abramov, Ekaterina Tsapieva, Dmitry V. Dylov, Ivan Oseledets

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present CLARITY (Clinical Assistant for Routing, Inference, and Triage), an AI-driven platform designed to facilitate patient-to-specialist routing, clinical consultations, and severity assessment of patients' conditions. Its hybrid architecture combines a Finite State Machine (FSM) for structured dialogue flows with collaborative agents that employ Large Language Model (LLM) to analyze symptoms and prioritize referrals to appropriate specialists. Built on a modular microservices framework, C...

ID: 2510.02463v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

2025-10-04

Авторы:

He Zhang, Anzhou Zhang, Jian Dai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Reasoning protocols such as Chain of Thought (CoT) and Tree of Thought (ToT) organize internal deliberation but lack an explicit mechanism for external questioning that elicits self-revision. We present FOR-Prompting (From Objection to Revision Prompting), an asymmetric protocol where a Defender proposes an answer, an Objectioner raises question-style objections with no direct fixes, and a Host enforces consistency and closure. On GSM8K we observe about a 22% point gain over single-prompt and ac...

ID: 2510.01674v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents

2025-09-20

Авторы:

Weiting Tan, Xinghua Qu, Ming Tu, Meng Ge, Andy T. Liu, Philipp Koehn, Lu Lu

## Контекст Проблема обучения интерактивных агентов к инструментальному использованию, которое требует многократного планирования и управления многообразными многослойными диалогами, остается актуальной в современных искусственных интеллектах. Агенты должны решать трудные задачи, в которых необходимо оптимизировать многошаговые цепочки действий, а также использовать разнообразные сигналы, такие как текст и речь, для эффективного взаимодействия. Несмотря на развитие методов подкрепления, создание таких агентов остается сложной задачей из-за сложности выбора приёмных методов и структуры обучения. Мы предлагаем исследовать этот вопрос с применением метода подкрепления, учитывающего процесс решения задач и интегрирующего несколько модальностей взаимодействия. ## Метод Предлагаемая методология, Turn-level Adjudicated Reinforcement Learning (TARL), предполагает использование Large Language Model (LLM) для оценки каждого шага обучения. LLM действует как "судья", анализируя результаты каждого шага и предоставляя видео-роллаут с различными вариантами действий в течение многократных циклов. Это позволяет агенту учитывать множество возможных комбинаций при выборе следующего шага. Для улучшения эксплорейшена внедрено множество задач, включая математические задачи, которые обеспечивают накопление опыта и развитие логического мышления. Архитектура обучения включает в себя не только интеграцию текстовых и речевых сигналов, но и смешанные задачи, которые усиливают обучение с подкреплением, повышая устойчивость и эффективность. ## Результаты Использовались данные из текстового бенчмарка $\tau$-bench, где была проводимая сравнительная оценка предлагаемого подхода с другими методами RL. Тестирование показало, что предложенный метод увеличивает проходимость задач на 6% по сравнению с конкурирующими решениями. Этот результат достигнут благодаря глубокой интеграции методов подкрепления и многомодального анализа. Также был проведён эксперимент на fine-tuning многомодальной фондаментальной модели, которая была успешно настроена для проведения инструментальных задач. Это указывает на возможность создания системы, которая может эффективно взаимодействовать с пользователем через речь и текст. ## Значимость Предложенный подход имеет широкие перспективы в области интеллектуальных интерактивных систем. Он может использоваться в сферах, требующих многошагового планирования и интеллектуального взаимодействия с пользователем. Например, в сфере управления домашними устройствами, сервисах поддержки или робототехнике. Одним из основных преимуществ является улучшение производительности

Annotation:

Effective interactive tool use requires agents to master Tool Integrated Reasoning (TIR): a complex process involving multi-turn planning and long-context dialogue management. To train agents for this dynamic process, particularly in multi-modal contexts, we introduce a sandbox environment for reinforcement learning (RL) that supports interleaved speech-text rollouts. Our core strategy, Turn-level Adjudicated Reinforcement Learning (TARL), addresses the challenge of credit assignment in long-hor...

ID: 2509.14480v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 Stated Preference for Interaction and Continued Engagement (SPICE): Evaluating an LLM's Willingness to Re-engage in Conversation

2025-09-13

Авторы:

Thomas Manuel Rost, Martina Figlia, Bernd Wallraff

#### Опыт Развитие интеллектуальных технологий, основанных на тексте, привело к широкому распространению широковидкой моделей языка. Эти модели могут обрабатывать и генерировать текст, но понимание их социальных и поведенческих свойств все еще требует расширения. Одной из основных проблем является оценка того, может ли модель динамически реагировать на поведение пользователя, сохраняя интерес к продолжению взаимодействия. Более узкой проблемой является нехватка простых, но надежных способов оценивать эту способность. Мотивацией для решения этой задачи стало потенциальное влияние на практические приложения, такие как разработка более комфортных и полезных моделей для коммуникации. #### Метод Мы представляем **Stated Preference for Interaction and Continued Engagement (SPICE)** — простой диагностический сигнал, получаемый заданием модели LLM вопроса: "Вы хотите продолжить взаимодействие?" в ответ на отчет о коротком диалоге. Мы проверили SPICE на наборе тестовых стимулов, состоящем из 3-звучных (дружелюбный, неясный, агрессивный) сценариев и 10-интерактивных интервалов. Мы тестировали четыре опен-лот модели на четырех условиях формулировки, что привело к 480 испытаниям. Мы использовали статистические тесты, такие как Rao-Scott и кластерные тесты на подмену, для оценки результатов. #### Результаты Наши исследования показали, что SPICE эффективно отличает тип интеракции. Дружелюбные ответы в 97,5% случаев приводят к положительной реакции на продолжение взаимодействия, тогда как агрессивные ответы приводят к отрицательной реакции в 82,1% случаев. Уточняющие вопросы показали, что SPICE может давать разные сигналы в зависимости от формулировки и наличия контекста. Мы также продемонстрировали, что SPICE отличается от метрик, связанных с классификацией злоупотреблений, но способствует лучшему пониманию модели. #### Значимость Полученные результаты показывают, что SPICE может быть применено в различных сферах, включая аудит моделей, мотивационное исследование и разработку моделей удовлетворяющих пользователям. Особый достижение заключается в том, что SPICE обеспечивает динамическую оценку взаимодействия, которая отличается от статичных метрик. Наша работа показывает, что SPICE может использоваться как простой и надежный инструмент для понимания моделей текстовых моделей. #### Выводы Мы видим SPICE как важное дополнение к существующим методам оценки моделей текст-процессинга. Будущие исследования будут сосредоточены на расширении SPICE для работы с другими типами моделей и настройке его для конкретных приложений. Мы также планируем провести более глубокие исследования, чтобы понять, какие факто

Annotation:

We introduce and evaluate Stated Preference for Interaction and Continued Engagement (SPICE), a simple diagnostic signal elicited by asking a Large Language Model a YES or NO question about its willingness to re-engage with a user's behavior after reviewing a short transcript. In a study using a 3-tone (friendly, unclear, abusive) by 10-interaction stimulus set, we tested four open-weight chat models across four framing conditions, resulting in 480 trials. Our findings show that SPICE sharply di...

ID: 2509.09043v1 cs.CL, cs.AI, cs.MA

arXiv PDF

Показано 1 - 10 из 14 записей