📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Mikio Nakano, Hironori Takeuchi, Sadahiro Yoshikawa, Yoichi Matsuyama, Kazunori Komatani

Работа подробно рассматривает понятие **Dialogue Systems Engineering**, как специальный направленный вид программного обеспечения, относящийся к жизненному циклу беседовых систем. Обзор показывает, что с появлением **large language models**, технологии диалоговых систем получили значительный прорыв, однако их эффективное применение в решении важных проблем общественного и бизнес-сектора требует новых подходов к их разработке и эксплуатации. Авторы показывают, что стандартные методы программного обеспечения недостаточно приспособлены для этих целей и предлагают развивать дополнительные подходы, отталкиваясь от теории **Software Engineering Body of Knowledge (SWEBOK)**. Работа определяет недостающие знания в области беседовых систем и определяет направления будущих исследований в этом направлении.
Annotation:
This paper proposes to refer to the field of software engineering related to the life cycle of dialogue systems as Dialogue Systems Engineering, and surveys this field while also discussing its future directions. With the advancement of large language models, the core technologies underlying dialogue systems have significantly progressed. As a result, dialogue system technology is now expected to be applied to solving various societal issues and in business contexts. To achieve this, it is impor...
ID: 2508.02279v1 cs.SE, cs.AI, cs.CL
Авторы:

Malik Marmonier, Benoît Sagot, Rachel Bawden

Резюме: Авторы представляют первую французскую часть OLDI Seed Corpus, сданную в рамках WMT 2025 Open Language Data Initiative. Эта работа описывает процесс создания корпуса, включавшего использование нескольких машинных переводческих систем и пост-редактирование специалистами. Отдельное внимание уделено трудностям перевода, вызванным спецификой исходных данных — смесью технической терминологии и неправильностей, характерных для пользовательских данных в Википедии. Этот корпус является важной ресурсной площадкой для сбора параллельных корпусов для региональных языков Франции. Несмотря на общий потенциал корпуса в обучении моделей, характеризующегося повышенной качественностью, требуется дополнительное исследование для оценки его удобства в применении.
Annotation:
We present the first French partition of the OLDI Seed Corpus, our submission to the WMT 2025 Open Language Data Initiative (OLDI) shared task. We detail its creation process, which involved using multiple machine translation systems and a custom-built interface for post-editing by qualified native speakers. We also highlight the unique translation challenges presented by the source data, which combines highly technical, encyclopedic terminology with the stylistic irregularities characteristic o...
ID: 2508.02290v1 cs.CL
Авторы:

Ilias Triantafyllopoulos, Renyi Qu, Salvatore Giorgi, Brenda Curtis, Lyle H. Ungar, João Sedoc

**Резюме** Надёжность Retreival-Augmented Generation (RAG) систем в критически важных приложениях зависит от того, чтобы они реагировали только на вопросы, соответствующие их знаниям. Однако обеспечение этого непросто: внедоменные (OOD) запросы могут вызвать негативные последствия. В статье предлагается методика для детектирования OOD запросов, основанная на оценке нижних размерностей векторных представлений ответов RAG. Реализованы три подхода к данной задаче: линейная (PCA) и нелинейная (Neural Collapse) визуализации, а также регрессионный подход. Исследования проводились на различных датасетах: StackExchange, MSMARCO, а также в реальных приложениях (например, консультации по вакцинации от COVID-19). Были проведены тесты на уязвимость к атакам, в том числе с использованием генерирующих моделей языка. Результаты показали, что внешний детектор OOD значительно повышает точность ответов и их релевантность к задаче. Этот подход станет ключевым для повышения безопасности и эффективности RAG систем в реальном мире.
Annotation:
Ensuring safety and in-domain responses for Retrieval-Augmented Generation (RAG) systems is paramount in safety-critical applications, yet remains a significant challenge. To address this, we evaluate four methodologies for Out-Of-Domain (OOD) query detection: GPT-4o, regression-based, Principal Component Analysis (PCA)-based, and Neural Collapse (NC), to ensure the RAG system only responds to queries confined to the system's knowledge base. Specifically, our evaluation explores two novel dimens...
ID: 2508.02296v1 cs.CL, cs.IR
Авторы:

Sikui Zhang, Guangze Gao, Ziyun Gan, Chunfeng Yuan, Zefeng Lin, Houwen Peng, Bing Li, Weiming Hu

**Резюме** Проблема: Большинство больших языковых моделей (LLMs) сталкиваются с существенной потерей эффективности при обработке входных данных, превышающих предобученную окновость контекста. Это происходит в основном из-за неточного представления позиционных сигналов в Rotary Position Embedding (RoPE), которое приводит к выходу данных за диапазон индифицированных позиций. Предложенное решение: Мы предлагаем **Length-aware Multi-grained Positional Encoding (LaMPE)** — новую методику, которая адаптивно распределяет позиционные эмбеддинги в зависимости от длины входного сообщения, используя параметрическую функцию сигмоида. LaMPE также включает многоуровневую механику внимания, которая разделяет позиционные сигналы между локальными и длинными зависимостями на последовательности. Особенность LaMPE в том, что она не требует дополнительной тренировки и может быть легко интегрирована с любыми LLM-моделями, основанными на RoPE. Основные выводы: Мы провели эксперименты на трех моделях LLMs в пяти различных задачах длинного контекста. Результаты показали, что LaMPE превосходит другие методы увеличения длины контекста, обеспечивая значительные повышения точности без дополнительного обучения. Наше решение представляет новый подход к эффективной обработке длинных входных последовательностей в LLMs.
Annotation:
Large language models (LLMs) experience significant performance degradation when the input exceeds the pretraining context window, primarily due to the out-of-distribution (OOD) behavior of Rotary Position Embedding (RoPE). Recent studies mitigate this problem by remapping OOD positions into the in-distribution range with fixed mapping strategies, ignoring the dynamic relationship between input length and the model's effective context window. To this end, we propose Length-aware Multi-grained Po...
ID: 2508.02308v2 cs.CL
Авторы:

Yuzhuang Xu, Xu Han, Yuanchi Zhang, Yixuan Wang, Yijun Liu, Shiyu Ji, Qingfu Zhu, Wanxiang Che

**Резюме** Large Language Models (LLMs) с Mixture-of-Experts (MoE) архитектурой характеризуются высокой производительностью при увеличении параметров, но столкнуются с высокими затратами на вычисления и хранение. Однако повышение производительности с ростом числа экспертов не пропорционально, что создает проблему эффективности. В данной работе мы предлагаем CAMERA — новую технику, основанную на анализе микро-экспертов, которые представляют собой более тонкую единицу сжатия, распространяющуюся на несколько матриц. Мы разработали CAMERA-P — фреймворк для удаления микро-экспертов, а также CAMERA-Q — метод смешанного типа для эффективного представления микро-экспертов. Наши эксперименты показали, что CAMERA-P превосходит существующие подходы в сжатии при разных отношениях удаления экспертов, а CAMERA-Q демонстрирует эффективность при существенном уменьшении точности. Наши результаты подтверждают то, что CAMERA может эффективно анализировать и сжимать модели, такие как Qwen2-57B-A14B, в значительно меньшем времени по сравнению с предыдущими методами.
Annotation:
Large Language Models (LLMs) with Mixture-of-Experts (MoE) architectures are distinguished by their strong performance scaling with increasing parameters across a wide range of tasks, yet they also suffer from substantial computational and storage overheads. Notably, the performance gains of MoE models do not scale proportionally with the growth in expert parameters. While prior works attempt to reduce parameters via expert-level pruning, merging, or decomposition, they still suffer from challen...
ID: 2508.02322v1 cs.CL, cs.LG
Авторы:

Raj Mahmud, Shlomo Berkovsky, Mukesh Prasad, A. Baki Kocaballi

**Резюме** В статье рассматривается проблема понимания пользовательских предпочтений в интеракции с Conversational Recommender Systems (CRS), которые обеспечивают персонализированные рекомендации через многократный диалог на естественном языке. Несмотря на рост популярности таких систем, факторы, влияющие на пользовательские предпочтения, остаются подробно изученными. Для решения этой проблемы проведена внутри-участников исследования (\(N = 139\)), в ходе которого участники испытали два сценарии CRS, оценили свои впечатления и указали важность восьми системных качеств. Анализ показал, что предпочтение к эксплоративным интеракциям определяется удовольствием, полезностью, новизной и качеством диалога, а также неожиданно — эффективностью. Далее, кластеризация выявила пять пользовательских профилей с разными предпочтениями в диалоге. Уточненные модели показали, что влияние возраста, пола и предпочтения контроля на пользовательские предпочтения. Результаты интегрируют эффективность, эмоциональность и характеристики пользователя в моделирование пользователей CRS и дают ключевые рекомендации для создания динамически адаптивных диалоговых систем.
Annotation:
Conversational Recommender Systems (CRSs) deliver personalised recommendations through multi-turn natural language dialogue and increasingly support both task-oriented and exploratory interactions. Yet, the factors shaping user interaction preferences remain underexplored. In this within-subjects study (\(N = 139\)), participants experienced two scripted CRS dialogues, rated their experiences, and indicated the importance of eight system qualities. Logistic regression revealed that preference fo...
ID: 2508.02328v1 cs.HC, cs.CL, cs.IR, H.5.2; I.2.7; H.1.2
Авторы:

Jiayi Zhang, Shu Yang, Junchao Wu, Derek F. Wong, Di Wang

Недостаточное понимание внутренних механизмов, способствующих нежелательной переобучению крупных языковых моделей в области политической позиции, ограничивает возможности их эффективного и безопасного применения в нейичных задачах. Данная работа рассматривает проблему cross-topic generalization в политическом контексте, когда переобучение на одной теме влияет негативно на позицию модели на других. Авторы предлагают Political Neuron Localization through Activation Contrasting (PNLAC), метод для идентификации political neurons, ответственных за затрагивание политических позиций в разных темах. Оказалось, что модели содержат два типа таких нейронов: общие и конкретные. На основе этих выводов предложено InhibitFT — метод файн-тюнинга, который снижает cross-topic generalization на 20%, сохраняя эффективность модели в работе со специфическими темами. Экспериментальные результаты показывают, что можно добиться значительных улучшений, отключив только 5% ответственных нейронов. Таким образом, данная работа способствует более стабильному и эффективному применению языковых моделей в области политики.
Annotation:
Fine-tuning Large Language Models on a political topic will significantly manipulate their political stance on various issues and unintentionally affect their stance on unrelated topics. While previous studies have proposed this issue, there is still a lack of understanding regarding the internal representations of these stances and the mechanisms that lead to unintended cross-topic generalization. In this paper, we systematically explore the internal mechanisms underlying this phenomenon from a...
ID: 2508.02360v1 cs.CL
Авторы:

Adam Darmanin, Vince Vella

**Резюме** В алгоритмическом трейдинге необходимо сбалансировать краткосрочные действия и долгосрочные финансовые цели. Однако reinforcement learning (RL), применяемый для таких задач, страдает от глазастых решений и непонятной политической логики. Модели естественного языка (LLMs), напротив, продемонстрировали способность стратегического мышления и мультимодального анализа финансовых сигналов при правильном протоколе управления. Мы предлагаем систему, в которой LLMs генерируют верхнеуровневые торговые стратегии, а RL-агенты оптимизируют их реализацию. Мы экспериментально проверили (i) логику LLM-стратегий с помощью экспертного анализа и (ii) показатели Sharpe Ratio (SR) и Maximum Drawdown (MDD) LLM-ориентированных агентов по сравнению с неуправляемыми базовыми агентами. Результаты показали значительное повышение результатов в Sharpe Ratio и снижение максимальных оборотных потерь по сравнению с стандартным RL. Это свидетельствует о потенциале LLMs в улучшении традиционных RL-подходов в трейдинге.
Annotation:
Algorithmic trading requires short-term decisions aligned with long-term financial goals. While reinforcement learning (RL) has been explored for such tactical decisions, its adoption remains limited by myopic behavior and opaque policy rationale. In contrast, large language models (LLMs) have recently demonstrated strategic reasoning and multi-modal financial signal interpretation when guided by well-designed prompts. We propose a hybrid system where LLMs generate high-level trading strategie...
ID: 2508.02366v1 cs.LG, cs.CL, q-fin.TR, I.2.7; I.2.6; J.4
Авторы:

Matouš Jelínek, Nadine Schlicker, Ewart de Visser

В современном мире часто используются автоматизированные системы, которые должны быть надежными и безопасными для взаимодействия с человеком. Однако правильно оценить надежность таких систем невеликому проценту пользователей удается. Разработчики должны обеспечить пользователям возможность точно оценивать надежность системы, чтобы они могли принимать хорошо продуманные решения о границах доверия к ней. Мы предлагаем шесть дизайнерских рекомендаций, направленных на повышение уверенности пользователей в автоматизированных системах. Эти рекомендации основываются на литературе по интерфейсам, психологии, автоматизации и этике. Они включают принципы коммуникации, такие как общее место и максы Грайса, чтобы улучшить взаимодействие человек-система. Наши рекомендации помогут разработчикам создавать системы, которые легко оцениваются по надежности. Это способствует калиброванному доверию и повышает качество взаимодействия между пользователем и системой, обеспечивая безопасность и эффективность.
Annotation:
Calibrated trust in automated systems (Lee and See 2004) is critical for their safe and seamless integration into society. Users should only rely on a system recommendation when it is actually correct and reject it when it is factually wrong. One requirement to achieve this goal is an accurate trustworthiness assessment, ensuring that the user's perception of the system's trustworthiness aligns with its actual trustworthiness, allowing users to make informed decisions about the extent to which t...
ID: 2508.02371v1 cs.HC, cs.CL
Авторы:

Linyu Li, Zhi Jin, Yuanpeng He, Dongming Jin, Yichi Zhang, Haoran Duan, Nyima Tash

**Резюме** Современные знания остаются в динамическом состоянии и постоянно изменяются, что приводит к необходимости создания моделей, которые могут эффективно обрабатывать эти изменения. Одной из таких проблем является "забывание" (catastrophic forgetting) в контексте постоянно изменяющихся знаний, когда модели не могут сохранять прошлые знания при выучении новых. Для решения этой проблемы введена новая модель CKGE с использованием принципа постоянства Байеса (BAKE). Эта модель рассматривает каждый новый батч данных как постоянный принцип Байеса, что позволяет лучше сохранять знания прошлых моментов временной истории. Кроме того, включена новая методика постоянного кластеризации, которая ограничивает изменения между старыми и новыми знаниями, чтобы предотвратить их забывание. На нескольких датасетах были проведены эксперименты, и результаты показали, что модель BAKE значительно превосходит другие модели в этой области.
Annotation:
Since knowledge graphs (KG) will continue to evolve in real scenarios, traditional KGE models are only suitable for static knowledge graphs. Therefore, continual knowledge graph embedding (CKGE) has attracted the attention of researchers. Currently, a key challenge facing CKGE is that the model is prone to "catastrophic forgetting", resulting in the loss of previously learned knowledge. In order to effectively alleviate this problem, we propose a new CKGE model BAKE. First, we note that the Baye...
ID: 2508.02426v1 cs.CL, cs.LG
Показано 7241 - 7250 из 7506 записей