📚 Саммари научных статей из arXiv

Найдено 573 результатов по запросу 'cs.CL, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Steering MoE LLMs via Expert (De)Activation

2025-09-13

Авторы:

Mohsen Fayyaz, Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Ryan Rossi, Trung Bui, Hinrich Schütze, Nanyun Peng

## Контекст Mixture-of-Experts (MoE) — это архитектурная компонента в Больших Лингвистических Моделях (LLMs), которая позволяет эффективно обрабатывать входные данные, путем перенаправления каждого токена через определенную подсистему специализированных Feed-Forward Networks (FFN), называемых экспертами (experts). Хотя MoE позволяет решать задачи, такие как эффективность вычислений и настройка моделей, он также создает проблемы с фиксацией конкретных поведенческих характеристик модели, таких как безопасность и точность. Наличие таких проблем мотивирует разработку новых методов управления поведением моделей, которые могут быть применены без переукладки модели или изменения весов. ## Метод Мы предлагаем SteerMoE — рамочную модель для управления поведением MoE-LLMs, основанную на детектировании и контроле экспертов, связанных с конкретными поведенческими характеристиками. Метод детектирования определяет эксперты, отличающиеся по активации при различных входных парах, отображающих контрастирующие поведения. Эти эксперты могут быть выключены или включены во время инференса, что позволяет контролировать поведение модели, такие как надежность и безопасность, без переуничтожения модели. Инновационной чертой SteerMoE является его гибкость в управлении поведением, которая обеспечивается без изменения весов модели. ## Результаты Мы провестим эксперименты на 11 бенчмарках и 6 LLMs, включая модели серий Mixture-of-Experts (Mixture-of-Experts) и GPT-3. Мы показали, что SteerMoE может улучшить безопасность модели на до 20% и увеличить надежность на 27%, выполняя это непосредственно во время инференса. Более того, мы протестировали SteerMoE в режиме атаки адверсариального характера, показывая, что модель может уменьшить безопасность системы до -41%, и даже до -100%, когда сочетается с другими методами обхода защитных механизмов. Эти результаты открывают новую грань в анализе поведенческих аспектов больших моделей языкового моделирования. ## Значимость Мы видим широкие области применения SteerMoE в сферах, где требуется контроль безопасности и точности моделей, таких как модели для здравоохранения, финансовые системы и поисковые системы. Эта модель демонстрирует возможность подготовки модели к конкретным сценариям без необходимости переучивать модель целиком. Наш подход демонстрирует новую степень гибкости в управлении поведением, который может помочь обнаружить и устранить проблемы в системах с людьми в центре, таких как взаимодействие с пользователем или решение этических задач. ## Выводы Мы представили SteerMoE — мощный подход к управлению поведением моделе

Annotation:

Mixture-of-Experts (MoE) in Large Language Models (LLMs) routes each token through a subset of specialized Feed-Forward Networks (FFN), known as experts. We present SteerMoE, a framework for steering MoE models by detecting and controlling behavior-linked experts. Our detection method identifies experts with distinct activation patterns across paired inputs exhibiting contrasting behaviors. By selectively (de)activating such experts during inference, we control behaviors like faithfulness and sa...

ID: 2509.09660v1 cs.CL, cs.LG

arXiv PDF

📄 Tree-OPO: Off-policy Monte Carlo Tree-Guided Advantage Optimization for Multistep Reasoning

2025-09-13

Авторы:

Bingning Huang, Tu Nguyen, Matthieu Zimmer

## Контекст Одним из ключевых направлений в развитии искусственного интеллекта является создание алгоритмов, которые могут принимать решения в условиях неопределенности и сложности. Традиционные модели часто сталкиваются с проблемами в обработке сложных задач, требующих многошагового рассуждения и адаптивного поведения. Многошаговое рассуждение является ключевым аспектом в таких областях, как управление, игры, математическая моделирование и решение задач символьной логики. Одна из сложностей заключается в том, чтобы оптимизировать политики, которые могут действовать в условиях неполного или частичного знания. Это влечет за собой необходимость разработки алгоритмов, которые могут использовать частично открытые данные и при этом поддерживать качество решений. Работа Tree-OPO стремится заполнить этот пробел, используя Monte Carlo Tree Search (MCTS) для улучшения оптимизации политик в среде поддержки многошагового рассуждения. ## Метод Методология Tree-OPO основывается на использовании Monte Carlo Tree Search (MCTS) для генерирования полного дерева возможных действий в любой момент времени во время задачи. Основным инновационным моментом является использование частично открытых деревьев для оценки привилегированного префикса в контексте групповой оптимизации политик. Архитектура Tree-OPO включает в себя несколько этапов: 1. **Генерация частичных деревьев**: Для каждого возможного префикса задачи генерируется дерево действий, используя MCTS. 2. **Оценка привилегированного префикса**: Основываясь на частично открытом дереве, вычисляется привилегированный префикс, который помогает оптимизировать политику. 3. **Оптимизация политики**: Используя структурированные выходы MCTS, алгоритм оптимизирует политику, используя Group Relative Policy Optimization (GRPO). Эта структура позволяет алгоритму работать над задачами, требующими многошагового рассуждения, в то же время уменьшая количество необходимого вычислительного ресурса. ## Результаты Эксперименты проводились на ряде сложных задач, включая задачи математического моделирования и решения задач символьной логики. Использованы различные данные, включая текстовые данные, символьные выражения и задачи математической символики. Результаты показали, что Tree-OPO значительно улучшает стабильность обучения и качество решений в сравнении с другими методами. Например, в задачах символьной логики, Tree-OPO показал значительное преимущество в точности решений, а также в способности обрабатывать задачи с частичным знанием. ## Значимость Tree-OPO может быть применен в различных областях, таких как управление, игровые алгоритмы, и решение задач символьной логики.

Annotation:

Recent advances in reasoning with large language models (LLMs) have shown the effectiveness of Monte Carlo Tree Search (MCTS) for generating high-quality intermediate trajectories, particularly in math and symbolic domains. Inspired by this, we explore how MCTS-derived trajectories, traditionally used for training value or reward models, can be repurposed to improve policy optimization in preference-based reinforcement learning (RL). Specifically, we focus on Group Relative Policy Optimization (...

ID: 2509.09284v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Retrieval-Augmented Generation for Reliable Interpretation of Radio Regulations

2025-09-13

Авторы:

Zakaria El Kassimi, Fares Fourati, Mohamed-Slim Alouini

#### Контекст Вопрос возникновения этого исследования связан с необходимостью обеспечить надежные и точные интерпретации правил радиокоммуникаций, которые являются ключевыми для работы в области связи. Эти правила не только регулируют технические аспекты систем связи, но и имеют юридическую и стратегическую важность. Ошибки в интерпретации могут привести к серьезным последствиям, включая юридические споры и технические неполадки. Несмотря на то, что существуют системы генерации ответов на вопросы, их применение в такой высококачественной и реалистичной области, как радиоправо, показывает значительные недостатки, в основном из-за отсутствия конкретных методов и архитектур, специализированных для этого домена. #### Метод Мы предлагаем новую методологию, объединяющую расширенную генерацию и вспомогательную поисковую систему, названную Retrieval-Augmented Generation (RAG). Этот подход включает в себя следующие этапы: 1) Извлечение подходящих документов из базы знаний, специально подготовленной для радиокоммуникаций; 2) Оценка качества извлеченных документов с помощью доменно-специфического метрического показателя; 3) Использование извлеченных документов для надёжной интерпретации вопросов и генерирования ответов. Мы также вводим новую многовариантную оценочную множество вопросов, конструированных на основе авторитетных источников, которые прошли автоматическую фильтрацию и ручную верификацию. #### Результаты Мы проводили эксперименты с несколькими моделями генерации ответов, включая GPT-4o. Наши результаты показывают, что применение RAG-пайплайна существенно повышает точность генерации ответов. Например, при традиционном подходе с простой вставкой документов в GPT-4o улучшение составляет менее 1%, в то время как при использовании пайплайна RAG эффект наблюдается в размере почти 12% относительного увеличения точности. Эта разница отражает эффективность направленного поиска и грундинга в контексте регуляторного вопроса-ответа. #### Значимость Результаты демонстрируют, что наш подход имеет широкое применение в сложных сферах, где точность и достоверность важны. Он может применяться не только в области радиокоммуникаций, но и в других регуляторных сферах, где необходимо использование специальных знаний. Главные преимущества RAG-пайплайна заключаются в своей мощности и точности, которые обеспечиваются высоким качеством извлечения и точной генерацией ответов. Мы также отмечаем, что данный подход может стать основой для развития будущих исследований в области генеративных моделей для регуляторных

Annotation:

We study question answering in the domain of radio regulations, a legally sensitive and high-stakes area. We propose a telecom-specific Retrieval-Augmented Generation (RAG) pipeline and introduce, to our knowledge, the first multiple-choice evaluation set for this domain, constructed from authoritative sources using automated filtering and human validation. To assess retrieval quality, we define a domain-specific retrieval metric, under which our retriever achieves approximately 97% accuracy. Be...

ID: 2509.09651v1 cs.IR, cs.AI, cs.CL, cs.LG, eess.SP

arXiv PDF

📄 SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

2025-09-13

Авторы:

Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding

## Контекст Vision-Language-Action (VLA) модели стали мощным инструментом для проблематики robotic manipulation. Они объединяют в себе способности понимания текста, обработки изображений и реального взаимодействия с окружающим перворостком. Несмотря на успехи, полученные благодаря большим объемам предобучения и настройке под конкретные задачи (SFT), эти модели сталкиваются с двумя основными проблемами: 1. Ограниченность и высокая стоимость больших датасетов траекторий управления, полученных с помощью ручного управления. 2. Ограниченность в общепринятом понятии generalization, что приводит к необходимости стремительного роста размера обучающих данных. Эти проблемы подчеркивают необходимость развития новых подходов к обучению VLA-моделей, которые смогут справляться с этими недостатками. ## Метод SimpleVLA-RL представляет собой развитие идей RL в области обучения VLA-моделей. Существующие техники RL, такие как veRL, были адаптированы с учетом конкретных особенностей VLA-моделей. Набор оптимизаций включает в себя: 1. **Выборка траекторий**: Методы, нацеленные на эффективное получение траекторий, которые затем используются для обучения. 2. **Параллельность**: Распараллеливание процесса выборки траекторий для увеличения эффективности. 3. **Улучшенные стратегии эксплуатации**: Инновационные подходы, позволяющие модели открывать новые траектории и варианты поведения. 4. **Оптимизация вычислений**: Реализация эффективных вычислений для работы с большими датасетами. Эти методы были реализованы в SimleVLA-RL, создав эффективный инструмент для обучения VLA-моделей с учетом их специфики. ## Результаты Проведены эксперименты с применением SimpleVLA-RL к двум известным датасетам: OpenVLA-OFT и RoboTwin. Эти эксперименты подтвердили, что SimpleVLA-RL: 1. Существенно улучшает результаты по сравнению с состоянием технологии (SoTA) на LIBERO. 2. Опережает модели $\pi_0$ на RoboTwin 1.0 и 2.0, благодаря новым стратегиям эксплуатации. При этом модель показала способность находить новые, до этого неизвестные траектории в процессе обучения, что демонстрирует способность к новым, нестандартным решениям. ## Значимость SimpleVLA-RL демонстрирует практическое применение RL в области VLA-моделей, решая ключевые проблемы: 1. Уменьшение зависимости от больших датасетов. 2. Улучшение способности моделей к generalization. 3. Увеличение эффективности реального применения VLA-моделей в сложных сценариях. Эти достижения открывают путь к развитию более надежных и производительных моделей для robotic manipulation. ## Выводы SimpleVLA-RL доказывает, что RL может эффективно решать проблемы обучения VLA-моделей, снижая

Annotation:

Vision-Language-Action (VLA) models have recently emerged as a powerful paradigm for robotic manipulation. Despite substantial progress enabled by large-scale pretraining and supervised fine-tuning (SFT), these models face two fundamental challenges: (i) the scarcity and high cost of large-scale human-operated robotic trajectories required for SFT scaling, and (ii) limited generalization to tasks involving distribution shift. Recent breakthroughs in Large Reasoning Models (LRMs) demonstrate that...

ID: 2509.09674v1 cs.RO, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Bias after Prompting: Persistent Discrimination in Large Language Models

2025-09-12

Авторы:

Nivedha Sivakumar, Natalie Mackraz, Samira Khorshidi, Krishna Patel, Barry-John Theobald, Luca Zappella, Nicholas Apostoloff

#### Контекст Существующие технологии машинного обучения, особенно большие языковые модели (LLMs), становятся все более важными в широких областях применения, включая роботов-консультантов, системы рекомендаций, интеллектуальный анализ, обработку естественного языка и другие. Однако эти модели часто склонны к установленным заблуждениям и дискриминации в отношении различных групп социальных характеристик, таких как возраст, пол, религия и другие. Биазы в моделях не только ограничивают их применение, но и создают потенциальные риски для людей, которые могут быть повлияны на неосновательных основаниях. Обычно считается, что при использовании методов приспособления, таких как применение подсказок (prompting), биазы не переносятся с предварительно обученных моделей на адаптированные. Однако это предположение не было достаточно исследовано. Наша работа стремится установить, насколько актуален этот вывод, используя модели с применением приспособлений подсказок. #### Метод Мы применяем модели с применением подсказок в качестве стратегии приспособления в реальных сценариях использования. Мы строим наши эксперименты с использованием существующих LLM-систем, таких как LLMs с приспособлением подсказак, чтобы изучить, насколько глубоко и часто биазы передаются в адаптированных моделях. Мы изучаем типы дискриминации, связанные с различными группами социальных характеристик, включая возраст, пол, религию и другие. Мы проверяем, насколько эффективны реально существующие методы дебазирования, такие как пробивка приспособленных моделей, и изучаем, каким образом параметры, такие как размер выборки, тип определения и представительность, влияют на степень передачи биаз. #### Результаты Мы выявили, что биазы могут быть переданы с помощью приспособлений подсказок, и что методы дебазирования, основанные на подсказаках, не всегда эффективны в предотвращении передачи биаз. Мы обнаружили, что при сильной корреляции с приспособлением подсказок, биазы в тексте могут быть переданы с моделей, доступных для открытого доступа, в адаптированных моделях. Например, мы изучили существующую модель LLM, которая передает биазы с максимальной корреляцией (rho >= 0.94) по полу в задаче координации, а также различные задачи, такие как вопросы-ответы, где уровень корреляции достигается до 0.98. Мы также показали, что типы дискриминации не зависят от параметров, таких как размер выборки и определение, и что методы дебазирования не постоянно эффективны во всех условиях. #### Значимость Результаты нашей работы могут быть применены в различных сферах, включая роботов-консуль

Annotation:

A dangerous assumption that can be made from prior work on the bias transfer hypothesis (BTH) is that biases do not transfer from pre-trained large language models (LLMs) to adapted models. We invalidate this assumption by studying the BTH in causal models under prompt adaptations, as prompting is an extremely popular and accessible adaptation strategy used in real-world applications. In contrast to prior work, we find that biases can transfer through prompting and that popular prompt-based miti...

ID: 2509.08146v1 cs.CL, cs.LG

arXiv PDF

📄 ArGen: Auto-Regulation of Generative AI via GRPO and Policy-as-Code

2025-09-11

Авторы:

Kapil Madan

## Контекст В последние годы статус генерирующихся систем AI, таких как Large Language Models (LLMs), поднимает вопросы о их справедливости, безопасности и соответствии нормам. Особенно сложно становится применять эти системы в культурно разнообразных и регулируемых сферах, таких как медицина и финансы. Существующие подходы к выравниванию генерирующихся систем AI, такие как предпочтение-скорсть, ограничиваются в области социально-этичных норм и законодательных требований. Это ставит под угрозу безопасность и этическое воздействие систем. "ArGen" (Auto-Regulation of Generative AI) представляет собой рамформу для глубокого выравнивания LLMs с подробными системами норм, включающими этические принципы, безопасность и законодательные нормы. Он призван преодолеть ограничения существующих подходов, обеспечивая адаптивный и прозрачный подход к выравниванию LLM. ## Метод "ArGen" основывается на трех ключевых компонентах: 1. **Principle-Based Automated Reward Scoring (PBARS):** Этот подход использует машинно-чтение правил, чтобы генерировать автоматические оценки, соответствующие нормам. 2. **Group Relative Policy Optimisation (GRPO):** Это метод, где политики групп жизненно важных норм и принципов учитываются в оптимизации поведения LLM. 3. **Open Policy Agent (OPA) Inspired Governance Layer:** Этот уровень, использующий Open Policy Agent, предоставляет прозрачность и контроль, обеспечивая возможность адаптации к уникальным требованиям каждого контекста. "ArGen" имеет гибкую архитектуру, которая позволяет ему сочетать эти элементы для создания "Governable Al" систем. ## Результаты В экспериментах "ArGen" был применен для выравнивания LLM в сложной медицинской сфере, ориентированной на принципы Dharmic ethics, такие как Ahimsa (нежестокость) и Dharma (порядок). Использовались тренировочные данные из медицинской практики, включая кейсы, где требуется соблюдение этических и законодательных норм. Результаты показали, что "ArGen" улучшил соответствие домена на 70.9% по сравнению с базовым подходом, при этом повысив прозрачность и управляемость LLM. Также были показаны снижение риска и улучшение соблюдения норм в тестировании. ## Значимость "ArGen" имеет широкое применение в области генерирующихся систем AI, где необходимо выравнивание с политиками, этическими принципами и законами. Он может быть полезен в сферах, таких как медицина, финансы и образование, где требуется высокий уровень управляемости и соответствия. Преимущества "ArGen" включают в себя повышенную прозрачность, предсказуемость и эффективность в управлении LLM. Это может привести к безопасному и этичному развертыванию AI в глобальных конте

Annotation:

This paper introduces ArGen (Auto-Regulation of Generative AI systems), a framework for aligning Large Language Models (LLMs) with complex sets of configurable, machine-readable rules spanning ethical principles, operational safety protocols, and regulatory compliance standards. Moving beyond just preference-based alignment, ArGen is designed to ensure LLMs adhere to these multifaceted policies through a novel synthesis of principle-based automated reward scoring, Group Relative Policy Optimisat...

ID: 2509.07006v1 cs.CY, cs.AI, cs.CL, cs.LG, 68T07, 68T50, I.2.6; I.2.7; K.4.1

arXiv PDF

📄 From Eigenmodes to Proofs: Integrating Graph Spectral Operators with Symbolic Interpretable Reasoning

2025-09-11

Авторы:

Andrew Kiruluta, Priscilla Burity

## Контекст Одной из существующих проблем классического логического программирования является его неэффективность при работе с большими множествами данных. Отсутствие гибкости и интерпретируемости данных моделей усложняет их применение в реальных задачах. Нейро-символьные модели, в свою очередь, предоставляют гибкость и интерпретируемость, но часто страдают от проблем с объемом данных и недостаточной стабильностью. Эта ситуация требует развития новых подходов, которые объединяли бы преимущества графов, графового сигнального процессинга (GSP) и логического программирования. ## Метод "Spectral NSR" — это современная модель, которая объединяет архитектуру графов и логику символьного программирования. Она использует графовую спектральную разложительную модель (GSP), построенную на основе лапласианской структуры знаний. Модель выполняет вывод в спектральном домене, что позволяет использовать графовые спектры для вычисления. Эта модель также включает в себя различные расширения, такие как динамическое обучение базиса, множественные фильтры для более точного спектрального выделения, и многоспектральную специализацию. Более того, Spectral NSR использует тренировочный процесс, основанный на логических доказательствах, а также учет неопределенности в моделировании. ## Результаты На тестах ProofWriter и CLUTRR Spectral NSR показала существенно вышу скорость вывода и точность по сравнению с соревнующими моделями, такими как трансформеры, сети сообщений и логические модели. Эксперименты показали, что модель лучше справляется с атаками адверсарных вкраплений и обеспечивает более высокую интерпретируемость решений. Анализ атрибуции спектров и согласование проверки доказательств подтвердили, что решения Spectral NSR тесно соответствуют символьным доказательствам. Также были проведены эксперименты на конвертации доменов, демонстрирующие эффективность модели в адаптации к новым задачам. ## Значимость Модель Spectral NSR имеет широкие применения в области нейро-символьного рассуждения, в том числе в робототехнике, здравоохранении, финансовых системах и других областях, где необходима точность, гибкость и интерпретируемость моделей. Эта модель предлагает значительные преимущества перед существующими моделями, такими как более высокая скорость, лучшая устойчивость к атакам и повышенная интерпретируемость моделей. Будущие исследования будут сфокусированы на улучшении эффективности, изменении архитектуры для большей гибкости и расширении возможностей для широкого круга приложений. ## Выводы Spectral NSR представляет собой прорыв в об

Annotation:

We introduce Spectral NSR, a fully spectral neuro-symbolic reasoning framework that embeds logical rules as spectral templates and performs inference directly in the graph spectral domain. By leveraging graph signal processing (GSP) and frequency-selective filters grounded in the Laplacian eigenstructure of knowledge graphs, the architecture unifies the interpretability of symbolic reasoning with the scalability and adaptability of spectral learning. Beyond the core formulation, we incorporate a...

ID: 2509.07017v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Beyond Sequential Reranking: Reranker-Guided Search Improves Reasoning Intensive Retrieval

2025-09-11

Авторы:

Haike Xu, Tong Chen

## Контекст В современной области отбора информации сталкиваются с рядом ограничений, связанных с использованием последовательных методов повторного оценивания (reranking). Ограничением является качество исходного результата отбора, которое определяет качество всего процесса. Более того, рост вычислительных требований для моделей типа Large Language Models (LLM) увеличивает затраты на рекурсивную оценку документов. Эти ограничения влияют на то, насколько эффективно могут быть обработаны большие объемы документов. Необходимо разработать новый подход, который сможет повысить эффективность отбора в условиях ограниченного бюджета на рекурсивную оценку. ## Метод Новая методология, предложенная авторами, Reranker-Guided-Search (RGS), представляет собой непоследовательный подход к достижению целей отбора. Она основывается на графах близости, построенных с использованием алгоритмов удаленности (approximate nearest neighbor algorithms). Этот подход стратегически выбирает документы для повторного оценивания, опираясь на прогноз модели повторного оценивания (reranker). Этот подход позволяет лучше использовать ресурсы, ограничивая число документов, подлежащих повторному проверке. Решение заключается в алгоритме поиска, применяющемся к графу близости, для оптимизации выбора документов, которые будут использоваться для повторного оценивания. ## Результаты В экспериментах показано, что новый подход существенно повышает эффективность отбора. Улучшения наблюдаются по разным метрикам на нескольких наборах данных. Например, есть прирост в 3.5 баллов на BRIGHT, 2.9 на FollowIR, и 5.1 на M-BEIR. Этот результат достигнут в пределах установленного ограничения на число документов, подлежащих повторному оцениванию (100 документов). Эти результаты подтверждают, что стратегический выбор документов для повторного оценивания может улучшить точность отбора, даже при ограничениях на ресурсы. ## Значимость Результаты имеют значительное значение для приложений, где необходима высокая точность отбора в условиях ограниченных ресурсов, таких как мобильные приложения, системы поиска в реальном времени и системы поддержки принятия решений. Выгоды Reranker-Guided-Search заключаются в его способности оптимизировать выборс точек для повторного оценивания, что позволяет экономить вычислительные ресурсы без ущерба для точности. Это может привести к более быстрому и эффективному отбору, что важно для реального времени и ограниченных ресурсов. ## Выводы Результаты доказывают, что RGS является эффективным инструментом для повышения точности отбора в условиях ограниченных ресурсов. Он может использоваться в разных сферах, где необходима эффективная обработка больших наборов документов.

Annotation:

The widely used retrieve-and-rerank pipeline faces two critical limitations: they are constrained by the initial retrieval quality of the top-k documents, and the growing computational demands of LLM-based rerankers restrict the number of documents that can be effectively processed. We introduce Reranker-Guided-Search (RGS), a novel approach that bypasses these limitations by directly retrieving documents according to reranker preferences rather than following the traditional sequential rerankin...

ID: 2509.07163v1 cs.IR, cs.CL, cs.LG

arXiv PDF

📄 Causal Attention with Lookahead Keys

2025-09-11

Авторы:

Zhuoqing Song, Peng Sun, Huizhuo Yuan, Quanquan Gu

## Контекст Область глубокого обучения становится все более важной в современном искусственном интеллекте. Одна из ключевых задач в этой области — понимание и моделирование зависимостей между элементами данных. Касуальное внимание (causal attention) широко используется для моделирования последовательных данных, таких как тексты или последовательности событий. Однако существующие модели имеют ограничения: они используют только предшествующий контекст для вычисления ключей (keys) и значений (values), что ограничивает модели в своей способности предсказывать будущие ситуации. Таким образом, требуется развитие методов, которые могут использовать информацию из будущих позиций для улучшения моделей. ## Метод Мы предлагаем **CASTLE** (Causal Attention with Lookahead Keys), новый метод для касуального внимания, который позволяет использовать не только предшествующую информацию, но также информацию из будущих позиций. Основной идеей является формирование "поисковых ключей" (lookahead keys) для каждой позиции, которые не только зависят от предшествующих токенов, но также учитывают информацию из будущих токенов. Для реализации этого метода мы предлагаем математическую модель, которая позволяет обновлять ключи в порядке встречи, не материализуя полностью все ключи заранее. Это позволяет эффективно использовать параллельное вычисление и сохранить авторегрессионную структуру. ## Результаты Мы проверили эффективность CASTLE на стандартных задачах моделирования языка. Модели с CASTLE показали значительные улучшения по сравнению с классическим касуальным вниманием: - **Перфекция (perplexity)**: CASTLE показал низкий уровень перфекции на текстовых данных, что указывает на более точное понимание языка. - **Задачи по применению**: Модели с CASTLE показали лучшие результаты в нескольких задачах, таких как классификация и суммирование текста. Эти результаты демонстрируют, что использование поисковых ключей улучшает способность моделей предсказывать будущие ситуации и обрабатывать более сложные задачи. ## Значимость CASTLE может применяться в различных областях, где необходимо понимание последовательных данных, например: - **Текстовые модели**: Улучшение предсказания текста и обобщения информации. - **Генерация текста**: Более точное генерирование текста в реальном времени. - **Обработка естественного языка**: Извлечение информации из текстов с учетом контекста. Преимущество CASTLE заключается в его способности обрабатывать более сложные задачи, где необходимо предсказывать будущие ситуации на основе предыдущих и будущих данных. Это может привести к переломным улучшениям

Annotation:

In standard causal attention, each token's query, key, and value (QKV) are static and encode only preceding context. We introduce CAuSal aTtention with Lookahead kEys (CASTLE), an attention mechanism that continually updates each token's keys as the context unfolds. We term these updated keys lookahead keys because they belong to earlier positions yet integrate information from tokens that appear later relative to those positions, while strictly preserving the autoregressive property. Although t...

ID: 2509.07301v1 cs.CL, cs.LG

arXiv PDF

📄 Instance-level Performance Prediction for Long-form Generation Tasks

2025-09-11

Авторы:

Chi-Yang Hsu, Alexander Braylan, Yiheng Su, Omar Alonso, Matthew Lease

## Контекст Длинная форма генерирования текста (long-form generation) широко используется в сферах, таких как новостные статьи, отчеты, диалоги, исследовательские работы и др. Однако оценка качества таких текстов чрезвычайно сложна из-за того, что она зависит от множества функций, включая логическую структуру, стиль, точность информации и др. Существующие подходы ориентированы на либо оценку всего текста в целом, либо использование специфичных метрик для конкретных задач. Отсутствие универсальных методов для прогнозирования показателей качества на уровне отдельных экземпляров (instance-level) ограничивает возможности интеллектуальных систем для автоматизированной оценки текстов. Целью данного исследования является развитие методологии, позволяющей прогнозировать оценки по отдельным экземплярам данных, учитывая их многогранность и тонкость метрик качества. ## Метод Методология основывается на прогнозировании показателей качества текстов на уровне отдельных экземпляров с применением нейросетевых моделей. Основной идеей является создание модели, которая принимает в качестве входных данных только черный ящик модели (input/output) и предсказывает счета по метрикам качества. Важной особенностью является возможность прогнозировать не только точные значения метрик, но и интервалы доверия для оценки неопределенности. Модель была тренирована на 11 датасетах, связанных с различными задачами длинной формы генерирования, используя различные глубокие нейронные сети и базовые алгоритмы. Метод требует только небольших объемов обучающих данных (16 примеров) для эффективной обученности. ## Результаты Эксперименты проводились на 11 датасетах, включая задачи, такие как генерирование новостных статей, отчетов и диалогов. Были использованы несколько моделей глубокого обучения и базовые алгоритмы. Результаты показали, что модель эффективно предсказывает оценки качества, даже при ограниченном количестве обучающих данных. Интервалы доверия, предсказанные моделью, позволяют оценить неопределенность прогноза, что является значительным преимуществом. Общий показатель точности прогнозов оставался высоким, даже при оценке на разных датасетах и задачах. ## Значимость Результаты имеют значительные практические применения в сферах автоматизированного контроля качества текстов, включая новостные сайты, учебные платформы и системы рекомендаций. Метод предлагает более точную и гибкую оценку текстов, что может улучшить качество автоматизированных систем. Модель готова к применению в реальных условиях, так как отображает не только точные результаты, но и их неопределен

Annotation:

We motivate and share a new benchmark for instance-level performance prediction of long-form generation tasks having multi-faceted, fine-grained quality metrics. Our task-, model- and metric-agnostic formulation predicts continuous evaluation metric scores given only black-box model inputs and outputs. Beyond predicting point estimates of metric scores, the benchmark also requires inferring prediction intervals to quantify uncertainty around point estimates. Evaluation spans 11 long-form dataset...

ID: 2509.07309v1 cs.CL, cs.LG

arXiv PDF

1
2
39
40
41
42
43
57
58

Показано 401 - 410 из 573 записей