📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

2025-08-09

Авторы:

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tang

**Резюме** Проблема: Несмотря на успех л LLM в области математического разума, их развитие сталкивается с ограничениями, связанными с недостаточным количеством высококачественных и сложных данных для обучения. Традиционные методы синтеза математических задач основываются на модификации человекозапланированных шаблонов, что ограничивает разнообразие и масштабируемость. Решение: Мы предлагаем MathSmith — новую рамочную структуру для генерации сложных математических задач. Различается тем, что генерирует задачи с нуля, используя случайную выборку концептуальных пар из PlanetMath, чтобы обеспечить данными индепендентность и избежать контримитации. Для усиления сложности задач, разработаны 9 стратегий как ограничительные условия в процессе создания. Используется RL для оптимизации структурной достоверности, сложности рассуждений и консистентности ответов. Длина рассуждения, сгенерированных в авторегрессионной модели, использована как показатель когнитивной сложности, чтобы стимулировать создание задач, подходящих для метода Long-Chain-of-Thought. Основные выводы: Мы проверили MathSmith на 5 бенчмарках (GSM8K, MATH-500, AIME2024, AIME2025, OlympiadBench), показав значительное превосходство по сравнению с базовыми моделями в коротких и длинных CoT условиях. Дополнительно, модуль генерации целевых исправлений позволяет сосредоточиться на конкретных математических понятиях. MathSmith демонстрирует сильную масштабируемость, универсальность и трансфертность, подтверждая значимость использования высокосложности синтетических данных для улучшения LLM в области математического разума.

Annotation:

Large language models have achieved substantial progress in mathematical reasoning, yet their advancement is limited by the scarcity of high-quality, high-difficulty training data. Existing synthesis methods largely rely on transforming human-written templates, limiting both diversity and scalability. We propose MathSmith, a novel framework for synthesizing challenging mathematical problems to enhance LLM reasoning. Rather than modifying existing problems, MathSmith constructs new ones from scra...

ID: 2508.05592v1 cs.CL

arXiv PDF

📄 Learning to Reason for Factuality

2025-08-09

Авторы:

Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas Oğuz, Rulin Shao, Gargi Ghosh, Jason Weston, Wen-tau Yih

Ло LLM модели с возможностью вывода сложности (Reasoning Large Language Models, R-LLMs) достигли значительных успехов в выполнении задач, но часто сталкиваются с проблемой выдачи неточной информации (hallucination). Эта проблема соблюдается особенно часто при решении задач, требующих длинных ответов с высокой фактической точностью. Ранее использовавшаяся в online RL на таких задачах функция награды оказалась эффективной в обучении моделей, но приводила к нежелательному поведению, такому как генерация менее подробных или не отвечающих вопросу ответов. В статье предлагается новый подход к формированию функции награды, который учитывает фактическую точность, детализацию ответа и его адекватность запросу. Эта функция применяется в сочетании с online RL для обучения моделей, значительно повышающих фактическую точность ответов. На шести длинных задачах фактической точности реализованные модели показали среднюю снижение халлуцинаций на 23.1%, увеличение детализации ответов на 23% и незначительный падение уровня помощности ответов.

Annotation:

Reasoning Large Language Models (R-LLMs) have significantly advanced complex reasoning tasks but often struggle with factuality, generating substantially more hallucinations than their non-reasoning counterparts on long-form factuality benchmarks. However, extending online Reinforcement Learning (RL), a key component in recent R-LLM advancements, to the long-form factuality setting poses several unique challenges due to the lack of reliable verification methods. Previous work has utilized automa...

ID: 2508.05618v1 cs.CL

arXiv PDF

📄 Causal Reflection with Language Models

2025-08-09

Авторы:

Abi Aryan, Zac Liu

**Резюме** Современные языковые модели (LLMs) в impressive fluency и factual recall, но часто опираются на spurious correlations и brittle patterns при робастном causal reasoning. Аналогично, reinforcement learning агенты, оптимизирующие rewards, не развивают касуального понимания. Мы предлагаем Causal Reflection, новую архитектуру, которая структурированно моделирует causality как динамическую функцию, зависящую от state, action, time и perturbation. Также мы внедрили Reflect mechanism, который идентифицирует mismatches в прогнозах и выводит causal hypotheses для перестройки internal model. LLMs в этой системе выступают не как black-box reasoners, а как structured inference engines, которые оценивают и описывают causal рассуждения в natural language. Наша работа базируется на новых теоретических предпосылках для Causal Reflective agents, способных adapt, self-correct и explain causal relations в changing environments.

Annotation:

While LLMs exhibit impressive fluency and factual recall, they struggle with robust causal reasoning, often relying on spurious correlations and brittle patterns. Similarly, traditional Reinforcement Learning agents also lack causal understanding, optimizing for rewards without modeling why actions lead to outcomes. We introduce Causal Reflection, a framework that explicitly models causality as a dynamic function over state, action, time, and perturbation, enabling agents to reason about delayed...

ID: 2508.04495v1 cs.LG, cs.CL

arXiv PDF

📄 Do Recommender Systems Really Leverage Multimodal Content? A Comprehensive Analysis on Multimodal Representations for Recommendation

2025-08-09

Авторы:

Claudio Pomo, Matteo Attimonelli, Danilo Danese, Fedelucio Narducci, Tommaso Di Noia

**Резюме** В статье рассматривается проблема эффективности мультимодальных рекомендательных систем, которые используют различные типы содержимого (например, текст и изображения) для повышения точности рекомендаций. Авторы задают вопрос: природа получаемого выигрыша заключается лишь в усложнении модели или в истинном понимании мультимодальности? Для разрешения этой проблемы предлагается использовать Large Vision-Language Models (LVLMs), которые генерируют эмбеддинги, разработанные специально для мультимодальных задач. Эти эмбеддинги обеспечивают семантическую целостность и взаимное выравнивание между модальностями без необходимости дополнительных стратегий объединения. Эксперименты показали, что LVLMs не только улучшают точность рекомендаций, но и демонстрируют способность создавать понятные для людей структурированные тексты, демонстрирующие мультимодальное понимание системы. Этот подход устанавливает новый акцент на семантические репрезентации в рекомендательных системах и демонстрирует перспективу LVLMs в качестве основы для создания более значимых и эффективных мультимодальных моделей.

Annotation:

Multimodal Recommender Systems aim to improve recommendation accuracy by integrating heterogeneous content, such as images and textual metadata. While effective, it remains unclear whether their gains stem from true multimodal understanding or increased model complexity. This work investigates the role of multimodal item embeddings, emphasizing the semantic informativeness of the representations. Initial experiments reveal that embeddings from standard extractors (e.g., ResNet50, Sentence-Bert) ...

ID: 2508.04571v1 cs.IR, cs.CL, cs.LG

arXiv PDF

📄 Advancing Hate Speech Detection with Transformers: Insights from the MetaHate

2025-08-09

Авторы:

Santosh Chapagain, Shah Muhammad Hamdi, Soukaina Filali Boubrahimi

Хейт спич — одна из наиболее вредных и распространенных форм дискурса в социальных сетях, включая X (ранее Twitter), Facebook и Instagram. Он приводит к серьезным последствиям для индивидуумов и общества. Авторы статьи "Advancing Hate Speech Detection with Transformers: Insights from the MetaHate" предлагают использовать трансформерные модели для его автоматического замещения. Они исследовали 36 датасетов, объединенных в MetaHate (1,2 млн примеров), и сравнили такие модели, как BERT, RoBERTa, GPT-2 и ELECTRA. Файнайдженная модель ELECTRA показала F1-меру 0,8980, лучше других. Анализ ошибок показал, что модели сталкиваются с сарказмом, кодированным языком и шумом в метках. Результаты подтверждают мощность трансформеров в решении задачи детекции хейт спича и выделяют необходимость улучшения понимания контекста в моделях.

Annotation:

Hate speech is a widespread and harmful form of online discourse, encompassing slurs and defamatory posts that can have serious social, psychological, and sometimes physical impacts on targeted individuals and communities. As social media platforms such as X (formerly Twitter), Facebook, Instagram, Reddit, and others continue to facilitate widespread communication, they also become breeding grounds for hate speech, which has increasingly been linked to real-world hate crimes. Addressing this iss...

ID: 2508.04913v1 cs.LG, cs.CL

arXiv PDF

📄 REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation

2025-08-09

Авторы:

Nameer Hirschkind, Joseph Liu, Mahesh Kumar Nandwana, Xiao Yu

Адаптивная обработка языков, особенно в режиме одновременной передачи (SimulST), остается сложной задачей из-за конфликта между качеством перевода и задержкой. Авторы предлагают REINA (Regularized Entropy INformation Adaptation) — новую методологию оптимизации этого баланса. Основываясь на принципах информационной теории, REINA регулирует потери для обучения адаптивной стратегии, оптимально распределяющей ресурсы между ждать дополнительных данных и начать перевод. Это решение, примененное к нескольким языкам (французский, гибрид с немецким и испанским), показало сокращение задержек при сохранении высокого качества перевода. Основным выводом является, что REINA позволяет достичь сокращения задержки до 21%, сохранив высокую точность перевода в сравнении с другими подходами. Это значительно повышает эффективность SimulST-систем, улучшая задачу реалитийного времени в переводе.

Annotation:

Simultaneous Speech Translation (SimulST) systems stream in audio while simultaneously emitting translated text or speech. Such systems face the significant challenge of balancing translation quality and latency. We introduce a strategy to optimize this tradeoff: wait for more input only if you gain information by doing so. Based on this strategy, we present Regularized Entropy INformation Adaptation (REINA), a novel loss to train an adaptive policy using an existing non-streaming translation mo...

ID: 2508.04946v1 cs.LG, cs.CL, eess.AS

arXiv PDF

📄 Understanding and Mitigating Errors of LLM-Generated RTL Code

2025-08-09

Авторы:

Jiazheng Zhang, Cheng Liu, Huawei Li

**Резюме** Статья рассматривает проблемы, возникающие при генерации RTL-кода с использованием БОЛЬШИХ языковых моделей (LLM), а именно несоответствие результатов предсказаний к задаче и недостаточный уровень знаний в области RTL-программирования. Авторы проводят подробный анализ ошибок и выделяют их основные причины: недостаточное знание RTL-программирования, непонимание понятий цифровых схем, неясность в описании дизайна и неверное восприятие мультимодальных входных данных. Чтобы улучшить качество генерации, предлагается использовать методы вспомогательной генерации (RAG), основанные на дополнительных знаниях RTL-программирования, нормализации входных данных с помощью специальных правил редактирования и использованием инструментов для преобразования мультимодальных данных в удобный для модели формат. Для оставшихся ошибок предлагается использовать итеративное дебагирование (симуляция, локализация и исправление ошибок). Основным выводом является, что внедрение этих технологий в LLM-фреймворк улучшает точность генерации RTL-кода до 91.0% на VerilogEval, что значительно превышает базовую модель. Это подтверждает эффективность предложенных методов.

Annotation:

Despite the promising potential of large language model (LLM) based register-transfer-level (RTL) code generation, the overall success rate remains unsatisfactory. Errors arise from various factors, with limited understanding of specific failure causes hindering improvement. To address this, we conduct a comprehensive error analysis and manual categorization. Our findings reveal that most errors stem not from LLM reasoning limitations, but from insufficient RTL programming knowledge, poor unders...

ID: 2508.05266v1 cs.AR, cs.CL, cs.LG

arXiv PDF

📄 Mixed-Initiative Dialog for Human-Robot Collaborative Manipulation

2025-08-09

Авторы:

Albert Yu, Chengshu Li, Luca Macesanu, Arnav Balaji, Ruchira Ray, Raymond Mooney, Roberto Martín-Martín

**Резюме** В поиске эффективных систем развития коллаборативных задач в условиях долгосрочного сотрудничества между роботом и человеком возникает необходимость в гибкой и эффективной системе общения. Рассмотрена Mixed-Initiative dialog paradigm, которая позволяет как роботу, так и человеку, свободно предлагать, принимать или отклонять идеи в процессе работы. Мы представляем MICoBot — систему, решающую задачи в диалоге с роботом, который может предлагать решения и самостоятельно решать, кто лучше выполнит какой-то шаг задачи. MICoBot работает на трех уровнях: (1) метапланирование для формирования глобальной стратегии, (2) планирование для оптимального распределения действий между роботом и человеком, и (3) действия, реализуемые роботом. Успешность MICoBot была проверена в реальном мире с 18 участниками в тестировании на протяжении 27 часов. Эта методика демонстрирует высокую эффективность, превосходя базовый основанный на LLM и другие модели.

Annotation:

Effective robotic systems for long-horizon human-robot collaboration must adapt to a wide range of human partners, whose physical behavior, willingness to assist, and understanding of the robot's capabilities may change over time. This demands a tightly coupled communication loop that grants both agents the flexibility to propose, accept, or decline requests as they coordinate toward completing the task effectively. We apply a Mixed-Initiative dialog paradigm to Collaborative human-roBot teaming...

ID: 2508.05535v1 cs.RO, cs.CL, cs.HC, cs.LG, cs.MA, I.2.9; I.2.7; I.2.6

arXiv PDF

📄 Fairy$\pm i$: the First 2-bit Complex LLM with All Parameters in $\{\pm1, \pm i\}$

2025-08-09

Авторы:

Feiyu Wang, Guoan Wang, Yihao Zhang, Shengfan Wang, Weitao Li, Bokai Huang, Shimao Chen, Zihan Jiang, Rui Xu, Tong Yang

Активный исследовательский потенциал в области низкобитных моделей языковых моделей лежит в развитии Quantization-Aware Training (QAT), которое включает в себя квантизацию во время обучения. Однако существующие подходы ограничиваются улучшением точности квантизации в рамках upper bound, задаваемого точностью полного точности (accuracy ceiling). Данная работа предлагает революционную методологию, позволяющую сдвинуть этот upper bound и достичь новой точности, потому что всякий раз, когда мы квантизируем full-precision model, мы уже оптимизируем ему его точность. Авторы представляют Fairy$\pm i$, первую 2-битную квантизационную модель для complex-valued LLMs. Она использует симметричность и информационную оптимальность 2-битной системы вещественных чисел $\{\pm1, \pm i\}$, что позволяет воспроизводить сложность информационного пространства с минимумом компьютерных операций. Эксперименты показывают, что Fairy$\pm i$ не только способна выйти за пределы существующих 2-битных моделей, но и достигает высокой точности и эффективности, в то же время гарантируя низкий расход ресурсов. Это действительно новая дирекция для развития highly accurate, practical LLMs.

Annotation:

Quantization-Aware Training (QAT) integrates quantization into the training loop, enabling LLMs to learn robust low-bit representations, and is widely recognized as one of the most promising research directions. All current QAT research focuses on minimizing quantization error on full-precision models, where the full-precision accuracy acts as an upper bound (accuracy ceiling). No existing method has even attempted to surpass this ceiling. To break this ceiling, we propose a new paradigm: raisin...

ID: 2508.05571v1 cs.LG, cs.CL

arXiv PDF

📄 Subject or Style: Adaptive and Training-Free Mixture of LoRAs

2025-08-09

Авторы:

Jia-Chen Zhang, Yu-Jie Xiong

Наилучшими способами оптимизировать генеративные модели для задач стилизации или подстановки субъекта являются методы тюнинга через Low-Rank Adaptation (LoRA). Однако существующие подходы часто сбивают баланс между темой и стилем и требуют дополнительного тренировочного процесса. В статье предлагается EST-LoRA — метод, который устраняет эти ограничения, являясь тренировочно-свободным и адаптивным. Он использует три ключевые фактора: емкость матрицы, дискретизацию стилей и временные шаги, чтобы адаптивно выбирать между стильным и тематическим LoRA в каждом слое. Подобно архитектуре Mixture of Experts (MoE), EST-LoRA обеспечивает баланс вкладов и улучшает качество генерации. Эксперименты показали, что он превосходит текущие подходы в качестве и скорости генерации, при этом требуя меньшего количества дополнительных параметров. Исходный код доступен по ссылке.

Annotation:

Fine-tuning models via Low-Rank Adaptation (LoRA) demonstrates remarkable performance in subject-driven or style-driven generation tasks. Studies have explored combinations of different LoRAs to jointly generate learned styles and content. However, current methods struggle to balance the original subject and style, and often require additional training. Recently, K-LoRA proposed a training-free LoRA fusion method. But it involves multiple hyperparameters, making it difficult to adapt to all styl...

ID: 2508.02165v1 cs.CV, cs.CL

arXiv PDF

Показано 7361 - 7370 из 7506 записей