📚 Саммари научных статей из arXiv

Найдено 370 результатов по запросу 'cs.CL, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Zero-knowledge LLM hallucination detection and mitigation through fine-grained cross-model consistency

2025-08-22

Авторы:

Aman Goel, Daniel Schwartz, Yanjun Qi

#### Контекст Large language models (LLMs) становятся все более важной составляющей современных технологий, позволяя решать задачи, от написания кода до генерирования текстов. Однако они не освобождены от ошибок, одной из самых важных из которых является "hallucination" — выдача неточных или неподтвержденных ответов, которые могут показаться авторитетными, но являются фактически неверными. Эта проблема особенно критична в задачах, требующих высокой точности, таких как медицинские или юридические приложения. Наличие эффективного метода для обнаружения и устранения таких ошибок может существенно усилить надежность LLM в производственных средах. #### Метод Мы предлагаем Finch-Zk — блэк-боксный фреймворк, основанный на **fine-grained cross-model consistency** (тонкой структурной совпадении ответов между разными моделями). За основу фреймворка лежит две ключевые идеи: 1. **Cross-model consistency checking**: Обнаружение тонких неточностей в ответах LLM, проводившись сравнение выдач от нескольких моделей, запущенных на семантически одинаковых запросах. Это позволяет выявить мелкие ошибки, которые могут быть пропущены стандартными методами. 2. **Targeted mitigation**: Использование локальных коррекций, которые исправляют только те части ответа, где обнаружены неточности, при этом сохраняя точные части ответа. Finch-Zk работает на базе black-box моделей, не требуя доступа к их внутренним представлениям или дополнительных источников знаний. #### Результаты Мы провели эксперименты на датасете FELM, сравнив Finch-Zk с существующими подходами. Результаты показали, что F1-меру для обнаружения hallucinations Finch-Zk увеличивает на 6–39% по сравнению с конкурентными вариантами. Также, на GPQA-diamond датасете, Finch-Zk повысил точность ответов примененным к моделям, таким как Llama 4 Maverick и Claude 4 Sonnet, на 7–8 процентных единиц. Эти результаты подтверждают, что этот подход дает существенное улучшение в обнаружении и исправлении неточностей, даже при использовании готовых моделей. #### Значимость Подход Finch-Zk может быть применен в различных областях, где точность ответов критична, включая: - Медицинские приложения. - Юридические системы. - Автоматизация поддержки клиентов. Один из основных преимуществ этого подхода заключается в том, что он может быть использован для любых блэк-боксных моделей без дополнительных требований к обучению или редактированию. Это делает его широко применимым и открывает путь к его внедрению в рабочих производственных средах. #### Выводы Finch-Zk представляет собой эффективный и практичный подход к обнаружению и исправлению неточностей в LLM. Мы доказали его эффективность при помощи научных экспериментов и сравнени

Annotation:

Large language models (LLMs) have demonstrated impressive capabilities across diverse tasks, but they remain susceptible to hallucinations--generating content that appears plausible but contains factual inaccuracies. We present Finch-Zk, a black-box framework that leverages FINe-grained Cross-model consistency to detect and mitigate Hallucinations in LLM outputs without requiring external knowledge sources. Finch-Zk introduces two key innovations: 1) a cross-model consistency checking strategy t...

ID: 2508.14314v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

2025-08-22

Авторы:

NVIDIA, :, Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adithya Renduchintala, Aditya Malte, Akhiad Bercovich, Akshay Hazare, Alejandra Rico, Aleksander Ficek, Alex Kondratenko, Alex Shaposhnikov, Alexander Bukharin, Ali Taghibakhshi, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amy Shen, Andrew Tao, Ann Guan, Anna Shors, Anubhav Mandarwal, Arham Mehta, Arun Venkatesan, Ashton Sharabiani, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Banghua Zhu, Barnaby Simkin, Bilal Kartal, Bita Darvish Rouhani, Bobby Chen, Boris Ginsburg, Brandon Norick, Brian Yu, Bryan Catanzaro, Charles Wang, Charlie Truong, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christian Munley, Christopher Parisien, Dan Su, Daniel Afrimi, Daniel Korzekwa, Daniel Rohrer, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Dima Rekesh, Dina Yared, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Eileen Long, Elliott Ning, Eric Chung, Erick Galinkin, Evelina Bakhturina, Gargi Prasad, Gerald Shen, Haifeng Qian, Haim Elisha, Harsh Sharma, Hayley Ross, Helen Ngo, Herman Sahota, Hexin Wang, Hoo Chang Shin, Hua Huang, Iain Cunningham, Igor Gitman, Ivan Moshkov, Jaehun Jung, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jian Zhang, Jiaqi Zeng, Jimmy Zhang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jonathan Cohen, Joseph Jennings, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kezhi Kong, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Kushan Ahmadian, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Luis Vega, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Mark Cai, Markus Kliegl, Marta Stepniewska-Dziubinska, Matvei Novikov, Mehrzad Samadi, Meredith Price, Meriem Boubdir, Michael Boone, Michael Evans, Michal Bien, Michal Zawalski, Miguel Martinez, Mike Chrzanowski, Mohammad Shoeybi, Mostofa Patwary, Namit Dhameja, Nave Assaf, Negar Habibi, Nidhi Bhatia, Nikki Pope, Nima Tajbakhsh, Nirmal Kumar Juluru, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Oluwatobi Olabiyi, Pablo Ribalta, Padmavathy Subramanian, Parth Chadha, Pavlo Molchanov, Peter Dykas, Peter Jin, Piotr Bialecki, Piotr Januszewski, Pradeep Thalasta, Prashant Gaikwad, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi Mahabadi, Rajen Patel, Ran El-Yaniv, Ranjit Rajan, Ria Cheruvu, Rima Shahbazyan, Ritika Borkar, Ritu Gala, Roger Waleffe, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Sahil Jain, Samuel Kriman, Sanjeev Satheesh, Saori Kaji, Sarah Yurick, Saurav Muralidharan, Sean Narenthiran, Seonmyeong Bak, Sepehr Sameni, Seungju Han, Shanmugam Ramasamy, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shizhe Diao, Shreya Gopal, Shrimai Prabhumoye, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Siddhartha Jain, Somshubra Majumdar, Soumye Singhal, Stefania Alborghetti, Syeda Nahida Akter, Terry Kong, Tim Moon, Tomasz Hliwiak, Tomer Asida, Tony Wang, Tugrul Konuk, Twinkle Vashishth, Tyler Poon, Udi Karpas, Vahid Noroozi, Venkat Srinivasan, Vijay Korthikanti, Vikram Fugro, Vineeth Kalluru, Vitaly Kurin, Vitaly Lavrukhin, Wasi Uddin Ahmad, Wei Du, Wonmin Byeon, Ximing Lu, Xin Dong, Yashaswi Karnati, Yejin Choi, Yian Zhang, Ying Lin, Yonggan Fu, Yoshi Suhara, Zhen Dong, Zhiyu Li, Zhongbo Zhu, Zijia Chen

## Контекст Область исследования фокусируется на развитии моделей языка, которые обеспечивают высокую точность и быструю обработку задач рассуждения. Несмотря на прогрессы в области трансформеров, существуют проблемы, связанные с высокими затратами ресурсов и ограниченной скоростью обработки больших объемов данных. Эти ограничения становятся критичными при работе с задачами, требующими длинных итераций размышления (long-thinking traces). Направление исследования заключается в разработке моделей, которые сочетают высокую эффективность с максимальной точностью, особенно для устройств с ограниченными ресурсами. ## Метод Разработка Nemotron-Nano-9B-v2 основывается на Nemotron-H архитектуре, где большая часть слоёв самоп paжения (self-attention) трансформера заменена на Mamba-2 слои. Это позволило значительно улучшить скорость выполнения модели при работе с длинными цепями рассуждений. Модель была предварительно обучена на 20 триллионов токенов с использованием FP8 технологии. Далее, с помощью мини-трансформерского подхода (Minitron), модель была сжата и дистиллирована до 9 миллиардов параметров. Это разрешило её эффективное применение на устройствах с ограниченной памятью, таких как NVIDIA A10G GPU. ## Результаты В экспериментах Nemotron-Nano-9B-v2 показала значительное улучшение пропускной способности при работе с задачами рассуждения (reasoning workloads). На проверяющих наборах данных, таких как Reasoning Bench, она достигла точности, сравнимой или лучшей, чем модели размера 9 миллиардов параметров, такие как Qwen3-8B. На задачах, требующих длинных входных и выходных последовательностей (8k входа, 16k выхода), модель достигла до 6 раз вышей производительности по сравнению с аналогами. Эти результаты достигнуты благодаря стратегии сжатия и дистилляции, которая позволила сохранить точность при минимизации затрат ресурсов. ## Значимость Модель Nemotron-Nano-9B-v2 может использоваться в различных областях, где эффективность вычислений и высокая точность критичны, например, в робототехнике, медицине, интеллектуальных системах рекомендаций. Особым преимуществом является возможность работы на мобильных устройствах и на устройствах с ограниченными ресурсами без потери качества. Эта модель подсказывает возможность значительного улучшения широкого спектра приложений, где сейчас применяются более ресурсоёмкие модели трансформеров. ## Выводы Результаты показывают, что Nemotron-Nano-9B-v2 сочетает высокую точность и производительность в области рассуждения. Будущие исследования будут направлены на дальнейшее улучшение модели, в том чис

Annotation:

We introduce Nemotron-Nano-9B-v2, a hybrid Mamba-Transformer language model designed to increase throughput for reasoning workloads while achieving state-of-the-art accuracy compared to similarly-sized models. Nemotron-Nano-9B-v2 builds on the Nemotron-H architecture, in which the majority of the self-attention layers in the common Transformer architecture are replaced with Mamba-2 layers, to achieve improved inference speed when generating the long thinking traces needed for reasoning. We creat...

ID: 2508.14444v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Long Chain-of-Thought Reasoning Across Languages

2025-08-22

Авторы:

Josh Barua, Seun Eisape, Kayo Yin, Alane Suhr

#### Контекст Огромный рост мощности и гибкости технологий машинного обучения в последние годы способствовал развитию технологий естественного языка, но при этом был отмечен значительный языковый фокус на английский. Даже самые совершенные модели раскладывают свою эффективность на языках, отличных от английского. Особенно трудности возникают в случае языков с более низким ресурсом, где модели часто сталкиваются с проблемами в понимании задач и выполнении адекватного рассуждения. Наше исследование Long Chain-of-Thought Reasoning Across Languages концентрируется на расширении возможностей рассуждения в LLMs (large language models) на разных языках, включая русский, французский, испанский, и т.д. Мы видим, что существуют существенные проблемы с корректным пониманием и выполнением рассуждений в основном вне англоязычного пространства. Наша мотивация заключается в том, чтобы создать более универсальную модель, которая могла бы оперировать не только на английском, но и на других языках с разными уровнями ресурсов. #### Метод Чтобы достичь этой цели, мы придумали методологию, основанную на переводе и адаптации существующих данных. Мы выбрали два популярных англоязычных датасета, перевели их на целевые языки, и использовали несколько моделей, в том числе Qwen 2.5 (7B) и Qwen 3 (8B). Мы внедрили технический подход, включающий в себя fine-tuning моделей на многоязычных датасетах с различным количеством данных. Например, мы проводили эксперименты с короткими и длинными chain-of-thought reasoning на языках, таких как латынь, французский, японский и свахили. При этом мы придерживались двух основных подходов: 1) узконаправленный fine-tuning, который использовал более качественные, но меньшие данные; 2) более общий подход с использованием многоязычных датасетов, но с меньшим количеством тренировочных данных. Мы также проводили эксперименты с настройкой для конкретных языков, включая русский, чтобы оптимизировать производительность модели для разных языковых структур. #### Результаты Мы получили несколько основных выводов. Во-первых, мы обнаружили, что при использовании английского языка как pivot-языка, который может помочь в выполнении рассуждений, результаты варьируются в зависимости от целевого языка. Например, для французского языка английский не приносил дополнительных выгод, но для японского и латыньи он давал существенный подъем в производительности. Во-вторых, предварительное обучение на многоязычных датасетах (multilingual pretraining) помогло уменьшить разрыв в производительности между разными языками, но не смог пол

Annotation:

Scaling inference through long chains-of-thought (CoTs) has unlocked impressive reasoning capabilities in large language models (LLMs), yet the reasoning process remains almost exclusively English-centric. We construct translated versions of two popular English reasoning datasets, fine-tune Qwen 2.5 (7B) and Qwen 3 (8B) models, and present a systematic study of long CoT generation across French, Japanese, Latvian, and Swahili. Our experiments reveal three key findings. First, the efficacy of usi...

ID: 2508.14828v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 STEM: Efficient Relative Capability Evaluation of LLMs through Structured Transition Samples

2025-08-21

Авторы:

Haiquan Hu, Jiazhi Jiang, Shiyou Xu, Ruhan Zeng, Tian Wang

#### Контекст Изучение эффективности и потенциала больших языковых моделей (LLMs) является ключевым направлением в машинном обучении. Однако современные модели становятся все более сложными, что затрудняет их оценку. Обычные бенчмарки не всегда отражают реальную реалиятические ситуации. Также существуют проблемы с overfitting'ом, высокими затратами на ресурсы, и нехваткой транспарентных результатов. Необходимо разработать метод, который бы позволил сравнивать модели быстро и точно, не требуя огромных затрат на вычисления. STEM предлагает решение этих проблем, ориентируясь на свойства LLMs. #### Метод STEM (Structured Transition Evaluation Method) - это метод оценки LLMs, основанный на анализе "значимых переходов" (STS) в поведении моделей. Он использует последовательности моделей с разными параметрами внутри одной архитектуры. На основе этих переходов, STEM создает модель-контроль, сравнивая стабильные и нестабильные решения. Эта модель-контроль позволяет оценить модели, которые не входят в пул для сравнения напрямую. STEM эффективен так как ориентируется на конкретные случаи, а не на глобальные статистики. Он также интерпретируем и не требует вычислительных ресурсов на полной оценке всех моделей. #### Результаты STEM был протестирован на Qwen3 модели с разными параметрами. Использовались 6 разных бенчмарков, охватывающих различные аспекты языкового моделирования. Результаты показали, что STEM способен точно оценить модели и сравнить их по реальной реализации, а не только по бенчмаркам. Метод показал высокую точность в определении положения моделей в цепочке по сравнению с традиционными методами. Эксперименты подтвердили, что STEM значительно эффективнее и точнее, чем предыдущие подходы. #### Значимость STEM предлагает практический и эффективный подход к оценке LLMs, который может применяться во многих областях: от принятия решений в реальных условиях до создания стандартов для сравнения моделей. Он предлагает более точную и легко интерпретируемую оценку по сравнению с традиционными методами. Благодаря своей легковесности и интерпретируемости, STEM может стать ключевым инструментом для быстрой и точной оценки моделей без высоких затрат на ресурсы. #### Выводы Результаты исследования подтверждают, что STEM является эффективным инструментом для оценки LLMs, который может быть использован для сравнения моделей в разных условиях. Будущие исследования будут направлены на расширение этой методики для различных архитектур моделей и улучшение ее отказоустойчивости в разных сценариях. Это может привести к более широкому применению STEM в промышленных задачах.

Annotation:

Evaluating large language models (LLMs) has become increasingly challenging as model capabilities advance rapidly. While recent models often achieve higher scores on standard benchmarks, these improvements do not consistently reflect enhanced real-world reasoning capabilities. Moreover, widespread overfitting to public benchmarks and the high computational cost of full evaluations have made it both expensive and less effective to distinguish meaningful differences between models. To address thes...

ID: 2508.12096v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Prediction is not Explanation: Revisiting the Explanatory Capacity of Mapping Embeddings

2025-08-21

Авторы:

Hanna Herasimchyk, Alhassan Abdelhalim, Sören Laue, Michaela Regneri

## Контекст Область исследования, связанная с пониманием представленного в глубоких нейронных сетях знаний, является одной из ключевых проблем в развитии интерпретируемых систем машинного обучения. Несмотря на то, что нейронные сети достигли высокого эффективности в решении различных задач, их внутренняя структура и инкапсулированные в ней знания часто остаются непонятными. Это снижает уровень доверия к AI-системам и ограничивает их применение в критически важных сферах. Глубокие нейронные сети, такие как Большие Лингвистические Модели (LLMs), основываются на эмбеддингах слов, которые представляют собой векторные представления лексико-семантических свойств слов. Одним из известных методов изучения этих представлений является поиск их семантических особенностей (feature norms), которые могут быть установлены через людей. Тем не менее, существуют значительные проблемы с точки зрения интерпретируемости и надежности этих методов. ## Метод В данной работе предлагается изучить методы, использующиеся для описания знаний, заключенных в эмбеддингах слов, с использованием наборов данных семантических особенностей (semantic feature norms). Обычно используется предположение, что если модель эффективно предсказывает эти семантические особенности из эмбеддингов, то это значит, что эмбеддинги содержат соответствующие знания. Однако, в данном исследовании проводится критический анализ этого предположения. Авторы используют методы глубокого обучения, включая методы регрессии, чтобы проверить предположения, связанные с интерпретируемостью эмбеддингов. Одной из главных тезисов является то, что точность предсказания не гарантирует наличия глубокого понимания семантической структуры в эмбеддингах. ## Результаты На основе целого ряда экспериментов, проводившихся на разных наборах данных, показано, что прогностическая модель может достигать высокой точности даже на вымышленных или случайных наборах данных, что снижает доверие к полученным результатам. В частности, выявлено, что некоторые методы семантического анализа эмбеддингов оказываются неустойчивыми в своих выводах. Модель может оптимизироваться для того, чтобы выглядеть как более интерпретируемая, но это не означает, что она действительно понимает значение своих представлений. На основе этих результатов авторы показывают, что методы маппинга эмбеддингов на семантические характеристики могут давать высокую точность, но это не является доказательством, что эмбеддинги действительно включают семантические знания. ## Значимость Результаты исследования по

Annotation:

Understanding what knowledge is implicitly encoded in deep learning models is essential for improving the interpretability of AI systems. This paper examines common methods to explain the knowledge encoded in word embeddings, which are core elements of large language models (LLMs). These methods typically involve mapping embeddings onto collections of human-interpretable semantic features, known as feature norms. Prior work assumes that accurately predicting these semantic features from the word...

ID: 2508.13729v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Unintended Misalignment from Agentic Fine-Tuning: Risks and Mitigation

2025-08-21

Авторы:

Dongyoon Hahm, Taywon Min, Woogyeol Jin, Kimin Lee

#### Контекст Large Language Models (LLMs) превратились с простых систем генерации текста в сложные агентские системы, способные планировать и взаимодействовать с внешними инструментами для решения комплексных задач. Эта эволюция часто включает в себя fine-tuning LLMs на конкретные агентские задачи для улучшения их производительности. Тем не менее, при этом часто игнорируются вопросы безопасности. Несмотря на то, что отлично протестированные модели могут выполнять свои задачи довольно эффективно, возникают риски того, что они могут непреднамеренно отказаться от исполнения полезных задач (десанктализация) или, что гораздо проблематичнее, отказаться от исполнения вредоносных задач. Этот аспект безопасности является ключевым для обеспечения безопасного использования LLMs в реальном мире. #### Метод Мы предлагаем Prefix INjection Guard (PING), метод, который представляет собой простой, но эффективный подход к предотвращению непреднамеренного смены мотивации в LLM-агентах. PING вводит автоматически создаваемые признаки в начало ответов модели, которые направляют ее отказаться от вредоносных задач, сохранив эффективность при выполнении задач, не требующих вредоносности. Мы предлагаем циклический подход, который поочередно решает две задачи: (1) генерирование кандидатов признаков и (2) выбор признаков, оптимально сбалансированных между эффективностью и отказом от вредоносных задач. Эта техника используется для понимания и модификации поведения модели, обеспечивая безопасность без ущерба для производительности. #### Результаты Мы провели эксперименты на различных бенчмарках, включая задачи web navigation и code generation. Показано, что PING значительно повышает безопасность fine-tuned LLM-агентов, не влияя на их эффективность при выполнении невредоносных задач. Метод PING показал высокую эффективность в сравнении с другими способами подготовки наборов входных данных. Мы также провели анализ внутренних скрытых состояний модели с помощью линейных проверок, показав, что признаки PING играют ключевую роль в модификации поведения модели, объясняя ее высокую производительность. #### Значимость PING может быть применен в различных областях, где требуется безопасность и эффективность агентских систем на LLMs. Он предоставляет значительные преимущества, такие как уменьшение рисков смены мотивации без снижения производительности, а также может быть применен для снижения рисков во взаимодействии с системами на основе LLMs в различных секторах. Этот подход может иметь потенциал для расширения безопасного применения LLMs в реальном мире, обеспечивая баланс между производительностью и безопасностью. #### Выводы Мы показали, что непреднамеренная смена моти

Annotation:

Beyond simple text generation, Large Language Models (LLMs) have evolved into agentic systems capable of planning and interacting with external tools to solve complex tasks. This evolution involves fine-tuning LLMs on agent-specific tasks to enhance their proficiency. However, safety concerns are frequently overlooked during this fine-tuning process. In this work, we show that aligned LLMs can become unintentionally misaligned, leading to a higher likelihood of executing harmful tasks and a redu...

ID: 2508.14031v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection

2025-08-20

Авторы:

Seonglae Cho, Zekun Wu, Adriano Koshiyama

################################## ## Контекст ################################## Существуют большие языковые модели (LLMs), которые используются для обработки текстов в различных задачах, но их эффективность часто ограничивается необходимостью в специально подобранных данных для обучения или дополнительных ресурсах для мониторинга и корректировки их поведения. Одним из таких задач применения является управление поведением модели (steering), которое предназначено для влияния на результаты модели, чтобы сделать их более точными, безопасными или нейтральными. Большинство существующих подходов к steering в LLMs требуют дополнительного обучения, тестовых данных или сложных методов выделения функций, что снижает их эффективность и гибкость. Поэтому, в статье предлагается подход, позволяющий эффективно и автоматически выделять функции из спарсинговых автокодировщиков (Sparse Autoencoders, SAEs) для управления поведением модели. Этот подход основывается на выборе функций, соотносящих правильность ответов модели с активациями SAE при инференсе, что позволяет избежать нежелательных корреляций и улучшить точность решения задач. Этот подход может быть применен для различных задач, таких как моделирование ответов в виде вопросов-ответов (QA), снижение биаса, предотвращение жалобного поведения (jailbreaking) и развитие рационального мышления в моделях. ################################## ## Метод ################################## В ходе исследования предложен подход CorrSteer, который использует спарсинговые автокодировщики для выделения функций с учетом корреляции с правильностью ответов модели. В статье используется метод выбора функций, основанный на корреляции между ответом модели и активациями SAE, сгенерированными в момент инференса. Преимущество этого подхода заключается в том, что он использует только активации, полученные во время инференса, и не требует дополнительных данных для обучения или хранения. Это позволяет избежать спуфингов корреляций и улучшить качество решения задач. Кроме того, CorrSteer автоматизирует процесс выделения функций, получая коэффициенты управления (steering coefficients) на основе средних активаций SAE, что делает весь процесс более простым и эффективным. Метод протестирован на различных моделях, таких как Gemma 2 2B и LLaMA 3.1 8B, на таких задачах, как вопросы-ответы (QA), снижение биаса, предотвращение жалобного поведения и рациональное мышление. Это позволило продемонстрировать эффективность подхода в улучшении задач, в том числе повышении производительности модели на MMLU на +4.1% и улучшении исправления биаса на +22.9% с использованием только 4000 выборочных данных. ################################## ## Результаты ################################## Исследование показало, что CorrSteer эффективно улучшает задачи в области управления поведением моделей. Например, на

Annotation:

Sparse Autoencoders (SAEs) can extract interpretable features from large language models (LLMs) without supervision. However, their effectiveness in downstream steering tasks is limited by the requirement for contrastive datasets or large activation storage. To address these limitations, we propose CorrSteer, which selects features by correlating sample correctness with SAE activations from generated tokens at inference time. This approach uses only inference-time activations to extract more rel...

ID: 2508.12535v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction

2025-08-20

Авторы:

Xingshan Zeng, Weiwen Liu, Lingzhi Wang, Liangyou Li, Fei Mi, Yasheng Wang, Lifeng Shang, Xin Jiang, Qun Liu

## Контекст Одним из ключевых направлений развития ИИ является создание систем, способных эффективно взаимодействовать с пользователями в рамках сложных задач. Это включает в себя взаимодействия с несколькими шагами, вовлечение различных инструментов и динамические обмены. Но в существующих моделях нередко обнаруживаются проблемы с обеспечением точности, структуры и динамичности в таких сценариях. Это приводит к необходимости разработки методов, которые могут генерировать более качественные данные для обучения и оценки таких систем. ## Метод Предлагаемый подход, ToolACE-MT, основывается на неавторегрессионной генерировании диалогов, разделяющий процесс на три этапа. **Инициализация** формирует структурно полные, но семантически грубые диалоговые выводы. **Итеративное уточнение** вводит реалистичные сложности, расширяет диалог и добавляет контекстов. **Оффлайн-проверка** гарантирует качество и логичность результатов с помощью правил и моделей. Этот подход стремится создавать данные, которые не только содержат всю необходимую структуру, но и динамичны в своем смысле, чтобы отразить реальные сценарии интеракций. ## Результаты Используя этот подход, были проведены эксперименты, в которых генерировались диалоги с несколькими шагами, включая задачи с использованием инструментов. Обучающиеся данные были получены с помощью многих выборок, а результаты показали, что ToolACE-MT удалось увеличить качество данных, сократить время генерации и обеспечить более гибкий процесс сравнения многих моделей. Эти результаты опровергают необходимость в дорогостоящих многошаговых авторегрессионных процессах, предлагая более эффективную альтернативу. ## Значимость Модель ToolACE-MT может быть применима в различных сферах, таких как генерация диалогов для систем помощников, систем технической поддержки и интерактивных приложений. Одним из основных преимуществ является ее эффективность и универсальность, что позволяет улучшить качество данных в средах с несколькими шагами. Это может привести к повышению качества работы генерируемых моделей и к более естественным взаимодействиям с пользователями. ## Выводы Это исследование предлагает новую модель для генерирования данных для многошаговых сценариев с использованием инструментов. Достижения ToolACE-MT указывают на возможность создания улучшенных систем, которые будут более эффективными и реалистичными в своих взаимодействиях. Будущие исследования будут сконцентрированы на расширении модели для более сложных задач и интеграции дополнительных инструментальных функций.

Annotation:

Agentic task-solving with Large Language Models (LLMs) requires multi-turn, multi-step interactions, often involving complex function calls and dynamic user-agent exchanges. Existing simulation-based data generation methods for such scenarios rely heavily on costly autoregressive interactions between multiple LLM agents, thereby limiting real-world performance of agentic tasks. In this paper, we propose a novel Non-Autoregressive Iterative Generation framework, called ToolACE-MT, for constructin...

ID: 2508.12685v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Mitigating Hallucinations in Large Language Models via Causal Reasoning

2025-08-19

Авторы:

Yuangang Li, Yiqing Shen, Yi Nian, Jiechao Gao, Ziyi Wang, Chenxiao Yu, Shawn Li, Jie Wang, Xiyang Hu, Yue Zhao

## Контекст Современные большие языковые модели (LLMs) сталкиваются с проблемой **hallucinations** — выводов, показательно соответствующих языку, но несоответствующих логике или рациональным принципам. Эти эффекты могут привести к нежелательным последствиям в задачах, требующих высокого качества выводов. Несколько исследований указали на то, что **causal reasoning** способствует уменьшению таких несоответствий. Однако, существующие подходы, такие как Chain-of-Thought (CoT) и его варианты на основе графов, оперируют на уровне токенов и не могут представлять сущности в виде структурных зависимостей. Это ограничивает их эффективность в моделировании сложных ситуаций, где необходимо учитывать условные зависимости. Опытные пользователи моделей знают, что на практике LLM может давать неточные ответы, даже в базовых ситуациях, что подтверждает необходимость развития новых методов для уменьшения такого поведения. ## Метод Мы предлагаем **causal-DAG construction and reasoning (CDCR-SFT)** — систему, которая позволяет модели LLM явно отображать логическое представление зависимостей между переменными в виде **directed acyclic graph (DAG)**. Этот подход включает в себя: 1. **Causal-DAG construction**: модель выводит граф, представляющий структуру сущностей и их взаимосвязей. 2. **Reasoning over DAG**: модель применяет рациональный анализ к полученному графу, выполняя вывод на основе условных зависимостей. Для обучения и экспериментов мы создали **CausalDR** — новую базу данных включающую 25 368 примеров, каждый содержащий вопрос, пример графа, рассуждения и корректный ответ. Мы применяем этот подход к нескольким LLMs, тестируя их на различных задачах. ## Результаты Наши эксперименты показали, что **CDCR-SFT** выдает следующие результаты: - **На тестовой выборке CLADDER** — **95.33% точность**, превышая человеческую производительность (94.8%, впервые достигнутая). - **На HaluEval** — повышение точности на 10%, что уменьшило степень логических несоответствий в выводах. - Эти результаты подтверждают, что модель, использующая структуру DAG, эффективно устраняет логические несоответствия в выводах больших языковых моделей. ## Значимость **Применение**: Метод **CDCR-SFT** может применяться в различных областях, где требуется высококачественный вывод, например в журналистике, медицине, юриспруденции и других критически важных сферах. **Преимущества**: Этот подход уменьшает уровень логических ошибок и повышает доверие к выводам моделей, что определяет его перспективность в области супервизорного обучения. **Влияние**: Этот подход может иметь решающий вклад в развитие

Annotation:

Large language models (LLMs) exhibit logically inconsistent hallucinations that appear coherent yet violate reasoning principles, with recent research suggesting an inverse relationship between causal reasoning capabilities and such hallucinations. However, existing reasoning approaches in LLMs, such as Chain-of-Thought (CoT) and its graph-based variants, operate at the linguistic token level rather than modeling the underlying causal relationships between variables, lacking the ability to repre...

ID: 2508.12495v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 SupraTok: Cross-Boundary Tokenization for Enhanced Language Model Performance

2025-08-19

Авторы:

Andrei-Valentin Tănase, Elena Pelican

## Контекст Токенизация является основополагающим, но значительно менее изученным аспектом естественного языкового процессинга. Несмотря на то, что модели языковых моделей делают значительные прорывы, стратегии токенизации остаются статичными и неэффективными. Они часто оптимизируются для конкретных моделей или задач, что приводит к убыткам в универсальной обработке текста. Эта проблема сочетается с необходимостью лучшего понимания семантических связей в текстах, чтобы улучшить эффективность и точность моделей. Мы предлагаем SupraTok, многофазную токенизационную архитектуру, которая переосмысливает subword segmentation, предлагая новый подход к обнаружению и обработке семантических единиц. ## Метод SupraTok использует три основных инновации: 1. **Cross-Boundary Pattern Learning**: Это новый подход, оптимизирующий поиск семантических единиц, которые могут простираться за границы подблоков. Это позволяет SupraTok выделять "сверхслова" (superwords) — компактные, семантически целостные композиции, которые обладают более высокой степенью сжатия. 2. **Entropy-Driven Data Curation**: Мы вводим метод, оптимизирующий качество тестового корпуса с помощью сложности выражений. Это позволяет SupraTok более эффективно идентифицировать и сгруппировать слова, которые естественно встречаются вместе в тексте. 3. **Multi-Phase Curriculum Learning**: Мы разработали многоэтапный подход к обучению, который уменьшает возможность переобучения и обеспечивает стабильность сходимости при обучении. SupraTok расширяет Byte-Pair Encoding (BPE), предлагая "сверхслова", которые сохраняют внутреннюю семантическую целостность внутри слов и увеличивают эффективность сжатия. ## Результаты Мы провели эксперименты с SupraTok на 38 языках, оценивая его эффективность по сравнению с двумя текущими токенизаторами: OpenAI 200k и Google Gemma 3. SupraTok показал следующие результаты: - 31% улучшение в токенизации на английском языке (5,91 символов за токен против 4,51 для OpenAI и 2,63 для Gemma 3). - 30% улучшение на 256k-vocabulary Gemma 3 tokenizer. - 8,4% улучшение в HellaSWAG и 9,5% в MMLU без изменений в модели. Эти результаты показали, что SupraTok не только эффективнее в токенизации, но и может способствовать улучшению производительности моделей с широким спектром задач. ## Значимость SupraTok может быть применен в различных областях, где эффективная обработка языка является ключевой задачей, включая машинный перевод, синтез речи и генерацию произвольных текстов. Такие улучшения в токенизации могут привести к существенным повышениям скорости обработки и эффективности моделей. Это также открывает пути для

Annotation:

Tokenization remains a fundamental yet underexplored bottleneck in natural language processing, with strategies largely static despite remarkable progress in model architectures. We present SupraTok, a novel tokenization architecture that reimagines subword segmentation through three innovations: cross-boundary pattern learning that discovers multi-word semantic units, entropy-driven data curation that optimizes training corpus quality, and multi-phase curriculum learning for stable convergence....

ID: 2508.11857v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
31
32
33
34
35
36
37

Показано 321 - 330 из 370 записей