📚 Саммари научных статей из arXiv

Найдено 1316 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Competitive Audio-Language Models with Data-Efficient Single-Stage Training on Public Data

2025-09-11

Авторы:

Gokul Karthik Kumar, Rishabh Saraf, Ludovick Lepauloux, Abdul Muneer, Billel Mokeddem, Hakim Hacid

#### Контекст В последние годы технологии звукового анализа и обработки языка стали ключевыми для развития интеллектуальных систем. Однако сочетание звукового анализа и естественного языка во многом остается недостаточно исследованом. Уже достигнутые успехи в области больших языковых моделей (LLMs) не полностью использованы для аудио-данных, несмотря на то, что звук является основополагающим средством человеческой коммуникации. Это ситуация стимулирует развитие аудио-языковых моделей (ALMs), которые могут обрабатывать и интерпретировать аудио-информацию вместе с текстовыми данными. Falcon3-Audio — это новая семейство ALMs, которые используют уже проинструктированные языковые модели и кодировщики звука с открытым кодом, такими как Whisper. Они предлагают новую точку зрения на объединение звуковых и текстовых данных. #### Метод Falcon3-Audio основана на современных трендах в обучении языковых моделей, но придерживается простоты в своей архитектуре. Она использует Whisper для кодирования звуковых сигналов и обучает языковую модель на основе существующих процедур обучения с инструкциями. Это позволяет проводить одностадийное обучение, не требуя дополнительных сложных методов, таких как курсивное обучение или многоэтапная архитектура. Используется минимальное количество аудио-данных — менее 30 тысяч часов (5 тысяч уникальных аудио-записей) — что демонстрирует высокую эффективность ресурсов. Набор данных Whisper, используемый для обучения, также обеспечивает широкий покрытие различных акцентов и языков. #### Результаты В ходе исследования Falcon3-Audio-7B демонстрирует выдающуюся эффективность, совпадая с результатами лучших моделей на открытом коде в задаче моделирования MMAU. Она построена на меньшем количестве параметров (7 миллиардов) и тренируется на меньшем количестве данных, чем многие соревновательные модели. Например, Falcon3-Audio-1B превосходит различные модели 2–13 миллиардов параметров, открытых и закрытых. Эти результаты достигнуты благодаря простоте архитектуры и эффективности используемых данных. Эксперименты также показали, что Falcon3-Audio достигает этих результатов без дополнительных сложных методов, что демонстрирует ее простоту и надёжность. #### Значимость Модель Falcon3-Audio открывает новый подход к объединению звуковых и текстовых данных в языковых моделях, снижая требования к объему обучающих данных и ресурсам вычислительных систем. Она может применяться в различных областях, включая распознавание речи, генерацию аудио-содержимого и анализ аудио-содержимого. Ее простота, эффектив

Annotation:

Large language models (LLMs) have transformed NLP, yet their integration with audio remains underexplored -- despite audio's centrality to human communication. We introduce Falcon3-Audio, a family of Audio-Language Models (ALMs) built on instruction-tuned LLMs and Whisper encoders. Using a remarkably small amount of public audio data -- less than 30K hours (5K unique) -- Falcon3-Audio-7B matches the best reported performance among open-weight models on the MMAU benchmark, with a score of 64.14, ...

ID: 2509.07526v1 cs.SD, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Uncovering Scaling Laws for Large Language Models via Inverse Problems

2025-09-11

Авторы:

Arun Verma, Zhaoxuan Wu, Zijian Zhou, Xiaoqiang Lin, Zhiliang Chen, Rachael Hwee Ling Sim, Rui Qiao, Jingtan Wang, Nhung Bui, Xinyuan Niu, Wenyang Hu, Gregory Kang Ruey Lau, Zi-Yu Khoo, Zitong Zhao, Xinyi Xu, Apivich Hemachandra, See-Kiong Ng, Bryan Kian Hsiang Low

#### Контекст Large Language Models (LLMs) представляют собой мощные предварительно обученные модели, которые достигли выдающихся результатов во многих областях. Их успех обусловлен заметным ростом сложности и масштаба данных, а также вычислительных ресурсов, необходимых для их обучения. Однако высокая стоимость этих процессов не позволяет проводить брутальные эксперименты для улучшения моделей. Недавние успехи в области вычисления в трудных задачах (inverse problems), таких как численное решение уравнений в нервной системе, показали, что эти методы могут эффективно раскрывать общие законы и принципы. Эта работа предлагает, что подобные методы могут также быть применены для построения LLMs, обеспечив более эффективное использование ресурсов и повышение качества результатов. #### Метод Методология основывается на применении математических моделей и инверсных задач для построения LLM. Основные элементы метода включают: 1. Определение задачи: формулировка взаимосвязи между параметрами модели, сложностью обучения и результатом. 2. Моделирование: создание математических моделей, описывающих связь между входными данными и выходными значениями. 3. Инверсные вычисления: применение методов решения инверсных задач для оптимизации параметров модели. 4. Анализ результатов: изучение полученных параметров и их влияния на качество модели. Эта архитектура позволяет эффективно исследовать и оптимизировать LLMs без полного переобучения. #### Результаты Исследования проводились на наборах данных, включающих тексты на различных языках. Методы инверсных задач были применены для оптимизации параметров модели, таких как размер словаря, глубина сети и гиперпараметры обучения. Результаты показали, что применение инверсных задач позволяет повысить качество модели, сократить время обучения и уменьшить затраты ресурсов. Например, повышение точности модели на 10% было достигнуто с меньшей стоимостью, чем при обычных методах. #### Значимость Полученные результаты имеют широкие применения в области глубокого обучения. Методы, описанные в работе, могут быть использованы для: 1. Оптимизации сложности и масштаба моделей. 2. Уменьшения затрат на обучение больших моделей. 3. Улучшения качества результатов в различных прикладных задачах. Этот подход может привести к более эффективному использованию ресурсов в области AI, что положительно скажется на развитии технологий и приложений. #### Выводы Работа показывает, что применение методов инверсных задач позволяет эффективно построить и оптимизировать LLMs. Основные достижения включают повышение точности, сокращение затрат и уменьшение времени обучения. В будущем планируется расширить исследова

Annotation:

Large Language Models (LLMs) are large-scale pretrained models that have achieved remarkable success across diverse domains. These successes have been driven by unprecedented complexity and scale in both data and computations. However, due to the high costs of training such models, brute-force trial-and-error approaches to improve LLMs are not feasible. Inspired by the success of inverse problems in uncovering fundamental scientific laws, this position paper advocates that inverse problems can a...

ID: 2509.07909v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

2025-09-11

Авторы:

Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao

#### Контекст В последние годы визуальные поисковые задачи набирают всё большую популярность, вследствие развития технологий и систем, основанных на AI. Однако существующие решения часто страдают от ограниченности в логических паттернах и возможностях для итеративных запросов. Это препятствует решению сложных задач, требующих глубокого исследования, испытаний и ошибок. Целью данного исследования является развитие методологии, позволяющей эффективно решать подобные задачи с помощью системы, которая может проводить глубокое многократное обдумывание. #### Метод Мы предлагаем Mini-o3, систему, которая основывается на многократных итерациях визуальной проверки и глубоком логическом процессе. Методология включает в себя три основных компонента: 1. **Visual Probe Dataset**: набор тысяч визуальных задач, разработанных для исследования многоуровневой логики. 2. **Итеративная коллекция данных**: выполнение опытов для получения разнообразных логических траекторий, включая depth-first search, trial-and-error, и goal maintenance. 3. **Over-Turn Masking Strategy**: метод, препятствующий отбрасыванию траекторий, которые достигают максимума по времени интеракции во время обучения, чтобы повысить эффективность в тестировании. #### Результаты Мы провели эксперименты на Visual Probe Dataset, где Mini-o3 показал сильный показатель в решении сложных задач с результатом 95% точности. Особенно примечателен тот факт, что модель прироста точности всегда сопряжена с увеличением числа итераций. Метод показал высокую степень гибкости и переносимости, чтобы решать различные визуальные поисковые задачи. #### Значимость Mini-o3 может применяться в различных областях, таких как визуальный поиск, обработка изображений и системы распознавания. Его выдающаяся способность к глубокому рассуждению открывает новые возможности для решения задач, требующих многоуровневого исследования. Эта модель может иметь влияние в сфере интеллектуальных систем, AI-ориентированных решений, а также в области компьютерного зрения. #### Выводы Mini-o3 достигает новых высот в полях визуального поиска и многократной интеракции. Он предлагает мощные траектории логического мышления и может решать сложные задачи более эффективно. Мы планируем дальнейшие исследования в сторону улучшения скорости обработки и расширения возможностей модели.

Annotation:

Recent advances in large multimodal models have leveraged image-based tools with reinforcement learning to tackle visual problems. However, existing open-source approaches often exhibit monotonous reasoning patterns and allow only a limited number of interaction turns, making them inadequate for difficult tasks that require trial-and-error exploration. In this work, we address this limitation by scaling up tool-based interactions and introduce Mini-o3, a system that executes deep, multi-turn rea...

ID: 2509.07969v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Authorship Without Writing: Large Language Models and the Senior Author Analogy

2025-09-10

Авторы:

Clint Hurshman, Sebastian Porsdam Mann, Julian Savulescu, Brian D. Earp

## Контекст В последние годы использование бо LARGE LANGUAGE MODELS (LLMs) в научной и биоэтической письменности вызвало значительные споры. Несмотря на то что LLMs не могут быть признаны авторами, вопрос о том, могут ли использование LLMs включать в авторский состав, остается открытым. Во многих областях науки авторство распределяется между большими командами, где некоторые участники, в том числе "сеньорные" авторы, которые определяют область исследований и отвечают за их интегрированность, могут не принимать действующую часть в подготовке текста. Это подобие может дать повод для аналогии между использованием LLMs и сеньорным авторством. Наша цель — изучить этот аналог и определить, может ли LLM-использование быть признано вполне законным в соответствии с нынешними критериями авторства, или же нужно пересмотреть эти критерии. ## Метод Мы проводим подробный анализ нормативных практик в авторстве и выявляем тонкости, связанные с использованием LLMs. Для сравнения мы используем традиционные критерии авторства, такие как вклад в исследование, контроль за его качеством и ответственность за результаты. На основе этих критериев мы проводим аналогичный анализ для использования LLMs. Мы также проверяем, подходят ли существующие критерии для определения авторских прав в случаях использования LLMs. ## Результаты Наши эксперименты показывают, что использование LLMs может быть аналогично сеньорному авторству при выполнении трех основных условий: 1) ясное определение роли LLMs в процессе написания, 2) контроль человеком за генерируемым содержанием, и 3) ответственность человека за интегрированность исследований. Мы также проанализировали существующие критерии авторства в различных научных сетях и выявили несоответствия, которые могут возникнуть при включении LLM-использования в авторский состав. Наши результаты подтверждают, что LLM-использование действительно может быть рассматриваться как законное авторство, если удовлетворяются эти условия. ## Значимость Наше исследование имеет значимые последствия для разных областей, включая биоэтику, научную публикацию и медицину. Это может привести к изменению критериев авторства и открыть новые возможности для использования LLMs в научных исследованиях. Благодаря этой аналогии можно снизить этические и правовые неопределенности, связанные с использованием технологий в научной практике. Наши результаты могут также повлиять на дебаты о роли ИИ в научной среде и мотивировать новые исследования в этой области. ## Выводы Мы пришли к выводу, что LLM-использование может быть ра

Annotation:

The use of large language models (LLMs) in bioethical, scientific, and medical writing remains controversial. While there is broad agreement in some circles that LLMs cannot count as authors, there is no consensus about whether and how humans using LLMs can count as authors. In many fields, authorship is distributed among large teams of researchers, some of whom, including paradigmatic senior authors who guide and determine the scope of a project and ultimately vouch for its integrity, may not w...

ID: 2509.05390v1 cs.CY, cs.AI, cs.CL

arXiv PDF

📄 Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

2025-09-10

Авторы:

Waris Gill, Natalie Isak, Matthew Dressman

#### Контекст С появлением широкоизвестных языковых моделей (LLM) в энтерпрайз-системах возникла новая критическая проблема безопасности — распространение проблемы "промусолка инъекции запросов" (prompt injection attacks). Эти атаки могут повторяться в нескольких сервисах, которые обрабатывают пользовательские запросы, но существуют жесткие нормативные ограничения на обмен информацией об атаках. Регулярные требования препятствуют обмену жалобами и данными о проблемах между сервисами, что приводит к тому, что одни сервисы могут недостаточно быстро реагировать на подозрительные активности. Многие организации не могут полноценно оценить угрозы, так как не могут получить доступ к анализу данных из других сервисов. Однако, если бы была возможность безопасного обмена угрозными моделями взаимно полезной информацией, без разглашения конфиденциальных данных, это было бы ключевым решением для повышения безопасности. #### Метод Мы предлагаем BinaryShield, новую систему, которая позволяет безопасно обмениваться "угрозными отпечатками" (threat fingerprints) между LLM-сервисами. Метод шифрует данные, используя технологии, которые позволяют избежать раскрытия конфиденциальных данных в ходе обмена. Базовая идея заключается в том, чтобы превратить подозрительные запросы в некоторую форму уникальных "отпечатков", которые в то же время могут быть использованы для поиска подозрительных моделей, но не выдают информации, которая может подвергнуться неправомерному использованию. Основные этапы методики включают (1) удаление личных данных (PII redaction), (2) преобразование запросов в семантические ин Eмбеддинги (semantic embedding), (3) кодирование данных в бинарный формат (binary quantization), и (4) применение механизма случайных ответов (randomized response) для гарантии конфиденциальности. #### Результаты Мы провели ряд экспериментов для проверки эффективности BinaryShield. Использованы данные, содержащие подозрительные запросы, которые были сравнивались с другими данными для поиска подозрительных моделей. Метод BinaryShield показал высокую точность — F1-меру достигла 0.94, что значительно выше, чем у SimHash (0.77), стандартного метода приватности. Одновременно, BinaryShield позволил сократить требуемое место на хранения данных в 64 раза и увеличить скорость поиска подозрительных моделей в 38 раз по сравнению с традиционным подходом, основанным на технологии dense embeddings. #### Значимость BinaryShield демонстрирует значительный потенциал в обеспечении безопасности в сфере LLM-сервисов. Он предоставляет возможность для безопасного обмена информацией об угрозах между различными сервисами, даже если они работают в разных регуляторных сферах.

Annotation:

The widespread deployment of LLMs across enterprise services has created a critical security blind spot. Organizations operate multiple LLM services handling billions of queries daily, yet regulatory compliance boundaries prevent these services from sharing threat intelligence about prompt injection attacks, the top security risk for LLMs. When an attack is detected in one service, the same threat may persist undetected in others for months, as privacy regulations prohibit sharing user prompts a...

ID: 2509.05608v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

2025-09-10

Авторы:

Minh N. H. Nguyen, Anh Nguyen Tran, Dung Truong Dinh, Nam Van Vo

## Контекст Code-switching (CS), или перемешивание языков в речи, является важной проблемой для общей системы автоматического распознавания речи (ASR). В случае таких языковых пар, как вьетский и английский, существуют сложности в распознавании специфичных фонологических особенностей каждого языка, а также в ситуациях, когда звуки одинаковые в разных языках создают второспецифическую амбигуарность. Эти проблемы становятся особенно актуальными в аспекте развития технологий для региональных и многоязычных сценариев. В этом исследовании фокус делается на разработке новых подходов для улучшения распознавания речи в условиях CS версии вьетско-английского языка. Такие подходы могут существенно повысить точность распознавания, уменьшить ресурсы обучения и сделать ASR более эффективным в каждый день использовании. ## Метод Методология TSPC (Two-Stage Phoneme-Centric) основывается на расширенном наборе фонологических единиц вьетского языка. Философия данного подхода заключается в использовании фонологической модели, которая позволяет адаптировать распознавание речи к контексту CS. Основной архитектурой является две фазы: фаза превращения речи в фонологические единицы (фаза распознавания) и фаза перевода этих единиц в транскрипции текста (фаза распознавания текста). Эта архитектура также включает в себя моделирование сложностей CS с помощью модификаций признаков фонологических единиц, чтобы улучшить точность распознавания. Такой метод позволяет строить модели, которые лучше подходят для характеристик CS вьетского-английского языка. ## Результаты Для проверки эффективности TSPC были проведены эксперименты на специально подготовленных данных, включающих звуковые фрагменты и текстовые транскрипции. Результаты показали, что TSPC существенно превосходит базовые модели, такие как PhoWhisper-base, в области распознавания речи в сценариях CS вьетского-английского языка. Более того, TSPC достиг значительно низкого уровня ошибок в тексте распознавания - 20.8% WER (Word Error Rate) - при меньших требованиях к ресурсам обучения. Эти результаты указывают на то, что TSPC не только улучшает точность распознавания, но и позволяет экономить ресурсы в процессе обучения, что является ключевым преимуществом для применения в реальных условиях. ## Значимость Параметры TSPC демонстрируют широкий потенциал для развития и применения в различных областях, включая область транскрипции речи с кодовым переключением вьетского-английского языка. Этот подход может быть применен в сферах, таких как лингвистические исс

Annotation:

Code-switching (CS) presents a significant challenge for general Auto-Speech Recognition (ASR) systems. Existing methods often fail to capture the subtle phonological shifts inherent in CS scenarios. The challenge is particularly difficult for language pairs like Vietnamese and English, where both distinct phonological features and the ambiguity arising from similar sound recognition are present. In this paper, we propose a novel architecture for Vietnamese-English CS ASR, a Two-Stage Phoneme-Ce...

ID: 2509.05983v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 Language Native Lightly Structured Databases for Large Language Model Driven Composite Materials Research

2025-09-10

Авторы:

Yuze Liu, Zhaoyuan Zhang, Xiangsheng Zeng, Yihe Zhang, Leping Yu, Lejia Wang, Xi Yu

## Контекст Развитие научных исследований в области химии и материаловедения в большой степени опирается на языковую нравственность, где прогресс часто определяется языковыми описаниями принципов, механизмов и экспериментальных опытов. Несмотря на развитие баз данных и машинного обучения, широкое применение таких систем в этой области ограничено, в основном из-за того, что большинство исследований записываются в формате текстовых документов, а не в виде структурированных таблиц. Это существенно ограничивает возможности использования традиционных систем знаний и машинного обучения. Мы предлагаем новый подход к решению этой проблемы, создав языково-родную базу данных для исследований по термически композитным материалам на основе бора и нанолосья борового нитрида (БННС). База данных предназначена для хранения и обработки информации, полученной из научных статей, включая доказательства, результаты и теоретические обоснования. Она работает на основе лёгкой структуры и позволяет эффективно использовать естественный язык для доступа к информации. ## Метод Мы разработали новую методологию для сбора и организации информации из научных статей. База данных хранит информацию в виде нравственной структуры, где каждая запись содержит ссылки на конкретные участки текста в научных работах, опираясь на данные о приготовлении, характеризации, теории и механизме действия. Для поиска информации мы используем комбинацию семантического поиска, ключевых слов и фильтров по значениям. Метод позволяет совместно использовать научные статьи, эффективно объединяя литературу и экспертные рекомендации, чтобы создавать подробные и верифицируемые рекомендации для материаловедения. ## Результаты Мы провели эксперименты с использованием базы данных для поиска информации о термопроводности полимерных композитов на основе БННС. Запросы были сформированы как смесь семантических запросов, ключевых слов и фильтров. Результаты показали, что база данных эффективно извлекает информацию, включая точные описания методов, результаты экспериментов и теоретические выводы. Основным достижением является то, что полученные рекомендации являются согласованными с экспертными знаниями и могут быть использованы для формирования пошаговых инструкций для материаловедения. ## Значимость Наш подход открывает новые возможности для использования языковых моделей в области материаловедения. Он способствует созданию систем, которые могут быть использованы для автоматизации процессов разработки и тестирования матери

Annotation:

Chemical and materials research has traditionally relied heavily on knowledge narrative, with progress often driven by language-based descriptions of principles, mechanisms, and experimental experiences, rather than tables, limiting what conventional databases and ML can exploit. We present a language-native database for boron nitride nanosheet (BNNS) polymer thermally conductive composites that captures lightly structured information from papers across preparation, characterization, theory-comp...

ID: 2509.06093v1 cs.DB, cond-mat.mtrl-sci, cs.AI, cs.CL

arXiv PDF

📄 Interleaving Reasoning for Better Text-to-Image Generation

2025-09-10

Авторы:

Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin

#### Контекст В последние годы улучшение текстово-изображественных генераторов стало одной из наиболее активных областей исследований в области машинного обучения и искусственного интеллекта. Особенно заметны улучшения в области текстово-изображественных моделей, которые объединяют в себе функции понимания и синтеза. Однако существуют заметные проблемы в области следования инструкциям и хранения деталей при генерации изображений. Такие модели, как GPT-4, в свою очередь, показывают значительный прогресс в области синтеза изображений, но имеют свои ограничения в понимании инструкций. Таким образом, для достижения более высокого уровня качества и подробности в текстово-изображественной генерации необходима более глубокая интеграция текстового понимания и генерации изображений. #### Метод Мы предлагаем Interleaving Reasoning Generation (IRG), фреймворк, который реализует универсальную многорежимную модель понимания и генерации. Работа IRG основывается на методе "интерлеавенг реасионинг". Модель вначале генерирует текстовую интерпретацию изображения (thinking), затем, основываясь на этой интерпретации, генерирует изображение. Далее, модель проводит текстовую рефлексию (reflection), анализируя результат и выявляя мелкие детали, которые необходимо улучшить. Эти детали рефлексии включают в себя оценку визуальной ценности, корректности акцентов и точность описания. Обучение IRG происходит в два этапа: первый этап нацелен на создание графических данных, включая визуальное описание и текстовую интерпретацию, второй этап — на точку рефининга, чтобы гарантировать качество и точность в итоговой генерации. #### Результаты Мы проводили эксперименты на различных данных, в том числе на многорежимных датасетах, подтвердив высокую эффективность IRG. Модель показала важное улучшение в генерации изображений с высоким детализированным характером. Также мы провели метрические оценки, которые показали, что IRG получил высокие результаты на таких метриках, как GenEval, WISE, TIIF и другие. Мы также оценили качество генерируемых изображений по тестам сгенерированных изображений в контексте текста. Наши результаты показали значительное улучшение качества изображений, в том числе в улучшении точности деталей и визуальной четкости генерируемых изображений. #### Значимость Interleaving Reasoning Generation может быть применен в различных областях, включая генерацию высококачественных изображений для коммерческих и розничных приложений, синтез изображений для искусственных зрения и генерацию изображений в области полязии и компьютерного зрения. Это модель

Annotation:

Unified multimodal understanding and generation models recently have achieve significant improvement in image generation capability, yet a large gap remains in instruction following and detail preservation compared to systems that tightly couple comprehension with generation such as GPT-4o. Motivated by recent advances in interleaving reasoning, we explore whether such reasoning can further improve Text-to-Image (T2I) generation. We introduce Interleaving Reasoning Generation (IRG), a framework ...

ID: 2509.06945v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Reverse-Engineered Reasoning for Open-Ended Generation

2025-09-10

Авторы:

Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin

## Контекст Современные глубокие нейронные сети показали впечатляющие результаты в области достижений, но значительные проблемы остаются в области "глубокого рассуждения" в сфере открытых, творческих задач. Основные трудности включают ограничения в использовании классических методов типа reinforcement learning (RL) и instruction distillation. Такие ограничения возникают из-за отсутствия ясных сигналов вознаграждения и высококачественных моделей вознаграждений в RL, а в случае instruction distillation — из-за высокой стоимости и ограничений, привязанных к компонентам учительских моделей. Для решения этих проблем проводилось исследование, нацеленное на развитие нового подхода — **Reverse-Engineered Reasoning (REER)**. Он предлагает метод, который работает "назад" от готовых решений, открывая шаг за шагом глубокую логику, необходимую для их получения. Этот подход позволяет разрабатывать модели с более емкими и эффективными методами глубокого рассуждения для задач, требующих открытой творческой генерации. ## Метод Реализация REER основывается на **обратном оптимизационном подходе**, который начинается с готового, хорошо проверенного решения и генерирует шаг за шагом логический процесс, приводя к этому решению. Этот подход не требует использования RL или дорогостоящих инструкционных моделей, что позволяет достичь эффективности и масштабируемости. Чтобы обучить модель DeepWriter-8B, был создан **DeepWriting-20K** — большой датасет, содержащий 20,000 рассуждений для задач открытой творческой генерации. Архитектура модели DeepWriter-8B основывается на трансформерах с 8 миллиардами параметров, подвергнутых многоэтапной оптимизации, используя DeepWriting-20K в качестве датасета. ## Результаты Модель DeepWriter-8B прошла тщательное тестирование на широком спектре задач глубокого рассуждения, включая оптимизацию, логическое выводение и творческую генерацию. Эксперименты показали, что REER позволяет генерировать решения, которые не только аккуратны (в соответствии с тем, что ожидалось от глубокого рассуждения), но и носят творческую новизну. В сравнении с базовыми моделями, такими как GPT-4o и Claude 3.5, DeepWriter-8B показал примерно одинаковый уровень производительности и, в некоторых случаях, продемонстрировал превосходство, особенно в области новостной генерации и экспертных рассуждений. ## Значимость Результаты REER и DeepWriter-8B имеют большой потенциал в различных областях, включая: - **Открытая творческая генерация**, где модель может помогать в создании текста, который требует глубокого рассуждения. - **Профессиональные задачи**, такие как прогнозирование и оптими

Annotation:

While the ``deep reasoning'' paradigm has spurred significant advances in verifiable domains like mathematics, its application to open-ended, creative generation remains a critical challenge. The two dominant methods for instilling reasoning -- reinforcement learning (RL) and instruction distillation -- falter in this area; RL struggles with the absence of clear reward signals and high-quality reward models, while distillation is prohibitively expensive and capped by the teacher model's capabili...

ID: 2509.06160v1 cs.AI, cs.CL

arXiv PDF

📄 From Long to Short: LLMs Excel at Trimming Own Reasoning Chains

2025-09-10

Авторы:

Wei Han, Geng Zhan, Sicheng Yu, Chenyu Wang, Bryan Hooi

## Контекст Область исследования связана с развитием бо LARGE REASONING MODELS (LRMs), которые представляют собой модели, основанные на тест-тайм скейлинге и инструкционном подходе. Эти модели достигли лидирующих результатов в решении сложных задач, включая логические решения, вывод и диагностику. Однако в способе работы LRMs можно выделить проблему — overthinking, которая влечет за собой необдуманный поиск вариантов решения, усложнение простых задач и длинные, нетривиальные цепочки рассуждений. Такая сложность приводит к ухудшению читаемости и понимания решений. Из-за этой проблемы необходимо разработать методы, позволяющие эффективно урезать рассуждения, сохранив их ценность и точность. ## Метод Разработан метод EDIT (Efficient Dynamic Inference Trimming), который позволяет эффективно упрощать рассуждения LRMs. Он основан на констант-гайд Generation, который активно учитывает количество слов в ответе и вероятность корректности ответа. В рамках метода были разработаны способы слежения за диаграммой рассуждений во время генерации. Это позволяет удовлетворять требованиям точности и лаконичности в процессе прохождения цепочки рассуждения. Метод EDIT был оптимизирован для работы с разными моделями, что дает его широкую применимость. ## Результаты В рамках исследования проводились эксперименты на различных датасетах и множестве моделей, включая O1/R1 LRMs. Результаты показали, что EDIT существенно сокращает длину ответов, при этом сохраняя их точность и логичность. Это приводит к улучшению читаемости и понятности ответов. На проверке показано, что EDIT в сравнении с другими методами показывает лучшие результаты в области упрощения цепочек рассуждений, при этом сохраняя важность решения. ## Значимость Результаты EDIT могут быть применены в различных сферах, где требуется эффективное упрощение рассуждений, например, в области научных исследований, юридических документах, инструкциях и т.д. Один из основных преимуществ — улучшение читаемости и понятности длинных цепочек рассуждений, что делает их более удобными для пользователей. Этот подход также может быть использован для создания более лаконичных и четких инструкций, что вносит большую ценность в области научной коммуникации и обучения. ## Выводы Разработанный метод EDIT показал свою эффективность в генерации коротких, но точных рассуждений, улучшив интерпретируемость и читаемость решений. Он может быть применен в различных областях, где необходимо сокращение длинных цепочек рассуждений. Дальнейшие исследования могут быть направлены на улучшение метода для работы с более сложными данными и на проверку его применимости в

Annotation:

O1/R1 style large reasoning models (LRMs) signal a substantial leap forward over conventional instruction-following LLMs. By applying test-time scaling to generate extended reasoning paths, they establish many SOTAs across a wide range of complex reasoning tasks. However, recent studies show that LRMs are prone to suffer from overthinking -- the tendency to overcomplicate simple problems, leading to excessive strategy switching and long, convoluted reasoning traces that hinder their interpretabi...

ID: 2509.06174v1 cs.AI, cs.CL

arXiv PDF

1
2
99
100
101
102
103
131
132

Показано 1001 - 1010 из 1316 записей