📚 Саммари научных статей из arXiv

Найдено 1292 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning

2025-08-13

Авторы:

Yi Tang, Kaini Wang, Yang Chen, Guangquan Zhou

## Контекст Исследование развития искусственного интеллекта (AI) для поддержки диагностики на основе эндоскопических изображений является важной областью поиска. Существующие методы, основанные на больших наборах данных и предварительной обучении, часто страдают от отсутствия унифицированного подхода к решению различных задач и сложности с многошаговыми процессами в клинических работах. Хотя AI-агенты доказали свою эффективность в адаптивном исполнении инструкций и интеграции инструментов в различных областях, их потенциал в области эндоскопии остается недостаточно исследованным. Целью данной работы является разработка EndoAgent — первого AI-агента, основанного на памяти, для визуально-решающего анализа эндоскопических изображений, который комбинирует итеративное разумение с адаптивным выбором инструментов и сотрудничеством. ## Метод EndoAgent основывается на двухкомпонентной системе памяти: краткосрочной, для отслеживания действий, и долгосрочной, для улучшения рассуждений в процессе. Агент интегрирует множество специализированных инструментов, разработанных экспертами, в единую логическую структуру. Методология решения задач включает интерактивное взаимодействие с изображениями, адаптивные выборки инструментов и итеративную коррекцию решений. Для эффективного обучения и оценки производительности разработан EndoAgentBench — бенчмарк, содержащий 5709 визуальных вопросов-ответов, оценивающих уровень понимания и построение решений в реальных ситуациях. ## Результаты Экспериментальные исследования показали, что EndoAgent превосходит общие и медицинские многомодальные модели, демонстрируя высокую гибкость и компетентность в рассуждениях. Он показал себя эффективнее в задачах, требующих многошагового анализа и управления инструментами. Это доказывает значительный потенциал EndoAgentа в применении к клиническим задачам, где требуется глубокий анализ информации и быстрая адаптивность. ## Значимость EndoAgent может быть применен в различных областях медицины, где требуется визуальный анализ и принятие решений, таких как диагностика, планирование хирургических операций и улучшение операционных процессов. Визуально-решающий подход с учетом памяти и интеграции инструментов делает EndoAgent очень гибким и эффективным в различных рабочих процессах. Благодаря своему уникальному подходу, EndoAgent может существенно улучшить точность диагностики и эффективность работы в сложных клинических ситуациях. ## Выводы EndoAgent представляет собой прорыв в области визуально-решающих AI-систем для эндоскопической диагностики. Он дока

Annotation:

Developing general artificial intelligence (AI) systems to support endoscopic image diagnosis is an emerging research priority. Existing methods based on large-scale pretraining often lack unified coordination across tasks and struggle to handle the multi-step processes required in complex clinical workflows. While AI agents have shown promise in flexible instruction parsing and tool integration across domains, their potential in endoscopy remains underexplored. To address this gap, we propose E...

ID: 2508.07292v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 FlexCTC: GPU-powered CTC Beam Decoding with advanced Contextual Abilities

2025-08-13

Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Улучшение качества речевого распознавания является ключевым заданием в машинном обучении, особенно в задачах ASR (Automatic Speech Recognition). Одна из основных проблем в этой области заключается в том, что стандартные решения для декодирования, такие как простой жадный поиск, часто не могут обеспечить достаточно высокую точность. Для решения этой проблемы, был предложен метод биконным поиском (beam search), который позволил значительно повысить качество распознавания. Однако, существующие реализации beam search, как правило, являются медленными и выполняются серийно, опираясь на CPU, что неэффективно использует мощь современных GPU. Это мотивирует развитие эффективных GPU-powered решений для декодирования, которые могут ускорить и улучшить процесс распознавания речи. ## Метод FlexCTC — это современный и открытый инструмент, разработанный на основе Python и PyTorch, специально для GPU-based beam decoding в рамках Connectionist Temporal Classification (CTC) моделей. Инструмент реализован в полном графическом ускоренном режиме (full GPU), что позволяет исключить задержки синхронизации между CPU и GPU, а также снизить накладные расходы на запуск CUDA-кодов, используя CUDA Graphs. Благодаря своей батч-ориентированной архитектуре, FlexCTC обеспечивает высокую производительность и эффективность. Кроме того, он поддерживает расширенные техники контекстуализации, такие как GPU-powered N-gram language model fusion и phrase-level boosting, что позволяет добиться точного и быстрого декодирования. ## Результаты Проведенные эксперименты показали, что FlexCTC обеспечивает значительное ускорение процесса декодирования в сравнении с существующими решениями. Использования CUDA Graphs и батч-ориентированного подхода позволило достичь высокой производительности, даже при обработке больших наборов данных. Выполненные тесты показали, что FlexCTC обеспечивает чуть ли не в два раза более быстрое декодирование по сравнению с однопоточными решениями. Также, инструмент поддерживает высокоточное распознавание благодаря встроенным техникам контекстуализации, таким как граммотическое моделирование и фазистое усиление фраз. ## Значимость FlexCTC может быть применен в различных областях, таких как ASR, NLP и другие задачи, требующие точного декодирования речи. Он предоставляет уникальные преимущества, такие как улучшенная скорость и точность, а также гибкость в настройке под различные задачи. Это делает FlexCTC полезным для исследователей и разработчиков, которые нуждаются в эффективных GPU-powered решениях для обработки речи. Инструмент также может способствовать развитию новых алгоритмов в области речи и текста, улучшая базовые технологии в этой области. ## Выводы FlexCTC — это мощный и эффективный инструмент для GPU-based beam decoding, разработанный с учетом современных

Annotation:

While beam search improves speech recognition quality over greedy decoding, standard implementations are slow, often sequential, and CPU-bound. To fully leverage modern hardware capabilities, we present a novel open-source FlexCTC toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal Classification (CTC) models. Developed entirely in Python and PyTorch, it offers a fast, user-friendly, and extensible alternative to traditional C++, CUDA, or WFST-based decoders. The toolk...

ID: 2508.07315v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach

2025-08-13

Авторы:

Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li

## Контекст Обучение и оценка доменно-специальных бо LLM (Large Language Models) являются ключевыми аспектами их применения в специализированных областях. Несмотря на то что многочисленные бенчмарки были разработаны для оценки этих моделей, существуют проблемы с эффективностью и эффективностью их построения. Большинство существующих бенчмарков фокусируются на масштабировании за счет огромных корпусов для подготовки или порождения обширных наборов вопросов для широкого покрытия. Однако не достаточно изучено влияние корпуса и набора вопросов-ответов (QA) на точность и полноту доменных LLMs. Мотивация для данного исследования заключается в изучении этих зависимостей и разработке более эффективного подхода к построению бенчмарков для доменных LLMs. ## Метод Мы предлагаем Comp-Comp, новый фреймворк для построения бенчмарков, основанный на принципе сочетания полноты (comprehensiveness) и сжатости (compactness). Метод Comp-Comp работает в итеративном режиме, где полнота гарантирует комплексность семантического покрытия домена, а сжатость улучшает точность модели. Этот подход применяется как для построения корпуса, так и для создания набора вопросов и ответов. Мы используем методы семантической обработки текста, адаптированные для этих задач, которые позволяют эффективно отбирать и оценивать материалы на каждом этапе построения бенчмарка. ## Результаты Мы провели эксперименты с XUBench, бенчмарком, созданным на основе Comp-Comp, используя домен академический. Эксперименты показали, что наш подход значительно улучшает точность и полноту доменных моделей LLMs по сравнению с традиционными методами. Мы также провели сравнение с другими бенчмарками, установив, что XUBench предоставляет более качественную оценку моделей, обеспечивая более точные результаты. Бенчмарк XUBench также продемонстрировал широкую эффективность в оценке моделей на различных доменах, не ограничиваясь только академическим. ## Значимость Наша работа доказывает, что при построении бенчмарков для доменных LLMs не всегда эффективно следовать закону масштабирования. Метод Comp-Comp обеспечивает более компактный и эффективный подход, позволяющий повысить точность и полноту оценки моделей. Этот подход может быть распространен на различные сферы применения, включая медицину, юриспруденцию, и другие, помимо академии. Мы видим будущие направления исследований в расширении Comp-Comp для решения задач в новых областях и улучшении его адаптации к различным доменам. ## Выводы Мы представили Comp-Comp, новый фреймворк для построения бенчмарков, который призван обеспечить более эффективную и точную оценку доменных LLMs. Мы продемонстрировали эффективность этого подхода на XUBench в до

Annotation:

Numerous benchmarks have been built to evaluate the domain-specific abilities of large language models (LLMs), highlighting the need for effective and efficient benchmark construction. Existing domain-specific benchmarks primarily focus on the scaling law, relying on massive corpora for supervised fine-tuning or generating extensive question sets for broad coverage. However, the impact of corpus and question-answer (QA) set design on the precision and recall of domain-specific LLMs remains unexp...

ID: 2508.07353v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Generative AI for Strategic Plan Development

2025-08-13

Авторы:

Jesse Ponnock

## Контекст Генерируемое искусственное интеллектуальное обеспечение (Generative Artificial Intelligence, GAI) получило огромное распространение в сфере технических и профессиональных услуг, где Аппаратное Интеллектуальное Обеспечение (AI) ранее считалось невозможным для автоматизации. Это новаторский подход обеспечивает значительные повышения эффективности и уменьшение расходов в многомерной сфере, в том числе в разработке стратегических планов для крупных организаций. Однако существуют вызовы в технической реализации и эффективном использовании GAI в таких контекстах. Большая часть работы, основывающихся на генерируемом искусственном интеллекте, остается недокументированной или закрытой, что ограничивает комплексное понимание способности GAI в разработке стратегических планов. Данная статья проводит оценку текущих возможностей и модели, а также определяет возможности использования таких моделей в процессе разработки стратегических планов. ## Метод Для разработки стратегических планов в крупных организациях, таких как правительственные органы, предлагается модульная модель, позволяющая использовать GAI. Одна из модулей, концентрирующаяся на тематическом моделировании (topic modeling) для генерирования тем, представляющих "видения" в рамках стратегического плана, была выбрана для подробного анализа. Для этого были применены методы BERTopic и Non-negative Matrix Factorization (NMF) к большому объему отчетов, предоставленных Government Accountability Office (GAO). Использование этих методов позволило генерировать темы, которые позже были сравнены с "видениями", изложенными в стратегических планах. Экспериментальная часть включала обучение моделей, оценку полученных результатов и сравнение их с исходными данными. ## Результаты Было определено, что оба исследованные методы — BERTopic и NMF — способны генерировать темы, представляющие собой подходящие "видения" в рамках стратегического плана. Однако BERTopic показал более высокую эффективность, с корреляцией более чем половины тем с "видениями", определенными в стратегических планах. Это означает, что BERTopic может лучше адаптироваться для генерирования тем, отражающих стратегические цели и подходы. Эти результаты подтверждают, что генерируемое искусственное интеллектуальное обеспечение может быть эффективно использовано в процессе разработки стратегических планов. ## Значимость Результаты этого исследования имеют практическое значение для многомильных-долларовой отрасли стратегического планирования и поддержки правительственных органов. Этот подход может существенно снизить затраты, уменьшить время, необходимое для разработки планов, и обеспечить

Annotation:

Given recent breakthroughs in Generative Artificial Intelligence (GAI) and Large Language Models (LLMs), more and more professional services are being augmented through Artificial Intelligence (AI), which once seemed impossible to automate. This paper presents a modular model for leveraging GAI in developing strategic plans for large scale government organizations and evaluates leading machine learning techniques in their application towards one of the identified modules. Specifically, the perfo...

ID: 2508.07405v1 cs.AI, cs.CL, cs.LG, I.2.7; I.5.4

arXiv PDF

📄 A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems

2025-08-13

Авторы:

Jinyuan Fang, Yanwen Peng, Xi Zhang, Yingxu Wang, Xinhao Yi, Guibin Zhang, Yi Xu, Bin Wu, Siwei Liu, Zihao Li, Zhaochun Ren, Nikos Aletras, Xi Wang, Han Zhou, Zaiqiao Meng

## Контекст Недавние успехи в области больших языковых моделей дали новый под Boosting к развитию систем автоматизации решения сложных реальных задач. Однако, многие агентные системы, применяемые в реальных условиях, опираются на ручно сконфигурированные настройки, которые после запуска не изменяются и не адаптируются к постоянно меняющимся обстановке. Для решения этой проблемы в последнее время развиваются подходы к эволюции агентов, нацеленные на автоматическое улучшение систем агентов на основе данных, полученных в процессе взаимодействия и отзывов среды. Этот направление развития становится фундаментом для создания само-эволюционирующих AI-агентов, которые объединяют статические возможности фундаментальных моделей с необходимостью постоянной адаптации в жизненных агентных системах. Настоящая статья посвящена подробному обзору технологий само-эволюционирования агентов, изложенных в рамках концептуального рам frameset. ## Метод Основной методологией работы является разработка концептуального фреймворка, описывающего общую логику само-эволюционирующих AI-систем. Этот фреймворк включает в себя четыре ключевых компонента: System Inputs (входные данные), Agent System (система агента), Environment (среда), и Optimisers (оптимизаторы). Эти компоненты обеспечивают структуру для категоризации и сравнения различных само-эволюционирующих стратегий. Далее, в рамках этого фреймворка проводится систематический обзор технологий само-эволюционирования, которые ориентированы на различные компоненты системы агента. Также включены специализированные адаптационные подходы, разработанные для сфер, таких как биомедицина, программирование и финансы, где оптимизационные цели тесно связаны с ограничениями домена. Наконец, рассматриваются вопросы оценки, безопасности и этических аспектов само-эволюционирующих систем, которые являются критически важными для их эффективности и надежности. ## Результаты В рамках реализации данного подхода проводились множество экспериментов, использующих различные сложные задачи, включая биомедицинские задачи, задачи программирования и финансовые моделирования. Использовались различные данные, такие как данные из реальных агентных систем, а также синтетические данные для моделирования разных сценариев. Основные результаты включают успешную адаптацию систем к динамическим изменениям в среде, повышение точности решений, а также улучшение эффективности в процессе эволюции. Эксперименты показали, что само-эволюционирующие системы могут значительно улучшить модели агентов, обеспечивая их долгосро

Annotation:

Recent advances in large language models have sparked growing interest in AI agents capable of solving complex, real-world tasks. However, most existing agent systems rely on manually crafted configurations that remain static after deployment, limiting their ability to adapt to dynamic and evolving environments. To this end, recent research has explored agent evolution techniques that aim to automatically enhance agent systems based on interaction data and environmental feedback. This emerging d...

ID: 2508.07407v1 cs.AI, cs.CL, cs.MA

arXiv PDF

📄 CP-Agent: Agentic Constraint Programming

2025-08-13

Авторы:

Stefan Szeider

## Контекст Constraint Programming (CP) является мощным подходом к решению разнообразных задач, особенно тех, которые могут быть представлены в виде ограничений. Однако главной проблемой этого подхода является трудность перевода проблем, описанных на человеческом языке, в обобщенные модели ограничений. Эта задача требует глубоких знаний в области задачи и навыков моделирования в CP. На сегодняшний день существуют стандартные рабочие процессы для автоматизации этой задачи, однако они часто ограничиваются фиксированными пайплайнами и не могут успешно решить многие реальные задачи. Наша мотивация заключается в разработке нового подхода, который бы старался решить проблему с использованием гибкого, agent-based подхода без использования фиксированного pipeline. ## Метод Мы предлагаем **CP-Agent**, который основывается на принципе **ReAct (Reason and Act)**. Этот pure agent-based подход не требует фиксированной модели для решения задач. Основным инструментом является общего назначения Python-based кодинговый agent, работающий в сочетании с **IPython kernel**, что обеспечивает stateful code execution и iterative development. Агент не встраивает никакого constraint programming logic в свою структуру. Вместо этого он получает достаточное количество domain-specific knowledge через специально сконструированное project prompt. Этот prompt включает в себя все необходимые модели, формат и ограничения, которые требуются для решения задачи. Агент также имеет доступ к файловой системе, а также способен выполнять код, тестировать гипотезы и верифицировать решения. Такой подход позволяет ему быть гибким и адаптироваться к различным задачам без нужды в предварительном определении логики. ## Результаты Мы проверили наше решение на **CP-Bench**, который содержит 101 задач constraint programming. CP-Agent успешно решил все эти задачи, показывая высокую гибкость и эффективность. Мы также провели анализ качества решений и заметили, что агент не только смог решить задачи, но и адаптировался к различным форматам и ограничениям. Это доказывает, что данный подход эффективен и может быть применен в различных областях, где требуется моделирование ограничений. ## Значимость Предлагаемый подход имеет большое количество областей применения, включая сферы, где требуется автоматизация моделирования ограничений, такие как логистика, распределение ресурсов, проектирование и даже в области AI-based decision-making. В отличие от других методов, CP-Agent предлагает более гибкий и адаптивный подход, который не требует предварительного определения моделей или рабочих процессов. Это делает его применимым в ситуациях, где задачи могут быть разнообразными и нестандартными. ## Выводы Мы доказали, что constraint modeling может быть эффективно решено с помощью agentic подходов, которые не требуют фиксированных моде

Annotation:

Translating natural language problem descriptions into formal constraint models remains a fundamental challenge in constraint programming, requiring deep expertise in both the problem domain and modeling frameworks. Previous approaches to automating this translation have employed fixed workflows with predetermined modeling steps, failing on a significant number of benchmark problems. We present a new approach using a pure agentic strategy without any fixed pipeline. We developed a general-purpos...

ID: 2508.07468v1 cs.AI, cs.CL, cs.LG, cs.SE

arXiv PDF

📄 Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

2025-08-13

Авторы:

Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson

#### Контекст Дипломатия — сложная и информационно-объемная игра, требующая стратегического мышления, взаимодействия и тонкого понимания социальных отношений. Участие в этой игре требует высокого уровня мотивации и компетентности от игроков. Существующие методы учебных и тестовых задач для оценки моделей языкового понимания не позволяют оценить их возможности в такой сложной области. Это приводит к ограниченности в широком применении моделей языкового понимания в задачах, требующих стратегического мышления. Наша мотивация заключается в том, чтобы создать метод, позволяющий оценивать модели языкового понимания на полноценных задачах дипломатии, не требуя дополнительной обучения или предварительной подготовки. #### Метод Мы предлагаем методологию, призванную оценивать модели языкового понимания на полноценной задаче дипломатии без необходимости дополнительной подготовки. Мы используем данные для итеративной оптимизации игрового пространства, чтобы улучшить комплексность и точность игрового процесса. Инновационной частью нашего подхода является использование текстовой игровой системы, которая позволяет моделям языкового понимания работать в реальном времени, упрощая процесс тестирования и анализа. Мы также вводим метод критического анализа состояний игры, который позволяет быстро исследовать и анализировать ключевые моменты в игре. #### Результаты Мы провели эксперименты с различными моделями языкового понимания, включая модели с разным количеством параметров. Мы отобрали модели, которые совершенно не требуют дополнительной настройки и имеют широкий диапазон возможностей. Мы также проводили сравнение основных моделей, определяя, какие модели демонстрируют лучший результат в задаче дипломатии. Оказалось, что модели с большим количеством параметров показывают лучшие результаты. Однако мы также обнаружили, что даже модели с меньшим количеством параметров могут выполнять достаточно хорошую работу. Эти результаты позволяют нам понять, как модели языкового понимания могут оценивать сложные ситуации в игре дипломатии. #### Значимость Наш подход демократизирует оценку моделей языкового понимания, позволяя использовать их в задачах, требующих стратегического мышления. Он упрощает процесс тестирования и позволяет проводить сравнение моделей в разных ситуациях. Этот подход также предоставляет новый взгляд на то, какие способности моделей языкового понимания возникают при их обучении на других задачах. Это может привести к новым возможностям в использовании моделей языкового понимания в сложных задачах, требующих с

Annotation:

We present the first evaluation harness that enables any out-of-the-box, local, Large Language Models (LLMs) to play full-press Diplomacy without fine-tuning or specialized training. Previous work required frontier LLMs, or fine-tuning, due to the high complexity and information density of Diplomacy's game state. Combined with the high variance of matches, these factors made Diplomacy prohibitive for study. In this work, we used data-driven iteration to optimize a textual game state representati...

ID: 2508.07485v1 cs.AI, cs.CL, cs.CY, cs.LG

arXiv PDF

📄 Conversational DNA: A New Visual Language for Understanding Dialogue Structure in Human and AI

2025-08-13

Авторы:

Baihan Lin

## Контекст Понимание и анализ диалогов — это ключевой аспект во многих областях, включая психологию, образовательные технологии, искусственный интеллект и даже лингвистику. Однако традиционные методы анализа диалогов часто сводятся к статистическим обзорам, которые не полностью отражают глубину и сложность человеческого общения. Это ставит под вопрос эффективность таких подходов при анализе диалогов, где важны такие аспекты, как эмоциональная напряженность, тематическая структура и интерактивная инерция. "Conversational DNA" — это инновационный подход к визуализации диалогов, который предлагает новую систему знаков для интерпретации и понимания структуры диалога. Он предлагает трактовать диалог как живую систему, где каждая часть может быть визуализирована и проанализирована с помощью биологических метафор, таких как цветные градиенты, темные линии и лепестковые структуры. Такой подход позволяет выявлять взаимодействия и шаблоны, которые могут быть пропущены при традиционном анализе. Таким образом, "Conversational DNA" предлагает новую перспективу для понимания и визуализации диалогов, которая может помочь не только в живых общениях, но и в искусственных системах. ## Метод "Conversational DNA" — это визуальная система, основанная на техниках данных и биологических метафор. Она предлагает визуальные модели, которые иллюстрируют структуру и динамику диалога. Цветные градиенты используются для представления эмоциональных траекторий, когда частичные оттенки цвета могут указывать на рывки или эмоциональные штормовые волны. Темные линии используются для представления темы или темных полосок, которые охватывают разные части диалога. Также используются лепестковые структуры, которые помогают отобразить логические отношения между разными топиками и темами. Методология включает в себя несколько этапов: предварительная обработка данных, визуализация диалога с помощью метафорических моделей и экспериментальный анализ результатов. Для использования этой методики, необходимо превратить диалог в графическое представление, где каждый элемент (слово, фраза, топик) представляется в виде "структурного состава", который можно сравнивать и анализировать. Этот подход позволяет понять, как тематическая структура диалога развивается во времени и как разные элементы связаны друг с другом. ## Результаты В экспериментах были использованы данные из терапевтических бесед, а также диалогов, происходивших между людьми и искусственным интеллектом. Визуальные

Annotation:

What if the patterns hidden within dialogue reveal more about communication than the words themselves? We introduce Conversational DNA, a novel visual language that treats any dialogue -- whether between humans, between human and AI, or among groups -- as a living system with interpretable structure that can be visualized, compared, and understood. Unlike traditional conversation analysis that reduces rich interaction to statistical summaries, our approach reveals the temporal architecture of di...

ID: 2508.07520v1 cs.HC, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 ThinkTuning: Instilling Cognitive Reflections without Distillation

2025-08-13

Авторы:

Aswin RRV, Jacob Dineen, Divij Handa, Md Nayem Uddin, Mihir Parmar, Chitta Baral, Ben Zhou

#### Контекст Современные тестируемые широковезучные языковые модели (LLMs) обладают способностью выполнять многошаговую мысль и саморефлексию. Однако многие из этих моделей не обладают исходной способностью мыслить и анализировать. Вместо этого они так называемые "мыслящие" способности приобретают, опираясь на результаты работы генетического алгоритма. Это означает, что возможности мыслить не формируются действительно внутри модели, а просто обнаруживаются и используются. Поэтому, возникает вопрос: можно ли научить модели, которые не обладают естественной способностью мыслить, развить эту способность самостоятельно? В нашем исследовании мы предлагаем ThinkTuning — метод, основанный на подкреплении взаимодействия с целью развития модели не только саморазвития, но и рационального мышления. #### Метод ThinkTuning предлагает интерактивный подход для обучения модели с использованием градиентного подкрепления на основе политик (GRPO). Мы используем метод обучения, который подобен занятиям с учителем. Учитель (teacher-model) предлагает задачу, позволяет ученику (student-model) попробовать решить ее самостоятельно, а затем предоставляет корректирующую информацию, указывая на правильный путь. Эта корректировка помогает модели раскрыть внутреннее потенциальное мышление, которое позволяет правильно решить задачу. Итак, мы используем градиентный подкрепление для учителя, а затем используем его для улучшения модели-ученика. Метод был протестирован на различных данных, в том числе на бенчмарках MATH-500, AIME и GPQA-Diamond, показав положительные результаты по сравнению с базовым GRPO. #### Результаты Мы провели эксперименты для оценки ThinkTuning на нескольких датасетах, в том числе на MATH-500, AIME и GPQA-Diamond. Наша модель показала средний выигрыш в производительности в 3,85% по сравнению с нулевым шагом (zero-shot). На MATH-500, AIME и GPQA-Diamond, ThinkTuning показала поимки в 2,08%, 2,23% и 3,99% соответственно по сравнению с базовым GRPO. Эти результаты показали, что ThinkTuning позволяет модели без начальной способности мыслить развить этот навык, а также повысить свои результаты на задачах, требующих многошаговой логической работы. #### Значимость Развитие моделей, которые могут мыслить и саморефлексироваться, имеет значимую значимость в области ИИ. Например, такие модели могут быть использованы в преподавании, диагностике, и сложных задачах, требующих комплексного анализа. ThinkTuning предлагает новый подход к развитию этих способностей, не зависящий от предварительного создания базы знаний, что может упростить развитие новых моделей, которые могут выполнять сложные рассуждения

Annotation:

Recent advances in test-time scaling have led to the emergence of thinking LLMs that exhibit self-reflective behaviors and multi-step reasoning. While RL drives this self-improvement paradigm, a recent study (Gandhi et al., 2025) shows that RL alone does not truly instill these new reasoning abilities - it merely draws out behaviors already present in the base models. This raises a question: How can we train the models that don't exhibit such thinking behavior to develop it in the first place? T...

ID: 2508.07616v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

2025-08-13

Авторы:

Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

## Контекст Модель рассуждений с длинным цепным соображением (long Chain-of-Thought, long CoT) является ключевым инструментом для решения сложных задач, требующих логического и последовательного мышления. Однако существует ряд проблем в области инноваций в этих моделях, включая неполное раскрытие деталей обучения, что ограничивает возможность воспроизведения высокопроизводительных моделей. Более того, существуют проблемы с текущими механизмами ограничения (clipping) в технике оптимизации с подкреплением (reinforcement learning, RL), такие как подавление критических сигналов эксплорирования и игнорирование неоптимальных траекторий. Эти проблемы способствуют неэффективности моделей в обучении с учителем и расширении их возможностей. ## Метод Klear-Reasoner представляет собой модель с логическим рассуждением, основанную на полной видимости процесса обучения. Методы включают: 1. **Длинное Chain-of-Thought Supervised Fine-Tuning (long CoT SFT):** Эта техника использует выборку высококачественных данных, чтобы тренировать модель на расстановке последовательности соображений. 2. **Reinforcement Learning with Gradient-Preserving Clipping Policy Optimization (GPPO):** Эта оптимизационная политика использует градиентные сигналы, проходящие через отсеченные токены, что позволяет улучшить эффективность модели при работе с неоптимальными траекториями. 3. **Абляционные исследования:** Эксперименты проводились для оценки каждого элемента рабочего процесса, включая различные варианты данных и методов оптимизации. ## Результаты Klear-Reasoner показала впечатляющие результаты в нескольких бенчмарках: 90.5% на AIME 2024, 83.2% на AIME 2025, 66.0% на LiveCodeBench V5 и 58.1% на LiveCodeBench V6. Эта модель отличается своей способностью логически соображать и решать проблемы в области математики и программирования. Анализ показал, что сборка высококачественных данных для SFT лучше воспроизводит высокую производительность, чем объемные данные, а GPPO повышает модельную эффективность в обучении на неоптимальных траекториях. ## Значимость Klear-Reasoner имеет широкие перспективы применения в области интеллектуальных технологий, в том числе в образовательных системах, прогнозировании и решении задач, требующих высокой логической способности. Ее преимущество в том, что она может обучаться более эффективно, используя меньше ресурсов, чем другие модели. Будущие исследования будут нацелены на расширение этих технологий на другие задачи, а также на повышение точности и эффективности решений. ## Выводы Klear-Reasoner доказала свою высокую эффективность в решении задач, требующих длинных рассуждений. Она способна обучаться более эффективно, благодаря GP

Annotation:

We present Klear-Reasoner, a model with long reasoning capabilities that demonstrates careful deliberation during problem solving, achieving outstanding performance across multiple benchmarks. Although there are already many excellent works related to inference models in the current community, there are still many problems with reproducing high-performance inference models due to incomplete disclosure of training details. This report provides an in-depth analysis of the reasoning model, covering...

ID: 2508.07629v2 cs.LG, cs.AI, cs.CL

arXiv PDF

1
2
120
121
122
123
124
129
130

Показано 1211 - 1220 из 1292 записей