📚 Саммари научных статей из arXiv

Найдено 14827 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes

2025-08-13

Авторы:

Zhe Zhang, Runlin Liu, Aishan Liu, Xingyu Liu, Xiang Gao, Hailong Sun

#### Контекст Стремительно растущее влияние больших языковых моделей (LLMs) в процессе разработки программного обеспечения приводит к необходимости надёжного и строгого оценивания их работы на реальных задачах генерации кода. Однако существующие бенчмарки часто страдают от загрязнения данными и недостаточно высокого тестирующего режима, что ограничивает их возможность выявлять недостатки моделей. Мы предлагаем CODE2BENCH, новый концептуальный подход для динамического создания бенчмарков, способных выдерживать сильные нагрузки и гарантировать чистую среду для тестирования. #### Метод Предлагаемая методология CODE2BENCH заключается в автоматическом создании бенчмарков на основе реальных репозиториев GitHub. Особенности: (1) **Автоматизированная динамичность**, которая обеспечивается постоянным обновлением бенчмарков путём внедрения новых репозиториев и функций, что минимизирует вероятность загрязнения данными. (2) **Анализ зависимостей с использованием Scope Graph**, позволяющий классифицировать функции в зависимости от уровня самостоятельности. Это позволяет создавать бенчмарки с разными уровнями зависимости, включая Self-Contained (SC) для кросс-языкового сравнения и Weakly Self-Contained (WSC) для работы с допустимыми библиотеками. (3) **Тестирование на основе свойств (Property-Based Testing, PBT)**, которое автоматически генерирует тщательные тестовые наборы для проверки функций на функциональную корректность. #### Результаты Используя CODE2BENCH, мы построили CODE2BENCH-2505 — первый бенчмарк, состоящий из 880 Python-репозиториев, с 1,163 функциональными задачами для генерации кода, покрытыми 100% абстрактным синтезом. Мы провели эксперименты с 16 LLMs, включая PaLM, CodeGen, StarCoder и другие. Результаты показали, что модели сталкиваются с трудностями в решении Self-Contained (SC) задач, требующих сложной логики и пересечений языков, но в то же время вы mostsravlyaют лучшую производительность на Weakly Self-Contained (WSC) задачах. #### Значимость Новая подход, представленный в этой работе, предоставляет широкие возможности для лингвистических моделей и библиотек, работающих с программным кодом. Он позволяет создавать бенчмарки, которые устойчивы к загрязнению данными и выполняются в реальных условиях. Важность этого подхода проявляется в улучшении оценки моделей, их применении в разработке программного обеспечения и дальнейшей интеграции технологий LLMs в процесс разработки. #### Выводы Мы представили CODE2BENCH, создав динамический и нагруженный метод для создания бенчмарков. Этот подход является первым шагом в создании устойчивых к загрязнению, но надежных методов оцен

Annotation:

As large language models LLMs) become increasingly integrated into software development workflows, rigorously evaluating their performance on complex, real-world code generation tasks has become essential. However, existing benchmarks often suffer from data contamination and limited test rigor, constraining their ability to reveal model failures effectively. To address these, we present CODE2BENCH, a end-to-end pipeline for dynamically constructing robust and contamination-resistant benchmarks f...

ID: 2508.07180v1 cs.SE, cs.AI

arXiv PDF

📄 Explainability-in-Action: Enabling Expressive Manipulation and Tacit Understanding by Bending Diffusion Models in ComfyUI

2025-08-13

Авторы:

Ahmed M. Abuzuraiq, Philippe Pasquier

## Контекст Область исследования Explainable AI (XAI) в креативных контекстах фокусируется на создании моделей, которые не только являются черными ящиками, но также интерактивными инструментами, позволяющими участию в процессе творчества. Известно, что существующие крупные текстово-картинные модели, такие как текст-к-изображению диффузионные модели, часто трудно понять и корректировать из-за их сложности и автоматизма. Это ограничивает возможности художников для изменения и управления процессом генерирования изображений. Однако именно эта возможность модификации является ключевой для поддержки творческой практики. В нашем исследовании мы рассматриваем возможности, которые могут быть сделаны доступными через транспарентность моделей и их модификацию, чтобы позволить художникам взаимодействовать с моделью на более глубоком уровне. Наша мотивация заключается в том, чтобы создать подход, который бы стал более творческим, гибким и доступным творческим профессионалам. ## Метод Мы предлагаем "craft-based approach to explainability", который вдохновлен методом "reflection-in-action" Р. Шона. Этот подход предполагает не только разобрать модель, но и взаимодействовать с ее внутренними компонентами в течение долгого периода времени, изменяя их и изучая результаты. Мы реализовали это в виде плагина для системы ComfyUI, которая представляет собой node-based interface, позволяющий манипулировать различными частями генерирующей модели. Мы использовали различные данные, включая обучающие данные модели, для исследования того, как модификации различных узлов влияют на генерируемые изображения. Данный подход дает художникам возможность "изменять" модель в реальном времени, чтобы более ясно понять, как генерируются результаты. ## Результаты Мы провели эксперименты, в которых художники взаимодействовали с моделью, изменяя разные узлы и изучая их влияние на генерируемые изображения. Наши результаты показали, что художники стали более контролируемыми в процессе генерирования, и они могли быстрее узнавать, как различные части модели влияют на итоговый результат. Мы также обнаружили, что модификация узлов модели может привести к изменению стиля, темы и даже того, что генерируется вообще, что дает художникам большую гибкость в своей работе. ## Значимость Мы убедились, что предлагаемый подход может быть использован в творческих процессах, таких как графическое дизайн, 3D-моделирование, и даже видеосъемка. Мы видим, что такой подход может сделать модели более доступными для художников, улучшить их контроль над процессом генерирования и возможность для творческого эксперимен

Annotation:

Explainable AI (XAI) in creative contexts can go beyond transparency to support artistic engagement, modifiability, and sustained practice. While curated datasets and training human-scale models can offer artists greater agency and control, large-scale generative models like text-to-image diffusion systems often obscure these possibilities. We suggest that even large models can be treated as creative materials if their internal structure is exposed and manipulable. We propose a craft-based appro...

ID: 2508.07183v1 cs.HC, cs.AI, cs.LG, cs.MM, I.2; J.5

arXiv PDF

📄 DySK-Attn: A Framework for Efficient, Real-Time Knowledge Updating in Large Language Models via Dynamic Sparse Knowledge Attention

2025-08-13

Авторы:

Kabir Khan, Priya Sharma, Arjun Mehta, Neha Gupta, Ravi Narayanan

################################# ## Контекст ################################# Large Language Models (LLMs) — это мощные инструменты для обработки текстов, но они имеют существенную проблему: их знания являются статичными и быстро устаревают. Например, при обновлении статистических данных или изменении событий в мире, LLMs не могут адаптироваться без дорогостоящей и время-затратной процедуры переучивания. Такие процессы требуют огромных вычислительных ресурсов и могут привести к задержкам в развертывании обновленных моделей. Кроме того, традиционные методы редактирования знаний могут привести к нежелательным побочным эффектам, таким как неточность или удаление ценной информации. Данная статья рассматривает эту проблему и предлагает фреймворк DySK-Attn, который позволяет LLMs эффективно обновлять свои знания в реальном времени. Основной идеей является использование динамического знаний сграфа (Knowledge Graph, KG), который может быть мгновенно обновлен без необходимости переучивания модели. ################################# ## Метод ################################# Фреймворк DySK-Attn основывается на синергии между LLM и динамическим KG. Главная инновация заключается в использовании динамической спарсед-аттенции (Sparse Knowledge Attention), которая исключает ненужную информацию за счёт выбора только наиболее связанных фактов с запросом. В свою очередь, спарсед-аттенция работает примерно следующим образом: сначала выполняется поиск по базе знаний с использованием ключевых слов запроса. Затем, на основе полученных результатов, выбирается наиболее подходящий набор фактов, который после этого передаётся LLM для генерации ответа. Эта стратегия позволяет избежать вычислительной сложности десятичной аттенции к большой базе знаний, увеличивая вместо этого эффективность и точность полученных ответов. Также, DySK-Attn включает гибкие механизмы для обновления KG без перестройки модели от начала до конца. Это достигается за счёт интеграции специальных модулей обновления, которые могут быть применены непосредственно во время работы модели. ################################# ## Результаты ################################# Для оценки эффективности DySK-Attn проведено рядовое экспериментальное исследование на задачах время-зависимого реагирования (time-sensitive question-answering). Использовались три типа датасетов: 1. **Новости**: для тестирования модели в области новостных событий. 2. **Политические события**: для проверки точности в терминах политических данных. 3. **Нефтегазовые рынки**: для проверки работы модели в области финансовых данных. В результате, DySK-Attn показала значительный выигрыш в точности ответов и вычислительной эффективности по сравнению с традиционными RAG-моделями и техниками моделирования. Например, в задаче обновления дан

Annotation:

Large Language Models (LLMs) suffer from a critical limitation: their knowledge is static and quickly becomes outdated. Retraining these massive models is computationally prohibitive, while existing knowledge editing techniques can be slow and may introduce unforeseen side effects. To address this, we propose DySK-Attn, a novel framework that enables LLMs to efficiently integrate real-time knowledge from a dynamic external source. Our approach synergizes an LLM with a dynamic Knowledge Graph (KG...

ID: 2508.07185v1 cs.CL, cs.AI, cs.LG, I.2.7; H.3.3; H.2.8

arXiv PDF

📄 Multi-Dimensional Summarization Agents with Context-Aware Reasoning over Enterprise Tables

2025-08-13

Авторы:

Amit Dhanda

## Контекст Структурированная данная в виде таблиц широко используется для организации и анализа бизнес-данных. Однако традиционные модели подхода "таблица-текст" (table-to-text) часто страдают от нехватки возможности рационального понимания и анализа данных, особенно в контексте многомерных структур. Это приводит к недостатку в ключевых решающих оценках, необходимых для анализа и отчетности. Наша модель ориентирована на решение этих проблем, предлагая расширенную модель с многоагентной архитектурой, которая может выполнять контекст-свойственные выводы и выявлять значимые изменения в структурированных данных. ## Метод Мы предлагаем многоагентную пайплайн-модель, включающую в себя следующие компоненты: 1. **Slicing Agent**: Идентифицирует и извлекает подходящие подмножества данных для рассмотрения. 2. **Variance Detection Agent**: Определяет изменения и дельты в данных, будучи включенным в расчет контекстной структуры. 3. **Context Construction Agent**: Строит контекстные представления, используя логические рассуждения и связующие связи. 4. **LLM-Based Generation Agent**: Использует генеративную модель типа Large Language Model (LLM) для формирования окончательных выводов и рекомендаций. Этот многоагентный подход позволяет создавать более точные и релевантные сводки, которые не только выделяют значимые тенденции, но и учитывают контекстные изменения. ## Результаты Мы провели эксперименты на широко известных Kaggle-данных для сравнения с традиционными моделями. Наша модель демонстрирует несколько преимуществ: - **Faithfulness to Data**: 83%, что значительно выше значений, достигнутых при использовании традиционных способов. - **Coverage of Significant Changes**: Наша модель лучше обнаруживает и освещает ключевые изменения, что особенно важно для бизнес-анализа. - **Relevance Scores**: Оценка релевантности выводов составила 4.4 из 5, что указывает на высокую качественную степень оценок. Мы также отметили, что наш подход эффективен в задачах, требующих дополнительного контекста, таких как сделки с ценовыми изменениями, при которых отмечается увеличение дохода, но снижение объема продаж. ## Значимость Этот подход может быть применен в различных сферах, включая бизнес-анализ, финансовый мониторинг, и любые другие области, где требуется анализ сложных табличных данных. Особый потенциал заключается в улучшении решающих процессов, обеспечение более точных сводных выводов и помощь в принятии ключевых решений. ## Выводы Мы предложили расширенную модель с многоагентной архитектурой, включающую контекст-свойственные выводы и анализ данных. Модель демонстрирует значительные улучшения в областях faithfulness, coverage, и relevance. Мы намерены продолжить разви

Annotation:

We propose a novel framework for summarizing structured enterprise data across multiple dimensions using large language model (LLM)-based agents. Traditional table-to-text models often lack the capacity to reason across hierarchical structures and context-aware deltas, which are essential in business reporting tasks. Our method introduces a multi-agent pipeline that extracts, analyzes, and summarizes multi-dimensional data using agents for slicing, variance detection, context construction, and L...

ID: 2508.07186v1 cs.AI, cs.MA

arXiv PDF

📄 Adapting LLMs to Time Series Forecasting via Temporal Heterogeneity Modeling and Semantic Alignment

2025-08-13

Авторы:

Yanru Sun, Emadeldeen Eldele, Zongxia Xie, Yucheng Wang, Wenzhe Niu, Qinghua Hu, Chee Keong Kwoh, Min Wu

## Контекст Временные ряды широко используются в различных областях, включая экономику, финансы, медицину и промышленность. Их анализ и прогнозирование являются ключевыми задачами, требующими точности и надежности. Несмотря на успехы в области прогнозирования временных рядов, существуют значительные проблемы. Одной из них является **информационная несовместимость** между временными рядами, представленными в виде непрерывных числовых сигналов, и текстовыми данными, обрабатываемыми LLMs. Другая проблема — **хаотичность природы временных рядов**, которая приводит к различным структурам и характеристикам в разных сегментах. Эти проблемы существенно ограничивают эффективность использования LLMs для прогнозирования временных рядов. Мотивацией для данного исследования является развитие методов, позволяющих LLMs конкретизировать свои сильные стороны, такие как мощь общеробычного моделирования и синтаксических возможностей, для проблемы временных рядов. Такие методы могут позволить повысить точность прогнозов и улучшить общую эффективность систем прогнозирования. ## Метод Мы предлагаем **TALON** — рамберство, которое улучшает моделирование временных рядов с помощью ЛСМ (Large Sequence Models), решая проблемы **информационной несовместимости** и **хаотичности временных рядов**. - **Heterogeneous Temporal Encoder (HTE)**: Этот компонент разбивает временные ряды на структурно связанные сегменты, позволяя **локализованному экспертному моделированию** в разных частях ряда. Это позволяет ЛСМ более точно адаптироваться к разным характеристикам временных рядов. - **Semantic Alignment Module (SAM)**: Модуль выравнивания семантических представлений устраняет проблему модальности, активно участвуя в преобразовании временных рядов в **LLM-совместимые представления**, не требуя ручных промптов во время прогнозирования. ## Результаты Используя 7 реальных наборов данных для прогнозирования временных рядов, мы провели эксперименты с TALON и сравнили результаты с текущими лидерами в области. Наши результаты показали, что TALON обеспечивает **улучшение MSE до 11%** по сравнению с современными методами. Это свидетельствует о том, что интеграция **локальной детализации** (через HTE) и **семантического выравнивания** (через SAM) действительно эффективна. Также мы провели анализ того, каким образом **SAM** позволяет устранить проблему модальности, а **HTE** повышает точность прогнозов, особенно в условиях сильных изменений временных рядов. ## Значимость Результаты TALON демонстрируют, что он может быть применен в различных областях, таких как финансы, экономика, фарма

Annotation:

Large Language Models (LLMs) have recently demonstrated impressive capabilities in natural language processing due to their strong generalization and sequence modeling capabilities. However, their direct application to time series forecasting remains challenging due to two fundamental issues: the inherent heterogeneity of temporal patterns and the modality gap between continuous numerical signals and discrete language representations. In this work, we propose TALON, a unified framework that enha...

ID: 2508.07195v1 cs.CL, cs.AI

arXiv PDF

📄 Can Smaller Large Language Models Evaluate Research Quality?

2025-08-13

Авторы:

Mike Thelwall

## Контекст Существует возрастающий интерес к использованию Больших Моделей Языка (LLM) для оценки качества исследований. Однако большинство исследований фокусируются на крупнейших моделях, таких как Google Gemini и ChatGPT 4o и 4o-mini. Менее изучено, могут ли меньшие модели, такие как Gemma-3-27b-it, давать аналогичные результаты. Узнать это важно для оптимизации затрат и внедрения моделей в ситуации, где необходима безопасность или конфиденциальность. ## Метод Оценка качества исследований проводилась с использованием Google Gemma-3-27b-it, подготовленной на основе уменьшенной версии Gemma-3 с 27 миллиардами параметров. Оценка основывалась на сравнении её выдач с результатами оценки экспертами в 34 областях знаний, основанных на UK Research Excellence Framework 2021. Для избежания неточностей в оценке были проведены 5 повторений каждого эксперимента, чтобы проверить устойчивость результатов. ## Результаты Проанализированы 104,187 статей. Gemma-3-27b-it демонстрировала положительную корреляцию с экспертными оценками во всех 34 областях. Её корреляции были 83.8% такой же сильной, как у ChatGPT 4o, и 94.7% — у ChatGPT 4o-mini. Однако повторение оценки не привело к значительным улучшениям результатов, что отличает Gemma-3-27b-it от более крупных моделей. Меньшая модель даёт достаточно точные результаты, но с менее выраженным диапазоном оценок и более узкой диапазоном вариаций стиля. ## Значимость Полученные результаты показывают, что меньшие модели LLM могут быть эффективными для оценки качества исследований, что делает их применимыми в сценариях, где требуется экономия ресурсов или защищенная обработка данных. Это также открывает возможность использования моделей с меньшим размером в учёных работах, без потери качества оценки. ## Выводы Наше исследование показывает, что качество оценки исследований не является априорной чертой только крупных моделей LLM. Меньшие модели, такие как Gemma-3-27b-it, также могут применяться для этих задач, что делает их полезными для широкого круга приложений. Будущие исследования следует уделить вниманию улучшению методов оценки качества и проверке повторяемости результатов.

Annotation:

Although both Google Gemini (1.5 Flash) and ChatGPT (4o and 4o-mini) give research quality evaluation scores that correlate positively with expert scores in nearly all fields, and more strongly that citations in most, it is not known whether this is true for smaller Large Language Models (LLMs). In response, this article assesses Google's Gemma-3-27b-it, a downloadable LLM (60Gb). The results for 104,187 articles show that Gemma-3-27b-it scores correlate positively with an expert research qualit...

ID: 2508.07196v1 cs.DL, cs.AI

arXiv PDF

📄 Propagation Tree Is Not Deep: Adaptive Graph Contrastive Learning Approach for Rumor Detection

2025-08-13

Авторы:

Chaoqun Cui, Caiyan Jia

## Контекст Современные социальные сети являются важной источником информации, но при этом являются местом распространения слухов и неточной информации. Детекция слухов (rumor detection) является важной задачей для обеспечения надежности информации и защиты общества от вредоносных влияний. Несмотря на то, что существуют ряд моделей, основанных на графах, для решения этой задачи, они часто исходят из предположения, что деревья распространения лжи (rumor propagation trees, RPTs) имеют глубокие структуры. Однако статистический анализ данных реальных социальных сетей показывает, что большинство узлов RPT имеют очень глубины 1 или 2, что отличается от предположений этих моделей. Эта несоответствие моделей к реальным данным создает мотивацию для развития более эффективных подходов к обучению. ## Метод Мы предлагаем метод Rumor Adaptive Graph Contrastive Learning (RAGCL), который адаптивно увеличивает подграфы с помощью сгенерированных видов (views), опираясь на центральность узлов. Этот подход нацелен на то, чтобы сосредоточить обучение на ключевых подграфах, характеризующихся более высокой структурной интенсивностью. Мы определили три принципа для адаптивного увеличения подграфов: 1. Исключение корневых узлов из аугментации. 2. Удержание узлов с глубиной 1 или выше. 3. Отбор узлов из глубин, где их порядок не слишком сильно отличается от корня. Для генерирования видов мы применяем методы случайного удаления узлов, маскирования атрибутов и удаления ребер, при этом веса удаления определяются прототипов центральности. Это позволяет создавать разные виды для обучения модели, что улучшает ее устойчивость и точность. ## Результаты Мы проводили эксперименты на четырьмя бенчмарковыми наборами данных, которые широко используются для задачи детекции слухов. Модель RAGCL демонстрирует превосходство по метрикам F1-score и AUC в сравнении с текущими лидерами, такими как GCN, GAT и GraphSAGE. Эти результаты подтверждают то, что RAGCL эффективно учитывает широкую структуру RPTs и устойчив к изменениям в структуре данных. ## Значимость Результаты RAGCL имеют значительное влияние на область детекции слухов в социальных сетях. Они позволяют улучшить точность и стабильность моделей, опираясь на более точное понимание структуры данных. Более того, адаптивные техники аугментации, предложенные в рамках этой модели, могут быть применены в других задачах, включая обработку данных с деревовой структурой, например, в моделях для логического семантического понимания текста или биоинформатики. ## Выводы В результате нашего исследования мы показали, что RPTs в реальных дан

Annotation:

Rumor detection on social media has become increasingly important. Most existing graph-based models presume rumor propagation trees (RPTs) have deep structures and learn sequential stance features along branches. However, through statistical analysis on real-world datasets, we find RPTs exhibit wide structures, with most nodes being shallow 1-level replies. To focus learning on intensive substructures, we propose Rumor Adaptive Graph Contrastive Learning (RAGCL) method with adaptive view augment...

ID: 2508.07201v1 cs.SI, cs.AI, cs.CL

arXiv PDF

📄 Presburger Functional Synthesis: Complexity and Tractable Normal Forms

2025-08-13

Авторы:

S. Akshay, A. R. Balasubramanian, Supratik Chakraborty, Georg Zetzsche

## Контекст Проблема функциональной синтеза заключается в автоматическом синтезе функции, удовлетворяющей заданному отношению между входными и выходными параметрами, заданным логическим формулой. Эта задача находит применение в программной инженерии, автоматической программной инженерии и логическом программировании. Одна из важных областей применения — функциональная синтезирование в теории Пресбургеровской арифметики (Presburger Arithmetic). Она дифференцируется тем, что работает с подсчётными свойствами, включая добавление и удаление чисел, что усложняет синтез. Несмотря на развитие методов функциональной синтеза для булевых и первого порядка логических теорий, к теории Пресбургера этот вопрос пока до конца не был рассмотрен. Мотивация заключается в изучении возможности и сложности использования теории Пресбургера в синтезе функций. ## Метод Мы предлагаем алгоритм для решения функциональной синтеза в теории Пресбургера (Presburger Functional Synthesis, PFnS). Этот алгоритм основывается на переходе к специальной нормальной форме, PSyNF (Presburger Syntactic Normal Form). Мы показываем, что PFnS может быть решено за экспоненциальное время, с соответствующей нижней теоретической оценкой. Алгоритм состоит в переводе спецификации в PSyNF, после чего синтезируется функция. Для доказательства того, что PSyNF может быть эффективно проверено и решено, мы используем техники логического анализа и оптимизации. Мы также рассматриваем ситуации, когда PSyNF может быть эффективно преобразован в другие нормальные формы, сохраняя эффективность. ## Результаты Мы проводим эксперименты, сравнивая PFnS с булевой функциональной синтезой (BFnS). Наши результаты показывают, что PFnS является экспоненциально сложной, но полиномиально решаемой в определённых нормальных формах. Мы проверяем экспериментально преобразования спецификаций в PSyNF и проверяем полученные результаты. Также мы сравниваем сложность PFnS с BFnS и показываем, что последняя требует больших ресурсов для решения, что демонстрирует разницу в сложности для разных логических теорий. ## Значимость Областьми применения PFnS являются автоматическое программирование, логические вычисления и синтез сложных функций в теории Presburger. Наш алгоритм позволяет эффективно решать задачи синтеза в этой теории, что может использоваться в проектировании алгоритмов, автоматическом доказательстве свойств программ и анализе сложных логических систем. Значимость заключается в том, что мы предлагаем новый подход к решению задач синтеза, который может быть обобщён и применён к дру

Annotation:

Given a relational specification between inputs and outputs as a logic formula, the problem of functional synthesis is to automatically synthesize a function from inputs to outputs satisfying the relation. Recently, a rich line of work has emerged tackling this problem for specifications in different theories, from Boolean to general first-order logic. In this paper, we launch an investigation of this problem for the theory of Presburger Arithmetic, that we call Presburger Functional Synthesis (...

ID: 2508.07207v1 cs.LO, cs.AI

arXiv PDF

📄 What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains

2025-08-13

Авторы:

Chanakya Ekbote, Marco Bondaschi, Nived Rajaraman, Jason D. Lee, Michael Gastpar, Ashok Vardhan Makkuva, Paul Pu Liang

#### Контекст Трансформеры стали ключевым инструментом в области машинного обучения, особенно с возникновением возможности **ин-контекстного обучения (ICL)**. Это способность моделей трансформеров адаптироваться к новым задачах путем использования информации из контекста входных данных. Однако вопрос о том, как эта функциональность возникает в моделях с определенным числом слоёв и взаимоотношении между глубиной модели и её ICL-возможностями, остаётся открытым. Известно, что ICL может проявляться в двухслойных трансформерах с одним заголовком на слой, однако для понимания более широкого класса последовательных моделей, таких как задачи с Markov-структурой, необходимо дальнейшее исследование. #### Метод Мы рассматриваем модель, основанную на двухслойном трансформере с одним заголовком на слой, и изучаем её возможность решать задачи с Markov-структурой различного порядка. Мы формализуем задачи последовательностей в терминах Markov-чинов и исследуем, каким образом двухслойная модель может эффективно репрезентовать высокопорядковые Markov-зависимости. Для этого мы проводим теоретические рассуждения и анализируем градиентные динамики в процессе обучения. #### Результаты Мы доказываем, что двухслойный трансформер с одним заголовком на каждый слой может эффективно решать задачи с Markov-структурой любого порядка, используя лишь два слоя с одним заголовком. Это достигается благодаря специальным сущностям, называемым **induction heads**, которые выполняют ключевую роль в ICL. Наши эксперименты показывают, что даже такая простая модель может создавать эффективные ICL-репрезентации рандомизированных последовательностей, которые не требуют глубоких архитектур. #### Значимость Результаты имеют значение для широкого круга приложений, включая естественно-языковые задачи, анализ последовательностей и рекомендательные системы. Наша модель демонстрирует, что двухслойные трансформеры могут поставлять ICL-возможности, которые ранее считались доступными только для глубинных архитектур. Это не только улучшает эффективность обучения, но и сокращает необходимость в ресурсоемких моделях. #### Выводы Мы доказали, что двухслойные трансформеры могут эффективно решать задачи с Markov-структурой любого порядка, показав, что ICL может проявляться даже в глубине двух слоёв. Будущие исследования будут направлены на расширение этих результатов на более сложные модели и анализ динамических свойств двухслойных трансформеров в расширенной среде с Markov-зависимостями.

Annotation:

In-context learning (ICL) is a hallmark capability of transformers, through which trained models learn to adapt to new tasks by leveraging information from the input context. Prior work has shown that ICL emerges in transformers due to the presence of special circuits called induction heads. Given the equivalence between induction heads and conditional k-grams, a recent line of work modeling sequential inputs as Markov processes has revealed the fundamental impact of model depth on its ICL capab...

ID: 2508.07208v1 cs.LG, cs.AI

arXiv PDF

📄 Neural Bridge Processes

2025-08-13

Авторы:

Jian Xu, Yican Liu, Qibin Zhao, John Paisley, Delu Zeng

#### Контекст Обучение стохастических функций на основе частично известного контекста и целевых пар является одной из основных задач в области проблемы моделирования вероятности. Однако традиционные модели, такие как Гауссовы процессы (GP), сталкиваются с проблемами масштабируемости при обработке больших данных и предполагают нормальное распределение, что ограничивает их применение. За свою сторону, нейронные процессы (Neural Processes, NP) предлагают более гибкие возможности, но сталкиваются с проблемами в ловле сложных многомодальных распределений целевых переменных. Для улучшения выразительности были предложены нейронные процессы с диффузией (Neural Diffusion Processes, NDP), но они опираются только на условные сигналы в сети деноизирования, что приводит к слабым сигналам градиентов из неусловного процесса и семантическим расхождениям на конце точки диффузии. Наша работа стремится решить эти проблемы, предлагая модель Neural Bridge Processes (NBP), которая предлагает новый подход к моделированию стохастических функций. #### Метод Мы предлагаем Neural Bridge Processes (NBP), новый подход к моделированию стохастических функций, где входные данные $x$ служат динамическими анкерами для всего процесса диффузии. Диффузия в NBP является условной и зависит от $x$, что позволяет направлять траекторию диффузии к управляемой целевой точке. Мы реформулируем условный ядерный процесс таким образом, чтобы он явно зависел от $x$, чтобы обеспечить констрейнтированный путь, который строго заканчивается на управляемой цели. Это позволяет получать более сильные сигналы градиентов и гарантировать консистентность на конце точке. Метод NBP основывается на принципах DDPM (Diffusion Probabilistic Models) и использует модифицированный процесс диффузии для эффективного моделирования структурированных задач. #### Результаты Мы проверили NBP на различных задачах: регрессии сигналов EEG, регрессии изображений и синтетических данных. Наши эксперименты показали, что NBP превосходит существующие модели, включая Neural Processes и Neural Diffusion Processes, в значительной степени. Мы получили повышение точности и лучшую теоретическую консистентность, в том числе при работе с многомодальными распределениями целевых переменных. Эти результаты подтверждают эффективность DDPM-стиля бридж-семплинга в улучшении качества решения задач структурированного прогнозирования. #### Значимость Метод NBP может быть применен в различных областях, таких как медицина (регрессия сигналов EEG), глубокое обучение с гауссовыми процессами, изображение и звук. Он предлагает значительные преимущества по сравнению с традиционны

Annotation:

Learning stochastic functions from partially observed context-target pairs is a fundamental problem in probabilistic modeling. Traditional models like Gaussian Processes (GPs) face scalability issues with large datasets and assume Gaussianity, limiting their applicability. While Neural Processes (NPs) offer more flexibility, they struggle with capturing complex, multi-modal target distributions. Neural Diffusion Processes (NDPs) enhance expressivity through a learned diffusion process but rely s...

ID: 2508.07220v1 cs.LG, cs.AI

arXiv PDF

1
2
1398
1399
1400
1401
1402
1482
1483

Показано 13991 - 14000 из 14827 записей