📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 From Eigenmodes to Proofs: Integrating Graph Spectral Operators with Symbolic Interpretable Reasoning

2025-09-11

Авторы:

Andrew Kiruluta, Priscilla Burity

## Контекст Одной из существующих проблем классического логического программирования является его неэффективность при работе с большими множествами данных. Отсутствие гибкости и интерпретируемости данных моделей усложняет их применение в реальных задачах. Нейро-символьные модели, в свою очередь, предоставляют гибкость и интерпретируемость, но часто страдают от проблем с объемом данных и недостаточной стабильностью. Эта ситуация требует развития новых подходов, которые объединяли бы преимущества графов, графового сигнального процессинга (GSP) и логического программирования. ## Метод "Spectral NSR" — это современная модель, которая объединяет архитектуру графов и логику символьного программирования. Она использует графовую спектральную разложительную модель (GSP), построенную на основе лапласианской структуры знаний. Модель выполняет вывод в спектральном домене, что позволяет использовать графовые спектры для вычисления. Эта модель также включает в себя различные расширения, такие как динамическое обучение базиса, множественные фильтры для более точного спектрального выделения, и многоспектральную специализацию. Более того, Spectral NSR использует тренировочный процесс, основанный на логических доказательствах, а также учет неопределенности в моделировании. ## Результаты На тестах ProofWriter и CLUTRR Spectral NSR показала существенно вышу скорость вывода и точность по сравнению с соревнующими моделями, такими как трансформеры, сети сообщений и логические модели. Эксперименты показали, что модель лучше справляется с атаками адверсарных вкраплений и обеспечивает более высокую интерпретируемость решений. Анализ атрибуции спектров и согласование проверки доказательств подтвердили, что решения Spectral NSR тесно соответствуют символьным доказательствам. Также были проведены эксперименты на конвертации доменов, демонстрирующие эффективность модели в адаптации к новым задачам. ## Значимость Модель Spectral NSR имеет широкие применения в области нейро-символьного рассуждения, в том числе в робототехнике, здравоохранении, финансовых системах и других областях, где необходима точность, гибкость и интерпретируемость моделей. Эта модель предлагает значительные преимущества перед существующими моделями, такими как более высокая скорость, лучшая устойчивость к атакам и повышенная интерпретируемость моделей. Будущие исследования будут сфокусированы на улучшении эффективности, изменении архитектуры для большей гибкости и расширении возможностей для широкого круга приложений. ## Выводы Spectral NSR представляет собой прорыв в об

Annotation:

We introduce Spectral NSR, a fully spectral neuro-symbolic reasoning framework that embeds logical rules as spectral templates and performs inference directly in the graph spectral domain. By leveraging graph signal processing (GSP) and frequency-selective filters grounded in the Laplacian eigenstructure of knowledge graphs, the architecture unifies the interpretability of symbolic reasoning with the scalability and adaptability of spectral learning. Beyond the core formulation, we incorporate a...

ID: 2509.07017v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Astra: A Multi-Agent System for GPU Kernel Performance Optimization

2025-09-11

Авторы:

Anjiang Wei, Tianran Sun, Yogesh Seenichamy, Hang Song, Anne Ouyang, Azalia Mirhoseini, Ke Wang, Alex Aiken

## Контекст GPU kernel optimization является ключевым вопросом в области высокопроизводительных вычислений и машинного обучения. Эффективные GPU-ядра способствуют ускорению обучения и работы больших языковых моделей (LLM). Однако достижение высокой производительности часто требует значительных усилий вручную при настройке или использовании компиляторов. Даже с использованием существующих систем оптимизации кода, таких как LLMs для генерации CUDA-кода, получение оптимальной производительности ядра остается сложной задачей. Многие из этих подходов ориентируются на преобразование высокоуровневых спецификаций в CUDA-код. Но потребность в оптимальной производительности ядер для ЛЛМ приводит к новым аспектам, которые не учтены в существующих подходах. Мы предлагаем Astra, первую систему на основе многоагентных LLM для GPU-ядер, которая работает на основе существующих CUDA-кодов, а не на основе преобразования PyTorch-модулей. ## Метод Astra представляет собой многоагентную систему на основе LLM, которая применяет сотрудничество между агентами для кодовой генерации, тестирования, профилирования и планирования. Каждый агент отвечает за конкретный аспект оптимизации кода, такой как преобразование циклов, оптимизация доступа к памяти, использование CUDA-инструментов и применение быстрых математических операций. Исходные CUDA-коды извлекаются из SGLang, широко используемого фреймворка для серверного применения ЛЛМ. Агенты используют LLM для проведения экспериментов, профилирования, генерации новых вариантов кода и выбора оптимальных решений. Метод заключается в итеративном улучшении производительности ядер с помощью агентов, которые совместно решают задачи кодирования и профилирования. ## Результаты На кубах SGLang Astra достигает среднего ускорения 1.32x при использовании стилистического модели OpenAI o4-mini. Детальная случайная стадия показывает, что LLM-система может автономно применять циклические преобразования, оптимизировать доступ к памяти, использовать CUDA-инструменты и применять быстрые математические операции. Эти меры приводят к значительным улучшениям производительности. На основе экспериментов было показано, что Astra может значительно повысить производительность GPU-ядер без ручного вмешательства, что демонстрирует потенциал многоагентных LLM-систем в области оптимизации GPU-кода. ## Значимость Astra может применяться в сферах машинного обучения, высокопроизводительных вычислений и оптимизации GPU. Она предоставляет преимущества в скорости и эффективности в кодировании ядер GPU без ручного вмешательства. Это может привести к значительному сокращению времени и ресурсов

Annotation:

GPU kernel optimization has long been a central challenge at the intersection of high-performance computing and machine learning. Efficient kernels are crucial for accelerating large language model (LLM) training and serving, yet attaining high performance typically requires extensive manual tuning. Compiler-based systems reduce some of this burden, but still demand substantial manual design and engineering effort. Recently, researchers have explored using LLMs for GPU kernel generation, though ...

ID: 2509.07506v1 cs.DC, cs.AI, cs.CL, cs.LG, cs.SE

arXiv PDF

📄 Competitive Audio-Language Models with Data-Efficient Single-Stage Training on Public Data

2025-09-11

Авторы:

Gokul Karthik Kumar, Rishabh Saraf, Ludovick Lepauloux, Abdul Muneer, Billel Mokeddem, Hakim Hacid

#### Контекст В последние годы технологии звукового анализа и обработки языка стали ключевыми для развития интеллектуальных систем. Однако сочетание звукового анализа и естественного языка во многом остается недостаточно исследованом. Уже достигнутые успехи в области больших языковых моделей (LLMs) не полностью использованы для аудио-данных, несмотря на то, что звук является основополагающим средством человеческой коммуникации. Это ситуация стимулирует развитие аудио-языковых моделей (ALMs), которые могут обрабатывать и интерпретировать аудио-информацию вместе с текстовыми данными. Falcon3-Audio — это новая семейство ALMs, которые используют уже проинструктированные языковые модели и кодировщики звука с открытым кодом, такими как Whisper. Они предлагают новую точку зрения на объединение звуковых и текстовых данных. #### Метод Falcon3-Audio основана на современных трендах в обучении языковых моделей, но придерживается простоты в своей архитектуре. Она использует Whisper для кодирования звуковых сигналов и обучает языковую модель на основе существующих процедур обучения с инструкциями. Это позволяет проводить одностадийное обучение, не требуя дополнительных сложных методов, таких как курсивное обучение или многоэтапная архитектура. Используется минимальное количество аудио-данных — менее 30 тысяч часов (5 тысяч уникальных аудио-записей) — что демонстрирует высокую эффективность ресурсов. Набор данных Whisper, используемый для обучения, также обеспечивает широкий покрытие различных акцентов и языков. #### Результаты В ходе исследования Falcon3-Audio-7B демонстрирует выдающуюся эффективность, совпадая с результатами лучших моделей на открытом коде в задаче моделирования MMAU. Она построена на меньшем количестве параметров (7 миллиардов) и тренируется на меньшем количестве данных, чем многие соревновательные модели. Например, Falcon3-Audio-1B превосходит различные модели 2–13 миллиардов параметров, открытых и закрытых. Эти результаты достигнуты благодаря простоте архитектуры и эффективности используемых данных. Эксперименты также показали, что Falcon3-Audio достигает этих результатов без дополнительных сложных методов, что демонстрирует ее простоту и надёжность. #### Значимость Модель Falcon3-Audio открывает новый подход к объединению звуковых и текстовых данных в языковых моделях, снижая требования к объему обучающих данных и ресурсам вычислительных систем. Она может применяться в различных областях, включая распознавание речи, генерацию аудио-содержимого и анализ аудио-содержимого. Ее простота, эффектив

Annotation:

Large language models (LLMs) have transformed NLP, yet their integration with audio remains underexplored -- despite audio's centrality to human communication. We introduce Falcon3-Audio, a family of Audio-Language Models (ALMs) built on instruction-tuned LLMs and Whisper encoders. Using a remarkably small amount of public audio data -- less than 30K hours (5K unique) -- Falcon3-Audio-7B matches the best reported performance among open-weight models on the MMAU benchmark, with a score of 64.14, ...

ID: 2509.07526v1 cs.SD, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

2025-09-10

Авторы:

Waris Gill, Natalie Isak, Matthew Dressman

#### Контекст С появлением широкоизвестных языковых моделей (LLM) в энтерпрайз-системах возникла новая критическая проблема безопасности — распространение проблемы "промусолка инъекции запросов" (prompt injection attacks). Эти атаки могут повторяться в нескольких сервисах, которые обрабатывают пользовательские запросы, но существуют жесткие нормативные ограничения на обмен информацией об атаках. Регулярные требования препятствуют обмену жалобами и данными о проблемах между сервисами, что приводит к тому, что одни сервисы могут недостаточно быстро реагировать на подозрительные активности. Многие организации не могут полноценно оценить угрозы, так как не могут получить доступ к анализу данных из других сервисов. Однако, если бы была возможность безопасного обмена угрозными моделями взаимно полезной информацией, без разглашения конфиденциальных данных, это было бы ключевым решением для повышения безопасности. #### Метод Мы предлагаем BinaryShield, новую систему, которая позволяет безопасно обмениваться "угрозными отпечатками" (threat fingerprints) между LLM-сервисами. Метод шифрует данные, используя технологии, которые позволяют избежать раскрытия конфиденциальных данных в ходе обмена. Базовая идея заключается в том, чтобы превратить подозрительные запросы в некоторую форму уникальных "отпечатков", которые в то же время могут быть использованы для поиска подозрительных моделей, но не выдают информации, которая может подвергнуться неправомерному использованию. Основные этапы методики включают (1) удаление личных данных (PII redaction), (2) преобразование запросов в семантические ин Eмбеддинги (semantic embedding), (3) кодирование данных в бинарный формат (binary quantization), и (4) применение механизма случайных ответов (randomized response) для гарантии конфиденциальности. #### Результаты Мы провели ряд экспериментов для проверки эффективности BinaryShield. Использованы данные, содержащие подозрительные запросы, которые были сравнивались с другими данными для поиска подозрительных моделей. Метод BinaryShield показал высокую точность — F1-меру достигла 0.94, что значительно выше, чем у SimHash (0.77), стандартного метода приватности. Одновременно, BinaryShield позволил сократить требуемое место на хранения данных в 64 раза и увеличить скорость поиска подозрительных моделей в 38 раз по сравнению с традиционным подходом, основанным на технологии dense embeddings. #### Значимость BinaryShield демонстрирует значительный потенциал в обеспечении безопасности в сфере LLM-сервисов. Он предоставляет возможность для безопасного обмена информацией об угрозах между различными сервисами, даже если они работают в разных регуляторных сферах.

Annotation:

The widespread deployment of LLMs across enterprise services has created a critical security blind spot. Organizations operate multiple LLM services handling billions of queries daily, yet regulatory compliance boundaries prevent these services from sharing threat intelligence about prompt injection attacks, the top security risk for LLMs. When an attack is detected in one service, the same threat may persist undetected in others for months, as privacy regulations prohibit sharing user prompts a...

ID: 2509.05608v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Interleaving Reasoning for Better Text-to-Image Generation

2025-09-10

Авторы:

Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin

#### Контекст В последние годы улучшение текстово-изображественных генераторов стало одной из наиболее активных областей исследований в области машинного обучения и искусственного интеллекта. Особенно заметны улучшения в области текстово-изображественных моделей, которые объединяют в себе функции понимания и синтеза. Однако существуют заметные проблемы в области следования инструкциям и хранения деталей при генерации изображений. Такие модели, как GPT-4, в свою очередь, показывают значительный прогресс в области синтеза изображений, но имеют свои ограничения в понимании инструкций. Таким образом, для достижения более высокого уровня качества и подробности в текстово-изображественной генерации необходима более глубокая интеграция текстового понимания и генерации изображений. #### Метод Мы предлагаем Interleaving Reasoning Generation (IRG), фреймворк, который реализует универсальную многорежимную модель понимания и генерации. Работа IRG основывается на методе "интерлеавенг реасионинг". Модель вначале генерирует текстовую интерпретацию изображения (thinking), затем, основываясь на этой интерпретации, генерирует изображение. Далее, модель проводит текстовую рефлексию (reflection), анализируя результат и выявляя мелкие детали, которые необходимо улучшить. Эти детали рефлексии включают в себя оценку визуальной ценности, корректности акцентов и точность описания. Обучение IRG происходит в два этапа: первый этап нацелен на создание графических данных, включая визуальное описание и текстовую интерпретацию, второй этап — на точку рефининга, чтобы гарантировать качество и точность в итоговой генерации. #### Результаты Мы проводили эксперименты на различных данных, в том числе на многорежимных датасетах, подтвердив высокую эффективность IRG. Модель показала важное улучшение в генерации изображений с высоким детализированным характером. Также мы провели метрические оценки, которые показали, что IRG получил высокие результаты на таких метриках, как GenEval, WISE, TIIF и другие. Мы также оценили качество генерируемых изображений по тестам сгенерированных изображений в контексте текста. Наши результаты показали значительное улучшение качества изображений, в том числе в улучшении точности деталей и визуальной четкости генерируемых изображений. #### Значимость Interleaving Reasoning Generation может быть применен в различных областях, включая генерацию высококачественных изображений для коммерческих и розничных приложений, синтез изображений для искусственных зрения и генерацию изображений в области полязии и компьютерного зрения. Это модель

Annotation:

Unified multimodal understanding and generation models recently have achieve significant improvement in image generation capability, yet a large gap remains in instruction following and detail preservation compared to systems that tightly couple comprehension with generation such as GPT-4o. Motivated by recent advances in interleaving reasoning, we explore whether such reasoning can further improve Text-to-Image (T2I) generation. We introduce Interleaving Reasoning Generation (IRG), a framework ...

ID: 2509.06945v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

2025-09-10

Авторы:

James Xu Zhao, Bryan Hooi, See-Kiong Ng

#### Контекст Проблема эффективности интерпретации моделей глубокого обучения возникает в рамках развития знаний-интенсивных задач, где точность и отсутствие халлюцинаций (недостоверных ответов) являются критичными. Тест-тайм скалирование (test-time scaling, TTS) позволяет моделям увеличивать вычисления во время инференции, генерируя длинные цепи рассуждений. Несмотря на успех этого подхода в многих областях, в настоящем исследовании мы рассматриваем его неэффективность в знаний-интенсивных задачах. #### Метод Мы проводим оценку TTS на 12 моделях логического рассуждения в двух бенчмарках, характерных для знаний-интенсивных задач. Используемые модели включают модели с различными архитектурами, подходами и способами увеличения вычислительной сложности во время инференции. Мы измеряем точность результатов, частоту халлюцинаций, а также проводим анализ поведения моделей в зависимости от расширенных рассуждений. #### Результаты Наши эксперименты показывают, что TTS не способен постоянно улучшать точность в знаний-интенсивных задачах. В некоторых случаях он даже приводит к увеличению частоты халлюцинаций. Мы обнаружили, что модели часто воздерживаются от ответов при длинных рассуждениях, что приводит к снижению частоты халлюцинаций. Тем не менее, длительное рассуждение может побуждать модели попытаться ответить на вопросы, на которые они ранее отказались отвечать, что приводит к новым халлюцинациям. Были проведены случайные исследования, показавшие, что TTS может вдохновить модели на подтверждение неверных халлюцинаций, что усиливает конфирмационные биазы. #### Значимость Результаты имеют практическое значение для аспирантов, работающих с моделями знаний-интенсивных задач, такими как системы ответа на вопросы, генерация текста и решение задач логического рассуждения. Наше исследование показывает, что TTS может не являться приоритетным подходом для этих задач, несмотря на его полезность в других сферах. Мы также отмечаем, что хотя TTS может повысить точность в некоторых случаях, оно не может быть рассматривано как широко применимый инструмент для улучшения задач знаний-интенсивных. #### Выводы Наши результаты подтверждают, что TTS не является эффективным для знаний-интенсивных задач, несмотря на его успех в других областях. Мы призываем к углубленному исследованию эффективных методов улучшения точности и уменьшения халлюцинаций в знаний-интенсивных моделях. Наша работа открывает путь к будущим исследованиям в области разработки моделей, которые могут более точно и надежно работать в знани

Annotation:

Test-time scaling increases inference-time computation by allowing models to generate long reasoning chains, and has shown strong performance across many domains. However, in this work, we show that this approach is not yet effective for knowledge-intensive tasks, where high factual accuracy and low hallucination rates are essential. We conduct a comprehensive evaluation of test-time scaling using 12 reasoning models on two knowledge-intensive benchmarks. Our results reveal that increasing test-...

ID: 2509.06861v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

2025-09-10

Авторы:

Jiacheng Miao, Joe R. Davis, Jonathan K. Pritchard, James Zou

## Контекст Решение проблем с доступностью и реализацией научных работ приобретает важность в свет увеличения количества исследований и сложности их понимания. Даже существующие инструменты, такие как GitHub или Papers with Code, часто не полностью устраняют барьеры для использования и доверия к научным работам. Они не обеспечивают интерактивности, автоматизации и широкого доступа. Paper2Agent предлагает решение, превращая статические научные работы в динамические, интерактивные AI-агенты. Это позволяет увеличить доступность, точность и удобство применения научных работ, обеспечивая новую модель интеллектуального взаимодействия. ## Метод Процесс преобразования научной работы в AI-агент основывается на автоматическом извлечении и анализе кода, данных и методов из текста работы. Используется архитектура Model Context Protocol (MCP), состоящая из нескольких агентов, которые создают протокол для широкого применения. Этот протокол включает в себя тестирование и выявление ошибок, чтобы обеспечить надежность результатов. Paper2Agent использует систему Claude Code для взаимодействия с пользователем через естественный язык, при этом активируя инструменты и рабочие процессы, описанные в исследовании. Для валидации результатов используются случаи, применимые к реальной научной практике. ## Результаты Применение Paper2Agent продемонстрировало мощь этой системы в создании надежных агентов на основе научных работ. К примеру, агент, основанный на AlphaGenome, может интерпретировать геномные варианты, тогда как агенты, основанные на ScanPy и TISSUE, выполняют анализы сингулярного момента и пространственных транскриптомеров. Эти агенты способны воспроизводить результаты из оригинальных работ и отвечать на сложные запросы пользователей. Это демонстрирует высокую точность и кросс-сценарное применение технологии. ## Значимость Paper2Agent может применяться в различных научных областях, включая геномику, биоинформатику и транскриптометрию. Он обеспечивает расширение возможностей для участников научных работ, включая исследователей, специалистов по данным и разработчиков. Данная технология ускоряет создание, использование и распространение научных знаний, повышая точность, доступность и удобство. Будущие работы могут сосредоточиться на расширении функционала, включая поддержку новых научных областей и улучшение интерактивности. ## Выводы Paper2Agent представляет собой перспективный подход к преобразованию научных работ в интерактивные AI-агенты, обеспечивая новый уровень коммуникации и использования научных знаний. Этот подход может быть расширен для автоматизации и улучшения процессов в научной практике. Будущие исследования будут сф

Annotation:

We introduce Paper2Agent, an automated framework that converts research papers into AI agents. Paper2Agent transforms research output from passive artifacts into active systems that can accelerate downstream use, adoption, and discovery. Conventional research papers require readers to invest substantial effort to understand and adapt a paper's code, data, and methods to their own work, creating barriers to dissemination and reuse. Paper2Agent addresses this challenge by automatically converting ...

ID: 2509.06917v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Interleaving Reasoning for Better Text-to-Image Generation

2025-09-10

Авторы:

#### Контекст Современные мультимодальные модели, объединяющие понимание и генерацию изображений, показали заметный прогресс в области текст-к-изображению (T2I). Однако, несмотря на это, остается заметное различие в способности следовать инструкциям и сохранять детали в сравнении с моделями, где понимание и генерация тесно связаны, такими как GPT-4. Это снижает их эффективность в реализации точных и абстрактных пожеланий пользователей. Данная работа ориентируется на исследование роли интерлейвинга (interleaving reasoning) — методики, где модель анализирует текстовые подсказки, генерирует изображение, а затем проводит внутренний анализ для доработки деталей и качества. Мы задаем вопрос: могут ли такие подходы улучшить тексто-к-изображению? #### Метод Мы предлагаем **Interleaving Reasoning Generation (IRG)** — рамформу, в которой модель построчно следует циклу "мысль — генерация изображения — отработка деталей". В первом этапе, модель производит рассуждения на основе текста, чтобы направить начальную генерацию изображения. Во втором этапе, после проверки результата, модель вносит корректировки, выражаясь в текстовой форме, чтобы улучшить детали, цветовую гамму, визуальную атмосферу и соблюдение семантики. Для обучения IRG мы разрабатываем **Interleaving Reasoning Generation Learning (IRGL)** — методологию, которая разделяет обучение на два этапа: 1. Укрепление "мысли-генерации" для гарантии устойчивости и качества генерируемых изображений; 2. Обеспечение точной рефлексии текстовых корректировок и их внедрения в изображение. Мы создали **IRGL-300K** — большущую выборку, состоящую из шести разделенных подсистем, покрывающих обучение текстовым рассуждениям и полной траектории "мысль-генерация". Наша модель, основанная на универсальной модели с возможностью вывода на разных уровнях (текст и изображение), проходит два этапа обучения: - Обучение научиться "мыслить" и "генерировать"; - Оптимизация всего процесса "мысль-генерация-рефлексия-генерация". #### Результаты Мы провели многочисленные эксперименты на различных б BENCHMARKS (таких как GenEval, WISE, TIIF, GenAI-Bench, OneIG-EN) и сравнили наш результат с современными моделями. Удался определённый прогресс: - Общий показатель GenEval возрос на 5–10 баллов в разных условиях; - Улучшение в метрике WISE, отражающей способность следовать инструкциям; - Значительное улучшение в TIIF, которая оценивает подробности и визуальную точность; - Значительные показатели в GenAI-Bench и OneIG-EN. Также было замечено улучшение визуального качества и точности в деталях, что демонстрирует эффективность нашего подхода в сохранении сем

Annotation:

ID: 2509.06945v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory

2025-09-09

Авторы:

Matthew Ho, Chen Si, Zhaoxiang Feng, Fangxu Yu, Yichi Yang, Zhijian Liu, Zhiting Hu, Lianhui Qin

## Контекст Одна из основных проблем современных моделей глубокого обучения заключается в ограниченной способности сохранять и использовать полученные знания в течение длительного времени. Традиционные модели, такие как LLMs (Large Language Models), обладают внушительным возможностями для выполнения логических задач, однако во время выполнения они не могут сохранить знания, накопленные в ходе работы в режиме реального времени. Это приводит к тому, что каждая новая задача обрабатывается абсолютно самостоятельно, не используя результаты предыдущих работ. Это ограничивает эффективность моделей в решении задач, требующих глубокого абстрактного разума и строгой композиции. Мы предлагаем систему `ArcMemo`, которая решает эту проблему путем создания внешней памяти, построенной на абстрактных концепциях, и позволяющей модели обучаться во время выполнения заданий. ## Метод `ArcMemo` работает на основе следующих принципов: 1. **Абстрактные Рассуждения и Композиция**: Мы разрабатываем алгоритмы для абстрагирования значимости от решений в ходе выполнения задач. Эти рассуждения формируют составные части, которые могут быть повторно использованы в будущих задачах. 2. **Внешняя Память на Основе НЛП**: Внешняя память хранится в виде естественного языка и состоит из логических модулей, которые могут быть повторно использованы и расширены. 3. **Интеграция Памяти в Время Выполнения**: Мы вводим технологию "тестового непрерывного обучения", в которой модель может использовать сохраненные концепции для решения новых задач без переобучения весов модели. 4. **Стратегии Ретриева и Обновления**: Мы предлагаем способы выбора полезных концепций в зависимости от задачи, а также механизмы для их динамического обновления в процессе работы. 5. **Архитектура**: `ArcMemo` включает модуль абстракции, занимающийся формированием логических моделей задач, и модуль внешней памяти, который хранит и получает знания в естественном языке. ## Результаты Мы провели эксперименты на базе сетки обучения `ARC-AGI`, которая требует высокой степени композиции и логической гибкости. В результате: - `ArcMemo` показала **7,5% относительного выигрыша** по сравнению с моделью без внешней памяти. - Динамическое обновление памяти показало лучшие результаты, чем статический вариант, что подтверждает гипотезу о том, что чем больше модель учится, тем лучше она решает новые задачи. - Мы также обнаружили, что абстрактные концепции показали себя как самый эффективный вариант памяти в работе модели. ## Значимость `ArcMemo` может быть применена в области роботов-экспертов, человеко

Annotation:

While inference-time scaling enables LLMs to carry out increasingly long and capable reasoning traces, the patterns and insights uncovered during these traces are immediately discarded once the context window is reset for a new query. External memory is a natural way to persist these discoveries, and recent work has shown clear benefits for reasoning-intensive tasks. We see an opportunity to make such memories more broadly reusable and scalable by moving beyond instance-based memory entries (e.g...

ID: 2509.04439v2 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Maestro: Joint Graph & Config Optimization for Reliable AI Agents

2025-09-09

Авторы:

Wenxiao Wang, Priyatham Kattakinda, Soheil Feizi

## Контекст В последние годы широко распространены подходы к созданию машинного обучения моделей с использованием трансформеров. Однако конструирование доверенных агентов, основанных на генеративных моделях естественного языка, остается сложной задачей. Эти агенты должны обеспечивать не только качественно высокие результаты, но и гарантировать надёжность при выполнении задач. Ложные срабатывания, неточности и проблемы с гибкостью остаются значительными проблемами. Одним из ключевых аспектов достижения надёжности является адекватное графовое и конфигурационное оптимизирование. Наиболее популярные подходы оптимизируют только конфигурации моделей, не учитывая оптимизации структуры графа, что приводит к значительным проблемам с надёжностью. Был предложен фреймворк Maestro, который предлагает полностью автоматизированную оптимизацию графа и конфигураций для генерации надёжных генеративных моделей. ## Метод Проект Maestro предлагает новую методологию, которая объединяет оптимизацию графа и конфигураций в единое комплексное решение. Граф определяет структуру модулей, а конфигурация каждого модуля включает гиперпараметры модели, предварительно обработанные входные данные, инструменты и другие контрольные параметры. Maestro применяет векторное управление над генеративными моделями, чтобы найти оптимальное сочетание структуры графа и конфигураций моделей. Метод использует визуализацию трассировок, которая позволяет обнаруживать системные проблемы и корректировывать их. Был предложен алгоритм для поиска оптимальных комбинаций графа и конфигураций, согласованных с целями качества и бюджетом токенов. ## Результаты В экспериментах были использованы данные, включающие IFBench и HotpotQA. Агент Maestro был сравнен с такими популярными оптимизаторами, как MIPROv2, GEPA и GEPA+Merge. Результаты показали, что Maestro превосходит все три оптимизатора по точности результатов. В бенчмарке IFBench он показал среднее улучшение в 12%, в HotpotQA - 4,9%. Даже при ограничении себя только оптимизацией промптов, Maestro превосходит MIPROv2 на 9,65%, GEPA на 2,37% и GEPA+Merge на 2,41%. Также было проверено, что Maestro эффективно обнаруживает и исправляет структурные проблемы, которые не могут быть разрешены стандартными методами поиска конфигураций. ## Значимость Maestro может быть применен в различных областях, где требуется надёжность и качество результатов для генеративных моделей. Он применим в области роботов-интервьюеров, систем генеративного вопрошания и ответов, а также в приложениях, требующих структурной надёжности

Annotation:

Building reliable LLM agents requires decisions at two levels: the graph (which modules exist and how information flows) and the configuration of each node (models, prompts, tools, control knobs). Most existing optimizers tune configurations while holding the graph fixed, leaving structural failure modes unaddressed. We introduce Maestro, a framework-agnostic holistic optimizer for LLM agents that jointly searches over graphs and configurations to maximize agent quality, subject to explicit roll...

ID: 2509.04642v1 cs.AI, cs.CL, cs.LG, cs.SE

arXiv PDF

Показано 141 - 150 из 196 записей