📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

David Chanin, Adrià Garriga-Alonso

## Контекст Sparse Autoencoders (SAEs) являются важной компонентой машинного обучения, предназначенными для извлечения представлений из внутренних активаций глубоких нейронных сетей. Идея заключается в том, что каждое извлеченное представление должно соответствовать отдельному понятию. Однако, для того чтобы достичь этой цели, необходимо тщательно подобрать гиперпараметр L0, который определяет среднее число активирующихся функций на каждый токен. Несмотря на важность этого параметра, существующие работы обычно оценивают различные алгоритмы SAE только по трейдофу между спарсингом и реконструкцией, без учета правильного подбора L0. Наша мотивация заключается в том, чтобы раскрыть важность L0 и показать, что его неправильное значение приводит к некорректному извлечению признаков. ## Метод Мы изучаем характеристики BatchTopK SAEs, в которых L0 определяет число активирующихся функций. Мы проводим эксперименты с разными значениями L0 и изучаем их влияние на способность SAE выучить функции, на которые сосредоточены внутренние активации глубоких нейросетей. Для построения изображений используются данные типа "word embeddings" из распространенных моделей, а результаты экспериментов анализируются с помощью метрик, отражающих точность извлечения функций. Мы также предлагаем метод для определения корректного L0, который основывается на оценке спарсингового и реконструкционного характеристик в ходе обучения. ## Результаты Наши эксперименты показывают, что если L0 неправильно подобрано, SAE не сможет правильно извлечь признаки. Если L0 слишком мал, то SAE будет смешивать похожие признаки, чтобы улучшить реконструкцию. Если L0 слишком большой, то могут быть найдены дегенеративные решения, приводящие к смешению признаков. Мы также демонстрируем, что наш метод для определения идеального L0 дает правильные результаты на генерируемых данных и совпадает с точкими значениями, при которых SAE достигает максимальной производительности в тестировании на глубоких нейросетях. ## Значимость Полученные результаты имеют большое значение для понимания и применения SAE. Они показывают, что правильное значение L0 не только влияет на качество реконструкции, но и на фактический вывод корректных признаков. Это означает, что недостаточно лишь корректно реализовать SAE, необходимо также аккуратно подобрать L0. Этот результат может быть применен в области извлечения функций из внутренних моделей, таких как текстовые модели с глубокими нейросетями. Это также может помочь улучшить представления, которые используются в визуализации и анализировании данных. ## Выводы Мы показали, что неправиль
Annotation:
Sparse Autoencoders (SAEs) extract features from LLM internal activations, meant to correspond to single concepts. A core SAE training hyperparameter is L0: how many features should fire per token on average. Existing work compares SAE algorithms using sparsity--reconstruction tradeoff plots, implying L0 is a free parameter with no single correct value. In this work we study the effect of L0 on BatchTopK SAEs, and show that if L0 is not set precisely, the SAE fails to learn the underlying featur...
ID: 2508.16560v1 cs.LG, cs.AI, cs.CL
Авторы:

Amirmohsen Sattarifard, Sepehr Lavasani, Ehsan Imani, Kunlin Zhang, Hanlin Xu, Fengyu Sun, Negar Hassanpour, Chao Gao

#### Контекст Large Language Models (LLMs) становятся все более популярными в сферах, требующих высокого вычислительного мощности, таких как машинное обучение, глубокое обучение и анализ текстов. Однако их применение на edge-устройствах ограничено тем, что они требуют большого объема вычислений и памяти. Для того, чтобы решить эту проблему, активно исследуются способы оптимизации их работы, в том числе использование динамического удаления нейронов (sparSification), которое позволяет уменьшить вычисления без существенного снижения качества. Однако существующие методы либо требуют дополнительных подготовительных этапов и дополнительного обучения, либо не подходят для конкретных сценариев работы, например, для коротких запросов или длительной генерации текста. Это создает необходимость разработки более эффективных, тренировка-свободных методов, которые могут динамически выбирать нейроны во время исполнения. #### Метод Мы предлагаем два метода, основанные на глобально-локальной структуре модели, для динамического спарсинга слоёв feed-forward (FFN) в LLMs: **Activation-based Global-Local Neural Importance Aggregation (AI-GLASS)** и **Impact-based Global-Local Neural Importance Aggregation (AI-GLASS)**. Основная идея заключается в использовании двух разных типов статистик: локальной статистики, полученной из данных для конкретного запроса (prompt) и модельной внутренней статистики, описывающей влияние каждого нейрона на результат. Для выбора нейронов, которые будут включены в вычисления, мы применяем ранжирование по рейтингу (rank-aggregation), что позволяет уменьшить вычислительный затрат без ухудшения качества. Эти методы не требуют дополнительного обучения и могут быть использованы в реальном времени, что делает их привлекательными для применения в реальных системах. #### Результаты Мы провести эксперименты с различными LLMs, включая сети с несколькими слоями и разным количеством параметров. Мы сравнили нашу процедуру с другими методами спарсинга, в том числе теми, которые используют дополнительные тренировки или нулевой-шат-методы. Результаты показали, что наша методика GLASS превосходит другие методы в сценариях с длинными запросами, когда другие методы страдают от снижения качества. Мы также провели эксперименты на реальных данных, в том числе на данных для диалоговых систем и текстовой генерации. Эти результаты подтвердили, что GLASS даёт значительно более высокую скорость выполнения, при этом сохраняя качество вывода. #### Значимость Наша методика GLASS может применяться в различных областях, где требуется работа над LLMs на edge-устройствах, таких как мобильные приложения, браузерные расширения и IoT-устройства. Она позволяет эффективно использовать ресурсы, снижая вычислительные зат
Annotation:
Deploying Large Language Models (LLMs) on edge hardware demands aggressive, prompt-aware dynamic pruning to reduce computation without degrading quality. Static or predictor-based schemes either lock in a single sparsity pattern or incur extra runtime overhead, and recent zero-shot methods that rely on statistics from a single prompt fail on short prompt and/or long generation scenarios. We introduce A/I-GLASS: Activation- and Impact-based Global-Local neural importance Aggregation for feed-forw...
ID: 2508.14302v1 cs.LG, cs.AI, cs.CL
Авторы:

Rapheal Huang, Weilong Guo

## Контекст Input Time Scaling (ITS) — это новый подход к масштабированию бо LARGE LANGUAGE MODELS (LLMs), который фокусируется на максимизации эффективности ввода данных (input time). Исследование адресует проблемы, связанные с традиционным подходом к масштабированию, включая data scaling, training scaling и inference time scaling. Несмотря на то, что эти подходы доказали свою эффективность, они часто игнорируют влияние ввода данных на процесс обучения и вывода. ITS предлагает новый взгляд на этот вопрос, раскрывая возможность применения мета-знаний LLMs для оптимизации ввода и улучшения результатов. ## Метод ITS основывается на совмещении мета-знаний LLMs с новыми стратегиями ввода для повышения качества обучения и вывода. Методология включает: 1. **Мета-знания LLMs:** Использование мета-знаний модели для изменения ввода данных во время обучения и тестирования. 2. **Различные стратегии ввода:** Включая добавление неполностью отфильтрованных данных, случайного выбора примеров и добавление нерелевантных данных в запросы. 3. **Обучение и тестирование с помощью ITS:** Наблюдение за взаимодействием мета-знаний и стратегий ввода в течение всего цикла тренировки и проверки. 4. **Параллельная интерпретация:** ITS проверяет, как разные стратегии ввода влияют на поведение модели в разных сценариях. ## Результаты Эксперименты показали, что ITS может достичь следующих результатов: 1. **Более высокий пропускный показатель (pass@1):** Модели, обученные с использованием ITS, достигли сверхуровневых результатов на AIME24 (76.7%) и AIME25 (76.7%). 2. **Комбинация моделей:** Множественные модели могут давать еще более высокие результаты при оценке по множеству примеров. 3. **Пониженная индуктивная биас:** ITS противоречит широко распространенному мнению, что "плохой ввод — плохой вывод". Даже с использованием некачественных данных можно достичь высоких результатов. 4. **Границы данных:** Данные с небольшим размером, но с применением ITS, могут превосходить данные с большим размером, но с более низким качеством. ## Значимость ITS открывает новые возможности для лучшего использования LLMs: 1. **Практическое применение:** ITS может быть использован в ситуациях, где качество ввода данных ограничено, но требуется высокий уровень разума. 2. **Экономия ресурсов:** Этот подход снижает требования к объему и качеству данных, необходимым для обучения моделей. 3. **Новые направления исследований:** ITS может привести к новым архитектурам моделей, стратегиям тренировки и методам оптимизации. ## Выводы ITS представляет собой новый и эффективный подход к масштабированию LLMs, который может улучшить способность моделей к высокому уровню рассуждения. Он открывает
Annotation:
Current Large Language Models (LLMs) are usually post-trained on large-scale carefully curated datasets (data & training scaling) and doing reasoning in test time (inference time scaling). In this work, we present a new scaling paradigm, Input Time Scaling, to complement previous scaling methods by putting resources on queries (input time). During training and testing, we combine meta-knowledge from LLMs to refine inputs with different strategies. We also find a new phenomenon, training-testing ...
ID: 2508.13654v2 cs.LG, cs.AI, cs.CL
Авторы:

Felipe Maia Polo, Xinhe Wang, Mikhail Yurochkin, Gongjun Xu, Moulinath Banerjee, Yuekai Sun

## Контекст Large language models (LLMs) становятся все более популярными в качестве автоматизированных систем для оценки моделей. Однако их оценки часто сильно отличаются от человеческих оценок. Это может быть вызвано разными факторами, такими как различия в понимании языка, алгоритмов или наборах данных. Это расхождение приводит к проблемам в подготовке моделей и оценке их качества. Необходимо разработать методы, уменьшающие это расхождение и повышающие точность и достоверность автоматизированных оценок. ## Метод Разработана методология "Bridge", которая предлагает статистический подход для синхронизации оценок LLMs с человеческими оценками. Основная идея заключается в том, чтобы предположить скрытую ценность каждого пара prompt-response и определить, как это скрытое значение меняется в зависимости от различных ковариатов, влияющих на расхождения между LLM и человеческими оценками. Алгоритм Bridge использует модель линейных преобразований для предсказания и изменения значений, чтобы уменьшить расхождение. Также предлагается эффективный алгоритм для спецификации модели, обеспечивающий асимптотическую точность и интерпретируемость. ## Результаты Использовались шесть моделей LLM с двумя специальными наборами данных для оценки: BigGen Bench и Chatbot Arena. Результаты показали, что метод Bridge достиг более высокой точности и калибровки в сравнении с человеческими оценками. Он также удалось выявить места сильных расхождений между LLM и людьми, показав, где и почему происходят эти отклонения. Это позволило корректировать и оптимизировать модели, улучшая их соответствие реальным предпочтениям людей. ## Значимость Bridge может быть применен в различных областях, где необходимо автоматизированное оценочное жюри, такие как оценка текстовых моделей, принятие решений в юридических делах или анализ данных. Метод предоставляет значительные преимущества, такие как высокая точность, способность выявлять и оптимизировать расхождения, а также уменьшение времени и стоимости сбора человеческих данных. Потенциально, он может существенно повлиять на будущие направления в искусственном интеллекте, обеспечивая более точное и достоверное автоматизированное оценивание. ## Выводы Bridge представляет собой эффективный способ связать оценки LLMs с человеческими предпочтениями, уменьшив расхождения между ними. Он доказал свою эффективность на практике, повысив точность и калибровку оценок. Будущие исследования будут сфокусированы на расширении применимости Bridge к другим типам моделей и данных, а также на его использовании в широких областях применения.
Annotation:
Large language models are increasingly used as judges (LLM-as-a-judge) to evaluate model outputs at scale, but their assessments often diverge systematically from human judgments. We present Bridge, a unified statistical framework that explicitly bridges human and LLM evaluations under both absolute scoring and pairwise comparison paradigms. Bridge posits a latent human preference score for each prompt-response pair and models LLM deviations as linear transformations of covariates that capture s...
ID: 2508.12792v1 cs.LG, cs.AI, cs.CL, stat.ML
Авторы:

Jayneel Parekh, Pegah Khayatan, Mustafa Shukor, Arnaud Dapogny, Alasdair Newson, Matthieu Cord

## Контекст В последние годы широко распространены трансфорер-модели, которые обладают выдающимися возможностями в области обработки естественного языка. Однако существуют ряд сложностей, в том числе связанные с ретроспективным контролем поведения моделей. Многие приложения требуют, чтобы модели не только генерировали ответы, но и проявляли определенную стратегию, например, отказывались от ответа при необходимости, привлекались к экспертам или указывали на сторонние ресурсы. Этот подход, известный как "steering" (руководство), вызывает значительный интерес, особенно для моделей, обрабатывающих множество видов данных (multimodal large language models, MLLMs). Несмотря на существующие стратегии, такие как mean steering, они основываются на единственном статическом векторе направления, который не зависит от конкретного входного запроса. Это ограничение становится особенно заметным в случаях, когда результат должен зависеть от конкретного запроса. Например, правильное решение для запроса о медицинской информации может заключаться в указании на поиск квалифицированного специалиста. В данной статье предлагается новый подход, называемый **L2S (Learn-to-Steer)**, который адресует эти ограничения, применяя вводно-зависимую стратегию руководства. ## Метод MLLMs, такие как Flamingo и также многие другие, были разработаны для обработки разнообразного ввода, но их поведение часто недостаточно контролируется. Для решения этой проблемы предлагаются вводно-зависимые стратегии. Процесс L2S включает следующие этапы: 1. **Input-Specific Prompting**: Для каждого ввода создается уникальная интерпретация, которая включает в себя специальные добавления, направляющие модель в нужном направлении. 2. **Linear Shift Calculation**: Используя вводно-зависимую интерпретацию, вычисляется линейный сдвиг, который определяет изменение поведения модели. 3. **Training Auxiliary Module**: На этапе обучения применяется небольшой модуль, который предсказывает линейный сдвиг, используя в качестве входных данных вводно-зависимую интерпретацию. Этот подход позволяет выравнивать модель в соответствии с требованиями конкретного запроса, что делает ее более эффективной и безопасной в эксплуатации. ## Результаты На экспериментальных данных показано, что L2S значительно сокращает зависимость от статических стратегий и улучшает результаты в следующих областях: - **Reduction of Hallucinations**: Модель становится менее зависима от некорректных выводов, когда применяется L2S. - **Safety Enforcement**: Модель намеренно отказывается от ответов в случаях, когда ответ может быть небезопасен или неправильным. - **Comparison with Baselines**: Результаты L2S показывают значительные выигрыши по сравнению с
Annotation:
Steering has emerged as a practical approach to enable post-hoc guidance of LLMs towards enforcing a specific behavior. However, it remains largely underexplored for multimodal LLMs (MLLMs); furthermore, existing steering techniques, such as mean steering, rely on a single steering vector, applied independently of the input query. This paradigm faces limitations when the desired behavior is dependent on the example at hand. For example, a safe answer may consist in abstaining from answering when...
ID: 2508.12815v1 cs.LG, cs.AI, cs.CL, cs.CV
Авторы:

Shane Waxler, Paul Blazek, Davis White, Daniel Sneider, Kevin Chung, Mani Nagarathnam, Patrick Williams, Hank Voeller, Karen Wong, Matthew Swanhorst, Sheng Zhang, Naoto Usuyama, Cliff Wong, Tristan Naumann, Hoifung Poon, Andrew Loza, Daniella Meeker, Seth Hain, Rahul Shah

Описание: ## Контекст Реализация персонализированной медицины на масштабах требует методов, которые могут извлечь сводки из длительных пациентских историй, представленных в виде последовательностей медицинских событий. Особенно обнадеживают в этом плане модели основательного типа, обученные на больших медицинских базах. Методы такого рода могут способствовать эффективному выявлению закономерностей в медицинских данных и их применению для решения разных задач в сфере клинического управления и повышения качества здравоохранения. ## Метод Мы представляем Cosmos Medical Event Transformer (CoMET) - новую семейство декодерных моделей преобразователей, обученных на огромных масштабах с помощью данных о медицинских событиях. Используя Epic Cosmos, который включает в себя медицинские истории более 300 миллионов пациентов в 310 здравоохранных системах, мы обучили модель CoMET на базе 118 миллионов пациентов, отражающих 115 миллионов медицинских событий (151 миллиардов токенов). Кроме того, мы провели наиболее широкий компьютерный эксперимент для моделей медицинских событий, выявляя силуэтные зависимости между размером модели, количеством вычислений и объемом обучающих данных. Модели CoMET были подготовлены с помощью различных мощностей (до 1 миллиарда параметров), чтобы оптимизировать вычисления для различных задач. ## Результаты Мы экспериментально проверили CoMET на 78 реальных задачах, таких как предсказание диагноза, прогноз болезни и оптимизация здравоохранения. Модель показала выдающиеся результаты, наблюдая закономерности повышения качества с ростом размера модели и объема обучающих данных. Особенно заметно был ее превосходство над задачеориентированными моделями, которые требуют задачи-специфической настройки, а также над такими методами, как парусь или шаотренировки. В целом, CoMET также показала свои преимущества в ситуациях необходимости быстрого решения задач, работая без дополнительных данных или примеров. ## Значимость Модель CoMET может быть применена во многих сферах, включая клиническое принятие решений, оптимизацию линий здравоохранения и повышение пользовательских опытов. Один из основных преимуществ CoMET заключается в том, что она может быть использована для повышения качества работы системы здравоохранения, без необходимости сложных настроек модели. Это может привести к более быстрому развитию разработок в сфере здравоохранения и снижению количества ошибок. ## Выводы Мы доказали, что модель CoMET, основанная на авторегрессии, может эффективно предсказывать следующие медицинские события, помогая улучши
Annotation:
Realizing personalized medicine at scale calls for methods that distill insights from longitudinal patient journeys, which can be viewed as a sequence of medical events. Foundation models pretrained on large-scale medical event data represent a promising direction for scaling real-world evidence generation and generalizing to diverse downstream tasks. Using Epic Cosmos, a dataset with medical events from de-identified longitudinal health records for 16.3 billion encounters over 300 million uniqu...
ID: 2508.12104v1 cs.LG, cs.AI, cs.CL
Авторы:

Haebin Shin, Lei Ji, Xiao Liu, Zhiwei Yu, Qi Chen, Yeyun Gong

## Контекст В посттренировочном этапе модели естественного языка (NLP) становится важной задачей управления и оптимизацией смеси инструкций, используемых для оптимизации моделей с помощью многозначных данных. Эта задача возникает из-за того, что всё больше инструкционных данных появляется в ходе тренировки моделей. Эти данные могут быть несовместимыми, несогласованными, или потреблять различные ресурсы, что приводит к вызовам в эффективности процесса обучения. В этой статье, мы проводим исследование вопроса оптимального управления и выбора смеси инструкционных данных в ходе обучения моделей, чтобы улучшить их качество и эффективность. ## Метод Мы представляем DynamixSFT, динамическую и автоматизированную методику оптимизации смеси инструкционных данных. Метод основывается на формулировке задачи как многорукий бандит (multi-armed bandit), что позволяет сбалансированно распределить ресурсы между различными ресурсами. Мы вводим Prior-scaled Boltzmann Exploration, чтобы гарантировать, что новые выборки сохраняют природные пропорции в исходном наборе данных, чтобы сохранить разнообразие и покрытие. Для оценки вклада каждого ресурса в улучшение модели мы используем легковесную модель 1-Step Look-ahead Reward, которая принимает во внимание вклад каждого набора в процесс обучения. ## Результаты Мы проводим эксперименты с DynamixSFT, используя набор данных Tulu-v2-mixture, состоящий из 16 инструкционных наборов. Мы сравниваем результаты с другими методами, такими как uniform sampling и vanilla Boltzmann Exploration. Наши результаты показывают, что DynamixSFT улучшает качество модели на до 2.2% в 10 разных бенчмарковых задачах. Мы также предоставляем анализ и визуализации, подробно описывающие динамику нашего метода и влияние каждого компонента на полученные результаты. ## Значимость Метод DynamixSFT может использоваться в различных областях, где требуется высокая эффективность обучения моделей со сложными инструкциями, например в системах распределенного обучения, в области генеративных моделей и в области оптимизации моделей для конкретных задач. Наш метод демонстрирует преимущества при использовании динамического управления смесью данных, что может привести к повышению качества моделей без значительных изменений архитектуры. Это открывает новые возможности для улучшения процесса обучения в целом. ## Выводы Мы представили DynamixSFT как мощный метод для оптимизации смеси инструкционных данных в процессе обучения моделей. Наши результаты показывают, что данный подход может значительно улучшить качество моделей без значительного увеличения ресурсов. В будущем, мы планируем расширить применение DynamixSFT на другие типы моделей и данных, а также улучшить его адаптацию в ситуациях с б
Annotation:
As numerous instruction-tuning datasets continue to emerge during the post-training stage, dynamically balancing and optimizing their mixtures has become a critical challenge. To address this, we propose DynamixSFT, a dynamic and automated method for instruction-tuning dataset mixture optimization. We formulate the problem as a multi-armed bandit setup and introduce a Prior-scaled Boltzmann Exploration that softly anchors the updated sampling distribution to the original dataset proportions, the...
ID: 2508.12116v1 cs.LG, cs.AI, cs.CL
Авторы:

Basile Lewandowski, Robert Birke, Lydia Y. Chen

## Контекст Текст-на-изображение (T2I) модели, основанные на архитектурах диффузии и трансформеров, постоянно развиваются. Их обучают на больших корпусах данных, после чего эти модели опубликованы на платформах, таких как HuggingFace. Пользователи могут использовать эти модели для создания приложений, например, генерации медиаконтента, посредством оптимизации под конкретные данные. Однако появляется новый вопрос: какая модель лучше всего подходит для определенной области? Несмотря на то, что для задач классификации имеются уже оцененные методы выбора моделей, подобные подходы для T2I-моделей остаются неизученными. Мы предлагаем **Match & Choose (M&C)** — первый фреймворк для модели выбора лучшей T2I-модели для определенной области, позволяющий пользователям эффективно выбирать модели без необходимости проводить их последовательную оптимизацию. ## Метод M&C фреймворъ представляет собой граф матчей, в котором узлы соответствуют T2I-моделям и датасетам, а ребра представляют профили моделей и датасетов, оцененные на основе их выполнения. Мы разрабатываем модель, которая использует эту структуру для предсказания лучшей модели для каждого датасета. Наша модель использует три типа признаков: информацию о модели, о датасете и графические данные о матче. Мы сравниваем M&C с тремя базовыми подходами, анализируя его точность в предсказании лучшей модели. ## Результаты Мы оцениваем M&C на 32 датасетах и 10 моделях T2I. Метод показывает высокую точность: в 61.3% случаев он выбирает лучшую модель для оптимизации. Остальные случаи обычно приводят к выбору моделей с минимальным разницей в качестве результата. Этот подход позволяет экономить ресурсы за счет того, что пользователи не нуждаются в постоянной оптимизации всех моделей. ## Значимость M&C может иметь широкое применение в искусственном интеллекте, где пользователи нуждаются в эффективной оптимизации моделей. Он позволяет сократить время и ресурсы, необходимые для выбора модели, и дает пользователям возможность быстро оптимизировать свои решения. Этот фреймворк может использоваться в различных областях, включая медиа-генерацию, обработку естественного языка, и даже в сегментации изображений, где требуется высококачественное представление. ## Выводы Мы представили уникальный подход к модели выбора лучшей T2I-модели для целевого датасета. Мы показали, что M&C эффективно работает в ситуациях, где пользователи должны выбирать модели для оптимизации. Наш фреймворк может стать ключевым инструментом для улучшения работы с T2I-моделями. Мы плани
Annotation:
Text-to-image (T2I) models based on diffusion and transformer architectures advance rapidly. They are often pretrained on large corpora, and openly shared on a model platform, such as HuggingFace. Users can then build up AI applications, e.g., generating media contents, by adopting pretrained T2I models and fine-tuning them on the target dataset. While public pretrained T2I models facilitate the democratization of the models, users face a new challenge: which model can be best fine-tuned based o...
ID: 2508.10993v1 cs.LG, cs.AI, cs.CL, cs.CV
Авторы:

Atticus Geiger, Jacqueline Harding, Thomas Icard

## Контекст Область исследования связана с теорией рационального функционирования искусственных систем, в частности, с использованием методов искусственных нейронных сетей в решении задач обучения и анализа данных. Одна из основных проблем в этой области заключается в том, что традиционные подходы к объяснению работы систем недостаточно эффективны при работе с высокоразмерными данными и сложными моделями. Мотивация заключается в развитии новых методов объяснения, которые позволят более глубоко и точно понять, как системы определяют свои решения и что именно они выводят из данных. ## Метод Статья предлагает использовать теорию казуальных абстракций, которая позволяет глубже понять связи между представлениями внутри системы и механизмами, которые они используют для решения задач. Авторы используют методы теории связи причин и эффектов для построения моделей, позволяющих анализировать системы с точки зрения их вычислительной мощи и роли представлений. Основная техническая архитектура — использование моделей, основанных на принципах глубокого обучения с точки зрения организации связи между высокоуровневыми представлениями и их фактическим участием в выполнении задач. ## Результаты В работе представлены результаты экспериментов с нейронными сетями, показывающие, что применение теории казуальных абстракций позволяет более эффективно рассматривать системы с точки зрения их теоретической модели. Авторы также проанализировали различные данные, включая обучающие и тестовые данные, для оценки того, насколько модели могут учитывать представления и их влияние на решения. Результаты показали, что модели, основанные на теории казуальных абстракций, могут обеспечить более точные и глубокие объяснения работы систем. ## Значимость Применение теории казуальных абстракций может сыграть ключевую роль в области глубокого обучения, позволяя не только улучшить точность решений, но и обеспечить более естественное и понятное объяснение решений моделей. Это важно для развития новых подходов в области технологий искусственного интеллекта, где необходимо не только прогнозировать результаты, но и объяснять, каким образом эти результаты были получены. Это может положительно сказаться на развитии новых задач анализа данных, где разъяснение решений играет ключевую роль. ## Выводы Модели, основанные на теории казуальных абстракций, демонстрируют более глубокую и точную работу в области вычислительной моделирования. Авторы подчеркивают, что будущие исследования должны быть направлены на углубление понимания связи между представлениями и их вычислительной активностью в различных
Annotation:
Explanations of cognitive behavior often appeal to computations over representations. What does it take for a system to implement a given computation over suitable representational vehicles within that system? We argue that the language of causality -- and specifically the theory of causal abstraction -- provides a fruitful lens on this topic. Drawing on current discussions in deep learning with artificial neural networks, we illustrate how classical themes in the philosophy of computation and c...
ID: 2508.11214v1 cs.LG, cs.AI, cs.CL
Авторы:

Zetian Sun, Dongfang Li, Zhuoen Chen, Yuhuai Qin, Baotian Hu

Тема: Stabilizing Long-term Multi-turn Reinforcement Learning with Gated Rewards ## Контекст Длиннострочные задачи в reinforcement learning (RL) часто сталкиваются с проблемой разреженности вознаграждений. Такие задачи требуют многократного взаимодействия с системой, прежде чем достичь целей. Существующие методы формирования наград либо не способны определять полезные непосредственные награды, либо вводят избыточные предположения или требуют подробной декомпозиции задачи. Это приводит к несоответствию между непосредственными наградами и долгосрочными целями, что может привести к ошибкам в формировании политик. Другой подход, основанный на верификации, использует шагающие критики для формирования наград, но даже здесь могут возникнуть проблемы с гибридностью между непосредственными наградами и долгосрочными целями. Мы сосредоточились на области программного обеспечения (SWE), где многократное взаимодействие и верификация играют ключевую роль. Целью нашего исследования является стабилизация многократных задач RL через более эффективное формирование наград. ## Метод Мы предлагаем SWE-oriented RL Framework, который объединяет несколько ключевых компонентов: поддержку многократного взаимодействия, тонкую настройку ре wards, а также интеграцию с docker-based execution. Для решения проблемы разреженности наград мы предлагаем Gated Reward Accumulation (G-RA), метод, который ограничивает формирование непосредственных наград, пока долгосрочная награда не достигнет заданного порога. Это позволяет избежать быстрого изменения поведения агента и обеспечить стабильное оптимизационное поведение. Мы также предоставляем гибкую архитектуру для настройки наград, что позволяет адаптировать решение к разным задачам в SWE. ## Результаты Мы проверили G-RA на двух реалистичных SWE-задачах: Verified и kBench. Результаты показали, что метод G-RA существенно улучшил процент успешных завершений задач: с 47.6% до 93.8% для Verified и с 22.0% до 86.0% для kBench. Также обнаружено, что выполнение политик стало более стабильным, не испытывая деградации, что характерно для разреженных наград. Эти результаты свидетельствуют о том, что G-RA успешно решает проблему разреженности наград, обеспечивая более стабильное и эффективное оптимизационное поведение. ## Значимость Наш подход может быть применен в различных SWE-задачах, где требуется многократное взаимодействие и верификация. Он предоставляет значительные преимущества по сравнению с традиционными методами, такими как улучшенная стабильность политик, увеличенные успешные завершения задач и сниженная вероятность ошибок. Этот подход также открывает новые возможности для применения RL в слож
Annotation:
Reward sparsity in long-horizon reinforcement learning (RL) tasks remains a significant challenge, while existing outcome-based reward shaping struggles to define meaningful immediate rewards without introducing bias or requiring explicit task decomposition. Alternatively, verification-based reward shaping uses stepwise critics, but misalignment between immediate rewards and long-term objectives can lead to reward hacking and suboptimal policies. In this work, we address this problem in the cont...
ID: 2508.10548v1 cs.LG, cs.AI, cs.CL
Показано 241 - 250 из 278 записей