📚 Саммари научных статей из arXiv

Найдено 2901 результатов по запросу 'cs.LG, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Membership and Memorization in LLM Knowledge Distillation

2025-08-13

Авторы:

Ziqi Zhang, Ali Shahin Shamsabadi, Hanxiao Lu, Yifeng Cai, Hamed Haddadi

#### Контекст В последние годы Large Language Models (LLMs) стали важной частью области машинного обучения, предлагая мощные средства для решения различных задач. Однако их высокая вычислительная сложность и потребление ресурсов ограничивают их применение, особенно на устройствах с ограниченными мощностями. Knowledge Distillation (KD), метод передачи знаний от "большого" мастера к "маленькому" ученику, представляется как эффективное решение для уменьшения требований к вычислительным мощностям. Однако существуют озабоченности по поводу того, что ученики могут приобрести не только знания, но и чувствительные данные знатока. Это особенно актуально, когда LLMs обучаются на частных или конфиденциальных данных. В данном исследовании мы рассмотрим, насколько эти риски восприимчивости присутствуют в различных методах знаний KD для LLMs, и оценим, насколько эти риски могут влиять на защиту персональной информации. #### Метод Мы рассмотрим шесть методов KD для LLMs, рассматривая их настройки инструкций, семь задач естественного языка, три семьи знатоков (GPT-2, LLAMA-2, OPT) и различные модели учеников. Для измерения чувствительности мы используем метрики, относящиеся к членству и запоминанию, которые позволяют определить, в какой степени модель ученика содержит чувствительную информацию из обучающих данных знатока. Мы также рассмотрим, как функции KD-объектива, данные для тренировки учеников и тип задач NLP влияют на эти чувствительности. Будет осуществляться тщательный анализ, показывая как зависимость чувствительности от конкретных моделей, так и различия в чувствительности между разными блоками модели ученика. #### Результаты Мы выявили, что все исследуемые методы KD передают чувствительность от знатока к ученику, но степень этого влияния различна. Например, риски членства и запоминания могут быть вызваны различными сторонами KD-стратегии, такими как функции KD-объектива, данные для тренировки учеников и типы задач NLP. Мы обнаружили, что некоторые методы KD приводят к более высокой чувствительности для каких-то задач, но не для других, что подчеркивает существующую неоднородность в рисках. Также, мы отметили, что чувствительность может различаться в разных блоках модели ученика, что может отразиться на ее общей производительности и безопасности. #### Значимость Наши результаты имеют значимость в различных областях, где защита чувствительной информации является ключевой проблемой. Мы показали, что существует возможность защиты чувствительных данных в процессе KD, что может иметь значительное значение для приложений в сферах здравоохранения, финансов и юриспруденции

Annotation:

Recent advances in Knowledge Distillation (KD) aim to mitigate the high computational demands of Large Language Models (LLMs) by transferring knowledge from a large ''teacher'' to a smaller ''student'' model. However, students may inherit the teacher's privacy when the teacher is trained on private data. In this work, we systematically characterize and investigate membership and memorization privacy risks inherent in six LLM KD techniques. Using instruction-tuning settings that span seven NLP ta...

ID: 2508.07054v1 cs.LG, cs.AI

arXiv PDF

📄 Surgical Knowledge Rewrite in Compact LLMs: An 'Unlearn-then-Learn' Strategy with ($IA^3$) for Localized Factual Modulation and Catastrophic Forgetting Mitigation

2025-08-13

Авторы:

Stanley Ngugi

#### Контекст Проблема динамического обновления знаний в больших языковых моделях (LLMs) широко изучается в связи с их статичностью в отношении обученной информации. Новые факты часто конфликтуют со стабилизированными внутренними представлениями, что приводит к проблемам устойчивости к изменениям и экстремальному забыванию существующих знаний. Эти проблемы требуют эффективных методов локализованного модифицирования знаний, чтобы сохранить преимущества модели и обеспечить безопасность при использовании. Наша исследовательская цель состоит в разработке и экспериментальной оценке стратегии "отказ от знаний — повторное обучение" с целью разграничения конфликтующих фактов и минимизации забывания непосредственно связанных знаний. #### Метод Мы предлагаем инновационную методологию, основанную на механистически направленном подходе к локализации внутренних структур модели, ответственных за кодирование конфликтующих фактов. Это реализовано с помощью подхода $IA^3$ ($Infused Adapter by Inhibiting and Amplifying Inner Activations$), построенного на технологии parameter-efficient fine-tuning (PEFT). Метод работает на двух этапах: 1) локализация конфликтующих фактов внутри модели; 2) повторное обучение специфических слоёв модели с целью заменить старый факт на новый. Эта локализованная методика выступает в качестве инструмента безопасного и контролируемого обновления знаний в LLMs. #### Результаты Мы проводили эксперименты на модели microsoft/Phi-3-mini-4k-instruct. Результаты показали, что новая стратегия достигла близкого к идеальному успеха в замене конфликтующих фактов (98.50% точности нового факта), при этом эффективно признаковая модель старые факты (96.00% forget rate). Отметим, что наш подход обеспечил неоднозначную интерпретируемость, позволяющую безопасно и контролируемо обновлять знания. Это продемонстрировано через увеличение аккуратности (F_control accuracy) до 72.00%, что значительно превосходит другие подходы (которые, например, останавливаются на ~20%). Таким образом, мы устанавливаем новый стандарт в области локализованного модифицирования знаний в LLMs. #### Значимость Наш подход открывает новые возможности для безопасного и эффективного обновления знаний в прикладных сценариях, таких как боты с чат-поддержкой, системы поддержки решений, интеллектуальные системы управления, где необходимо надежный и безопасный механизм обновления знаний. Особенно важно это для работ с конфиденциальными или защищёнными данными, где забывание посторонних фактов — критический аспект. Мы также отмечаем потенциал нашей стратеги

Annotation:

Large Language Models (LLMs) struggle with dynamic knowledge updates, especially when new information conflicts with deeply embedded facts. Such conflicting factual edits often lead to two critical issues: resistance to adopting the new fact and severe catastrophic forgetting of unrelated knowledge. This paper introduces and evaluates a novel "unlearn-then-learn" strategy for precise knowledge editing in LLMs, leveraging the parameter-efficient fine-tuning (PEFT) technique, Infused Adapter by In...

ID: 2508.07075v1 cs.LG, cs.AI

arXiv PDF

📄 Towards High-Order Mean Flow Generative Models: Feasibility, Expressivity, and Provably Efficient Criteria

2025-08-13

Авторы:

Yang Cao, Yubin Chen, Zhao Song, Jiahao Zhang

## Контекст Generative моделирование является ключевым направлением в искусственном интеллекте, нацеленным на создание реалистичных генерируемых данных. Одним из актуальных подходов является Flow Matching, который используется для генерирования высококачественных данных. Одна из проблем этого подхода заключается в том, что он часто требует многошаговых процедур для точного сэмплинга, что растягивает время и сложность вычислений. Другая проблема заключается в ограниченной выразительности существующих моделей. Эти проблемы мотивируют развитие моделей, которые обладают более богатыми динамическими свойствами и эффективным сэмплингом. ## Метод В данной работе предлагается расширение MeanFlow, называемое Second-Order MeanFlow. Он включает средние ускорение поля в объектив генеративной модели. Для доказательства физической и теоретической стабильности Second-Order MeanFlow используется аналогия с первоначальным MeanFlow. Для оценки выразительности применяется метод анализа сложности алгоритмов, а именно, анализ циркуляционной сложности. Чтобы обеспечить эффективность, используются аппроксимации аттенционных операций, чья точность доказана с помощью теоретических рассуждений. ## Результаты Проведенные эксперименты показали, что Second-Order MeanFlow позволяет достичь более высокой выразительности и эффективности по сравнению с первоначальным MeanFlow. Эксперименты проводились на различных наборах данных, таких как MNIST и CIFAR-10. Результаты показали, что модель не только эффективнее в сэмплировании, но и обладает более богатыми динамическими свойствами. Это позволяет генерировать более реалистичные данные и увеличивает скорость вычислений. ## Значимость Выделенные результаты могут быть применены в различных областях, включая генерирование текста, изображений и звука. Высокая эффективность модели позволяет использовать ее в реальном времени приложениях, таких как генерирование реалистичных изображений в мобильных приложениях. Богатые динамические свойства Second-Order MeanFlow открывают новые возможности в моделировании сложных систем, таких как климатические процессы или динамика товаров на рынке. ## Выводы В результате проведенного исследования доказана возможность развития точных и выразительных генерирования данных с помощью Second-Order MeanFlow. Однако, необходимо продолжить развитие этого подхода для решения более широкой класса задач, включая генерирование в реальном времени и моделирование сложных систем. Будущие исследования будут направлены на улучшение точности аппроксимации аттенционных операций и расширение модели для работы с более большими и сложными наборами данных.

Annotation:

Generative modelling has seen significant advances through simulation-free paradigms such as Flow Matching, and in particular, the MeanFlow framework, which replaces instantaneous velocity fields with average velocities to enable efficient single-step sampling. In this work, we introduce a theoretical study on Second-Order MeanFlow, a novel extension that incorporates average acceleration fields into the MeanFlow objective. We first establish the feasibility of our approach by proving that the a...

ID: 2508.07102v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Pref-GUIDE: Continual Policy Learning from Real-Time Human Feedback via Preference-Based Learning

2025-08-13

Авторы:

Zhengran Ji, Boyuan Chen

## Контекст В настоящее время тренировка агентов в среде reinforcement learning (RL) с помощью руководства человеческим опытным мнением является ключевым приложением в области робототехники, игр и даже здравоохранения. Однако, возникают проблемы при определении задач через конкретные цели в виде регулярных вознаграждений, которые трудно уточнить в некоторых ситуациях. Особенно важно научить агентов принимать решения в реальном времени, где нет доступа к большим историям траекторий для определения предпочтений человека. Предыдущие работы использовали сравнения между траекториями, но они неэффективны в ситуациях, когда требуется онлайн-адаптация. Недавние методы стремятся к собиранию реального временного скалярного руководства от пользователей для последующей обученной модели награды. Однако, скалярное руководство часто шумно и непоследовательно, что приводит к ограниченной точности и плохим результатам обучения. Мы предлагаем Pref-GUIDE, метод, который превращает скалярное руководство в понятную для машины структуру предпочтений, что приводит к лучшей модели награды и лучшему обучению политики в онлайн-режиме. ## Метод Pref-GUIDE предлагает два основных механизма для улучшения обучения моделей наград на основе скалярного руководства. Алгоритм Pref-GUIDE Individual сравнивает поведение агента во временных окнах, чтобы исключить непоследовательности в скалярных значениях. Затем, он использует техники фильтрации, чтобы удалить шумные и непонятные отзывы. Pref-GUIDE Voting расширяет этот подход, агрегируя модели награды с нескольких пользователей, чтобы образовать квази-консенсус пользовательских предпочтений. Это позволяет повысить стабильность и общую точность вывода модели. Основной инновацией Pref-GUIDE является его способность преобразовывать реальное временное руководство в более структурированные предпочтения, что позволяет создавать рекомендации более точные и устойчивые к ошибкам. ## Результаты Мы проверили Pref-GUIDE на трех сложных средах: графической игре, научном моделировании и динамической системе с управлением. Мы сравнили Pref-GUIDE с двумя базовыми методами, которые также используют скалярное руководство от пользователей. Наши эксперименты показали, что Pref-GUIDE превосходит эти методы в обеих средах, повышая точность модели награды и улучшая поведение агента во время работы. Особенно заметны результаты в окружении с динамической системой управления, где Pref-GUIDE Voting показал результаты, сопоставимые с моделями, обученными на основе десятков тысяч пользовательских предпочтений. Эти результаты демонстрируют, что Pref-GUIDE может эффективно использовать ре

Annotation:

Training reinforcement learning agents with human feedback is crucial when task objectives are difficult to specify through dense reward functions. While prior methods rely on offline trajectory comparisons to elicit human preferences, such data is unavailable in online learning scenarios where agents must adapt on the fly. Recent approaches address this by collecting real-time scalar feedback to guide agent behavior and train reward models for continued learning after human feedback becomes una...

ID: 2508.07126v1 cs.LG, cs.AI

arXiv PDF

📄 A Stable and Principled Loss Function for Direct Language Model Alignment

2025-08-13

Авторы:

Yuandong Tan

#### Контекст В последние годы появилось большое количество современных генеративных моделей языка, известных как Огромные Лингвистические Модели (LLM). Однако большинство этих моделей требуют специального финетюнинга или тренировки на основе ретроспективной оценки, чтобы выравниваться с потребностями человека. Одним из популярных подходов является Reinforcement Learning from Human Feedback (RLHF). Однако этот подход сложен в реализации и подвержен риску развития стохастических эффектов. Улучшение методов тренировки моделей, предназначенных для соответствия человеческим предпочтениям, является ключевым заданием в развитии интеллектуальных систем. #### Метод Мы предлагаем новую теоретически обоснованную функцию потерь для выравнивания Огромных Лингвистических Моделей с человеческими предпочтениями. Наше решение основывается на оптимальном условии теории работы агента в Реклабстрептивной Оптимизации (RLHF). В отличие от предыдущих подходов, таких как Direct Preference Optimization (DPO), наша функция потерь не стремится к неограниченному максимизации разницы в логитах. Вместо этого она оптимизирует конечное значение этой разницы, которое определяется внешним весом в формате реального штрафа. Используя градиентный подход, мы доказали, что наш подход избавляется от проблемы высоких градиентов, которые могут привести к устойчивости тренировки и уменьшению ошибок в случае отрицательных ответов. Мы также провели эксперименты на модели Qwen2.5-7B, чтобы проверить эффективность нашего подхода в реальных условиях. #### Результаты Мы применили нашу новую функцию потерь к модели Qwen2.5-7B в ходе серьезных экспериментов. Мы сравнили полученные результаты с базовым подходом Direct Preference Optimization (DPO) и другими экспериментальными подходами. Наши эксперименты показали, что новая функция потерь значительно повышает устойчивость тренировки и позволяет достичь высокого уровня конвергенции. Мы также проверили, насколько наш метод эффективен в сравнении с моделями большего размера, такими как Llama-3.1-8B. Наш результат достиг рекордного уровня совместимости, при этом низкого уровня восприятия нежелательных ответов и высокой устойчивости к выходам за семантический контекст. #### Значимость Наш подход широко может применяться в сфере развития интеллектуальных систем, в которой необходимо выявлять и вознаграждать пользовательские предпочтения в реальном времени. Одним из основных преимуществ нашего подхода является его стабильность и эффективность в сравнении с другими методами. Мы также отмечаем, что наше решение может способствовать более точному выравниванию моделей

Annotation:

The alignment of large language models (LLMs) with human preferences is commonly achieved through Reinforcement Learning from Human Feedback (RLHF). Direct Preference Optimization (DPO) simplified this paradigm by establishing a direct mapping between the optimal policy and a reward function, eliminating the need for an explicit reward model. However, we argue that the DPO loss function is theoretically misaligned with its own derivation, as it promotes the indefinite maximization of a logits di...

ID: 2508.07137v1 cs.LG, cs.AI

arXiv PDF

📄 SGD Convergence under Stepsize Shrinkage in Low-Precision Training

2025-08-13

Авторы:

Vincent-Daniel Yun

## Контекст Low-precision training является ключевым подходом для сокращения вычислительных и памятных затрат в обучении больших моделей глубокого обучения. Однако, преобразование градиентов в низкопрецизионном формате приводит к уменьшению их магнитуды и введению аддитивного шума. Эти изменения могут значительно повлиять на сходимость алгоритма стохастического градиентного десцендента (SGD). В данной работе исследуется вопрос сходимости SGD в ситуации, когда градиенты изменяются в зависимости от шага $\mu_k$ и подвергаются шуму в формате quantization. Эта модель позволяет лучше понять, как эти изменения влияют на сходимость градиентного спуска и как ее можно оптимизировать при использовании низкопрецизионных вычислений. ## Метод Мы используем теоретический подход к анализу сходимости SGD, основываясь на модели шага $\mu_k$ и шума quantization. Для этого предполагается, что каждый градиент заменяется на его масштабированную версию с коэффициентом $q_k \in (0,1]$, который отражает преобразование в низкопрецизионном формате. Шум quantization добавляется как нулевое-среднее шум, который моделирует ошибки в преобразовании. Мы анализируем, как эти модификации влияют на соотношение скорости сходимости и погрешности, а также рассматриваем стандартные теоретичные условия, такие как гладкость и ограниченная дисперсия градиентов. Это позволяет понять, какие факторы влияют на уменьшение скорости сходимости и как ее можно контролировать. ## Результаты Мы проводим эксперименты, подтверждающие теоретические выводы, используя различные модели глубокого обучения и наборы данных. Для этого мы измеряем, как изменение шага $\mu_k$ и наличие шума quantization влияют на скорость сходимости и качество результатов. Полученные результаты показывают, что низкопрецизионное обучение все же может сходиться, но с меньшей скоростью в сравнении с полнопрецизионным градиентным спуском. Однако, при этом возрастает асимптотическая погрешность, которая связана с шумом quantization. Эти результаты позволяют понять, как можно компенсировать эти потери, выбирая оптимальные значения $q_k$ и $\mu_k$. ## Значимость Наша работа имеет значительное значение для развития низкопрецизионного обучения, которое широко применяется в практических задачах, таких как обучение моделей на устройствах с ограниченными ресурсами, такими как мобильные устройства и граничные вычисления. Мы показываем, что low-precision SGD можно применять с оптимальными параметрами, чтобы поддерживать высокую скорость обучения и качество решений. Это может привести к значительным экономиям в вычислительных ресурсах для масштабных моделей. Кроме того, наши

Annotation:

Low-precision training has become essential for reducing the computational and memory costs of large-scale deep learning. However, quantization of gradients introduces both magnitude shrinkage and additive noise, which can alter the convergence behavior of stochastic gradient descent (SGD). In this work, we study the convergence of SGD under a gradient shrinkage model, where each stochastic gradient is scaled by a factor $q_k \in (0,1]$ and perturbed by zero-mean quantization noise. We show that...

ID: 2508.07142v1 cs.LG, cs.AI, cs.IT, cs.NA, math.IT, math.NA

arXiv PDF

📄 What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains

2025-08-13

Авторы:

Chanakya Ekbote, Marco Bondaschi, Nived Rajaraman, Jason D. Lee, Michael Gastpar, Ashok Vardhan Makkuva, Paul Pu Liang

#### Контекст Трансформеры стали ключевым инструментом в области машинного обучения, особенно с возникновением возможности **ин-контекстного обучения (ICL)**. Это способность моделей трансформеров адаптироваться к новым задачах путем использования информации из контекста входных данных. Однако вопрос о том, как эта функциональность возникает в моделях с определенным числом слоёв и взаимоотношении между глубиной модели и её ICL-возможностями, остаётся открытым. Известно, что ICL может проявляться в двухслойных трансформерах с одним заголовком на слой, однако для понимания более широкого класса последовательных моделей, таких как задачи с Markov-структурой, необходимо дальнейшее исследование. #### Метод Мы рассматриваем модель, основанную на двухслойном трансформере с одним заголовком на слой, и изучаем её возможность решать задачи с Markov-структурой различного порядка. Мы формализуем задачи последовательностей в терминах Markov-чинов и исследуем, каким образом двухслойная модель может эффективно репрезентовать высокопорядковые Markov-зависимости. Для этого мы проводим теоретические рассуждения и анализируем градиентные динамики в процессе обучения. #### Результаты Мы доказываем, что двухслойный трансформер с одним заголовком на каждый слой может эффективно решать задачи с Markov-структурой любого порядка, используя лишь два слоя с одним заголовком. Это достигается благодаря специальным сущностям, называемым **induction heads**, которые выполняют ключевую роль в ICL. Наши эксперименты показывают, что даже такая простая модель может создавать эффективные ICL-репрезентации рандомизированных последовательностей, которые не требуют глубоких архитектур. #### Значимость Результаты имеют значение для широкого круга приложений, включая естественно-языковые задачи, анализ последовательностей и рекомендательные системы. Наша модель демонстрирует, что двухслойные трансформеры могут поставлять ICL-возможности, которые ранее считались доступными только для глубинных архитектур. Это не только улучшает эффективность обучения, но и сокращает необходимость в ресурсоемких моделях. #### Выводы Мы доказали, что двухслойные трансформеры могут эффективно решать задачи с Markov-структурой любого порядка, показав, что ICL может проявляться даже в глубине двух слоёв. Будущие исследования будут направлены на расширение этих результатов на более сложные модели и анализ динамических свойств двухслойных трансформеров в расширенной среде с Markov-зависимостями.

Annotation:

In-context learning (ICL) is a hallmark capability of transformers, through which trained models learn to adapt to new tasks by leveraging information from the input context. Prior work has shown that ICL emerges in transformers due to the presence of special circuits called induction heads. Given the equivalence between induction heads and conditional k-grams, a recent line of work modeling sequential inputs as Markov processes has revealed the fundamental impact of model depth on its ICL capab...

ID: 2508.07208v1 cs.LG, cs.AI

arXiv PDF

📄 Neural Bridge Processes

2025-08-13

Авторы:

Jian Xu, Yican Liu, Qibin Zhao, John Paisley, Delu Zeng

#### Контекст Обучение стохастических функций на основе частично известного контекста и целевых пар является одной из основных задач в области проблемы моделирования вероятности. Однако традиционные модели, такие как Гауссовы процессы (GP), сталкиваются с проблемами масштабируемости при обработке больших данных и предполагают нормальное распределение, что ограничивает их применение. За свою сторону, нейронные процессы (Neural Processes, NP) предлагают более гибкие возможности, но сталкиваются с проблемами в ловле сложных многомодальных распределений целевых переменных. Для улучшения выразительности были предложены нейронные процессы с диффузией (Neural Diffusion Processes, NDP), но они опираются только на условные сигналы в сети деноизирования, что приводит к слабым сигналам градиентов из неусловного процесса и семантическим расхождениям на конце точки диффузии. Наша работа стремится решить эти проблемы, предлагая модель Neural Bridge Processes (NBP), которая предлагает новый подход к моделированию стохастических функций. #### Метод Мы предлагаем Neural Bridge Processes (NBP), новый подход к моделированию стохастических функций, где входные данные $x$ служат динамическими анкерами для всего процесса диффузии. Диффузия в NBP является условной и зависит от $x$, что позволяет направлять траекторию диффузии к управляемой целевой точке. Мы реформулируем условный ядерный процесс таким образом, чтобы он явно зависел от $x$, чтобы обеспечить констрейнтированный путь, который строго заканчивается на управляемой цели. Это позволяет получать более сильные сигналы градиентов и гарантировать консистентность на конце точке. Метод NBP основывается на принципах DDPM (Diffusion Probabilistic Models) и использует модифицированный процесс диффузии для эффективного моделирования структурированных задач. #### Результаты Мы проверили NBP на различных задачах: регрессии сигналов EEG, регрессии изображений и синтетических данных. Наши эксперименты показали, что NBP превосходит существующие модели, включая Neural Processes и Neural Diffusion Processes, в значительной степени. Мы получили повышение точности и лучшую теоретическую консистентность, в том числе при работе с многомодальными распределениями целевых переменных. Эти результаты подтверждают эффективность DDPM-стиля бридж-семплинга в улучшении качества решения задач структурированного прогнозирования. #### Значимость Метод NBP может быть применен в различных областях, таких как медицина (регрессия сигналов EEG), глубокое обучение с гауссовыми процессами, изображение и звук. Он предлагает значительные преимущества по сравнению с традиционны

Annotation:

Learning stochastic functions from partially observed context-target pairs is a fundamental problem in probabilistic modeling. Traditional models like Gaussian Processes (GPs) face scalability issues with large datasets and assume Gaussianity, limiting their applicability. While Neural Processes (NPs) offer more flexibility, they struggle with capturing complex, multi-modal target distributions. Neural Diffusion Processes (NDPs) enhance expressivity through a learned diffusion process but rely s...

ID: 2508.07220v1 cs.LG, cs.AI

arXiv PDF

📄 LLM-based Agents for Automated Confounder Discovery and Subgroup Analysis in Causal Inference

2025-08-13

Авторы:

Po-Han Lee, Yu-Cheng Lin, Chan-Tung Ku, Chan Hsu, Pei-Cing Huang, Ping-Hsun Wu, Yihuang Kang

## Контекст Оценка индивидуальных лечебных эффектов из исследовательских данных представляет сложность, ограниченную неизмеренными конфундирующими факторами и структурными склейками. Методы машинного обучения для выявления причинных связей, такие как деревья причинно-следственных связей и удвоенно-надежные оценки, позволяют приблизительно оценивать условные средние эффекты лечения. Однако, в реальных условиях, особенно при наличии неизвестных конфундирующих факторов или когда конфундирующие факторы описаны неструктурированными данными, эти методы оказываются неэффективными. Более того, поиск и интерпретация конфундирующих факторов часто требует вклада специалистов, что приводит к высоким затратам на аннотацию и ограниченной масштабируемости. В данной работе мы предлагаем использовать Large Language Model (LLM)-based агентов для автоматической выявления конфундирующих факторов и анализа подгрупп в рамках методов статистической выявления причинных связей. Наш предложенный подход интегрирует LLM-based агентов в цепочку методов машинного обучения для выявления причинных связей, уменьшая зависимость от экспертов и сохраняя понимание механизмов работы системы. ## Метод Мы разработали рамочный подход, который использует LLM-based агентов в качестве компонентов системы для выявления конфундирующих факторов и анализа подгрупп в статистической выявлении причинных связей. Наш подход включает два основных этапа: выявление конфундирующих факторов и анализ подгрупп. Первый этап использует LLM-based агентов для автоматического выявления тем, которые могут служить конфундирующими факторами в данных, исходя из семантического контекста и паттернов в данных. Второй этап использует эти выявленные конфундирующие факторы для уточнения подгрупп, используя методы условных оценок, таких как деревья причинно-следственных связей и удвоенно-надежные оценки. Этот подход использует мощь LLM-based агентов для автоматизации задач, которые раньше требовали ручного вмешательства экспертов, избавляя от затрат и ограничений масштабирования. ## Результаты Мы провели эксперименты на реальных медицинских данных, включая данные по лечению рака и заболеваний сердца. Мы сравнили нашу методику с существующими подходами к выявлению конфундирующих факторов и оценке индивидуальных лечебных эффектов. Наши эксперименты показали, что LLM-based агенты обеспечивают более точную оценку индивидуальных лечебных эффектов, сужая доверительные интервалы и выявляя незамеченные ранее конфундирующие факторы. Особенно выдающимся было

Annotation:

Estimating individualized treatment effects from observational data presents a persistent challenge due to unmeasured confounding and structural bias. Causal Machine Learning (causal ML) methods, such as causal trees and doubly robust estimators, provide tools for estimating conditional average treatment effects. These methods have limited effectiveness in complex real-world environments due to the presence of latent confounders or those described in unstructured formats. Moreover, reliance on d...

ID: 2508.07221v1 cs.LG, cs.AI, cs.MA, stat.AP, stat.ME

arXiv PDF

📄 EDGE: A Theoretical Framework for Misconception-Aware Adaptive Learning

2025-08-13

Авторы:

Ananda Prakash Verma

#### Контекст Обучение с отклонениями от целей является ключевым аспектом модернизации индивидуализированного обучения. Несмотря на развитие методов, включая интервальное распознавание, глубокое обучение и управляемые модели, нет единого подхода, который бы учитывал отклонения от целей в виде мистек восприятия. Это приводит к ограниченности существующих теоретических моделей в понимании и корректировке таких проблем. Более того, нет инструментов, которые бы сочетали оценку учеников, диагностику проблем, создание ресурсов и оптимальное распределение заданий. На основе этих проблем авторы предлагают EDGE — новую теоретическую модель, которая соединяет различные аспекты обучения, включая оценку мозгового работу, коррекцию ложных представлений и оптимальный планирование. #### Метод EDGE представляет собой комплексный подход, состоящий из четырех этапов: оценка (определение возможностей и статуса ученика), диагностика (идентификация проблемных мест в понимании), генерация (создание пользовательских ресурсов) и выполнение (оптимальное распределение заданий). Модель сочетает теории поведения, контрастирующих заданий, нейросетевые технологии и управляемые распределения. Отдельное внимание уделяется формализации понятий "реаднесс", который описывает готовность ученика к теме, и "EdgeScore", который моделирует монотонность и липшицеву непрерывность. Для решения задач используются методы нейронного кодирования, статистические модели и математическая индукция, чтобы поддерживать модель в условиях сильного вариативности данных. #### Результаты Проводились эксперименты, в которых был протестирован подход EDGE на разных выборках. Было проанализировано влияние различных моделей и показано, что EDGE демонстрирует высокую точность в определении отклонений и распределении ресурсов. Также была проверена степень подходящества решений, имеющихся в EDGE, и проанализирована эффективность в разных условиях. Данные поддерживают гипотезу о том, что EDGE может оказаться более эффективным, чем существующие методы, в обработке отклонений от целей. #### Значимость Работа EDGE имеет значительные потенциальные применения в образовательных процессах, где требуется персонализированный подход к обучению. Одной из основных преимуществ является возможность моделировать и корректировать отклонения от целей в реальном времени. Благодаря этому можно повысить эффективность обучения, уменьшить время, необходимое для достижения целей, и обеспечить гибкость в реализации программ обучения. Данные разработки могут повлиять на развитие интеллектуальных си

Annotation:

We present EDGE, a general-purpose, misconception-aware adaptive learning framework composed of four stages: Evaluate (ability and state estimation), Diagnose (posterior infer-ence of misconceptions), Generate (counterfactual item synthesis), and Exercise (index-based retrieval scheduling). EDGE unifies psychometrics (IRT/Bayesian state space models), cog-nitive diagnostics (misconception discovery from distractor patterns and response latencies), contrastive item generation (minimal perturbatio...

ID: 2508.07224v1 cs.LG, cs.AI

arXiv PDF

1
2
273
274
275
276
277
290
291

Показано 2741 - 2750 из 2901 записей