📚 Саммари научных статей из arXiv

Найдено 278 результатов по запросу 'cs.LG, cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 COPO: Consistency-Aware Policy Optimization

2025-08-09

Авторы:

Jinghang Han, Jiawei Chen, Hang Shao, Hao Ma, Mingcheng Li, Xintian Shen, Lihao Zheng, Wei Chen, Tao Wei, Lihua Zhang

--- title: МЕТОДЫ И ПРИНЦИПЫ РАБОТЫ --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Улучшение способностей рационализации Больших Языковых Моделей (БЯМ) с помощью обучения с подкреплением (Reinforcement Learning, RL) стало важной проблемой в области искусственного интеллекта. Одним из последних достижений в этой области является DeepSeek R1, который демонстрирует эффективность использования правил для вычисления функций преимущества (advantage functions) и руководства оптимизации политик. Однако существует серьезная проблема, связанная с тем, что когда несколько выборок (samples), полученных под одним призывом (prompt), приводят к одинаковым результатам, правильным или неправильным, групповое преимущество (group-based advantage) становится нулевым. Это приводит к исчезновению градиентов (vanishing gradients) и делает такие выборки бесполезными для обучения, что снижает эффективность обучения и результаты в конечных задачах. Данная проблема вызывает ограничения в обучении, особенно когда речь идет о высокой внутренней согласованности (intra-group consistency) модели. Для решения этой проблемы необходимо разработать метод, который может обеспечить значимые сигналы обучения даже в случаях высокой согласованности результатов, чтобы поощрять генерацию правильных и самосогласованных путей рассуждений (reasoning paths). ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод COPO (Consistency-Aware Policy Optimization), который вводит концепцию согласованности (consistency-awareness) в процесс оптимизации политик. Основная идея заключается в том, чтобы использовать глобальную структуру наград (global reward structure), основанную на согласованности результатов, чтобы обеспечить значимые сигналы для обучения даже в случае высокой внутренней согласованности модели. Ключевым элементом COPO является механизм глобальной потери (global loss), который учитывает согласованность выходных данных модели. Это гарантирует, что даже когда результаты выборок показывают высокую внутреннюю согласованность, процесс обучения по-прежнему получает полезные сигналы, что поощряет модель генерировать правильные и самосогласованные пути рассуждений. Кроме того, в COPO используется механизм энтропийного смягчения (entropy-based soft blending), который адаптивно балансирует между локальным оцениванием преимуществ (local advantage estimation) и глобальной оптимизацией. Этот механизм позволяет динамически переходить между эксплорацией (exploration) и конвергенцией (convergence) в течение процесса обучения, что является важной особенностью для повышения эффективности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного метода проведены эксперименты на нескольких математических задачах рассуждений (mathematical reasoning benchmarks). Результаты показывают значительные улучшения в производительности модели при использовании метода COPO. Особенно выделяется то, что метод позволяет модели генерировать более правильные и самосогласованные пути рассуждений, что является ключевым фактором успеха в таких задачах. Было продемонстрировано, что использование глобальной структуры наград и механизма энтропийного смягчения позволяет модели достичь лучших результатов по сравнению с традиционными методами обучения с подкреплением. Эти результаты подтверждают робастность и общую применимость метода COPO в различных задачах рассуждений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод COPO имеет широкое применение в областях, требующих высокого уровня рассуждений и согласованности, таких как математические задачи, логические выводы и другие комплексные проблемы. Благодаря его способности обеспечить значимые сигналы обучения даже в условиях высокой согласованности результатов, COPO может быть использован для улучшения эффективности обучения моделей в различных приложениях. Преимущества COPO заключаются в том, что он повышает эффективность обучения, позволяя моделям генерировать более точные и согласованные результаты. Это может быть особенно полезно в задачах, где важно получить не только правильные ответы, но и согласованные пути рассуждений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод COPO, который решает проблему ваньшинга градиентов (vanishing gradients) в обучении с подкреплением, связанную с высокой согласованностью результатов. Этот метод предлагает новую структуру наград и механизм энтропийного смягчения, которые обеспечивают значимые сигналы обучения и повышают эффективность процесса. Будущие исследования могут быть направлены на дальнейшее улучшение методов обучения с подкреплением для БЯМ, включая разработку более эффективных методов решения проблем связанных с согласованностью и генерацией правильных путей рассуждений. Также, можно рассмотреть возможность применения метода COPO в других областях, требующих высокого уровня рассуждений и согласованности.

Annotation:

Reinforcement learning has significantly enhanced the reasoning capabilities of Large Language Models (LLMs) in complex problem-solving tasks. Recently, the introduction of DeepSeek R1 has inspired a surge of interest in leveraging rule-based rewards as a low-cost alternative for computing advantage functions and guiding policy optimization. However, a common challenge observed across many replication and extension efforts is that when multiple sampled responses under a single prompt converge to...

ID: 2508.04138v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 R-Zero: Self-Evolving Reasoning LLM from Zero Data

2025-08-09

Авторы:

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие ИИ привело к появлению мощных Large Language Models (LLMs), которые могут выполнять сложные задачи резонанса и логического вывода. Однако, несмотря на их способность к общению и решению задач, эти модели ограничены тем, что их обучение требует больших объемов человеческих данных, включая тщательно отмеченные наборы данных и человеческие образцы. Это создает серьезную проблему для развития ИИ, поскольку создание таких данных требует значительных ресурсов и человеческого вмешательства. Традиционные подходы, такие как fine-tuning и reinforcement learning, хорошо работают для доработки моделей, но они не могут обеспечить полностью автономное развитие моделей. Это становится ключевым ограничением для достижения супер-интеллектуальных систем, которые могли бы развиваться самостоятельно, не завися от человеческого вмешательства. Более того, большинство существующих подходов к обучению LLMs ограничены использованием данных, созданных человеком, что ограничивает возможности моделей в решении задач, которые выходят за рамки представленных данных. Мотивацией для разработки R-Zero является необходимость преодоления этого ограничения. Исследователи стремятся создать систему, которая может создавать, оптимизировать и улучшать свои собственные данные, без необходимости во внешних источниках. Такой подход может позволить LLMs развиваться в независимости от предоставленных человеком данных, что, в свою очередь, может привести к более сильным и автономным ИИ-системам. ## ПРЕДЛОЖЕННЫЙ МЕТОД R-Zero представляет собой новый фреймворк для автономного обучения LLMs, основанный на концепции самоэволюции. Он включает в себя два независимых модели: Challenger и Solver. Обе модели инициализируются на основе одной базовой LLM, но имеют разные роли. Challenger отвечает за генерацию задач, которые находятся на границе возможностей Solver, тогда как Solver пытается решить эти задачи. Процесс обучения основан на механизме взаимодействия между Challenger и Solver. Challenger получает награду за генерацию задач, которые Solver не может решить, но которые находятся на пределе его способностей. Это побуждает Challenger создавать все более сложные задачи. С другой стороны, Solver получает награду за успешное решение этих задач, что стимулирует его к постоянному улучшению. Этот процесс создает автономный куррикулум, который позволяет моделям эволюционировать вместе. Благодаря этому, R-Zero может работать без необходимости во внешних наборах данных, поскольку она генерирует свои собственные данные в процессе взаимодействия. Это позволяет моделям совершенствоваться в решении задач, которые имеют отношение к резонансу и логическому выводу, не требуя никаких внешних меток или человеческого вмешательства. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследователи провели эксперименты, чтобы оценить эффективность R-Zero. Они использовали разные базовые модели LLMs, включая Qwen3-4B-Base, для проверки улучшений в решении задач резонанса и логического вывода. Результаты показали, что R-Zero значительно улучшил результаты моделей в различных задачах. Например, на математических задачах резонанса, Qwen3-4B-Base показала улучшение на +6.49 по сравнению с базовой моделью. Также, на задачах общего домена, улучшение составило +7.54. Эти результаты демонстрируют, что R-Zero эффективен в улучшении способностей резонанса моделей, даже при отсутствии внешних данных. Это подтверждает, что метод самоэволюции может быть использован для повышения способностей LLMs в решении сложных задач, не требуя больших наборов данных или человеческого вмешательства. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ R-Zero имеет потенциал применения в различных областях, где необходимо улучшение способностей резонанса и логического вывода LLMs. Также, он может быть использован в задачах, где требуется автономная разработка данных или обучение моделей в условиях отсутствия внешних источников данных. Это может быть полезно в таких областях, как образование, медицина, финансы и другие сферы, где необходимо решать сложные задачи, не имея доступа к большим наборам данных. Преимущества R-Zero в том, что он позволяет создавать модели, которые могут развиваться самостоятельно, не требуя больших инвестиций в создание данных. Это может существенно упростить процесс разработки и обучения моделей, особенно в ситуациях, где человеческие ресурсы ограничены. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ R-Zero является важной шагом в развитии автономных LLMs, которые могут развиваться без необходимости во внешних данных. Он показывает, что самоэволюция может быть эффективным методом для улучшения способностей моделей в решении задач резонанса и логического вывода. Будущие исследования могут фокусироваться на дальнейшем улучшении этой методологии, включая расширение ее применимости к другим типам задач и моделей, а также исследование возможностей для применения этого подхода в реальных ситуациях.

Annotation:

Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully a...

ID: 2508.05004v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Exploring Superior Function Calls via Reinforcement Learning

2025-08-09

Авторы:

Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развертывание крупных языковых моделей (LLM) в реальных приложениях требует эффективных возможностей вызывать функции, что является ключевым фактором для их функциональности. Однако существующие подходы обучения не приводят к появлению устойчивых стратегий вывода, необходимых для этих задач. Традиционные методы, такие как супервизорское тонкое настройка (supervised fine-tuning), часто приводят к моделям, которые основываются на поверхностном поиске закономерностей, не способных обеспечить глубокое понимание контекста. Аналогично, стандартные методы обучения с подкреплением (reinforcement learning) сталкиваются с серьезными трудностями из-за высокой размерности пространства функциональных вызовов, что делает их неэффективными в обработке сложных структурированных задач. Три основных проблемы оказывают влияние на качество вызова функций в существующих моделях: недостаточное исследование пространства политик (policy space) во время обучения, отсутствие структурированного логического вывода в цепочках мыслей (chain-of-thought generation) и неадекватная проверка параметров, извлекаемых из запросов. Эти проблемы становятся критичными в контексте сложных сценариев, требующих вызова нескольких функций, где точность и корректность вывода имеют решающее значение. Настоящее исследование предлагает новую платформу, основанную на обучении с подкреплением, которая специально разработана для решения этих проблем. Она использует стратегическую энтропию для оптимизации политик взаимодействия между группами, что позволяет достичь более глубокого и эффективного исследования пространства функциональных вызовов. Метод также адресует необходимость в высококачественных данных для обучения, создавая их через итеративную процедуру проверки с использованием моделей LLM и валидации с помощью абстрактных синтаксических деревьев (abstract syntax trees). ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенный метод основывается на новой рамке работы для обучения с подкреплением, направленной на оптимизацию групповых политик с использованием стратегического поиска по энтропии. Эта стратегия позволяет эффективнее исследовать пространство функциональных вызовов, обеспечивая глубокое понимание контекста и структурированное принятие решений. Архитектура работы состоит из двух основных этапов подготовки данных. На первом этапе, модель LLM используется для создания высококачественных образцов данных, которые затем проверяются с помощью абстрактного синтаксического дерева для обеспечения точности и логичности. Это гарантирует, что данные для обучения будут качественными и соответствовать требованиям сложного функционального вызова. На втором этапе, модель обучается с помощью специально разработанного алгоритма обучения с подкреплением, который использует стратегическую энтропию для повышения эффективности исследования пространства политик. Этот подход позволяет модели избегать поверхностных решений и развивать более глубокие стратегии вывода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода проведены эксперименты на Berkeley Function Calling Leaderboard. Результаты показывают, что предложенный метод достигает 86.02% общей точности, превосходя стандартные методы GRPO на 6% в сложных множественных сценариях функциональных вызовов. Это показывает высокую эффективность метода в решении сложных задач. Кроме того, предложенный метод показывает особую эффективность на моделях, предварительно обученных на кодовых данных. Это указывает на то, что возможности генерации структурированного языка являются преимущественным фактором для успешного применения обучения с подкреплением в задачах функционального вызова. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в реальных сценариях использования LLMs, особенно в областях, требующих высокой точности вызова функций, таких как разработка программного обеспечения, автоматизация процессов и поддержка пользователей. Преимущества этого метода включают улучшенную точность, глубокий вывод и возможность обработки сложных множественных сценариев, что делает его пригодным для использования в промышленных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует успешное применение стратегического поиска по энтропии для улучшения вызова функций в LLMs. Разработанный метод не только показывает высокую эффективность, но и открывает новые возможности для дальнейшего исследования в области обучения с подкреплением для структурированного вывода. Будущие исследования могут фокусироваться на дальнейшем улучшении качества данных для обучения и расширении областей применения этого метода. Кроме того, релиз кода, моделей и данных для сообщества позволит стимулировать дальнейшее развитие в этой области.

Annotation:

Function calling capabilities are crucial for deploying Large Language Models in real-world applications, yet current training approaches fail to develop robust reasoning strategies. Supervised fine-tuning produces models that rely on superficial pattern matching, while standard reinforcement learning methods struggle with the complex action space of structured function calls. We present a novel reinforcement learning framework designed to enhance group relative policy optimization through strat...

ID: 2508.05118v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Aligning LLMs on a Budget: Inference-Time Alignment with Heuristic Reward Models

2025-08-09

Авторы:

Mason Nakamura, Saaduddin Mahmud, Kyle H. Wray, Hamed Zamani, Shlomo Zilberstein

## КОНТЕКСТ И ПРОБЛЕМАТИКА Актуальность выравнивания больших языковых моделей (LLM) с человеческими предпочтениями выросла стремительно после появления ChatGPT, Claude и других систем общего назначения. Без финего выравнивания даже самые мощные модели продолжают порождать вредоносный, токсичный или просто неполезный контент, что делает их непригодными для коммерческого и корпоративного использования. Традиционные подходы к выравниванию опираются на дорогостоящий процесс RLHF (Reinforcement Learning from Human Feedback), включающий подготовку тысяч человеческих примеров, обучение отдельной reward-модели и дальнейший финетюнинг целевой LLM. Этот процесс может занимать недели и требовать десятков тысяч долларов GPU-времени, что делает его недоступным для большинства исследователей и малых компаний. Альтернативой является выравнивание во время инференса (inference-time alignment), при котором модель не переобучается, а лишь переупорядочивает или фильтрует уже сгенерированные кандидаты с помощью reward-модели. Однако существующие методы (best-of-N sampling, beam search, MCTS и др.) либо не учитывают стоимость инференса, либо требуют доступа к градиентам модели, либо не способны балансировать между множественными целями (например, «ответь кратко, но будь полезен»). Критическая проблема — отсутствие практичного решения для сценариев, где разрешено сделать всего 1-3 вызова модели. В таких условиях даже обычный best-of-N терпит неудачу: он просто выбирает лучший из N кандидатов, не имея возможности «подсказать» модели, как улучшить ответ. Накопленный практический опыт показывает, что пользователи готовы жертвовать частью качества ради скорости и дешевизны, но ни одна из текущих систем не позволяет явно задать бюджет инференса и получить максимально возможное качество в рамках этого бюджета. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают HIA (Heuristic-Guided Inference-time Alignment) — метод, который не требует дообучения LLM, работает в «черном ящике» (достаточно лишь API модели) и позволяет строго ограничить число обращений к модели. HIA состоит из трёх ключевых компонентов. Во-первых, легковесный prompt-optimizer на основе «heuristic reward model» (HRM) — маленькой (≈ 770 M параметров) обученной модели, которая по тексту промпта и кандидат-ответа выдаёт скалярную оценку качества. HRM обучается на публичных датасетах с человеческими предпочтениями и потому не требует дорогостоящей разметки. В отличие от крупных reward-моделей в RLHF, HRM работает за доли секунды и может быть запущена локально на CPU. Вторая часть — двухэтапная фильтрация. На первом этапе («exploration») из исходного prompt генерируется k кандидат-ответов (обычно k ≤ 4). HRM оценивает каждый кандидат и выбирает лучший. Однако вместо того чтобы сразу отдавать его пользователю, HIA переходит ко второму этапу («refinement»). Лучший кандидат вместе с кратким «heuristic feedback» (например, «слишком длинный, добавь пример») подаётся обратно в LLM с просьбой улучшить. В результате получается окончательный ответ. Весь процесс расходует ровно k+1 вызовов модели, что позволяет заранее задать бюджет. Третье новшество — многокритериальная оптимизация. HRM может быть обучен одновременно по нескольким осям (helpfulness, conciseness, harmlessness). Во время инференса пользователь задаёт желаемый вектор приоритетов (например, «безопасность важнее краткости»), и HRM автоматически пересчитывает скалярную награду как взвешенную сумму. Это позволяет персонализировать поведение модели без переобучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки качества использовались два публичных набора реальных промптов: HelpSteer (19 200 примеров с 4-уровневой шкалой полезности) и ComPRed (6 000 промптов с критериями полезности, правдивости, краткости и безопасности). В экспериментах сравнивались четыре метода: (1) жадный генерация (Greedy), (2) best-of-N, (3) beam search с шириной N, (4) предложенный HIA при одинаковом общем бюджете вызовов k+1. В качестве backbone-мод

Annotation:

Aligning LLMs with user preferences is crucial for real-world use but often requires costly fine-tuning or expensive inference, forcing trade-offs between alignment quality and computational cost. Existing inference-time methods typically ignore this balance, focusing solely on the optimized policy's performance. We propose HIA (Heuristic-Guided Inference-time Alignment), a tuning-free, black-box-compatible approach that uses a lightweight prompt optimizer, heuristic reward models, and two-stage...

ID: 2508.05165v1 cs.LG, cs.AI, cs.CL, I.2.7; I.2.6; I.2.8

arXiv PDF

📄 FAITH: A Framework for Assessing Intrinsic Tabular Hallucinations in finance

2025-08-09

Авторы:

Mengao Zhang, Jiayu Fu, Tanya Warrier, Yuwen Wang, Tianhui Tan, Ke-wei Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) становятся все более популярными в приложениях, требующих обработку естественного языка. Однако, в финансовой области, где точность и надежность критически важны, проблема галлюцинаций (Hallucination) остается ключевой преградой для их широкого применения. Галлюцинации — это ситуации, когда модель генерирует неточную или фальсифицированную информацию, что может привести к серьезным последствиям в финансовой аналитике. Финансовые приложения требуют высокой точности при работе с табличными данными, особенно теми, которые содержат контекстно-зависимую и часто конфиденциальную информацию. Маленькие цифровые ошибки могут не только подвергнуть сомнению решения, но и нарушить соблюдение регулярных требований. Несмотря на развитие методологий для оценки галлюцинаций в естественном языке, финансовые данные обладают уникальными характеристиками, которые не покрываются существующими стандартами. Авторы статьи подчеркивают необходимость разработки специализированных инструментов для оценки точности LLMs при работе с финансовыми табличными данными. Их работа направлена на создание методологии, которая позволит оценивать интринсические галлюцинации (Intrinsic Hallucinations) — неточности, которые возникают из самой модели, без учета внешних факторов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить проблему галлюцинаций в финансовых LLMs, авторы предлагают новый фреймворк под названием **FAITH** (Framework for Assessing Intrinsic Tabular Hallucinations in finance). Этот фреймворк основывается на маскированной предсказательной модели (Masked Span Prediction) и использует реальные финансовые документы для создания набора данных. FAITH включает в себя следующие ключевые компоненты: 1. **Автоматизированное создание датасета**: Авторы разработали метод маскирования, который позволяет автоматически генерировать данные для оценки точности моделей. Этот подход позволяет создавать реалистичные сценарии, где LLMs должны заполнить пропуски в табличных данных на основе контекста. 2. **Финансовый датасет**: Для оценки был создан датасет на основе годовых отчетов S&P 500. Этот датасет представляет собой коллекцию реальных финансовых документов, которые содержат контекстно-зависимые табличные данные. 3. **Оценка LLMs**: Авторы провели комплексный анализ работы современных LLMs на финансовых данных, оценивая их способность к точной экстракции и вычислению цифровых значений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности FAITH, авторы провели ряд экспериментов на базе различных моделей LLMs. Эти модели были протестированы на способность к точному извлечению информации из табличных данных. Результаты показали, что существующие модели LLMs часто представляют неточные или неполные данные при работе с финансовыми таблицами. FAITH позволил выявить шаблоны галлюцинаций, которые могут быть связаны с контекстными ошибками или недостатками в моделях. Кроме того, эксперименты показали, что FAITH может быть эффективно использован для оценки различных моделей LLMs, предоставляя инструмент для их сравнения и оптимизации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FAITH предлагает ценный инструмент для финансовых организаций, которые используют LLMs для анализа и обработки данных. Благодаря точной оценке галлюцинаций, финансовые институты могут более надежно использовать генеративные модели AI в своих приложениях. Преимущества FAITH включают: - **Улучшение точности**: Фреймворк позволяет выявлять и исправлять неточности в генерируемых моделями данных. - **Соответствие нормативным требованиям**: Точность в работе с финансовыми данными критически важна для соблюдения нормативных требований. - **Оптимизация LLMs**: FAITH помогает оптимизировать модели, улучшая их надежность и точность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FAITH является важной отправной точкой для развития более надежных и точных финансовых LLMs. Разработанный фреймворк не только позволяет оценивать существующие модели, но и ставит начало для будущих исследований в области генеративного AI в финансовой сфере. В будущем, авторы планируют расширить FAITH для работы с более широким спектром финансовых данных и исследовать методы для автоматического исправления галлюцинаций. Это позволит создавать более надежные и точные финансовые системы на основе генеративного AI.

Annotation:

Hallucination remains a critical challenge for deploying Large Language Models (LLMs) in finance. Accurate extraction and precise calculation from tabular data are essential for reliable financial analysis, since even minor numerical errors can undermine decision-making and regulatory compliance. Financial applications have unique requirements, often relying on context-dependent, numerical, and proprietary tabular data that existing hallucination benchmarks rarely capture. In this study, we deve...

ID: 2508.05201v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Iterative Learning of Computable Phenotypes for Treatment Resistant Hypertension using Large Language Models

2025-08-08

Авторы:

Guilherme Seidyo Imai Aldeia, Daniel S. Herman, William G. La Cava

## КОНТЕКСТ И ПРОБЛЕМАТИКА Гипертоническая болезнь остается одним из ведущих факторов риска сердечно-сосудистых заболеваний и преждевременной смертности во всем мире. Особую тревогу вызывает устойчивая артериальная гипертония (resistant hypertension) — состояние, при котором артериальное давление остается выше целевого уровня несмотря на прием трех антигипертензивных препаратов различных классов, включая диуретик, в оптимальных дозировках. Точная идентификация пациентов с устойчивой гипертонией критически важна для корректировки терапевтических стратегий и улучшения прогноза, однако клинические портреты таких пациентов остаются неоднозначными и сложными для формализации. Традиционные подходы к созданию вычислимых фенотипов (computable phenotypes, CP) — формальных правил для идентификации клинических состояний на основе электронных медицинских записей — требуют значительных ресурсов, включая участие экспертов-клиницистов, ручную разметку больших объемов данных и длительную валидацию. Современные методы машинного обучения, достигающие высокой точности, часто представляют собой "черные ящики", недоступные для интерпретации клиницистами и не позволяющие понять патофизиологические механизмы заболеваний. Большие языковые модели (LLM) продемонстрировали выдающиеся способности в области медицинского консультирования и программирования, однако их потенциал для генерации интерпретируемых вычислимых фенотипов остается практически неизученным. Существующие исследования фокусировались в основном на задачах вопросно-ответного формата и извлечения информации из текста, в то время как возможность автоматической генерации формальных правил для клинических портретов остается открытым фронтиром. Это создает значительный разрыв между возможностями современных ИИ-систем и потребностями клинической практики в масштабируемых, интерпретируемых инструментах поддержки принятия решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали инновационную стратегию "синтез-исполнение-отладка-инструкция" (synthesize, execute, debug, instruct), которая использует возможности больших языковых моделей для генерации и итеративного уточнения вычислимых фенотипов на основе данных-обратной связи. Методология представляет собой многоэтапный процесс, начинающийся с нулевого обучения (zero-shot), при котором LLM генерирует первоначальные правила без предварительных примеров, опираясь исключительно на текстовое описание клинического фенотипа. На этапе синтеза модель получает естественно-языковое описание целевого клинического состояния и генерирует соответствующий код, обычно представленный в виде SQL-запросов или логических выражений. Сгенерированные правила затем исполняются на реальных клинических данных, что позволяет получить предсказания наличия или отсутствия исследуемого фенотипа у пациентов. Используемая вычислительная архитектура включает в себя механизмы безопасного выполнения кода для предотвращения потенциальных уязвимостей и обеспечения конфиденциальности медицинских данных. Ключевым элементом является процесс отладки, при котором результаты исполнения сопоставляются с золотым стандартом или экспертной разметкой. Расхождения между предсказанными и фактическими метками анализируются LLM, которая затем генерирует инструкции для улучшения правил. Этот цикл повторяется итеративно, позволяя модели постепенно уточнять и оптимизировать вычислимые фенотипы. Процесс продолжается до достижения приемлемого уровня производительности или исчерпания заданного количества итераций. Архитектура системы включает компоненты для управления версиями генерируемого кода, логирования всех изменений и обеспечения воспроизводимости результатов. Специальные механизмы предотвращают циклические улучшения и гарантируют конвергенцию процесса. Для обработки сложных случаев реализована система приоритизации ошибок, фокусирующая внимание LLM на наиболее критичных различиях между предсказанными и истинными метками. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование оценивало способность LLM генерировать точные и лаконичные вычислимые фенотипы для шести клинических состояний различной сложности,

Annotation:

Large language models (LLMs) have demonstrated remarkable capabilities for medical question answering and programming, but their potential for generating interpretable computable phenotypes (CPs) is under-explored. In this work, we investigate whether LLMs can generate accurate and concise CPs for six clinical phenotypes of varying complexity, which could be leveraged to enable scalable clinical decision support to improve care for patients with hypertension. In addition to evaluating zero-short...

ID: 2508.05581v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 MoKA: Mixture of Kronecker Adapters

2025-08-06

Авторы:

Mohammadreza Sadeghi, Mahsa Ghazvini Nejad, MirHamed Jafarzadeh Asl, Yu Gu, Yuanhao Yu, Masoud Asgharian, Vahid Partovi Nia

Методы параметрически-эффективной дообучения (PEFT) снижают затраты адаптации LLM, но низкоранговые адаптеры теряют точность из-за ограниченной выразительности. Авторы предлагают Mixture of Kronecker Adapters (MoKA) — новый тип Kronecker-адаптера, где обновления весов представлены как смесь продуктов Кронекера с вентильным механизмом, оценивающим значение каждого сомножителя. Переформулировав вычисления Кронекера через стандартные матричные операции, авторы добились аппаратной эффективности на GPU. Эксперименты на дообучении инструкций и здравомысленном рассуждении при помощи квантованных LLaMA2-7B и LLaMA3-8B показали, что MoKA превосходит все PEFT-базовые методы, уменьшая число обучаемых параметров до 27× и обеспечивая новое SOTA соотношение точность/эффективность.

Annotation:

Parameter-efficient fine-tuning (PEFT) is essential for reducing the computational overhead of large language models (LLMs). Low-rank family adapters are commonly used to control the parameter size efficiently while maintaining the generative power of LLMs. However, their limited expressiveness due to the rank constraint often restricts their performance on complex tasks. We propose Mixture of Kronecker Adapters (MoKA), a new generation of Kronecker adapters that addresses this limitation by mod...

ID: 2508.03527v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Forest vs Tree: The $(N, K)$ Trade-off in Reproducible ML Evaluation

2025-08-06

Авторы:

Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan

Вопрос воспроизводимости оценки моделей ML осложняется тем, что эталонные метки собирают у людей, а люди расходятся во мнениях. При ограниченном бюджете чаще жертвуют числом аннотаций на пример (K) ради числа примеров (N). Авторы исследуют оптимальный компромисс (N, K) при фиксированном бюджете N×K. На 10 категориальных датасетах с множественной разметкой показано, что достаточный уровень надёжности достигается при N×K≤1000 и K>10. Чувствительные к распределению метрики (Brier, log-loss) требуют высокого K, а «жёсткие» (Accuracy, F1) — высокого N. Предложенный инструмент помогает практикам выбирать метрику и N, K для максимальной надёжности при заданном бюджете.

Annotation:

Reproducibility is a cornerstone of scientific validation and of the authority it confers on its results. Reproducibility in machine learning evaluations leads to greater trust, confidence, and value. However, the ground truth responses used in machine learning often necessarily come from humans, among whom disagreement is prevalent, and surprisingly little research has studied the impact of effectively ignoring disagreement in these responses, as is typically the case. One reason for the lack o...

ID: 2508.03663v1 cs.LG, cs.AI, cs.CL

arXiv PDF

1
2
26
27
28

Показано 271 - 278 из 278 записей