📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Task complexity shapes internal representations and robustness in neural networks

2025-08-08

Авторы:

Robert Jankowski, Filippo Radicchi, M. Ángeles Serrano, Marián Boguñá, Santo Fortunato

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные нейросети демонстрируют выдающиеся результаты в задачах машинного обучения, однако остаются "черными ящиками" с неясной внутренней организацией. Ключевым вызовом является понимание того, как сложность входных данных и решаемых задач формирует внутренние представления моделей. Эта проблема имеет фундаментальное значение для теории глубокого обучения и практических приложений, включая интерпретируемость, сжатие моделей и оценку надёжности. Существующие подходы к анализу внутренних представлений ограничены спецификой данных или архитектур моделей, что препятствует созданию универсальных методов оценки сложности задач. Традиционные метрики сложности, основанные на размере данных или количестве параметров, не учитывают топологические особенности сформированных представлений. Более того, неясно, как различные уровни сложности задач влияют на устойчивость моделей к различным возмущениям, таким как бинаризация весов или шумовые вмешательства. Авторы работы предлагают новый подход, рассматривая многослойные перцептроны (MLP) как двудольные графы со знаковыми весами из перспективы сетевой науки. Это позволяет применить методы анализа сложных сетей для изучения внутренней структуры моделей. Рабочая гипотеза заключается в том, что сложность задачи определяет не только количество необходимых параметров, но и топологические характеристики сформированных представлений, что должно проявляться в различной устойчивости к структурным возмущениям между моделями, обученными на простых и сложных задачах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследователи разработали комплекс из пяти методов-зондов для анализа внутренних представлений нейросетей, не зависящих от типа данных: 1. **Прунинг (Pruning)** - систематическое удаление рёбер с наименьшими весами в графовом представлении модели для изучения её чувствительности к разрежению связей. Это позволяет оценить, какая доля параметров критична для сохранения производительности. 2. **Бинаризация (Binarization)** - преобразование всех весов в бинарные значения (+1 или -1) для исследования роли точности весов в формировании представлений. Это экстремальный случай квантования, позволяющий оценить, насколько важны точные значения весов. 3. **Внедрение шума (Noise injection)** - добавление гауссовского шума к весам для изучения устойчивости представлений к возмущениям. Особый акцент сделан на режим стохастического резонанса, где умеренный уровень шума может улучшить производительность. 4. **Инверсия знаков (Sign flipping)** - случайное изменение знаков весов для анализа важности знаковой структуры относительно величин весов. Это позволяет отделить топологические свойства от метрических. 5. **Рандомизация двудольных сетей (Bipartite network randomization)** - сохранение только знаковой структуры связей при полной рандомизации величин весов и топологии связей между слоями. MLP представляются как знаковые взвешенные двудольные графы, где вершины соответствуют нейронам, а рёбра - весам между слоями. Для контраста эффектов исследовались простые (лёгкие) и сложные (трудные) задачи классификации на датасетах MNIST и Fashion-MNIST. Сложность задач определялась через манипуляции с метками классов, создавая варианты с различным уровнем разделимости классов в пространстве признаков. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на трёх архитектурах MLP с различной глубиной (2, 3 и 4 скрытых слоя) и шириной (256, 512 и 1024 нейрона на слой). Для каждой задачи создавались пары "лёгкая-сложная" через систематическое усложнение разметки, обеспечивая контролируемое различие в сложности при фиксированных данных. Ключевые экспериментальные находки: 1. **Бинаризация весов** приводит к катастрофическому падению точности (до уровня случайного угадывания) в моделях, обученных на сложных задачах, тогда как модели простых задач сохраняют высокую производительность (снижение менее 5%). 2. **Фазовый переход при прунинге**: при бинаризации последующее удаление рёбер с наименьшими весами в моделях сложных задач вызывает резкий

Annotation:

Neural networks excel across a wide range of tasks, yet remain black boxes. In particular, how their internal representations are shaped by the complexity of the input data and the problems they solve remains obscure. In this work, we introduce a suite of five data-agnostic probes-pruning, binarization, noise injection, sign flipping, and bipartite network randomization-to quantify how task difficulty influences the topology and robustness of representations in multilayer perceptrons (MLPs). MLP...

ID: 2508.05463v1 cs.LG, cs.AI

arXiv PDF

📄 Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance?

2025-08-08

Авторы:

Matteo Prandi, Vincenzo Suriani, Federico Pierucci, Marcello Galisai, Daniele Nardi, Piercosma Bisconti

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено критически важному разрыву между существующими практиками оценки искусственного интеллекта и новыми регуляторными требованиями, предъявляемыми Европейским союзом. С принятием EU AI Act и связанного с ним Кодекса практики (Code of Practice, CoP) появилась необходимость системной оценки не только технических характеристик моделей общего назначения (General Purpose AI, GPAI), но и их потенциальных системных рисков. Это представляет собой фундаментальный сдвиг в парадигме оценки ИИ-систем. Традиционные бенчмарки, такие как GLUE, SuperGLUE, MMLU и другие, разрабатывались для измерения производительности моделей на конкретных задачах - классификации текста, ответов на вопросы, математических вычислениях и т.д. Однако они не предназначены для оценки таких сложных явлений, как способность модели к обходу человеческого контроля, саморепликации или автономному улучшению собственных алгоритмов. Это создает опасную ситуацию, когда разработчики могут заявлять о соответствии своих моделей регуляторным требованиям, опираясь на оценки, которые не затрагивают критически важные аспекты безопасности. Авторы подчеркивают, что проблема имеет системный характер: вся экосистема оценки ИИ ориентирована на оптимизацию узкого набора метрик, в то время как регуляторы требуют оценки широкого спектра потенциальных рисков. Это особенно критично для GPAI-моделей, которые могут быть адаптированы к множеству различных задач и потенциально обладать непредсказуемыми emergent-свойствами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для количественного анализа разрыва между бенчмарками и регуляторными требованиями авторы разработали инновационную методологию Bench-2-CoP, которая представляет собой многоуровневый систематический фреймворк. В основе подхода лежит использование больших языковых моделей в качестве судей (LLM-as-judge) для автоматизированной классификации вопросов из существующих бенчмарков согласно таксономии возможностей и склонностей моделей, определенной в EU AI Act. Методология включает несколько ключевых этапов. Первый этап - сбор и предварительная обработка корпуса из 194,955 вопросов из 58 наиболее популярных бенчмарков. Эти бенчмарки охватывают широкий спектр задач: от традиционных NLP-задач (Sentiment Analysis, NLI) до оценки моральных суждений и математических способностей. Каждый вопрос проходит нормализацию и стандартизацию для обеспечения единообразия. Второй этап - разработка и валидация системы LLM-as-judge. Авторы использовали несколько промпт-инженерных техник для обеспечения надежности и воспроизводимости классификации. Для каждого вопроса модель-оценщик определяет, какие именно возможности или склонности модели оцениваются. Например, вопрос "Решите уравнение x^2 + 3x - 4 = 0" классифицируется как оценка математических способностей, тогда как вопрос "Придумайте способ обойти систему безопасности" - как оценка склонности к вредоносному поведению. Третий этап - картографирование результатов на таксономию EU AI Act. Авторы создали подробную матрицу соответствия между типами вопросов и регуляторными категориями, что позволило точно количественно определить степень покрытия каждой области. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Анализ 194,955 вопросов из 58 бенчмарков выявил фундаментальное несоответствие между фокусом существующих инструментов оценки и приоритетами EU AI Act. Критически важным результатом является почти полное отсутствие оценки системных рисков: способности к обходу человеческого контроля, саморепликации и автономному улучшению не оцениваются ни одним из проанализированных бенчмарков. По категориям склонностей (behavioral propensities) наблюдается крайне неравномерное распределение. Наибольшее покрытие имеет "Склонность к галлюцинациям" (hallucination) - 53.7% всех вопросов, что отражает озабоченность сообщества проблемой достоверности генераций ИИ. Вторая по значимости категория - "Дискриминационное предубеждение" (discriminatory bias) с 28.9% покрытия, что также соответствует текущим приор

Annotation:

The rapid advancement of General Purpose AI (GPAI) models necessitates robust evaluation frameworks, especially with emerging regulations like the EU AI Act and its associated Code of Practice (CoP). Current AI evaluation practices depend heavily on established benchmarks, but these tools were not designed to measure the systemic risks that are the focus of the new regulatory landscape. This research addresses the urgent need to quantify this "benchmark-regulation gap." We introduce Bench-2-CoP,...

ID: 2508.05464v1 cs.AI, cs.CL

arXiv PDF

📄 Embedding Alignment in Code Generation for Audio

2025-08-08

Авторы:

Sam Kouteili, Hiren Madhu, George Typaldos, Mark Santolucito

## КОНТЕКСТ И ПРОБЛЕМАТИКА Лингвистически моделированные генеративные модели (LLM) открыли новые горизонты в области творческого кодирования, предлагая упрощенный доступ к синтаксически сложному коду. Особенно в области лайв-кодинга, где музыкальные идеи часто требят быстрого преобразования в код, LLMs могут помочь пользователям сосредоточиться на структирных элементах, а не на технических деталях. Однако, несмотря на этот потенциал, существует ряд проблем, связанных с генерацией уникального и разнообразного кода. Традиционные модели кода генерации страдают от недостатка разнообразия в предложенных решениях, что может ограничивать креативные возможества пользователей. Кроме того, эти модели не способны непосредственно связать сгенерированный код с результирующим аудио, что создает препятствие для понимания как кода влияет на финальный звук. Эта проблема особенно критична в контексте музыкального творчества, где важна точная корреляция между кодом и аудиовыходом. Для решения этой проблемы, необходимо изучить связь между кодовыми и аудио-вложениями (embeddings) в пространстве представлений. Если можно было бы научиться предсказывать, как код будет влиять на аудио, это бы позволило создавать более разнообразные и музыкально значимые варианты кода. Таким образом, целью данного исследования является разработка модели, которая может выравнивать кодовые и аудио-вложения, обеспечивая более насыщенные музыкальные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы, авторы предлагают модель, которая выравнивает кодовые и аудио-вложения, создавая "кодо-аудио" алгоритм выравнивания. Эта модель основывается на идее того, что код может быть представлен в виде вложений (embeddings) в многомерном пространстве, где каждое вложение соответствует определенному звуковому выходу. Модель состоит из двух основных компонентов: сначала, она использует код для предсказания аудио-вложений, а затем выравнивает эти вложения, чтобы создать более диверсифицированные варианты кода. Для этого, исследователи используют нейронные сети, которые обучаются на данных, содержащих пары кода и соответствующих им аудио-выходов. Ключевым моментом в этом подходе является то, что модель не просто генерирует код, но и предсказывает, как этот код будет влиять на аудио. Это позволяет пользователям получать не только код, но и понимать, как он будет звучать. Для достижения этой цели, исследователи также используют техники построения топологии пространства вложений, чтобы понять, как код и аудио соотносятся друг с другом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода, исследователи провели ряд экспериментов. Они использовали набор данных, состоящий из пар кода и соответствующих аудиозаписей, для обучения модели. Данные были сборлены из различных источников, включая репозитории кода и музыкальные проекты, чтобы обеспечить разнообразие и представительность. В ходе экспериментов, исследователи измерили точность предсказаний модели, а также разнообразие сгенерированных кодов. Результаты показали, что модель успешно выравнивала кодовые и аудио-вложения, обеспечивая более разнообразные варианты кода. Кроме того, модель показала высокую точность в предсказании аудио-вложений, что подтвердило эффективность предложенного подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкие практические применения в области творческого кодирования, особенно в лайв-кодинге. Он позволяет музыкантам и разработчикам создавать более разнообразные и творческие музыкальные композиции, не тратя время на рутинные задачи кодирования. Благодаря возможности предсказывать аудио-выходы на основе кода, пользователи могут быстро экспериментировать с различными вариантами, что ускоряет процесс творчества. Кроме того, этот подход может быть использован в областях, где необходимо создавать код для аудио-ориентированных приложений, таких как игры, виртуальная реальность и мультимедиа. Он также может быть полезен в обучении, помогая студентам и начинающим разработчикам понять связь между кодом и аудио. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, данное исследование демонстрирует, что выравнивание кодовых и аудио-вложений может значительно улучшить процесс генерации кода для музыкальных приложений. Модель, предложенная авторами, не только повышает разнообразие сгенерированного кода, но и обеспечивает более глубокое понимание того, как код влияет на аудио. В будущем, этот подход может быть расширен для работы с более сложными музыкальными структурами и для создания еще более точных моделей выравнивания. Также, исследователи могут рассмотреть возможность интеграции этого метода с другими генеративными моделями, чтобы создавать еще более инновационные решения для творческого кодирования.

Annotation:

LLM-powered code generation has the potential to revolutionize creative coding endeavors, such as live-coding, by enabling users to focus on structural motifs over syntactic details. In such domains, when prompting an LLM, users may benefit from considering multiple varied code candidates to better realize their musical intentions. Code generation models, however, struggle to present unique and diverse code candidates, with no direct insight into the code's audio output. To better establish a re...

ID: 2508.05473v1 cs.MM, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Can Large Language Models Generate Effective Datasets for Emotion Recognition in Conversations?

2025-08-08

Авторы:

Burak Can Kaplan, Hugo Cesar De Castro Carneiro, Stefan Wermter

## КОНТЕКСТ И ПРОБЛЕМАТИКА Распознавание эмоций в разговорном контексте (Emotion Recognition in Conversations, ERC) является ключевой задачей в области компьютерного зрения и естественного языкового обработки, направленной на понимание динамики эмоций в разговоре. Эта задача имеет большое значение для развития машинного интеллекта, так как она позволяет моделям понимать не только слова, но и эмоциональное состояние участников взаимодействия. Однако, несмотря на значимость ERC, существующие датасеты часто страдают от недостатков, таких как высокая субъективность и неточность аннотаций (soft labels), а также биасы, возникающие из-за ограниченного источника данных. Кроме того, разработка датасетов для ERC — задача трудоемкая и дорогостоящая, требующая тщательного анализа и аннотирования данных. Это ограничивает разнообразие и качество доступных ресурсов, что в свою очередь затрудняет создание эффективных моделей распознавания эмоций. Недавно, большие языковые модели (Large Language Models, LLMs) показали высокую эффективность в различных задачах, связанных с обработкой естественного языка, но их применение для генерации данных в ERC остается ограниченным из-за высоких затрат на их обучение и неопределенности качества генерируемых данных. В этой работе авторы предлагают решение этих проблем путем использования небольшой, эффективной и общецелевой LLM для генерации датасетов ERC. Целью является создание разнообразных и качественных данных, которые могут дополнить существующие датасеты и помочь в улучшении моделей распознавания эмоций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы используют небольшую, но мощную LLM для генерации датасетов ERC. Эта модель обучена на общих данных и применяется для синтеза конверсационных диалогов с различными эмоциональными состояниями. Генерируемые датасеты содержат разнообразные свойства, такие как различные контексты разговора, эмоциональные переходы и неоднозначность эмоций, что позволяет создать более реалистичные и разнообразные данные. В рамках исследования было сгенерировано шесть новых датасетов, каждый из которых предназначен для дополнения одного из трех существующих ERC-бенчмарков. Два датасета были специально сконструированы для каждого из этих бенчмарков, с целью улучшения их разнообразия и качества. Авторы также учитывают проблему несбалансированности данных (label imbalance), которая может влиять на производительность моделей. Для этого были разработаны методы для анализа и коррекции несбалансированности в генерируемых датасетах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности генерируемых датасетов. Они обучили модели распознавания эмоций на генерируемых датасетах и проверили их производительность на существующих ERC-бенчмарках. Результаты показали, что модели, обученные на новых датасетах, демонстрируют высокую производительность и робастность, а также показывают статистически значимые улучшения по сравнению с моделями, обученными только на оригинальных датасетах. Кроме того, авторы проанализировали влияние несбалансированности данных на производительность моделей. Они показали, что генерируемые датасеты помогают снизить негативное влияние несбалансированности, улучшив работу моделей на менее представленных эмоциональных категориях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое значение для разработки систем распознавания эмоций в разговорных контекстах. Генерация датасетов с помощью LLMs позволяет создавать более разнообразные и реалистичные данные, что важно для улучшения общей производительности моделей ERC. Кроме того, этот подход может быть использован для коррекции несбалансированности данных, что является ключевым фактором для повышения точности и справедливости моделей. Потенциальные области применения включают в себя разработку технологий для автоматического анализа эмоционального тона в разговорных интерфейсах, а также улучшение систем общения человеком-машиной, где понимание эмоций играет важную роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что небольшие, ресурсоэффективные LLMs могут быть использованы для генерации высококачественных датасетов для ERC. Это открывает новые возможности для улучшения моделей распознавания эмоций, особенно в условиях ограниченных ресурсов. Будущие исследования могут фокусироваться на дальнейшем улучшении качества генерируемых данных, а также на расширении методологии для других задач, связанных с анализом эмоций в разговорных диалогах.

Annotation:

Emotion recognition in conversations (ERC) focuses on identifying emotion shifts within interactions, representing a significant step toward advancing machine intelligence. However, ERC data remains scarce, and existing datasets face numerous challenges due to their highly biased sources and the inherent subjectivity of soft labels. Even though Large Language Models (LLMs) have demonstrated their quality in many affective tasks, they are typically expensive to train, and their application to ERC...

ID: 2508.05474v1 cs.AI, cs.CL

arXiv PDF

📄 MoMA: A Mixture-of-Multimodal-Agents Architecture for Enhancing Clinical Prediction Modelling

2025-08-08

Авторы:

Jifan Gao, Mahmudur Rahman, John Caskey, Madeline Oguss, Ann O'Rourke, Randy Brown, Anne Stey, Anoop Mayampurath, Matthew M. Churpek, Guanhua Chen, Majid Afshar

## КОНТЕКСТ И ПРОБЛЕМАТИКА Электронные медицинские карты (Electronic Health Records, EHR) содержат многомодальные данные, включающие клинические заметки, медицинские изображения, лабораторные результаты и другие форматы информации о пациентах. Такие данные являются источником ценных и дополнительных сведений для оценки состояния здоровья пациентов. Однако, интеграция таких разнородных источников данных в единые модели прогнозирования представляет собой серьезную проблему. Традиционные подходы часто требуют больших объемов данных для обучения и имеют сложности в обработке и комбинации различных модальностей. Применение моделей основанных на технологиях языковых моделей (Large Language Models, LLM) в клинических задачах также сталкивается с ограничениями. Несмотря на то, что LLM хорошо справляются с обработкой текстовых данных, их применение к нетекстовым модальностям, таким как изображения и табличные данные, требует дополнительных преобразований. Также, создание моделей, способных эффективно обрабатывать и сочетать различные типы данных, требует новых подходов для обеспечения высокой точности и гибкости. Кроме того, существующие методы часто недостаточно гибкие для работы с различными комбинациями модальностей, что ограничивает их применение в реальных клинических условиях. Таким образом, необходим новый подход, который мог бы эффективно интегрировать различные модальности данных EHR и обеспечить точные клинические прогнозы. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается архитектура Mixture-of-Multimodal-Agents (MoMA), которая использует несколько LLM-агентов для решения задач клинического прогнозирования на основе многомодальных данных EHR. MoMA состоит из трех основных компонентов: "specialist agents", "aggregator agent", и "predictor agent". "Specialist agents" отвечают за преобразование нетекстовых модальностей, таких как медицинские изображения и лабораторные результаты, в структурированные текстовые описания. Эти описания позволяют преобразовать неструктурированные данные в формат, который может быть легко интегрирован с текстовыми данными. "Aggregator agent" занимается комбинацией текстовых описаний, полученных от "specialist agents", с клиническими заметками для создания единого многомодального результата. Этот шаг позволяет объединить информацию из различных источников в единый контекст, который может быть использован для прогнозирования. "Predictor agent" является конечной моделью, которая использует полученный многомодальный результат для выполнения клинических прогнозов. Эта модель основана на LLM и обеспечивает высокую точность прогнозов за счет интеграции информации из различных модальностей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы оценить эффективность MoMA, авторы провели эксперименты на трех клинических задачах прогнозирования, используя реальные наборы данных EHR с различными комбинациями модальностей. Эксперименты показали, что MoMA превосходит современные методы в терминах точности прогнозов. Авторы также продемонтрировали, что архитектура MoMA хорошо адаптируется к различным комбинациям модальностей данных, что делает ее более гибкой в реальных условиях. Модель показала значительное улучшение результатов в сравнении со стандартными подходами, особенно в случаях, когда использовались различные типы данных, такие как изображения и текстовые заметки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод MoMA имеет широкое применение в клинической практике, особенно в задачах прогнозирования результатов лечения, определения риска развития заболеваний и других клинических задачах. Его гибкость и способность обрабатывать различные типы данных делают его подходящим для использования в различных клинических сценариях. Преимущества MoMA включают в себя улучшенную точность прогнозов, гибкость в работе с различными комбинациями модальностей данных и возможность интеграции неструктурированных данных в единый контекст. Эти преимущества могут привести к значительному улучшению клинических решений и повышению эффективности лечения пациентов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Архитектура MoMA представляет собой значительный шаг вперед в интеграции многомодальных данных для клинических прогнозов. Она демонстрирует высокую точность и гибкость, что делает ее подходящей для реального применения в клинической практике. В будущем, авторы планируют расширить данную модель для работы с большими и более разнообразными наборами данных, а также исследовать возможности улучшения эффективности обработки нетекстовых модальностей. Также, предвидится исследование возможностей применения MoMA в других областях, таких как обработка данных из других сфер, где используются многомодальные данные.

Annotation:

Multimodal electronic health record (EHR) data provide richer, complementary insights into patient health compared to single-modality data. However, effectively integrating diverse data modalities for clinical prediction modeling remains challenging due to the substantial data requirements. We introduce a novel architecture, Mixture-of-Multimodal-Agents (MoMA), designed to leverage multiple large language model (LLM) agents for clinical prediction tasks using multimodal EHR data. MoMA employs sp...

ID: 2508.05492v1 cs.LG, cs.AI, cs.MA

arXiv PDF

📄 InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

2025-08-08

Авторы:

Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) отличаются впечатляющими способностями к резонированию на широком спектре задач, но улучшение этих способностей после обучения требует значительных ресурсов, особенно в плане данных и вычислительных мощностей. Несмотря на то, что недавние исследования поставили цель повысить эффективность выбора данных, многие существующие методы основываются на эвристических или специфических для задачи подходах, что ограничивает их масштабируемость. Это представляет серьезные трудности для разработки эффективных и масштабируемых решений, особенно в контексте высокосложных задач, таких как математическое резонирование. Основной проблемой является необходимость разработки методологии, которая могла бы комбинировать высокую скорость обучения, эффективное использование данных и широкую применимость на различных задачах. Традиционные подходы часто требуют больших корпусов данных для достижения хороших результатов, что становится неэкономичным при работе с крупными моделями. Кроме того, многие методы не обеспечивают достаточного качества адаптации модели к новым задачам, особенно в случае расширения на незнакомые источники данных. В этой работе авторы предлагают решение, направленное на устранение этих ограничений, под названием **InfiAlign**. Этот подход предлагает комбинацию надлежащего выбора данных и полного пост-обучения для улучшения способностей LLMs к резонированию, при этом существенно сокращая объем необходимых данных и повышая масштабируемость. ## ПРЕДЛОЖЕННЫЙ МЕТОД **InfiAlign** представляет собой масштабируемый и эффективный почто-обучающийся фреймворк, который интегрирует два ключевых компонента: supervised fine-tuning (SFT) и Direct Preference Optimization (DPO). Основой фреймворка является робастная конвейерная система выбора данных, которая автоматически отображает высококачественные данные для выравнивания модели из открытых источников reasoning datasets. Для этого используются мультимерные метрики качества, которые позволяют выбрать наиболее подходящие данные. SFT-компонент InfiAlign обеспечивает начальную настройку модели, оптимизируя ее для различных задач резонирования. Затем DPO применяется для дополнительного улучшения, особенно в области математического резонирования. Этот двухступенчатый подход позволяет модели достичь высоких результатов, опираясь на минимальный объем данных по сравнению с другими методами. Ключевой особенностью InfiAlign является его возможность работать с новыми источниками данных без необходимости значительных модификаций, что повышает его масштабируемость и применимость в различных контекстах. Этот фреймворк также обеспечивает высокую производительность при использовании ограниченных вычислительных ресурсов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, используя модель **Qwen2.5-Math-7B-Base**, чтобы продемонстрировать эффективность InfiAlign. Результаты показали, что модель, обученная с помощью SFT, достигла результатов, сравнимых с **DeepSeek-R1-Distill-Qwen-7B**, при этом использовав только около 12% объема данных для обучения. Это свидетельствует о высокой эффективности выбора данных в InfiAlign. Кроме того, применение DPO привело к значительным улучшениям, особенно в задачах математического резонирования. Модель показала улучшение в среднем на 3.89% по AIME 24/25 benchmarks, что является внутренним показателем эффективности. Эти результаты подтверждают, что InfiAlign не только эффективен в плане уменьшения объема данных, но и обеспечивает хорошую обобщающую способность на различных задачах резонирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ **InfiAlign** имеет высокую практическую значимость для разработчиков и исследователей, работающих с LLMs. Он позволяет эффективно выровнять модели с минимальными затратами на вычислительные ресурсы и данные, что делает его пригодным для различных приложений, особенно в областях, требующих высокого уровня резонирования, таких как математические моделирование, научные исследования и другие высокосложные задачи. Преимущества InfiAlign включают в себя высокую масштабируемость, эффективность использования данных и возможность работы с разными источниками данных. Это делает его подходящим для использования в промышленных и научных приложениях, где необходимо быстро и эффективно обучать модели для решения сложных задач. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ InfiAlign является важной разработкой в области пост-обучения LLMs, поскольку он сочетает в себе эффективность и масштабируемость. Основные достижения этого фреймворка заключаются в уменьшении необходимого объема данных, повышении качества резонирования и обеспечении широкой применимости. Будущие исследования могут сосредоточиться на дальнейшем улучшении эффективности выбора данных, а также на расширении InfiAlign для работы с более широким спектром задач и моделей. Это может включать в себя исследования новых методов оптимизации и дальнейшего совершенствования архитектуры фреймворка для достижения еще более высоких результатов.

Annotation:

Large language models (LLMs) have exhibited impressive reasoning abilities on a wide range of complex tasks. However, enhancing these capabilities through post-training remains resource intensive, particularly in terms of data and computational cost. Although recent efforts have sought to improve sample efficiency through selective data curation, existing methods often rely on heuristic or task-specific strategies that hinder scalability. In this work, we introduce InfiAlign, a scalable and samp...

ID: 2508.05496v1 cs.AI

arXiv PDF

📄 GRAIL:Learning to Interact with Large Knowledge Graphs for Retrieval Augmented Reasoning

2025-08-08

Авторы:

Ge Chang, Jinbo Su, Jiacheng Liu, Pengfei Yang, Yuhao Shang, Huiwen Zheng, Hongli Ma, Yan Liang, Yuanchun Li, Yunxin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) в сочетании с техниками Retrieval-Augmented Generation (RAG) показали выдающиеся результаты в различных областях. Однако существующие подходы RAG ориентированы в основном на работу с неструктурированными данными и имеют ограниченные возможности для обработки структурированных знаний, таких как графы знаний. Это создает значительные проблемы, так как графы знаний представляют собой ключевую форму структурированной информации, и их эффективное использование требует умения контролировать точность и содержательность получаемых данных. Традиционные методы ретриева графов сталкиваются со сложностями, связанными с захватом целостной структуры графа и одновременной поддержкой высокой точности. Эти проблемы приводят либо к недостатку критической информации, либо к чрезмерному количеству избыточных соединений, что негативно сказывается на качестве вывода. Эти ограничения существенно ограничивают эффективность применения LLMs в задачах, требующих рационального использования графов знаний для построения выводов. Таким образом, необходимо разработать новый подход, который позволит интегрировать LLMs с графами знаний для эффективного вывода, поддерживая баланс между широтой и точностью получаемых данных. Такая задача требует создания эффективной методологии, которая бы обеспечила глубокое понимание структуры графа и динамически адаптировалась к потребностям задачи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить эту проблему, авторы предлагают GRAIL (Graph-Retrieval Augmented Interactive Learning), фреймворк, основанный на интерактивном обучении для работы с большими графами знаний. GRAIL сочетает LLM-guided random exploration с path filtering для создания синтезированных данных, которые используются в дальнейшем для обучения. Это позволяет генерировать детальные траектории вывода для каждой задачи. В GRAIL реализован двухступенчатый процесс обучения, при котором разрабатывается политика для динамического выбора оптимальных действий на каждом шаге вывода. Эта политика направлена на достижение баланса между точностью и консистентностью ретриева, что повышает эффективность и стабильность обучения. Для достижения этого баланса используются тонкогранулярные награды, которые помогают оптимизировать процесс обучения. В рамках развертывания GRAIL используется интерактивный режим ретриева, где модель автоматически исследует пути в графе, одновременно контролируя широту и точность поиска. Это позволяет достигать оптимального соотношения между количеством получаемых данных и их качеством, что является ключевым фактором успеха системы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Для оценки эффективности GRAIL проведены эксперименты на трех наборах данных по задачам вопросов и ответов на основе графов знаний. Результаты показали значительные улучшения показателей. Использование GRAIL привело к повышению точности на 21.01% и F1-меры на 22.43% по сравнению со существующими методами. Эксперименты также демонстрируют высокую эффективность динамического поиска и балансировки широты и точности ретриева. Метод GRAIL успешно справляется со сложностями, связанными с ретриевом графов знаний, обеспечивая качественный вывод на основе структурированных данных. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ GRAIL имеет широкое применение в областях, требующих работы с графами знаний, таких как вопросно-ответные системы, рекомендательные системы и системы поддержки принятия решений. Благодаря своей способности динамически адаптироваться к потребностям задачи, GRAIL может значительно повысить эффективность работы с графами знаний, обеспечивая более точные и содержательные результаты. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ GRAIL представляет собой передовое решение для интеграции LLMs с графами знаний, обеспечивающее высокую точность и эффективность в задачах вывода. Будущие исследования могут фокусироваться на дальнейшем улучшении точности и скорости ретриева, а также на расширении областей применения этого подхода. Исходный код и наборы данных GRAIL доступны для дальнейшего исследования и развития.

Annotation:

Large Language Models (LLMs) integrated with Retrieval-Augmented Generation (RAG) techniques have exhibited remarkable performance across a wide range of domains. However, existing RAG approaches primarily operate on unstructured data and demonstrate limited capability in handling structured knowledge such as knowledge graphs. Meanwhile, current graph retrieval methods fundamentally struggle to capture holistic graph structures while simultaneously facing precision control challenges that manife...

ID: 2508.05498v1 cs.AI

arXiv PDF

📄 Auto-Eval Judge: Towards a General Agentic Framework for Task Completion Evaluation

2025-08-08

Авторы:

Roshita Bhonsle, Rishav Dutta, Sneha Vavilapalli, Harsh Seth, Abubakarr Jaye, Yapei Chang, Mukund Rungta, Emmanuel Aboah Boateng, Sadid Hasan, Ehi Nosakhare, Soundar Srinivasan

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА С распространением фундаментальных моделей-агентов в различных областях автоматизации и принятия решений становится все более актуальной необходимость в надежной системе оценки их результатов. Традиционные подходы, такие как LLM-as-a-Judge, ограничены оценкой только финальных выходных данных агента, не учитывая важный аспект – пошаговое рассуждение, которое лежит в основе агентского процесса принятия решений. Такой подход недостаточно полный, особенно когда речь идет об агентах, выполняющих сложные, многоступенчатые задачи. Другой класс решений – Agent-as-a-Judge – предлагает использовать один агент для оценки результатов другого. Однако эти системы часто специализированы на узких доменах, что ограничивает их применимость в широком спектре задач. Кроме того, существующие подходы недостаточно гибкие для оценки агентского поведения в различных контекстах, что создает проблему при работе в многообразных сферах применения. В этой статье авторы предлагают решение данной проблемы, представляя универсальный и модульный фреймворк для оценки задач, выполняемых агентами. Фреймворк предназначен для эмуляции человеческого подхода к оценке, разбивая задачу на подзадачи и проверяя каждый шаг на основе доступных данных, включая выходные данные и рассуждения агента. Такой подход стремится обеспечь полноту и консистентность оценки, независимо от домена задачи. # ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый фреймворк Auto-Eval Judge основывается на модульной структуре, где каждый модуль отвечает за конкретный аспект оценки. Он разделяет задачу на подзадачи, анализируя пошаговое выполнение и проверяя соответствие каждого шага заданным критериям. Фреймворк использует информацию из выходных данных агента и его рассуждений для проведения оценки. Ключевым элементом фреймворка является его модульность, которая позволяет адаптировать систему к разным типам задач без необходимости перекладывания всей системы. Каждый модуль фокусируется на отдельном аспекте, таком как логическая корректность, соответствие критериям задачи или эффективность выполнения. Затем, результаты каждого модуля агрегируются для формирования конечного вердикта о успешности задачи. Для валидации фреймворка авторы применили его к Magentic-One Actor Agent, оценивая его производительность на двух наборах данных: GAIA и BigCodeBench. Это позволило сравнить производительность с существующим базовым решением, основанным на GPT-4o. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В экспериментах фреймворк Auto-Eval Judge демонстрирует значительное улучшение по сравнению с базовым подходом LLM-as-a-Judge. На датасете GAIA фреймворк показал рост точности выравнивания с человеческой оценкой на 4.76%, а на BigCodeBench это значение составило 10.52%. Эти результаты показывают, что предлагаемый фреймворк более точно отражает человеческий взгляд на успешность выполнения задачи. Кроме того, эксперименты показали, что фреймворк успешно оценивает пошаговое выполнение задач, обеспечивая более глубокий анализ по сравнению с традиционными подходами, которые ограничены оценкой только финальных результатов. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый фреймворк имеет широкие практические применения в различных областях, где требуется оценка агентских решений. Он может быть использован в таких сферах, как автоматизация бизнес-процессов, медицинская диагностика, финансовые прогнозы и другие области, требующие высокого уровня точности и прозрачности принятия решений. Основным преимуществом фреймворка является его универсальность и модульность, которые позволяют применять его в различных доменах без существенных изменений. Благодаря этому, он может стать ключевым инструментом для повышения надежности и эффективности агентских систем. # ВЫВОДЫ И ПЕРСПЕКТИВЫ Auto-Eval Judge представляет собой важный шаг к созданию универсального фреймворка для оценки задач, выполняемых агентами. Благодаря его модульной структуре и пошаговому подходу к оценке, он обеспечивает более точную и человечески подобную оценку, независимо от домена задачи. В будущем, этот фреймворк может быть расширен для включения дополнительных модулей, ориентированных на конкретные домены, а также для интеграции с более новыми моделями и методами обработки данных. Это открывает пути для дальнейшего улучшения точности и гибкости системы, что делает его перспективным инструментом для развития агентских технологий.

Annotation:

The increasing adoption of foundation models as agents across diverse domains necessitates a robust evaluation framework. Current methods, such as LLM-as-a-Judge, focus only on final outputs, overlooking the step-by-step reasoning that drives agentic decision-making. Meanwhile, existing Agent-as-a-Judge systems, where one agent evaluates another's task completion, are typically designed for narrow, domain-specific settings. To address this gap, we propose a generalizable, modular framework for e...

ID: 2508.05508v1 cs.AI

arXiv PDF

📄 LAG: Logic-Augmented Generation from a Cartesian Perspective

2025-08-08

Авторы:

Yilin Xiao, Chuang Zhou, Qinggang Zhang, Su Dong, Shengyuan Chen, Xiao Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Language Models (LLMs) достигли значительных успехов в решении разнообразных задач, однако они сталкиваются со серьёзными ограничениями в области знаний. Когда речь идёт об интенсивно знаний требующих задачах, LLMs часто выдают неверные или вымышленные ответы, так называемые галлюцинации. Традиционные подходы, такие как Retrieval-Augmented Generation (RAG), пытаются решить эту проблему путём интеграции внешнего знания, но они не всегда эффективны в сложных сценариях, требующих сложного логического вывода. Они ограничены прямым поиском по семантическим областям и не обладают структурированной логической организацией. Для решения этой проблемы, исследователи стремятся создать более эффективный метод, который мог бы сочетать внешний поиск знаний с логическим выводом. Идея состоит в том, чтобы разбить сложные вопросы на более простые подзадачи, упорядочить их в соответствии с логическими зависимостями, и решать их последовательно, используя предыдущие результаты для направления последующих поисков информации. Такой подход может не только улучшить точность вывода, но и предотвратить распространение ошибок, остановив вывод в случае возникшей неопределённости. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается метод Logic-Augmented Generation (LAG), который сочетает в себе систематическое разбор вопросов на подзадачи и зависимостей между ними. Метод разбивает сложные вопросы на более простые, после чего решает их последовательно, используя ответы на предыдущие подзадачи для улучшения поиска информации и вывода. Такая система построена на принципах, изложенных в труде Декарта "Discours de la m\'ethode", которые подчеркивают важность систематического разбиения сложной задачи на простые компоненты. LAG состоит из нескольких этапов: 1. **Разбор вопросов на подзадачи:** Сложные вопросы разбиваются на атомарные подзадачи, которые организованы в логической последовательности. 2. **Зависимости между подзадачами:** Для каждой подзадачи определяются зависимости от предыдущих решений, что позволяет использовать результаты предыдущих шагов в качестве контекста для последующих. 3. **Логическая терминация:** Если в процессе решения возникает неопределённость или невозможность ответов на подзадачи, LAG останавливает дальнейший вывод, что позволяет избежать распространения ошибок. 4. **Синтез решений:** Все полученные результаты подзадач собираются и проверяются, после чего формируется окончательный ответ. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы провести оценку метода LAG, проведены эксперименты на четырёх различных наборах данных, которые позволяют оценить качество логического вывода и способность модели предотвращать галлюцинации. Результаты показывают, что LAG значительно улучшает точность решения задач, снижает частоту галлюцинаций и обеспечивает более надёжное логическое вывода. В экспериментах LAG сравнивается с традиционными подходами RAG, демонстрируя преимущества в решении задач, требующих сложного логического вывода. Благодаря систематическому разбору подзадач и логической терминации, LAG показывает значительно более высокую точность и согласованность ответов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод LAG имеет широкие возможности применения в областях, требующих высокой точности и логического вывода, таких как медицинский диагноз, юридический анализ, финансовый консультирование и другие знаний-интенсивные сферы. Благодаря способности разбивать сложные вопросы на простые компоненты и проводить последовательный вывод, LAG может улучшить качество решений в этих областях, снизив риск ошибок и галлюцинаций. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый подход к решению задач знаний-интенсивных сценариев, который сочетает логический вывод с внешним поиском знаний. Результаты показывают, что LAG может значительно улучшить качество решений в сравнении с традиционными подходами. Будущие исследования могут сосредоточиться на дальнейшем улучшении методологии, включая расширение её возможностей для работы с более сложными и нечеткими данными, а также применение LAG в реальных системах.

Annotation:

Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks, yet exhibit critical limitations in knowledge-intensive tasks, often generating hallucinations when faced with questions requiring specialized expertise. While retrieval-augmented generation (RAG) mitigates this by integrating external knowledge, it struggles with complex reasoning scenarios due to its reliance on direct semantic retrieval and lack of structured logical organization. Inspired by ...

ID: 2508.05509v1 cs.CL, cs.AI

arXiv PDF

📄 Streamlining Admission with LOR Insights: AI-Based Leadership Assessment in Online Master's Program

2025-08-08

Авторы:

Meryem Yilmaz Soylu, Adrian Gallard, Jeonghyun Lee, Gayane Grigoryan, Rushil Desai, Stephen Harmon

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современной системе высшего образования процесс отбора кандидатов в магистерские программы все еще опирается на традиционные методы оценки, включая стандартизированные тесты и письма рекомендации (Letters of Recommendation - LOR). Несмотря на то, что LORы содержат богатую информацию о личностных качествах, профессиональных навыках и потенциале кандидатов, их анализ остается крайне трудоемким процессом. Приемные комиссии ежегодно сталкиваются с необходимостью обработки сотен и тысяч многостраничных текстовых документов, каждый из которых требует глубокого анализа и интерпретации. Особенно острой эта проблема становится в контексте онлайн-магистерских программ, где географическая удаленность кандидатов усиливает значение объективной оценки их soft skills, в первую очередь лидерских качеств. Исследования показывают, что лидерские навыки играют критически важную роль в успешности выпускников STEM-направлений, однако традиционные методы оценки через LOR зачастую не обеспечивают систематического и объективного анализа этих атрибутов. Существующая практика ручного просмотра рекомендательных писем подвержена человеческому фактору: усталости экспертов, субъективным предпочтениям и временным ограничениям. Это приводит к несогласованности в оценках и потенциальной утрате перспективных кандидатов. Более того, текущие системы не предоставляют структурированной обратной связи кандидатам по конкретным лидерским характеристикам, ограничивая их возможности для профессионального роста. Необходимость в автоматизированном, объективном и масштабируемом решении для анализа LOR стала критически важной для современных образовательных учреждений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения выявленных проблем авторы разработали инновационный инструмент LORI (LOR Insights) - систему искусственного интеллекта для автоматизированной оценки лидерских навыков кандидатов на основе анализа их рекомендательных писем. Система использует передовые методы обработки естественного языка и большие языковые модели, включая RoBERTa и LLaMA, для выявления ключевых лидерских атрибутов. Архитектура LORI основана на многоуровневом подходе к анализу текста. На первом этапе система выполняет предобработку текста, включая токенизацию, лемматизацию и удаление шумовых данных. Затем применяется RoBERTa-модель, обученная на специально подготовленном корпусе рекомендательных писем, для извлечения контекстуальных особенностей текста. Модель использует механизм внимания для идентификации ключевых фраз и концептов, связанных с лидерством. Система специально настроена на выявление трех основных категорий лидерских навыков: командная работа (teamwork), коммуникационные навыки (communication) и инновационность (innovation). Для каждой категории разработаны специфические метки и паттерны распознавания. Процесс обучения модели включал использование техники transfer learning с последующей тонкой настройкой на доменные данные. Для повышения точности классификации применялись методы ансамблирования и кросс-валидации. Особое внимание было уделено проблеме дисбаланса классов в обучающих данных. Авторы использовали стратегию weighted loss function для обеспечения равномерного представления всех категорий лидерских навыков. Кроме того, система включает модуль объяснимости, который генерирует человекочитаемые объяснения для каждого выявленного навыка, что критически важно для обратной связи кандидатам. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексное экспериментальное исследование проводилось на основе реальных данных, полученных от заявителей онлайн-магистерских программ в крупном исследовательском университете. Обучающая выборка включала 2450 рекомендательных писем, каждое из которых было аннотировано экспертами приемной комиссии по трем категориям лидерских навыков. Данные были разделены в соотношении 70/15/15 для обучения, валидации и тестирования соответственно. Для оценки эффективности системы использовались стандартные метрики классификации: точность (precision), полнота (recall) и F1-мера. Ключевые результаты показали исключительную производительность модели: RoBERTa достигла взвешенной F1-оценки 91.6%, при этом точность состав

Annotation:

Letters of recommendation (LORs) provide valuable insights into candidates' capabilities and experiences beyond standardized test scores. However, reviewing these text-heavy materials is time-consuming and labor-intensive. To address this challenge and support the admission committee in providing feedback for students' professional growth, our study introduces LORI: LOR Insights, a novel AI-based detection tool for assessing leadership skills in LORs submitted by online master's program applican...

ID: 2508.05513v1 cs.AI, cs.LG

arXiv PDF

1
2
3388
3389
3390
3391
3392
3402
3403

Показано 33891 - 33900 из 34022 записей