📚 Саммари научных статей из arXiv

Найдено 1732 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Breaking the Conventional Forward-Backward Tie in Neural Networks: Activation Functions

2025-09-11

Авторы:

Luigi Troiano, Francesco Gissi, Vincenzo Benedetto, Genny Tortora

#### Контекст Обучение градиентным сетям обычно подразумевает симметричность между прямой и обратной пропагацией, что приводит к жестким ограничениям на выбор активационных функций. Эти функции должны быть дифференцируемыми (или поддифференцируемыми) и иметь монотонную структуру в определенных регионах, чтобы избежать зон плоских градиентов. Эта симметрия связывает прямую пропагацию с обратной, ограничивая выбор функций, в том числе исключая те, что имеют значительные плоские или недифференцируемые регионы. Наша мотивация заключается в проверке этих ограничений и определении возможности использовать более гибкие модели. #### Метод Мы проводим математический анализ и показываем, что необходимость точного управления градиентами может быть заменена строгим направлением грейдента. Далее, мы используем архитектуры, такие как Multi-Layer Perceptrons (MLPs), Convolutional Neural Networks (CNNs) и Binary Neural Networks (BNNs), для проведения экспериментов. Мы заменяем традиционные градиенты на простые или стохастические альтернативы, при этом сохраняя направление градиента. Эти эксперименты позволяют проверить гипотезу о необходимости симметрии в задачах обучения. #### Результаты Наши эксперименты показали, что сети с активационными функциями, которые являются недифференцируемыми или имеют значительно плоские регионы, такие как Heaviside step function, могут быть эффективно обучены. Мы заметили, что независимость от традиционных градиентов во время обучения не приводит к ухудшению точности и может даже улучшить стабильность и эффективность обучения. #### Значимость Отсутствие симметрии между прямой и обратной пропагацией расширяет гибкость в проектировании нейросетей. Мы показали, что можно применять более простые или недифференцируемые активационные функции, что позволяет экономить ресурсы и улучшать производительность. Это открывает пути к разработке эффективных моделей, которые могут быть применены в сложных задачах, таких как обработка сигналов и рекомендательные системы. #### Выводы Мы показали, что необходимость симметрии в обучении нейросетей может быть существенно смягчена. Наши результаты открывают новые возможности для разработки моделей с недифференцируемыми активационными функциями. Будущие исследования будут сфокусированы на расширении этих нахождений к более сложным архитектурам, таким как Transformer-based модели.

Annotation:

Gradient-based neural network training traditionally enforces symmetry between forward and backward propagation, requiring activation functions to be differentiable (or sub-differentiable) and strictly monotonic in certain regions to prevent flat gradient areas. This symmetry, linking forward activations closely to backward gradients, significantly restricts the selection of activation functions, particularly excluding those with substantial flat or non-differentiable regions. In this paper, we ...

ID: 2509.07236v1 cs.NE, cs.AI, cs.LG

arXiv PDF

📄 Reconstruction Alignment Improves Unified Multimodal Models

2025-09-11

Авторы:

Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang

## Контекст Универсальные модели мультимодальных задач (Unified Multimodal Models, UMM) объединяют в себе возможности визуального понимания и генерации в единой архитектуре. Однако, существующие подходы к обучению используют изображения с капшенами, часто ограничивающимися суперфициальными описаниями, даже при использовании длинных текстовых описят. Такая методология не всегда позволяет глубоко понять визуальные детали. Это вызывает проблемы в точности генерации и редактирования изображений. Мы предлагаем метод Reconstruction Alignment (RecA), который использует визуальные модели уже обученных UMM для генерации "текстовых стимулов" и дополнительной самостоятельной сигнатуры для повышения точности модели. ## Метод RecA является пост-тренировочным методом, который использует бездренировочные модели для повышения качества визуальной генерации. Метод включает в себя три основных этапа: 1) Извлечение визуальных представлений из UMM с помощью подходящего кодировщика. 2) Создание "текстовых стимулов" на основе этих представлений. 3) Оптимизация UMM таким образом, чтобы она смогла реконструировать входное изображение с помощью реконструкционной потери. Этот подход дополняет обучение модели, перенося визуальные модели в тренировочный процесс. Метод RecA широко применяется к разным видам моделей UMM, включая autoregressive, masked-autoregressive, и diffusion-based. ## Результаты Мы провели эксперименты с различными моделями UMM, в том числе с DALL-E 2 и Imagen, чтобы проверить эффективность RecA. Мы использовали данные из GenEval и DPGBench для оценки качества генерации и редактирования изображений. Результаты показали, что применение RecA повысило GenEval-score с 0.73 до 0.90 и DPGBench-score с 80.93 до 88.15. Также были проведены эксперименты на бенчмарках по редактированию изображений, где RecA улучшил результаты на ImgEdit (3.38 до 3.75) и GEdit (6.94 до 7.25). RecA демонстрирует свою эффективность на разных архитектурах и моделях UMM. ## Значимость Предложенный метод RecA может применяться в различных областях, где необходима высокая точность в генерации и редактировании изображений. Это включает такие сферы, как дизайн, медицина, робототехника и т.д. Особенностью RecA является его простота и эффективность: он может быть использован с минимальными ресурсами (только 27 GPU-часов) и применим для улучшения различных UMM. Это делает RecA ценным инструментом для повышения качества моделей, не требуя дополнительных тренировочных данных. ## Выводы Метод Reconstruction Alignment показал свою эффективность в улучшении качества генерации и редактирования изображений в различных моделях UMM. Он является

Annotation:

Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich ...

ID: 2509.07295v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Autonomous Code Evolution Meets NP-Completeness

2025-09-11

Авторы:

Cunxi Yu, Rongjian Liang, Chia-Tung Ho, Haoxing Ren

willingness to pay for a utility bill in the form of cryptocurrencies. --- ## Контекст В последние годы системы управления и анализа данных получили значительный рост благодаря развитию искусственного интеллекта и глубокого обучения. Одним из актуальных направлений является исследование возможностей Легких языковых моделей (LLMs) в области кодирования и автоматизации разработки программного обеспечения. Несмотря на показательные результаты LLMs в изолированных задачах, таких как локальные алгоритмы и программные фрагменты, существует значительный трудность применения этих моделей к более широким исходным кодам, включающим сотни файлов и тысячи строк. Недостаток адаптации делает невозможным полноценное использование LLMs в реальных проектах. В этой статье мы затрагиваем проблему преодоления трудностей в использовании LLMs для выполнения кодовой эволюции на уровне полных репозиториев. Мы покажем, что новые подходы, основанные на Лингвистике и Математическом анализе, позволяют внедрять мощные средства кодовой эволюции в реальные процессы разработки. ## Метод Мы предлагаем SATLUTION — первую фреймворк для кодовой эволюции, основанной на Легких языковых моделях, расширенную до уровня полного репозитория. SATLUTION использует LLM-агентов, которые автоматически адаптируются для эволюции проектов на C/C++, состоящих из сотен файлов и десятков тысяч строк кода. Архитектура SATLUTION включает в себя модели активного управления потоками, систему мониторинга и оптимизации распределенного вычисления, а также механизмы эволюции политик и алгоритмов. Мы применяем SATLUTION к SAT Competition 2024 и показываем, что его реализации не только улучшают результаты лучших решений 2024 года, но и побеждают всех участников SAT Competition 2025. ## Результаты Мы проводим эксперименты на реальном проекте, состоящем из сотен файлов и тысяч строк. Наши результаты показывают, что SATLUTION автоматически улучшает существующие алгоритмы и решения в 40% случаев, достигая результатов, которые превышают решения лучших команд SAT Competition 2025. Мы также проводим эксперименты с другими системами в той же области и показываем, что SATLUTION значительно превосходит все известные альтернативы. ## Значимость Результаты SATLUTION открывают новые горизонты в области разработки программного обеспечения. Мы показываем, что LLM-агенты могут применяться в реальности для решения широкого спектра задач, включая проблемы NP-сложности. Это может привести к существенному повышению эффективности разработки программ и уменьшению человеческих усилий. ## Выводы Мы представляем SATLUTION — первую систему, которая успешно расширяет мощь LLMs на уровень

Annotation:

Large language models (LLMs) have recently shown strong coding abilities, enabling not only static code generation but also iterative code self-evolving through agentic frameworks. Recently, AlphaEvolve \cite{novikov2025alphaevolve} demonstrated that LLM-based coding agents can autonomously improve algorithms and surpass human experts, with scopes limited to isolated kernels spanning hundreds of lines of code. Inspired by AlphaEvolve, we present SATLUTION, the first framework to extend LLM-based...

ID: 2509.07367v1 cs.AI, cs.LG, cs.LO

arXiv PDF

📄 BDPM: A Machine Learning-Based Feature Extractor for Parkinson's Disease Classification via Gut Microbiota Analysis

2025-09-11

Авторы:

Bo Yu, Zhixiu Hua, Bo Zhao

#### Контекст Паркинсоновское заболевание (PD) является одной из наиболее распространенных нейродегенеративных заболеваний, характеризующихся выраженными неврологическими нарушениями. Основные проблемы его диагностики и лечения включают высокие степени неточности субъективных оценок клиническими масштабами, а также трудности в раннем выявлении. Несмотря на то, что недавние исследования подтвердили сильную связь между композицией гастроинтестинальной микробиоты и PD, многие методы раннего прогнозирования недостаточно точны и требуют дополнительного обобщения. Более того, существующие модели часто игнорируют взаимосвязи между микробными стаинами или их динамические изменения. Из-за этого требуется разработка более эффективных методов извлечения признаков, способных учитывать эти аспекты. #### Метод Метод BDPM (A Machine Learning-Based Feature Extractor for Parkinson's Disease Classification via Gut Microbiota Analysis) включает в себя несколько основных этапов. В первую очередь, профили гастроинтестинальной микробиоты были собраны у 39 пациентов с PD и их здоровых супругов. Это позволило выявить таксоны, которые отличаются по абундантности. Второй этап заключался в разработке инновационного фреймворка RFRE (Random Forest combined with Recursive Feature Elimination), который объединяет мощность случайного леса с техникой рекурсивного удаления признаков, усиливая биологическую интерпретируемость. Наконец, в третьем этапе была разработана гибридная модель классификации, которая учитывает как пространственные, так и временные характеристики данных микробиоты. #### Результаты Разработанный метод BDPM продемонстрировал высокую точность в классификации PD. Использование RFRE позволило выделить наиболее важные признаки, связанные с микробными стаинами, и улучшить биологическую значимость результатов. Гибридная модель классификации позволила учесть динамику изменений в микробной композиции, что увеличило точность прогнозирования. Кроме того, тестирование на разных наборах данных подтвердило высокую общую точность и надежность модели в разных условиях. #### Значимость Результаты BDPM открывают новые перспективы для ранней диагностики PD и мониторинга течения заболевания. Модель может быть применена в клинической практике для улучшения точности оценки и уменьшения риска неточных диагнозов. Более того, этот подход может быть распространен на другие нейродегенеративные заболевания, где гастроинтестинальная микробиота играет важную роль. Данная работа не только добавляет новый инструмент в арсенал раннего диагностического оборудования, но также подчеркивает важность учета взаимосвязей в микробной композиции для бо

Annotation:

Background: Parkinson's disease remains a major neurodegenerative disorder with high misdiagnosis rates, primarily due to reliance on clinical rating scales. Recent studies have demonstrated a strong association between gut microbiota and Parkinson's disease, suggesting that microbial composition may serve as a promising biomarker. Although deep learning models based ongut microbiota show potential for early prediction, most approaches rely on single classifiers and often overlook inter-strain c...

ID: 2509.07723v1 cs.AI, cs.LG, q-bio.QM

arXiv PDF

📄 Small Open Models Achieve Near Parity with Large Models in Low Resource Literary Translation at a Fraction of the Cost

2025-09-11

Авторы:

Mihai Nadas, Laura Diosan, Andreea Tomescu, Andrei Piscoran

#### Контекст В последние годы литературная переводка приобрела внимания как сложная и отдельная задача в области машинного перевода. Однако, существуют значительные проблемы с доступностью и качеством малых открытых моделей при переводе литературы. Мы привлекли внимание к этой проблеме, представив TINYFABULIST TRANSLATION FRAMEWORK (TF2) — новую методологию для создания датасетов, файн-тюнинга и оценки перевода литературы. Центральной частью TF2 является модель TF2-12B — компактный, тюнингованный языковой модель, а также два больших синтетических параллельных датасета (DS-TF2-EN-RO-3M и DS-TF2-EN-RO-15K). Наша работа стремится улучшить доступность и качество перевода литературы в низкоресурсных языках, таких как румынский. #### Метод TF2 предлагает универсальную структуру для создания датасетов, тюнинга моделей и оценки перевода. Мы сформировали DS-TF2-EN-RO-3M, составив огромный набор синтетических параллельных фабул для румынского языка. Датасет DS-TF2-EN-RO-15K создан с использованием высокопроизводительной модели LLMs для генерации 15k высококачественных румынских стихотворных переводов. Модель TF2-12B началась с 12 миллиардов параметров и прошла два этапа файн-тюнинга: (i) инструкционный тюнинг для приобщения к жанру, и (ii) адаптерная сжатие для эффективного развертывания. Мы оценивали трансформации с помощью BLEU и пяти-мерного рейтинга, включающего аккуратность, гармонию, стиль и культурные аспекты. #### Результаты Наши результаты показывают, что TF2-12B достигает качества, которое примерно равно качеству топовых моделей, но имеет открытый код и гораздо более низкий затратный показатель. Мы получили высокий уровень подробности, стиля и культурной адаптации, что исключительно важен для литературных переводов. Это открытое решение позволяет улучшить доступ к литературе для тех, кто работает в низкоресурсных языках. #### Значимость TF2 может применяться в различных областях, таких как литературная трансляция, межязыковое рассказывание и раскрытие открытых моделей. Улучшение качества перевода в низкоресурсных языках может способствовать развитию культурного наследия и литературного творчества. Более того, TF2 устанавливает новый стандарт для эффективного и повторяемого исследования в области литературного перевода с помощью открытых моделей. #### Выводы Мы доказали, что TF2 достигает эффективности и качества, которые примерно эквивалентны топовым моделям, но с меньшими затратами. Это открытый инструмент, мотивирующий будущие исследования

Annotation:

Literary translation has recently gained attention as a distinct and complex task in machine translation research. However, the translation by small open models remains an open problem. We contribute to this ongoing research by introducing TINYFABULIST TRANSLATION FRAMEWORK (TF2), a unified framework for dataset creation, fine tuning, and evaluation in English-Romanian literary translations, centred on the creation and open release of both a compact, fine tuned language model (TF2-12B) and large...

ID: 2509.07829v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 GENUINE: Graph Enhanced Multi-level Uncertainty Estimation for Large Language Models

2025-09-11

Авторы:

Tuo Wang, Adithya Kulkarni, Tyler Cody, Peter A. Beling, Yujun Yan, Dawei Zhou

## Контекст Область исследования, сосредоточенная на необходимости точной оценки неопределенности в работе больших языковых моделей (LLMs), особенно в высокорисковых сферах применения, таких как медицина, финансы и юриспруденция. Существующие методы недостаточно учитывают семантические зависимости, а детальные данные по формированию текста часто остаются невзятыми в расчетах. Это приводит к неточности оценки достоверности, чтобы сделать результаты LLM более надежными. GENUINE предлагает структурно-наблюдательную модель для улучшения оценки неопределенности, используя синтаксические зависимости и относительную группировку в графах. Это может дать новый уровень точности и потенциально внести вклад в понимание высококачественных выводов. ## Метод GENUINE (Graph ENhanced mUlti-level uncertaINty Estimation) представляет собой подход, основанный на графах и глубинно настраиваемый. Он использует деревья синтаксических зависимостей для построения графа текста, где узлы представляют слова, а связи — синтаксические зависимости. Эта структура позволяет построить графическую модель, которая активно учитывает не только токенами, но и семантическими отношениями между ними. Метод также включает в себя упрощенный графический пуллинг, чтобы сократить размерность входных данных. Его цель — повысить точность оценки неопределенности, учитывая зависимости в генерируемом тексте. ## Результаты Чтобы проверить эффективность GENUINE, проведены ряд экспериментов на различных задачах естественного языкового процессинга. Модель была сравнена с существующими методами оценки неопределенности, такими как semantic entropy. Наборы данных включили обученные модели, такие как BERT и GPT. Главные результаты показали, что GENUINE демонстрирует до 29% более высокого AUROC (Area Under the Receiver Operating Characteristic Curve) и сокращает ошибки калибровки на 15% в сравнении с текущими лучшими решениями. Эти результаты подтверждают, что GENUINE повышает точность и надежность оценок неопределенности в тексте. ## Значимость GENUINE может быть использована в различных критически важных приложениях, таких как диагностическая помощь, финансовый анализ и проверка документов. Избавление от ошибок калибровки и повышение точности оценки неопределенности может сделать решения, принимаемые на основе LLM, более надежными. Помимо этого, GENUINE может помочь в адаптации моделей для специализированных областей, где необходимо учитывать сложные структуры и семантические зависимости. Эти достижения демонстрируют перспективу графовых моделей для улучшения безопасности и надежности моделей языка. ## Выводы GENUINE представляет собой прорыв в области оценки неопре

Annotation:

Uncertainty estimation is essential for enhancing the reliability of Large Language Models (LLMs), particularly in high-stakes applications. Existing methods often overlook semantic dependencies, relying on token-level probability measures that fail to capture structural relationships within the generated text. We propose GENUINE: Graph ENhanced mUlti-level uncertaINty Estimation for Large Language Models, a structure-aware framework that leverages dependency parse trees and hierarchical graph p...

ID: 2509.07925v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Accelerating Local AI on Consumer GPUs: A Hardware-Aware Dynamic Strategy for YOLOv10s

2025-09-11

Авторы:

Mahmudul Islam Masum, Miad Islam, Arif I. Sarwat

## Контекст Со вслед за развитием локальных систем искусственного интеллекта (AI), возрастает значимость их эффективного развертывания на потребительском железе. Особенно актуальной становится проблема улучшения производительности сложных моделей, таких как YOLOv10s, на устройствах с ограниченными ресурсами, таких как ноутбуки с GPU NVIDIA RTX 4060. Несмотря на то, что модели YOLOv10s обещают реального времени, их настоящая производительность в реальных условиях значительно меньше, что обусловлено ограниченными возможностями таких устройств. Этот вопрос становится критичным для реального применения, так как многие пользователи зависят от ресурсо-ограниченных систем. Таким образом, существует необходимость в разработке более эффективных стратегий реализации AI на потребительском железе. Цель этого исследования — обеспечить более быструю и эффективную работу AI-моделей на устройствах с ограниченными ресурсами, сохранив высокую точность. ## Метод Разработанная стратегия, названная Two-Pass Adaptive Inference, представляет собой модельно-независимое решение, которое не требует изменений в архитектуре модели YOLOv10s. Основной идеей является двухэтапный подход, включающий в себя первый проход с низким разрешением для быстрого определения объектов и второй проход с высоким разрешением только когда необходима точность высокой уверенности. В процессе исследования мы осуществляем сравнительный анализ различных стратегий, включая early-exit и resolution-adaptive routing, чтобы определить их производительность и точность в разных условиях. Основной методологией является адаптивная инференсная стратегия, которая автоматически регулирует разрешение изображения на основе обнаруженных объектов, чтобы сохранить баланс между производительностью и точностью. ## Результаты Мы проводим эксперименты на датасете COCO с 5000 изображениями, сравнивая нашу стратегию с PyTorch Early-Exit baseline. Наша стратегия Two-Pass Adaptive Inference демонстрирует значительный прирост скорости — 1.85x — с минимальным потерями mAP (5.51%). Этот результат показывает, что наши модификации могут быстрее и эффективнее работать на ресурсо-ограниченных устройствах, в то же время сохраняя большую часть точности. Таким образом, мы доказываем, что модели YOLOv10s могут быть эффективно развернуты на потребительском железе, не требуя высокой мощности GPU. Такие результаты подтверждают потенциал нашей стратегии для реального времени AI-развертываний в реальных условиях пользователей. ## Значимость Мы убедились в том, что наш подход может быть применен в различных областях, где необходимы реальность AI-решения на пот

Annotation:

As local AI grows in popularity, there is a critical gap between the benchmark performance of object detectors and their practical viability on consumer-grade hardware. While models like YOLOv10s promise real-time speeds, these metrics are typically achieved on high-power, desktop-class GPUs. This paper reveals that on resource-constrained systems, such as laptops with RTX 4060 GPUs, performance is not compute-bound but is instead dominated by system-level bottlenecks, as illustrated by a simple...

ID: 2509.07928v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Direct-Scoring NLG Evaluators Can Use Pairwise Comparisons Too

2025-09-10

Авторы:

Logan Lawrence, Ashton Williamson, Alexander Shelton

## Контекст В последние годы роль глубоко обученных языковых моделей в анализе и генерации текстов существенно выросла. Эти модели теперь применяются для оценки свободного текста, включая сводки, диалоги и генерацию рассказов. Однако оценка качества такого текста через методики, основывающиеся на сравнениях с реальными данными, часто сталкивается с проблемами, такими как недостаточная точность в абсолютной оценке или трудности в использовании для задач, требующих определения порогов качества. Существующие методы, основанные на сравнении пар, хотя и эффективны в выявлении относительных отличий, часто не могут предоставить абсолютные оценки. Это решаетейми подходом, который использует синтетические сводки для формирования парного рейтинга текстов. ## Метод Метод, предложенный в работе, основывается на генерации синтетических сводных текстов, которые позволяют формировать парные сравнения между машинно-генерированным и гуманно-созданным текстом. Эти синтетические тексты генерируются специальноми для сравнений, чтобы добиться более точной оценки качества. Архитектура метода включает в себя определение множества характеристик, которые используются для сравнения в рамках парных сравнений. Технические решения включают механизмы аггрегации этих характеристик для вычисления абсолютной оценки. Метод работает в реальном времени и позволяет получить не только относительные, но и абсолютные оценки текстов. ## Результаты Результаты экспериментов показали, что предлагаемый подход дает сходные результаты с текущими состояниями технологии в области парных экспериментов. Метрики, такие как axis-averaged sample-level correlations, показали значительные улучшения на бенчмарках SummEval (+0.03) и HANNA (+0.05), хотя на TopicalChat результат оказался незначительно ниже (-0.03). Эти результаты подтверждают, что новый метод может давать абсолютные оценки с разумной точностью без потери в относительных сравнениях. Данные синтетических сводных текстов, использованные в экспериментах, также были опубликованы для поддержки дальнейших исследований. ## Значимость Метод может применяться в различных областях, включая анализ сводных текстов, диалоговых систем, и генерацию рассказов. Он предоставляет значительные преимущества перед текущими методами, так как обеспечивает как относительные, так и абсолютные оценки без издержек на скорость и ресурсы. Это может быть применено в системах, требующих определения порогов качества текста или в анализе массового текста для интеллектуальных систем. Будущие исследования мо

Annotation:

As large-language models have been increasingly used as automatic raters for evaluating free-form content, including document summarization, dialog, and story generation, work has been dedicated to evaluating such models by measuring their correlations with human judgment. For \textit{sample-level} performance, methods which operate by using pairwise comparisons between machine-generated text perform well but often lack the ability to assign absolute scores to individual summaries, an ability cr...

ID: 2509.05440v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Let's Roleplay: Examining LLM Alignment in Collaborative Dialogues

2025-09-10

Авторы:

Abhijnan Nath, Carine Graff, Nikhil Krishnaswamy

## Контекст Коллаборативные диалоги, в которых AI-коллабораторы взаимодействуют с несколькими участниками, становятся важной областью исследования. Большинство существующих методик выравнивания LLMs разрабатываются для простых однопользовательских сценариев, не учитывая сложности многопользовательских, многократных взаимодействий. Эти динамики требуют новых подходов для обеспечения надежности и кредибильности AI в коллаборативных задачах. Мотивацией для данного исследования является значимость создания AI-коллабораторов, которые могут адекватно участвовать в групповых задачах, обеспечивая предсказуемость и эффективность взаимодействия. ## Метод Исследование основывается на использовании метода ролевой игры, где AI-агенты применяются в качестве "friction agent" во время групповых диалогов, стимулируя участников к продолжительному рефлектирующему обсуждению. Модели тренировались с разными настройками, чтобы изучить их влияние на процесс коллаборации. Основной фокус данного исследования лежит на разработке нового фреймворка для оценки эффективности AI-коллабораторов, который измеряет изменения в групповых траекториях, верификацию версий и заключение взаимного договоренности. ## Результаты В ходе экспериментов были проведены несколько ролевых игр с различными моделями AI-агентов, использующими различные методы выравнивания. Участники наблюдали за групповыми диалогами, в которых агенты вносили фракти-интервенции, стимулирующие группу к согласованию и рефлексивному анализу. Оценка проводилась с помощью разработанного квантитативного фреймворка, показавший что метод с friction-aware позволил достичь лучших результатов в достижении общего понимания и достижения задачи в отношении точности решений. ## Значимость Результаты данного исследования демонстрируют, что метод friction-aware может быть применен в различных областях, где требуется улучшение качества коллаборации AI с человеком. Это включает групповые принятия решений, управление проектами и образовательные программы. Главным преимуществом является повышение точности решений и упрощение процесса достижения общих целей, что может увеличить эффективность в работе групп. Данный подход также открывает новые возможности для изучения интерактивных систем в будущих исследованиях. ## Выводы Исследование показало, что friction-aware-approach эффективно повышает уровень коллаборативности в многопользовательских сценариях, стимулируя надежность и точность решений. На основе этого подхода, будущие исследования могут более подробно изучить динамики многопользовательских диалогов и развить новые методы для улуч

Annotation:

As Large Language Models (LLMs) integrate into diverse workflows, they are increasingly being considered "collaborators" with humans. If such AI collaborators are to be reliable, their behavior over multiturn interactions must be predictable, validated and verified before deployment. Common alignment techniques are typically developed under simplified single-user settings and do not account for the dynamics of long-horizon multiparty interactions. This paper examines how different alignment meth...

ID: 2509.05882v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

2025-09-10

Авторы:

Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang

## Контекст Современные модели размытия по-прежнему сталкиваются с рядом значительных проблем при интеграции человеческих предпочтений. Одной из ключевых проблем является то, что многие существующие подходы оптимизируют результат путем многошагового денойзинга с помощью градиентных оценок, что требует больших вычислительных мощностей и ограничивает возможности оптимизации только нескольких шагов размытия. Также существуют проблемы с необходимостью постоянного, оффлайнного адаптирования моделей при оптимизации критериев качества, таких как реализм или точные эффекты освещения. В связи с этими вопросами необходимо разработать методы, которые смогут эффективно решить эти проблемы, обеспечив качественный результат и уменьшая количество вычислительных ресурсов, необходимых для оптимизации. ## Метод Мы предлагаем новый подход, который эффективно решает эти проблемы. Метод Direct-Align позволяет определять предварительную шумовую модель, чтобы восстанавливать исходные изображения с любого шага размытия с помощью интерполяции. Это свойство позволяет избежать овер-оптимизации в последних шагах размытия. Мы также предлагаем Semantic Relative Preference Optimization (SRPO), который формирует на основе текстовых сигналов набор регулярных и отрицательных признаков, чтобы улучшить предпочтения. Такой подход позволяет оптимизировать результат в реальном времени, уменьшая необходимость в оффлайнных адаптациях модели. Эти инновации позволяют оптимизировать модель FLUX, повышая ее реализм и красоту, оцененные людьми, в три раза. ## Результаты Мы провели эксперименты для оценки эффективности наших новых подходов. В ходе этих экспериментов были использованы различные тестовые наборы данных, чтобы проверить качество оптимизированной модели. Результаты показали, что метод Direct-Align позволяет эффективно восстанавливать изображения, даже на поздних этапах размытия, что демонстрирует улучшение вычислительной эффективности. Также, результаты показывают, что с помощью SRPO можно точно настроить результат в зависимости от текстовых признаков, что улучшает качество результата. Наши оптимизации привели к значительным улучшениям в реализме и красоте, согласно оценкам пользователей. ## Значимость Наш подход имеет широкие возможности применения в сферах, где требуется высококачественный результат восстановления изображений с учетом человеческих предпочтений. Например, это может быть применено в области генерации изображений, редактирования, а также в технологиях, требующих точного соответствия критериев качества, таких как реализм и освещение

Annotation:

Recent studies have demonstrated the effectiveness of directly aligning diffusion models with human preferences using differentiable reward. However, they exhibit two primary challenges: (1) they rely on multistep denoising with gradient computation for reward scoring, which is computationally expensive, thus restricting optimization to only a few diffusion steps; (2) they often need continuous offline adaptation of reward models in order to achieve desired aesthetic quality, such as photorealis...

ID: 2509.06942v2 cs.AI, cs.LG

arXiv PDF

1
2
132
133
134
135
136
173
174

Показано 1331 - 1340 из 1732 записей