📚 Саммари научных статей из arXiv

Найдено 1292 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents

2025-08-13

Авторы:

Tianyi Ma, Yue Zhang, Zehao Wang, Parisa Kordjamshidi

## Контекст Vision-and-Language Navigation (VLN) представляет собой сложное задание, требующее систем извлечения смысла из естественных языковых инструкций и эффективной навигации в развернутых 3D-средах. Несмотря на то, что последние достижения в области VLN были подспорьем широкомасштабной предобученности и расширению данных, существуют значительные проблемы с общую стойкостью, особенно когда требуется повышенное пространственное или временное разумление. Например, существующие агенты часто падают при визуальной и языковой неоднородности, которую представляют незнакомые среды и нестандартные инструкции. Мотивацией для нас является создание более устойчивого и гибкого подхода, который может быть применен в нестандартных сценариях. ## Метод Мы предлагаем SkillNav, модульную архитектуру, включающую в себя структурированные, навыково-ориентированные принципы для взаимодействия с 3D-средами. SkillNav декомпозирует навигацию на независимые атомарные навыки, такие как "Перемещение по высоте", "Распознавание областей и регионов", и "Остановка и пауза". Каждый из этих навыков выполняется специализированным под-агентом. Для того чтобы обеспечить динамическое выбор наиболее подходящего под-агента во время выполнения, мы предложили новый тип Vision-Language Model (VLM)-based router, который используется для множественных действий. Этот модуль, используя визуальные сенсоры и языковые команды, выбирает наиболее подходящий под-агент, ориентируясь на под-цели и историю действий. Основная идея заключается в структурированной модели, которая позволяет роутеру гибко реагировать на изменения в среде. ## Результаты Мы провели эксперименты на двух бенчмарках: R2R и GSA-R2R. На R2R, SkillNav достиг нового состояния технологии с повышенным уровнем производительности в задачах навигации по сложным 3D-средам. На GSA-R2R, что включает нестандартные стили инструкций и неизвестные среды, SkillNav стабильно показал свою способность к генерализации. Мы также провели анализ вариативности наших моделей, продемонстрировав улучшение отдельных навыков и их взаимодействия, что включает в себя наблюдения о том, как каждый под-агент был влиятелен на общую систему. ## Значимость SkillNav может быть применен в сферах, требующих действий в сложных средах, таких как управление роботами, виртуальная реальность и системы помощи при навигации. Наши результаты свидетельствуют о значительных преимуществах, таких как увеличение устойчивости к неизвестным средам, повышение точности распознавания инструкций и упрощение моделей для требовательных задач. Мы также показали, что наш

Annotation:

Vision-and-Language Navigation (VLN) poses significant challenges in enabling agents to interpret natural language instructions and navigate complex 3D environments. While recent progress has been driven by large-scale pre-training and data augmentation, current methods still struggle to generalize to unseen scenarios, particularly when complex spatial and temporal reasoning is required. In this work, we propose SkillNav, a modular framework that introduces structured, skill-based reasoning into...

ID: 2508.07642v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 GLiClass: Generalist Lightweight Model for Sequence Classification Tasks

2025-08-13

Авторы:

Ihor Stepanov, Mykhailo Shtopko, Dmytro Vodianytskyi, Oleksandr Lukashov, Alexander Yavorskyi, Mykyta Yaroshenko

#### Контекст Классификация является одной из самых распространенных задач в искусственном интеллекте, используемой для фильтрации, сортировки и категоризации данных. В современных AI-системах, обрабатывающих огромные объемы входных данных, ключевым требованием является высокая точность и эффективность. Это становится особенно важной для раннего этапа ввода, где ошибки могут повлиять на всю последующую обработку. Динамические изменения потребностей пользователей подчеркивают необходимость моделей с сильными zero-shot и few-shot способностями. Хотя генеративные модели типа LLMs стали стандартом для zero-shot классификации благодаря их гибкости, они страдают от непоследовательного поведения и высокой вычислительной сложности. Cross-encoders, широко используемые в RAG-решениях, страдают от высокой сложности обработки больших наборов меток. Эмбеддинг-базисные способы эффективны, но в трудных сценариях с логическими и семантическими ограничениями часто ограничиваются. Мы предлагаем GLiClass — метод, основанный на GLiNER, который адаптирован для последовательной классификации. Он обеспечивает высокую точность и эффективность, не per-token-based, что позволяет ему сочетать гибкость zero-shot с эффективностью. #### Метод GLiClass основывается на GLiNER (Global-Local Interaction-based NER), архитектуре, которая использует маркированные токены для глобальной интеракции и локальных линейных моделей для семантического сжатия. Для классификации последовательностей мы преобразуем задачу в серию NER-подобных подзадач, используя маркированные токены для всех классов в тренировочных данных. Это позволяет модели воспринимать все вероятности классов в каждом токене как новый мета-класс. Мы также внедрили PPO для обучения моделей с помощью human-in-the-loop, что улучшает качество в случае недостатка данных. Таким образом, GLiClass выполняет сравнение между текстом и мета-классами в целом, что позволяет получать устойчивые и точные результаты в разных условиях. #### Результаты Мы провели эксперименты на нескольких популярных датасетах (AGNews, DBPedia) и сравнили GLiClass с LSTM, Transformer, cross-encoders и embedding-based моделями. Говоря об эффективности, GLiClass показал почти одинаковую точность с моделями типа embedding-based, но с значительно более высокой скоростью. Он также демонстрирует сильные результаты при few-shot обучении, превосходя другие архитектуры в сценариях с недостатком данных. Более того, PPO-обучение демонстрирует его устойчивость в сценариях с необходимостью обучения на основе корпоративного опыта или руководства пользователя. #### Значимость GLiClass может использоваться в широком кругу приложений, включая рекомендательные систем

Annotation:

Classification is one of the most widespread tasks in AI applications, serving often as the first step in filtering, sorting, and categorizing data. Since modern AI systems must handle large volumes of input data and early pipeline stages can propagate errors downstream, achieving high efficiency and accuracy is critical. Moreover, classification requirements can change dynamically based on user needs, necessitating models with strong zero-shot capabilities. While generative LLMs have become mai...

ID: 2508.07662v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

2025-08-13

Авторы:

Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu

## Контекст Одним из ключевых направлений развития языковых моделей является улучшение их возможностей алигментации. Это позволяет моделям лучше понимать и воспроизводить человеческие предпочтения в различных контекстах. Существующие подходы, такие как супервизованная тонкая настройка (SFT) и оптимизация политики с использованием опыта (PPO), имеют свои ограничения. SFT обеспечивает высокую точность, но не может эффективно адаптироваться к новым задачам. PPO, в свою очередь, предлагает более гибкий подход, но требует большого объема вычислительных ресурсов и высококачественных основных моделей. Эти ограничения поднимают вопрос о создании более универсального и эффективного подхода к алигментации. ## Метод Мы предлагаем **GRAO (Group Relative Alignment Optimization)** — унифицированный фреймворк, который объединяет сильные стороны SFT и RL. Фундаментальной идеей является использование **групповой оценки качества** и **относительной алигментации**. Метод включает следующие ключевые компоненты: 1. **Множественное генерирование сравнительного анализа**: модель генерирует несколько вариантов ответов и сравнивает их с помощью внешнего рейтинга, чтобы определить качество. 2. **Новая формула Group Direct Alignment Loss**: включает в себя весовую оценку внутригрупповых отношений, чтобы улучшить точность. 3. **Управление параметрами с учетом справочных данных**: адаптирует модель на основе параметров, которые учитывают предпочтения пользователя в динамическом режиме. Теоретические обоснования подтверждают, что GRAO обеспечивает более эффективную оптимизацию и высокую точность в сравнении с существующими методами. ## Результаты Мы провели эксперименты на множестве задач, включая комплексные задачи выравнивания на основе человеческих оценок. GRAO показал следующие результаты по сравнению с базовыми подходами: - **SFT**: 57.70% дополнительное улучшение в выполнении задач. - **DPO**: 17.65% улучшение в точности. - **PPO**: 7.95% уменьшение времени обучения. - **GRPO**: 5.18% увеличение эффективности. Эти результаты подтверждают эффективность GRAO в решении задач, где требуется быстрая и точная алигментация. ## Значимость GRAO может применяться в таких областях, как диалоговые системы, трансляторы и системы поиска информации. Он обеспечивает: - Более эффективную алигментацию за счет интеграции лучших аспектов SFT и RL. - Улучшенную точность и ресурсоснимаемость, что делает его привлекательным для реальных приложений. - Устойчивость к новым задачам без необходимости частых дорогостоящих тюнингов. ## Выводы GRAO

Annotation:

Alignment methodologies have emerged as a critical pathway for enhancing language model alignment capabilities. While SFT (supervised fine-tuning) accelerates convergence through direct token-level loss intervention, its efficacy is constrained by offline policy trajectory. In contrast, RL(reinforcement learning) facilitates exploratory policy optimization, but suffers from low sample efficiency and stringent dependency on high-quality base models. To address these dual challenges, we propose GR...

ID: 2508.07750v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Pareto Multi-Objective Alignment for Language Models

2025-08-13

Авторы:

Qiang He, Setareh Maghsudi

#### Контекст Large language models (LLMs) в настоящее время широко применяются в реальных сценариях, требующих оптимального баланса между несколькими часто противоречащимися целями, такими как информативность и краткость или полезность и творчество. Однако существующие методы выравнивания LLMs, основанные на reinforcement learning from human feedback (RLHF), оптимизируют модели только по отношению к одной функции награды. Это приводит к довольно жесткому поведению модели, которое не может учесть сложность и разнообразие человеческих предпочтений. Это ограничение снижает гибкость и адаптивность LLMs в реальной жизни, делая необходимым развитие методов многоцелевого выравнивания (MOA). Мы предлагаем Pareto Multi-Objective Alignment (PAMA) — новую, эффективную методологию, которая преобразует задачу многоцелевого оптимизационного RLHF в задачу системы концентрических точек. Это позволяет получать более универсальное и гибкое взаимодействие модели с пользователем. #### Метод PAMA является алгоритмом, основанным на системе концентрических точек, которая достигается за счет преобразования задачи многоцелевого RLHF в задачу аддитивной награды. Она использует технику спроецированного градиентного спуска, которая позволяет достичь высокой скорости расчета. Метод PAMA гарантирует совпадение с решениями многоцелевой оптимизации (MOO), но с меньшим количеством вычислительных ресурсов. Теоретически, PAMA будет работать, пока не будет достигнута точка парето, где ни одну функцию нельзя улучшить без ухудшения другой. Это гарантирует баланс между целями модели. Мы проверяли PAMA по размерам моделей от 125M до 7B параметров, и он показывал высокую эффективность и гибкость в решении MOA проблемы. #### Результаты Мы провели эксперименты с PAMA на моделях с различными размерами параметров, включая 125M, 350M, 1.3B и 7B. Результаты показали, что PAMA эффективно решает задачу многоцелевого выравнивания, создавая балансированные модели, которые соответствуют различным целям пользователей. Наши эксперименты подтвердили, что PAMA не только значительно эффективнее существующих MOO-методов, но и способен быстро решать задачи на больших моделях. В результате, PAMA демонстрирует свою эффективность в живых сценариях, где необходимо быстрое решение MOA-задач. #### Значимость PAMA предлагает новый подход к решению проблемы многоцелевого выравнивания в LLMs, который может быть применен во многих реальных сценариях, где необходимы совместимые решения для нескольких целей. Решение PAMA позволяет использовать модели более гибко, увеличивая их применение в сферах, таких ка

Annotation:

Large language models (LLMs) are increasingly deployed in real-world applications that require careful balancing of multiple, often conflicting, objectives, such as informativeness versus conciseness, or helpfulness versus creativity. However, current alignment methods, primarily based on RLHF, optimize LLMs toward a single reward function, resulting in rigid behavior that fails to capture the complexity and diversity of human preferences. This limitation hinders the adaptability of LLMs to prac...

ID: 2508.07768v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Investigating the Design Space of Visual Grounding in Multimodal Large Language Model

2025-08-13

Авторы:

Weitai Kang, Weiming Zhuang, Zhizhong Li, Yan Yan, Lingjuan Lyu

## Контекст В последние годы многомодальные большие языковые модели (MLLMs) стали центром внимания в искусственном интеллекте, особенно в сфере обработки текста и визуальной информации. Одной из ключевых задач, с которой сталкиваются эти модели, является **визуальная граундинг (Visual Grounding, VG)** — техника, которая позволяет модели ассоциировать текстовые запросы с конкретными объектами на изображениях. Несмотря на то, что существующие модели показали значительные улучшения в этой области, они часто используют различные и несогласованные подходы к оптимизации моделей для VG. Это существенно сковывает их потенциал и затрудняет правильные сравнения между подходами. В данном исследовании мы определились на полной исследовательской диаграмме, чтобы изучить, как различные дизайн-решения влияют на возможности MLLMs в области VG. ## Метод Исследование включает детальный анализ различных дизайн-решений, влияющих на результаты VG в MLLMs. Мы выбрали **LLaVA-1.5** — одну из самых известных моделей MLLMs — для всех экспериментов, чтобы обеспечить выводы, которые могут быть распространены на другие архитектуры. Мы исследовали два главных вопроса: 1. **Изучение визуальных граундинговых парадигм**: Мы оценили разные подходы к визуальной граундинг-оптимизации MLLM, выявив максимально эффективные решения и получив полезные рекомендации для дальнейшей работы. 2. **Оптимизация данных для VG**: Мы проводили абляционные исследования для оптимизации тренировочных данных в VG, чтобы определить, как желательно изменять модель в ходе тренировки. ## Результаты Наши эксперименты показали, что управление различными дизайн-решениями может значительно влиять на результаты VG моделей. Мы обнаружили, что наша оптимизированная модель LLaVA-1.5 показала улучшение в +5.6% / +6.9% / +7.0% на RefCOCO/+/g общих данных по сравнению с исходной версией. Эти результаты указывают на значительный вклад нашего исследования в улучшение качества визуальных граундинговых моделей. ## Значимость Наша работа имеет широкие применения в области многомодального обучения и визуальной граундинг-оптимизации. Она может заинтересовать исследователей, работающих в сфере мультимодальных моделей и технологий обработки текста и изображений. Наши рекомендации могут помочь сократить разрыв между теоретическим потенциалом и практическим применением визуальной граундинг-технологии в MLLMs. Кроме того, наши результаты открывают возможности для дальнейшего исследования в этих областях, в том числе разработки более сложных моделей и улучшения существующих архитектур. ## Вы

Annotation:

Fine-grained multimodal capability in Multimodal Large Language Models (MLLMs) has emerged as a critical research direction, particularly for tackling the visual grounding (VG) problem. Despite the strong performance achieved by existing approaches, they often employ disparate design choices when fine-tuning MLLMs for VG, lacking systematic verification to support these designs. To bridge this gap, this paper presents a comprehensive study of various design choices that impact the VG performance...

ID: 2508.08066v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches

2025-08-13

Авторы:

Jiejun Tan, Zhicheng Dou, Yan Yu, Jiehan Cheng, Qiang Ju, Jian Xie, Ji-Rong Wen

#### ## Контекст В современном бизнесе и науке возрастает нужда в системах, которые могут эффективно искать и анализировать информацию из разных источников. Традиционные поисковые системы, ограниченные одним контекстом (локальным или веб-ресурсам), не могут полностью удовлетворить потребности предприятий, требующих системы, которая умеет объединять результаты поиска из разных источников. В данной статье предлагается решение этой проблемы, разработав фреймворк, который может выполнять поиск в локальных и веб-источниках одновременно, обеспечивая более точные и полные результаты. #### ## Метод Фреймворк **HierSearch** основывается на принципах гибридного подхода, используя два основных уровня: локальный и веб-поиск. Нижний уровень включает два подхода: локальный и веб-поисковые агенты, которые отдельно работают с своими источниками, используя глубокое обучение. Верхний уровень представляет собой планировщика, который координирует действия нижних уровней, обеспечивая контекстуальную связь результатов. Для улучшения качества ответов используется механизм "Кновлдже Рефайнер", который отфильтровывает ненужную или неточную информацию. Фреймворк тренируется с помощью гибридного г DEEP Q-LEARNING. #### ## Результаты В ходе экспериментов были проверены различные сценарии поиска в различных областях: генеральные, финансовые и медицинские. На основе данных были произведены сравнительные тесты с другими подходами, такими как радикальный поиск и многоисточниковый поиск. **HierSearch** показал значительное превосходство в точности поиска и скорости работы. Он был лучше в разы в ситуациях, когда требовалось объединение информации из разных источников. #### ## Значимость Фреймворк может быть применен в различных сферах, где необходим прецизионный поиск, например, в финансовой отрасли для анализа рыночных трендов, в медицине для поиска новых лекарственных препаратов или в образовательных системах для доступа к широкой базе знаний. **HierSearch** предлагает значительные преимущества в скорости и точности, что может привести к улучшению производительности работников и ускорению принятия решений в различных корпоративных задачах. #### ## Выводы В результате исследования был разработан **HierSearch**, продемонстрировавший значительное превосходство перед существующими методами. Будущие исследования будут направлены на улучшение механизма фильтрации, а также на расширение поддерживаемых типов источников информации, включая видео- и аудио-контент. Это может привести к еще большему расширению применений данного фреймворка в различных областя

Annotation:

Recently, large reasoning models have demonstrated strong mathematical and coding abilities, and deep search leverages their reasoning capabilities in challenging information retrieval tasks. Existing deep search works are generally limited to a single knowledge source, either local or the Web. However, enterprises often require private deep search systems that can leverage search tools over both local and the Web corpus. Simply training an agent equipped with multiple search tools using flat re...

ID: 2508.08088v1 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

2025-08-12

Авторы:

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu

## Контекст Суть исследования заключается в развитии самостоятельных агентов, которые взаимодействуют с графическими пользовательскими интерфейсами (GUI) только на основе текстовых инструкций. Это область значимa для развития интеллектуальных систем, которые могут управляться естественным языком. Одна из основных проблем в этой области — точное понимание и алгебраическое сопоставление текстовых инструкций с конкретными элементами GUI. Даже с появлением возможностей, предоставляемых Multimodal Large Language Models (MLLMs), эта задача остается сложной из-за необходимости точного семантического и пространственного соответствия. Несмотря на то, что Reinforcement Learning with Verifiable Rewards (RLVR) успешно оптимизирует пространственную точность, оно недостаточно эффективно для решения проблемы семантического сопоставления. Эти ограничения могут быть преодолены с помощью более эффективных методов по исследованию возможных решений. ## Метод Наша подходящая стратегия — Adaptive Exploration Policy Optimization (AEPO) — представляет собой фреймворк, оптимизирующий стратегию исследования элементов GUI с помощью нейросетевых моделей. Основной идеей является использование многоответной генерации, чтобы расширить область исследований, а затем — систематического влияния Adaptive Exploration Reward (AER), который оптимизирует работу модели на основе логики выбора эффективных путей. AEPO использует теоретически обоснованную формулу U/C, где U — успех, а C — затраты ресурсов. Эта формула позволяет модели фокусироваться на наиболее приоритетных случаях. Модели InfiGUI-G1, обученные с помощью AEPO, имеют два варианта: InfiGUI-G1-3B и InfiGUI-G1-7B. ## Результаты Эксперименты проводились на нескольких конкурентных GUI-benchmarks, позволяющих измерить общую грамотность, пространственную точность и семантический алгебраизм. Модели InfiGUI-G1 показали существенные улучшения в производительности, с достижением роста до 9,0% по сравнению с базовым RLVR. Эти результаты демонстрируют способность AEPO улучшить семантическую точность, даже при сложных сценариях, где RLVR сталкивается с проблемами. Мы также проанализировали время обучения и ресурсы, использованные для подтверждения эффективности нового подхода. ## Значимость Результаты AEPO могут быть применены в различных сферах, где требуется интеллектуальное взаимодействие с GUI — от управления умными домашними устройствами до систем управления бизнес-процессами. Основное преимущество AEPO заключается в том, что он позволяет моделям быстро и эффективно учиться, не теряя точности в пространственной и семантической обработке. Это открывает путь к более широкому применению GUI-агентов в уч

Annotation:

The emergence of Multimodal Large Language Models (MLLMs) has propelled the development of autonomous agents that operate on Graphical User Interfaces (GUIs) using pure visual input. A fundamental challenge is robustly grounding natural language instructions. This requires a precise spatial alignment, which accurately locates the coordinates of each element, and, more critically, a correct semantic alignment, which matches the instructions to the functionally appropriate UI element. Although Rei...

ID: 2508.05731v1 cs.AI, cs.CL

arXiv PDF

📄 Do Ethical AI Principles Matter to Users? A Large-Scale Analysis of User Sentiment and Satisfaction

2025-08-12

Авторы:

Stefan Pasch, Min Chul Cha

## Контекст В последние годы искусственный интеллект (AI) внедряется все более активно в рабочие процессы организаций и повседневные приложения. Это привело к расширению политических и промышленных норм, определяющих принципы этики AI, такие как справедливость, прозрачность и надежность. Несмотря на это, показатели того, насколько эти принципы воспринимаются и ценятся пользователями, остаются неполными. Этот факт мотивирует исследование связи между этичными AI-принципами и удовлетворением пользователей, чтобы понять, как эти принципы влияют на их оценку продуктов AI. ## Метод Для изучения этой проблемы были анализированы более 100 000 отзывов о AI-продуктах с платформы G2. Использовались трансформер-базные языковые модели для измерения тональности отзывов по семи этичным изданиям, определенным Управлением Европейского Союза по Ответственному AI. Эти издания включают: 1) безуклонность, 2) прозрачность, 3) надежность, 4) справедливость, 5) научность, 6) гуманность и 7) социальное благополучие. Этот подход позволил выявить системные отношения между этичными AI-принципами и удовлетворением пользователей. ## Результаты Анализ отзывов показал, что все семь этичных изданий положительно связаны с удовлетворением пользователей. Однако разницы в этой связи существуют в зависимости от роли пользователя и типа продукта. Технические пользователи и оценщики платформ разработки AI чаще обсуждают системные аспекты, такие как прозрачность и управление данными. В то же время нетехнические пользователи и оценщики приложений для конечных пользователей сосредоточены больше на гуманных аспектах, таких как управление человеческим волей и общественное благополучие. Особенно значительным является сильнейшее влияние этики AI на удовлетворение нетехнических пользователей и приложениях для конечных пользователей по всем семь метрикам. ## Значимость Эти находки говорят о важности этикой AI при разработке продуктов. Они подчеркивают необходимость учета контекстных отличий в зависимости от роли пользователя и типа продукта. Эти результаты могут помочь компаниям разрабатывать AI-продукты, которые будут удовлетворять разные потребности пользователей, учитывая их различные представления о значимости этики. ## Выводы Основным достижением этого исследования является доказательство положительного влияния этики AI на удовлетворение пользователей. Будущие исследования должны углубиться в изучение контекстных различий, чтобы создавать более индивидуализированные AI-решения, учитывающие различные потребности пользователей и роли. Это может привести к бо

Annotation:

As AI systems become increasingly embedded in organizational workflows and consumer applications, ethical principles such as fairness, transparency, and robustness have been widely endorsed in policy and industry guidelines. However, there is still scarce empirical evidence on whether these principles are recognized, valued, or impactful from the perspective of users. This study investigates the link between ethical AI and user satisfaction by analyzing over 100,000 user reviews of AI products f...

ID: 2508.05913v1 cs.HC, cs.AI, cs.CL

arXiv PDF

📄 Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

2025-08-12

Авторы:

Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal

#### Контекст В последние годы возросло интерес к созданию систем, объединяющих мощные возможности предсказания и разума текстовых моделей с высококачественным генерированием изображений. Однако существующие методы, призванные объединить эти области, часто сталкиваются с трудностями. Они либо неэффективны в процессе обучения, либо не полностью сохраняют многомодальные способности моделей. Это ограничивает их удобство и применение в реальных задачах. В этом контексте возникает мотивация для разработки эффективных и универсальных методов, объединяющих текстовые и изображения. #### Метод Мы предлагаем Bifrost-1 — универсальный фреймворк, связывающий мультимодальные текстовые модели (MLLMs) и модели размытия (diffusion models) с использованием патч-уровневых встроенных визуальных эмбеддингов CLIP. Эти эмбеддинги генерируются на основе входных изображений и адаптируются с помощью упрощенной версии ControlNet. Для сохранения многомодальных возможностей MLLM, мы добавляем в модель визуальную генерацию, инициализированную оригинальными параметрами модели. Это позволяет Bifrost-1 применять свои визуальные способности в процессе работы. Такое решение обеспечивает высокую эффективность обучения и высокое качество визуального генерирования. #### Результаты Мы проводили эксперименты, используя различные данные и задачи, включая задачи генерирования изображений на основе текста. Благодаря нашему подходу, модель показала сравнительно лучшие результаты по фидбеку пользователей и оценкам визуального качества. Мы также приводим абляционные исследования, подтверждающие эффективность используемых технических решений. #### Значимость Bifrost-1 может быть применен в сферах, где требуется сочетание текстового понимания с высококачественным генерированием изображений. Например, в области создания контента, интерактивных игр или работы с данными. Он обеспечивает высокую эффективность обучения, что снижает затраты ресурсов, и позволяет передавать текстовые концепции в визуальный формат с высоким качеством. #### Выводы Результаты наших исследований подтверждают эффективность Bifrost-1 в сочетании текстовых и визуальных моделей. Наша работа открывает новые пути для будущих исследований в области мультимодальных моделей, снижая затраты времени и ресурсов на их обучение. Мы планируем продолжать работу над улучшением Bifrost-1, в том числе в эффективности, универсальности и расширении его применения.

Annotation:

There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level ...

ID: 2508.05954v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 ThematicPlane: Bridging Tacit User Intent and Latent Spaces for Image Generation

2025-08-12

Авторы:

Daniel Lee, Nikhil Sharma, Donghoon Shin, DaEun Choi, Harsh Sharma, Jeonghwan Kim, Heng Ji

## Контекст Современные технологии развития изображений, основанные на генерирующих моделях АИ, стали доступными для широкой публики. Однако существующие инструменты часто не полностью учтут неявный (таинственный) творческий интент пользователей, особенно для неквалифицированных пользователей. Это ограничивает возможности быстро и эффективно реализовать свои творческие идеи. Для решения этой проблемы необходимо создать инструмент, который бы позволил пользователям легко манипулировать семантическими концепциями, такими как настроение, стиль или тематическая ориентация, не прибегая к явной формулировке сложных запросов. ## Метод Мы предлагаем ThematicPlane — систему, которая использует взаимодействие с пользователем в гибкой интерактивной среде, где можно манипулировать семантическими концепциями. ThematicPlane характеризуется следующими ключевыми компонентами: (1) тематический ползунок, который позволяет перемещаться по высокоуровневым семантическим концепциям; (2) система многоугольников, которая отображает динамическую интерактивную палитру тематических концепций; (3) интерактивный процесс модификации, который позволяет редактировать разные аспекты генерируемых изображений, включая настроение, стиль и тематику. Это сочетание элементов обеспечивает пользователям более точный и интуитивный способ выражения творческого интента. ## Результаты Мы провёряли ThematicPlane в экспериментальных условиях с участием 6 участников. Они проводили работу в 2 режимах: развития идеи (дивергентный) и синтеза решения (конвергентный). Участники могли свободно манипулировать семантическими концепциями, использовать их как отправную точку для творчества и реагировать на неожиданные результаты. Однако в результате исследования выяснилось, что некоторые пользователи столкнулись с проблемами в понимании того, как именно семантические концепции будут отображаться на выходных изображениях. Это подчеркивает необходимость более четкого отображения и лучшей поддержки пользователей в этом смысле. ## Значимость ThematicPlane предлагает новый подход к интерактивному проектированию, объединяя легкость использования с высокой гибкостью. Он может быть применен в различных областях, включая творческое дизайнерское проектирование, визуальное оформление и графическое проектирование. Особые преимущества ThematicPlane заключаются в том, что он позволяет пользователям быстро и эффективно реализовать свои идеи, а также открывает новые возможности для интерактивного творчества с помощью генерирующих моделей АИ. ## Выводы ThematicPlane доказал свою эффективность в помо

Annotation:

Generative AI has made image creation more accessible, yet aligning outputs with nuanced creative intent remains challenging, particularly for non-experts. Existing tools often require users to externalize ideas through prompts or references, limiting fluid exploration. We introduce ThematicPlane, a system that enables users to navigate and manipulate high-level semantic concepts (e.g., mood, style, or narrative tone) within an interactive thematic design plane. This interface bridges the gap be...

ID: 2508.06065v1 cs.HC, cs.AI, cs.CL, cs.CV, H.5.2; I.2.7

arXiv PDF

1
2
121
122
123
124
125
129
130

Показано 1221 - 1230 из 1292 записей