📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Guilherme Seidyo Imai Aldeia, Daniel S. Herman, William G. La Cava

## КОНТЕКСТ И ПРОБЛЕМАТИКА Гипертоническая болезнь остается одним из ведущих факторов риска сердечно-сосудистых заболеваний и преждевременной смертности во всем мире. Особую тревогу вызывает устойчивая артериальная гипертония (resistant hypertension) — состояние, при котором артериальное давление остается выше целевого уровня несмотря на прием трех антигипертензивных препаратов различных классов, включая диуретик, в оптимальных дозировках. Точная идентификация пациентов с устойчивой гипертонией критически важна для корректировки терапевтических стратегий и улучшения прогноза, однако клинические портреты таких пациентов остаются неоднозначными и сложными для формализации. Традиционные подходы к созданию вычислимых фенотипов (computable phenotypes, CP) — формальных правил для идентификации клинических состояний на основе электронных медицинских записей — требуют значительных ресурсов, включая участие экспертов-клиницистов, ручную разметку больших объемов данных и длительную валидацию. Современные методы машинного обучения, достигающие высокой точности, часто представляют собой "черные ящики", недоступные для интерпретации клиницистами и не позволяющие понять патофизиологические механизмы заболеваний. Большие языковые модели (LLM) продемонстрировали выдающиеся способности в области медицинского консультирования и программирования, однако их потенциал для генерации интерпретируемых вычислимых фенотипов остается практически неизученным. Существующие исследования фокусировались в основном на задачах вопросно-ответного формата и извлечения информации из текста, в то время как возможность автоматической генерации формальных правил для клинических портретов остается открытым фронтиром. Это создает значительный разрыв между возможностями современных ИИ-систем и потребностями клинической практики в масштабируемых, интерпретируемых инструментах поддержки принятия решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали инновационную стратегию "синтез-исполнение-отладка-инструкция" (synthesize, execute, debug, instruct), которая использует возможности больших языковых моделей для генерации и итеративного уточнения вычислимых фенотипов на основе данных-обратной связи. Методология представляет собой многоэтапный процесс, начинающийся с нулевого обучения (zero-shot), при котором LLM генерирует первоначальные правила без предварительных примеров, опираясь исключительно на текстовое описание клинического фенотипа. На этапе синтеза модель получает естественно-языковое описание целевого клинического состояния и генерирует соответствующий код, обычно представленный в виде SQL-запросов или логических выражений. Сгенерированные правила затем исполняются на реальных клинических данных, что позволяет получить предсказания наличия или отсутствия исследуемого фенотипа у пациентов. Используемая вычислительная архитектура включает в себя механизмы безопасного выполнения кода для предотвращения потенциальных уязвимостей и обеспечения конфиденциальности медицинских данных. Ключевым элементом является процесс отладки, при котором результаты исполнения сопоставляются с золотым стандартом или экспертной разметкой. Расхождения между предсказанными и фактическими метками анализируются LLM, которая затем генерирует инструкции для улучшения правил. Этот цикл повторяется итеративно, позволяя модели постепенно уточнять и оптимизировать вычислимые фенотипы. Процесс продолжается до достижения приемлемого уровня производительности или исчерпания заданного количества итераций. Архитектура системы включает компоненты для управления версиями генерируемого кода, логирования всех изменений и обеспечения воспроизводимости результатов. Специальные механизмы предотвращают циклические улучшения и гарантируют конвергенцию процесса. Для обработки сложных случаев реализована система приоритизации ошибок, фокусирующая внимание LLM на наиболее критичных различиях между предсказанными и истинными метками. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование оценивало способность LLM генерировать точные и лаконичные вычислимые фенотипы для шести клинических состояний различной сложности,
Annotation:
Large language models (LLMs) have demonstrated remarkable capabilities for medical question answering and programming, but their potential for generating interpretable computable phenotypes (CPs) is under-explored. In this work, we investigate whether LLMs can generate accurate and concise CPs for six clinical phenotypes of varying complexity, which could be leveraged to enable scalable clinical decision support to improve care for patients with hypertension. In addition to evaluating zero-short...
ID: 2508.05581v1 cs.LG, cs.AI, cs.CL
Авторы:

Yong Du, Yuchen Yan, Fei Tang, Zhengxi Lu, Chang Zong, Weiming Lu, Shengpei Jiang, Yongliang Shen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные автономные агенты, взаимодействующие с графическими интерфейсами пользователя (GUI), сталкиваются с фундаментальной задачей GUI grounding — точного сопоставления естественно-языковых инструкций с конкретными координатами на экране. Эта задача является критически важной для создания универсальных систем автоматизации, способных выполнять сложные многошаговые операции в различных приложениях без предварительного программирования. Существующие подходы к решению проблемы GUI grounding можно условно разделить на две категории. Первая группа методов опирается на обшученное обучение с учителем, требующее масштабных датасетов с пиксельной аннотацией, где каждому GUI-элементу соответствует точная разметка координат. Такие подходы демонстрируют высокую точность, но сталкиваются с фундаментальным ограничением — стоимость и доступность качественной разметки растут экспоненциально с увеличением сложности интерфейсов и разнообразия приложений. Вторая группа методов использует обучение с подкреплением с механизмом вознаграждений, однако требует предварительно размеченных сигналов вознаграждения, что также создает узкое место в виде необходимости создания специализированных метрик эффективности. Ключевым наблюдением авторов статьи стало то, что современные модели, генерируя множественные предсказания для одного и того же GUI-элемента, демонстрируют определенные пространственные паттерны перекрытия. Эти паттерны неявно кодируют сигналы уверенности модели, которые могут быть использованы для более точной локализации без необходимости дополнительной разметки. Это наблюдение открывает принципиально новый путь повышения точности систем GUI grounding за счет использования внутренней структуры предсказаний модели, минуя этапы дорогостоящего аннотирования данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию, основанную на принципиально новой парадигме test-time scaling и test-time reinforcement learning для задачи GUI grounding. Первый компонент системы, GUI-RC (Region Consistency), представляет собой метод масштабирования во время тестирования, который конструирует пространственные сетки голосования на основе множественных семплированных предсказаний для идентификации консенсусных регионов. Архитектура GUI-RC работает следующим образом: для каждого входного изображения GUI и соответствующей языковой инструкции модель генерирует N независимых предсказаний координат целевого элемента. На основе этих предсказаний строится двумерная пространственная сетка, где каждая ячейка получает вес, пропорциональный количеству предсказаний, перекрывающих данную область. Регионы с максимальным перекрытием идентифицируются как области наибольшего консенсуса модели, что позволяет выбрать наиболее надежные координаты без дополнительного обучения. Второй компонент, GUI-RCPO (Region Consistency Policy Optimization), трансформирует паттерны консистентности в сигналы вознаграждения для тестового обучения с подкреплением. Данный метод вычисляет, насколько хорошо каждое индивидуальное предсказание согласуется с коллективным консенсусом, преобразуя это согласование в скалярную функцию вознаграждения. Используя эти само-консистентные сигналы, модель может итеративно уточнять свои выходные данные на неразмеченных данных в процессе инференса. Ключевым техническим новшеством является разработка алгоритма оптимизации политики, который работает исключительно во время тестирования, адаптируя параметры модели к конкретному экземпляру входных данных без градиентного обновления весов основной модели. Это достигается через мета-оптимизацию, где модель учится генерировать более консистентные предсказания для каждого конкретного случая использования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация проводилась на комплексном бенчмарке ScreenSpot, включающем две версии: ScreenSpot-v1 и ScreenSpot-v2. Датасет содержит более 1200 уникальных GUI-экранов из различных категорий приложений, включая веб-интерфейсы, мобильные приложения и настольные программы. Каждый экран аннотирован множеством естественно-языковых инструкций, точно указывающих на конкретные GUI-элементы, что позволяет проводить точную количественную оценку качества grounding. Базовые архитектуры для
Annotation:
Graphical User Interface (GUI) grounding, the task of mapping natural language instructions to precise screen coordinates, is fundamental to autonomous GUI agents. While existing methods achieve strong performance through extensive supervised training or reinforcement learning with labeled rewards, they remain constrained by the cost and availability of pixel-level annotations. We observe that when models generate multiple predictions for the same GUI element, the spatial overlap patterns reveal...
ID: 2508.05615v1 cs.CV, cs.AI, cs.CL
Авторы:

Nuo Chen, Moming Duan, Andre Huikai Lin, Qian Wang, Jiaying Wu, Bingsheng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА Конференции по искусственному интеллекту (ИИ) играют ключевую роль в развитии науки, обмене знаниями и создании академического сообщества. Однако быстрый рост числа участников и публикаций привел к тому, что традиционная централизованная модель конференций стала неустойчивой. Авторы статьи выявляют четыре ключевых проблемы, угрожающие основным целям научного общения, равенства и благополучия сообщества. Во-первых, научная составляющая: за последнее десятилетие количество публикаций на участника конференций выросло более чем вдвое, до среднего значения 4,5 статей в год на автора. Это приводит к перегруженности рецензентов и снижению качества обзоров. Во-вторых, экологический аспект: удовлетворение потребностей конференций влечет за собой значительный ущерб окружающей среде. Углеродный след одной конференции может превышать ежедневные выбросы города-хозяина. В-третьих, психологические последствия: согласно анализу дискурса в онлайн-сообществах, 71% комментариев отражают негативные эмоции, а 35% связаны с проблемами психического здоровья, такими как стресс и выгорание. В-четвертых, логистические ограничения: конференции, такие как NeurIPS 2024, начинают превышать вместительность выбранных площадок, создавая дополнительные трудности для организации и участия. Таким образом, текущая модель централизованных конференций оказывается несовместимой со своими основными задачами, требуя срочных реформ. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новую модель — **Community-Federated Conference (CFC)**. Эта модель разделяет традиционные компоненты конференций на три независимых, но связанных между собой процесса: 1. **Peer Review (научный обзор)**: Обеспечивается глобальной сетью экспертов, которые осуществляют обзор материалов в онлайн-режиме. 2. **Presentation (презентация результатов)**: Результаты исследований представляются в виде видео-презентаций или публикаций в открытых репозиториях, доступных всему миру. 3. **Networking (сетевая деятельность)**: Локальные встречи и мероприятия организуются в разных регионах, позволяя участникам обмениваться идеями и сотрудничать без необходимости долгих перелетов. CFC модель позволяет сочетать масштабность глобальных конференций с гибкостью и устойчивостью локальных инициированных событий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы представляют данные, подтверждающие необходимость реформы. Например, анализ выбросов углерода показывает, что углеродный след одной конференции может быть эквивалентен выбросам нескольких малых городов. Также проведен анализ психологического состояния участников, который показал высокий уровень стресса и неудовлетворенности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CFC модель обеспечивает несколько преимуществ: - **Устойчивость**: Уменьшает зависимость от локаций и ресурсов, необходимых для масштабных мероприятий. - **Включенность**: Позволяет большему числу участников принять участие без финансовых и географических барьеров. - **Экологичность**: Значительно сокращает углеродный след конференций. - **Сохранение качества**: Обеспечивает высокий уровень научного обзора и обмена знаниями без необходимости физического присутствия. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CFC модель представляет собой перспективный подход к решению кризиса централизованных конференций. Она обеспечивает более устойчивую, экологичную и инклюзивную альтернативу, сохраняя при этом высокий уровень научного обмена. Будущие исследования могут фокусироваться на оптимизации локальных событий и разработке технологий для поддержки этой модели.
Annotation:
Artificial Intelligence (AI) conferences are essential for advancing research, sharing knowledge, and fostering academic community. However, their rapid expansion has rendered the centralized conference model increasingly unsustainable. This paper offers a data-driven diagnosis of a structural crisis that threatens the foundational goals of scientific dissemination, equity, and community well-being. We identify four key areas of strain: (1) scientifically, with per-author publication rates more ...
ID: 2508.04586v1 cs.CY, cs.AI, cs.CL
Авторы:

Karthik Menon, Batool Arhamna Haider, Muhammad Arham, Kanwal Mehreen, Ram Mohan Rao Kadiyala, Hamza Farooq

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных системах поиска, особенно в контексте электронной коммерции, ключевым фактором является обеспечение высокой релевантности поисковых результатов. Традиционные методы поиска, такие как BM25 и другие ключевословные подходы, часто сталкиваются с ограничениями в том, что они не учитывают семантические отношения между запросом и документами. Это приводит к появлению шума в результатах поиска и снижению эффективности для конечных пользователей. Дополнительно, существует проблема неструктурированности запросов пользователей, которые могут содержать различные типы информации, такие как названия товаров, характеристики, цены, или другие атрибуты, которые не всегда могут быть эффективно обработаны с помощью традиционных подходов поиска. В контексте Enterprise Search, который широко используется в системах электронной коммерции, эти ограничения становятся еще более критичными. Необходимо разработать более продвинутые методы, которые могут эффективно обрабатывать неструктурированные данные, извлекать семантические элементы и метаданные из запросов пользователей, и предоставлять более точные и релевантные результаты. Одной из возможных путей решения этой проблемы является интеграция семантического поиска с фильтрацией метаданных, что позволяет улучшить качество поиска за счет более точного понимания пользовательских интенций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Query Attribute Modeling (QAM) представляет собой гибридный фреймворк, который объединяет семантический поиск с фильтрацией метаданных для улучшения точности и релевантности результатов поиска. Основная идея QAM заключается в разделении неструктурированных текстовых запросов на структурированные метаданные и семантические компоненты. Это достигается путем автоматического извлечения метаданных и фильтров из запросов, что позволяет уменьшить шум и сосредоточиться на наиболее релевантных элементах. Архитектура QAM включает несколько этапов обработки. Первым шагом является предобработка запроса, в которой используются техники естественного языка для идентификации ключевых компонентов запроса. Затем, QAM применяет модели извлечения метаданных для определения атрибутов товаров, таких как цена, бренд, размер, и т.д., которые могут быть использованы для фильтрации результатов. На следующем этапе, QAM использует семантическую модель для определения связей между запросом и документами, что позволяет выявить релевантные элементы, даже если они не содержат точных ключевых слов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности QAM был использован датасет Amazon Toys Reviews, содержащий около 10 000 уникальных товаров и более 40 000 отзывов. Эксперименты проводились с использованием различных методов поиска, включая BM25, семантический поиск на основе энкодеров, кросс-энкодеры для переранжирования, и гибридный поиск, который комбинирует BM25 и семантические результаты через Reciprocal Rank Fusion (RRF). Результаты показали, что QAM достигает средней точности (mAP@5) в 52.99%, что значительно превосходит результаты других методов. Например, BM25 достигает точности в 38.12%, в то время как семантический поиск на основе энкодеров показывает 46.89%. Эти результаты подтверждают, что QAM является более эффективным подходом для улучшения релевантности поиска в контексте электронной коммерции. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость QAM заключается в его потенциале для улучшения качества поиска в системах электронной коммерции. Благодаря возможности извлекать метаданные и семантические компоненты из запросов, QAM позволяет создавать более точные и целевые результаты поиска, что может повысить удовлетворенность пользователей и повысить конверсию в системах онлайн-торговли. Более того, QAM может быть интегрирован в существующие Enterprise Search системы, что делает его применимым в различных отраслях, где критична точность поиска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, Query Attribute Modeling (QAM) представляет собой эффективное решение для улучшения поисковой релевантности в системах электронной коммерции. Будущие исследования могут фокусироваться на дальнейшем улучшении моделей извлечения метаданных и семантического поиска, а также на расширении применения QAM в других областях, таких как медицинские системы поиска или корпоративные базы данных.
Annotation:
This study introduces Query Attribute Modeling (QAM), a hybrid framework that enhances search precision and relevance by decomposing open text queries into structured metadata tags and semantic elements. QAM addresses traditional search limitations by automatically extracting metadata filters from free-form text queries, reducing noise and enabling focused retrieval of relevant items. Experimental evaluation using the Amazon Toys Reviews dataset (10,000 unique items with 40,000+ reviews and de...
ID: 2508.04683v1 cs.IR, cs.AI, cs.CL, cs.LG
Авторы:

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время репурпозинг (переиспользование) больших моделей визуально-языкового типа (Large Vision-Language Models, LVLMs) в качестве компьютерных управляющих агентов (Computer Use Agents, CUAs) привел к значительным успехам, особенно благодаря использованию человеческих аннотаций. Однако эти модели сталкиваются с серьезными трудностями при работе с новыми и специализированными программными средами, где отсутствуют человеческие аннотации. Такие сценарии требуют более адаптивных и самообучающихся подходов, так как традиционные модели не могут эффективно масштабироваться на незнакомые задачи. Данная проблематика актуальна для области компьютерных агентов, которые должны быть в состоянии самостоятельно осваивать новые среды и приложения, не требуя постоянного человеческого вмешательства. Традиционные подходы, основанные на предварительной подготовке и ручном маркировании данных, ограничивают возможности агентов в динамических и нестандартных средах. Это вызывает потребность в разработке агентов, способных автоматически адаптироваться и эволюционировать через интерактивное обучение. Таким образом, целью данного исследования является создание фреймворка, позволяющего агентам не только функционировать в незнакомых средах, но и продолжать свое развитие и улучшение без необходимости ручного вмешательства. Такой подход может существенно расширить применимость CUAs в реальных условиях использования, где программное обеспечение часто меняется или новое. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанной проблемы, авторы предлагают SEAgent – фреймворк для автономного обучения и эволюции компьютерных управляющих агентов. Основная идея заключается в том, что агенту предоставляется возможность самостоятельно изучать новые программные среды через интерактивное обучение, основанное на экспериментальном опыте. SEAgent состоит из нескольких ключевых компонентов. Первым из них является **World State Model**, который оценивает шаговые траектории агента в процессе его взаимодействия с новой средой. Этот модуль позволяет агенту постепенно оценивать свои действия и корректировать свою политику действий на основе полученных результатов. Второй компонент – **Curriculum Generator**, который генерирует задания для агента с возрастающей сложностью. Это позволяет агенту начинать с простых задач, постепенно продвигаясь к более сложным, что обеспечивает более эффективное обучение. Третьим ключевым элементом является метод обучения **Group Relative Policy Optimization (GRPO)**, который используется для обновления политики агента на основе успешных действий. Дополнительно, агент обучается через **адверсарное имитационное обучение** (adversarial imitation), где он анализирует и избегает неудачных действий. Наконец, SEAgent использует стратегию обучения **specialist-to-generalist**, где специализированные агенты (specialist agents) объединяют свои знания для формирования более универсального (generalist) агента. Этот универсальный агент способен эволюционировать и адаптироваться к новым средам без необходимости дополнительных аннотаций. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов в пяти различных новых программных средах в рамках симуляционной среды OS-World. Для сравнения, был использован конкурентный открытый фреймворк UI-TARS, который также предназначен для управления компьютерными средами. Результаты показали, что SEAgent достиг результата в 34.5% успешных выполнений задач, что значительно превосходит 11.3% успешности UI-TARS. Это представляет собой улучшение в 23.2%, что демонстрирует высокую эффективность подхода SEAgent при работе в незнакомых средах. Кроме того, SEAgent показал лучшие результаты по сравнению с энсемблом из специализированных агентов, что подтверждает преимущества его универсального подхода к обучению. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SEAgent имеет широкий спектр практических применений. Он может быть использован для создания компьютерных агентов, способных автоматически осваивать новые программные среды без необходимости предварительного ручного описания. Это может быть полезно в различных областях, таких как автоматизация рабочего места, управление компьютерными системами и автоматизация рутинных задач. Одним из ключевых преимуществ SEAgent является его способность адаптироваться к нестандартным и непредвиденным ситуациям, что делает его особенно полезным в динамических средах, где программное обеспечение может часто обновляться или изменяться. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, SEAgent представляет собой значительный шаг вперед в области компьютерных агентов, способных автоматически осваивать незнакомые программные среды. Данный фреймворк показал значительное улучшение по сравнению с существующими методами, особенно в сценариях, где человеческие аннотации отсутствуют. В будущем, авторы планируют расширить данный подход для работы в более сложных и реальных средах, а также исследовать возможности интеграции SEAgent с другими технологиями, такими как глубокое обучение и автоматическое планирование задач. Это может открыть новые возможности для создания более универсальных и адаптивных компьютерных агентов.
Annotation:
Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents...
ID: 2508.04700v1 cs.AI, cs.CL, cs.CV, cs.LG, cs.MA, cs.MM
Авторы:

Kisu Yang, Yoonna Jang, Hwanseok Jang, Kenneth Choi, Isabelle Augenstein, Heuiseok Lim

В статье рассматривается проблема нестабильности оценки релевантности в низкоточностных системах поискового поиска, вызвана при использовании низкой точности вычислений. Уменьшение точности приводит к появлению случайных совпадений (spurious ties) между запросом и документами, что существенно влияет на результаты оценки. Для решения этой проблемы предложена новая протокол оценки, включающий два ключевых компонента: **High-Precision Scoring (HPS)** — применение высокоточных вычислений на последнем этапе оценки для разрешения случайных совпадений с минимальными затратами вычислений, и **Tie-aware Retrieval Metrics (TRM)** — метрики, которые учитывают вероятность совпадений и позволяют оценить неопределенность в результатах. Эксперименты на двух наборах данных показали, что HPS значительно снижает нестабильность, а TRM точно восстанавливают ожидаемые значения метрик. Объединение этих подходов обеспечивает более надежную и последовательную оценку в системах низкоточностного поиска.
Annotation:
Lowering the numerical precision of model parameters and computations is widely adopted to improve the efficiency of retrieval systems. However, when computing relevance scores between the query and documents in low-precision, we observe spurious ties due to the reduced granularity. This introduces high variability in the results based on tie resolution, making the evaluation less reliable. To address this, we propose a more robust retrieval evaluation protocol designed to reduce score variation...
ID: 2508.03306v1 cs.IR, cs.AI, cs.CL
Авторы:

Yufei Xue, Yushi Huang, Jiawei Shao, Jun Zhang

**Резюме:** В статье представлен новый метод пост-тренировочной квантовки (PTQ) для эффективной компрессии крупных моделей визуально-языкового моделирования (VLM). Основная проблема заключается в несоответствии модальностей VLM: количество текстовых токенов ограничено, в то время как визуальные токены часто избыточны и излишне детализированы. Традиционные методы PTQ, основанные на гессиане и разработанные для крупных языковых моделей (LLM), не учитывают этот дисбаланс, что приводит к существенным потерям в производительности при применении к VLM. Для решения этой проблемы, авторы предложили VLMQ — фреймворк, оптимизированный для VLM. VLMQ использует объектив, учитывающий важность токенов, и вычисляет усиленный гессиан с токено-зависимыми факторами важности. Это позволяет сохранить эффективность параллелизируемых обновлений весов. Оптимизация выполняется через легковесный блочно-ориентированный бэкпроп, основанный на теоретической связи с токенно-уровневыми возмущениями. Эксперименты на 8 наборах данных показали, что VLMQ достигает нового уровня производительности, особенно при низкобитной квантовке. Например, под 2-битной квантовкой VLMQ показывает повышение производительности на **16.45%** на данных MME-RealWorld.
Annotation:
Post-training quantization (PTQ) has emerged as an effective approach for compressing large models and accelerating their inference without retraining. While PTQ has been extensively studied in the context of large language models (LLMs), its applicability to vision-language models (VLMs) remains underexplored. In this paper, we identify a modality discrepancy (\emph{i.e.}, limited text tokens \emph{vs.} excessive and redundant vision tokens) of VLMs. However, existing Hessian-based LLM PTQ meth...
ID: 2508.03351v1 cs.CV, cs.AI, cs.CL
Авторы:

Michael K. Chen

Данная статья рассматривает проблему ограниченности текущих моделей глубокого обучения (LLMs) в области логического резонанса, особенно в контексте домен-агностических задач. Несмотря на недавний интерес к неуросимволическому AI, который интегрирует логические структуры в нейронные сети, многие модели не обладают достаточной интерпретируемостью и детерминированностью при решении задач логического вывода. Авторы определяют два основных подхода к этой проблеме: интегративный, где символический вывод встроен в нейронные сети, и гибридный, где символический вывод выполняется отдельным символическим решателем. Для сравнения этих подходов, авторы представляют две модели: Logic Neural Network (LNN) для интегративного подхода и LLM-Symbolic Solver (LLM-SS) для гибридного подхода. Исследование показывает, что гибридный подход является более перспективным для развития общего логического резонанса, благодаря более интерпретируемым логическим цепочкам и сохранению преимуществ существующих LLMs. Наконец, авторы предлагают общее, модульное и домен-агностическое фреймворк, основанное на LLM-SS, которое может быть использовано в будущих исследованиях.
Annotation:
General logical reasoning, defined as the ability to reason deductively on domain-agnostic tasks, continues to be a challenge for large language models (LLMs). Current LLMs fail to reason deterministically and are not interpretable. As such, there has been a recent surge in interest in neurosymbolic AI, which attempts to incorporate logic into neural networks. We first identify two main neurosymbolic approaches to improving logical reasoning: (i) the integrative approach comprising models where ...
ID: 2508.03366v1 cs.AI, cs.CL, cs.LG, cs.SC
Авторы:

Wenshuo Zhang, Leixian Shen, Shuchang Xu, Jindu Wang, Jian Zhao, Huamin Qu, Linping Yuan

**Резюме:** При использовании конверсационных LLMs для решения доменных задач пользователи с ограниченными навыками программирования часто сталкиваются с проблемой несоответствия их намерений (intents) с генерируемым кодом. Это связано с двунаправленной неоднозначностью: нелинейные пользовательские намерения и задачи программирования должны быть выражены и интерпретированы через линейные последовательности запросов и кода. Для решения этой проблемы предлагается новый парадигмальный подход — **direct intent-task matching**, который внешне представляет и позволяет манипулировать LLM-пониманием задач программирования до фазы генерации кода. Этот подход реализован в системе **NeuroSync**, которая использует knowledge distillation для извлечения понимания LLM, пользовательских намерений и их сопоставлений, поддерживая интуитивное редактирование через визуализации. Результаты технических экспериментов и юзер-стади (N=12) показали, что NeuroSync улучшает соответствие намерений и задач, сокращает когнитивные затраты и повышает эффективность программирования.
Annotation:
Conversational LLMs have been widely adopted by domain users with limited programming experience to solve domain problems. However, these users often face misalignment between their intent and generated code, resulting in frustration and rounds of clarification. This work first investigates the cause of this misalignment, which dues to bidirectional ambiguity: both user intents and coding tasks are inherently nonlinear, yet must be expressed and interpreted through linear prompts and code sequen...
ID: 2508.02823v1 cs.HC, cs.AI, cs.CL, cs.SE
Авторы:

Hyungjin Kim, Seokho Ahn, Young-Duk Seo

**Резюме** Персонализированная генерация в моделях типа Text-to-Image (T2I) с диффузионными моделями направлена на то, чтобы учесть предпочтения конкретных пользователей в процессе генерации, при этом свести к минимуму необходимость их участия. Тем не менее, современные подходы зачастую основываются на моделировании на уровне текстовых запросов (prompt-level) с помощью крупномасштабных моделей, что ограничивает эффективность персонализации из-за ограниченной емкости входных токенов в моделях T2I. Чтобы решить эту проблему, была разработка метода DrUM, который интегрирует пользовательский профиль с помощью адаптера на базе трансформера для моделирования на уровне условий (condition-level) в латентном пространстве. Этот подход обеспечивает высокую эффективность на крупных датасетах и легко интегрируется с открытыми текстовыми декодерами, совместимыми с популярными фундаментальными моделями T2I, не требуя дополнительной файн-тюнинга.
Annotation:
Personalized generation in T2I diffusion models aims to naturally incorporate individual user preferences into the generation process with minimal user intervention. However, existing studies primarily rely on prompt-level modeling with large-scale models, often leading to inaccurate personalization due to the limited input token capacity of T2I diffusion models. To address these limitations, we propose DrUM, a novel method that integrates user profiling with a transformer-based adapter to enabl...
ID: 2508.03481v1 cs.CV, cs.AI, cs.CL
Показано 1281 - 1290 из 1292 записей