📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Borui Li, Li Yan, Junhao Han, Jianmin Liu, Lei Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Федеративное обучение (Federated Learning, FL) становится все более популярным подходом к совместному обучению моделей машинного обучения, сохраняя при этом конфиденциальность данных. Однако обеспечение безопасности в FL представляет серьезные вызовы, особенно в кросс-девайс сценариях, где устройства имеют различные характеристики и распределения данных. Традиционные методы гомоморфного шифрования (Homomorphic Encryption, HE), используемые для защиты конфиденциальности, характеризуются высокими вычислительными издержками и сложностью адаптации. Selective HE методы, которые частично шифруют модельные параметры с помощью глобального маска, были предложены для снижения вычислительных издержек и упрощения адаптации. Однако в кросс-девайс сценариях, где данные клиентов хетерогенны, эти методы могут приводить к ухудшению производительности и увеличению времени обучения из-за "straggling" клиентов. Кроме того, традиционные подходы часто не могут эффективно балансировать безопасность и производительность в условиях неравномерного распределения данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этих проблем был предложен метод SenseCrypt, который использует подход на основе чувствительности (Sensitivity-guided selective Homomorphic EnCryption) для адаптивного балансирования безопасности и вычислительных издержек в кросс-девайс сценариях FL. Метод состоит из нескольких этапов. Во-первых, был разработан метод кластеризации клиентов на основе их распределений данных. Этот метод использует метрику чувствительности параметров модели для определения схожести данных клиентов. Затем, для каждого клиента в кластере, был разработан механизм оценки, который определяет количество параметров модели, которые могут быть зашифрованы без причинения "straggling". На последнем этапе, для каждого клиента была сформирована и решена многокритериальная оптимизационная задача, целью которой является минимизация вычислительных издержек HE и максимизация безопасности модели. Это позволяет выбирать оптимальный набор параметров для шифрования, сохраняя при этом высокую точность модели и снижая время обучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты были проведены на различных наборах данных для оценки эффективности SenseCrypt по сравнению с традиционными методами HE. Результаты показали, что SenseCrypt успешно защищает модель от современных атак инверсии, обеспечивая при этом высокую точность модели, сравнимую с точностью на IID данных. Кроме того, SenseCrypt значительно сокращает время обучения. В зависимости от набора данных и конфигурации, время обучения было сокращено на 58.4%-88.7% по сравнению с традиционными методами HE. Это подтверждает эффективность предложенного подхода в условиях неравномерного распределения данных и различных характеристик клиентов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SenseCrypt имеет широкое применение в различных областях, где необходимо обеспечить безопасность и конфиденциальность данных во время обучения моделей машинного обучения. Он может быть использован в сферах здравоохранения, финансов, телекоммуникаций и других, где данные часто хранятся на различных устройствах и имеют различные распределения. Преимущества SenseCrypt включают в себя снижение вычислительных издержек, улучшение производительности и сохранение высокой точности модели. Это делает его привлекательным для практического применения в реальных системах FL. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SenseCrypt представляет собой эффективный и практически значимый подход к обеспечению безопасности в кросс-девайс сценариях FL. Он успешно решает проблему высоких издержек и "straggling" клиентов, характерных для традиционных методов HE. В будущем можно рассмотреть дальнейшее улучшение метода, включая оптимизацию для более сложных сценариев и использование более продвинутых метрик для оценки чувствительности параметров модели. Также могут быть исследованы возможности интеграции SenseCrypt с другими методами обеспечения безопасности в FL.
Annotation:
Homomorphic Encryption (HE) prevails in securing Federated Learning (FL), but suffers from high overhead and adaptation cost. Selective HE methods, which partially encrypt model parameters by a global mask, are expected to protect privacy with reduced overhead and easy adaptation. However, in cross-device scenarios with heterogeneous data and system capabilities, traditional Selective HE methods deteriorate client straggling, and suffer from degraded HE overhead reduction performance. Accordingl...
ID: 2508.04100v1 cs.CR, cs.AI, cs.DC
Авторы:

Karrtik Iyer, Manikandan Ravikiran, Prasanna Pendse, Shayan Mohanty

Авторы предлагают решение проблемы несогласия между автоматическими системами оценки и человеческими оценщиками. Они представляют метрику semantic entropy, основанную на разнообразии GPT-4-generated explanations для одного и того же ответа студента. Эта метрика служит proxy для оценки несогласия размышлений между AI и человеком. Авторы рассматривают два вопроса: сходство semantic entropy с несогласием человеческих оценщиков и генерализуемость этой метрики по разным предметным областям. Выводы: semantic entropy может служить interpretable uncertainty signal, улучшая transparency и trustworthiness AI-powered grading. Изучение на ASAP-SAS дало подтверждение того, что этот показатель может значимо варьироваться в зависимости от степени сложности и требований к интерпретации решений.
Annotation:
Automated grading systems can efficiently score short-answer responses, yet they often fail to indicate when a grading decision is uncertain or potentially contentious. We introduce semantic entropy, a measure of variability across multiple GPT-4-generated explanations for the same student response, as a proxy for human grader disagreement. By clustering rationales via entailment-based similarity and computing entropy over these clusters, we quantify the diversity of justifications without relyi...
ID: 2508.04105v1 cs.AI
Авторы:

Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Referring Expression Segmentation (RES) — это задача, направленная на выделение регионов изображения, описанных специфическими справочными выражениями. В последнее время эта область привлекла значительное внимание благодаря появлению Multimodal Large Models (MLLMs), способных эффективно обрабатывать семантическую информацию. Однако, несмотря на их продвинутые способности к пониманию смысла, MLLMs сталкиваются с трудностями в выполнении пиксельно-густых прогнозов, что является ключевой проблемой в RES. Данная проблема усугубляется тем, что существующие подходы либо используют тяжеловесные модели, такие как Segment Anything Model (SAM) с 632 миллионами параметров, либо прибегают к легковесным, но менее точным решениям. Эта дихотомия между производительностью и затратами на вычисления создает существенный барьер для практического применения RES. Основная мотивация данного исследования заключается в том, чтобы преодолевать эту проблему, максимально используя встроенные визуальные детали, инкодированные в визуальном энкодере MLLM, без необходимости дополнительных моделей. Также, требуется эффективное объединение визуальных и семантических функций для повышения точности предсказания масок. Исследование направлено на разработку нового фреймворка, который сочетает высокую точность с низкими затратами на вычисления, обеспечивая баланс между эффективностью и производительностью. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье представлен MLLMSeg — инновационный фреймворк, предназначенный для решения проблемы точности и стоимости в RES. Основные компоненты MLLMSeg включают в себя: 1. **Использование встроенных визуальных деталей**: Фреймворк полностью использует визуальные детали, закодированные в визуальном энкодере MLLM, не требуя дополнительного визуального энкодера. Это снимает необходимость в тяжеловесных дополнительных компонентах, таких как SAM. 2. **Detail-enhanced and Semantic-consistent Feature Fusion (DSFF)**: Этот модуль является ключевым для интеграции визуальных деталей и семантических функций, выводимых из Large Language Model (LLM) в MLLM. DSFF обеспечивает гармоничное слияние этих двух типов информации, улучшая точность предсказания масок. 3. **Легковесный масковый декодер**: Для достижения высокой точности с минимальными затратами, MLLMSeg использует легковесный масковый декодер с всего 34 миллионами параметров. Этот декодер эффективно обрабатывает детализированные пространственные функции из визуального энкодера и семантические функции из LLM, обеспечивая точные предсказания масок. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности MLLMSeg произведены обширные эксперименты, в которых использовались различные наборы данных, специализирующиеся на RES. Результаты показывают, что MLLMSeg превосходит как SAM-based, так и SAM-free решения, достигая высокой точности при значительно меньших вычислительных затратах. Благодаря инновационному подходу к функциональному слиянию и легковесному декодеру, MLLMSeg достигает баланса между производительностью и стоимостью, что делает его привлекательным для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MLLMSeg имеет широкий спектр практических приложений в таких областях, как компьютерное зрение, медицинское изображение и автономные системы. Его способность обрабатывать сложные справочные выражения и точно выделять регионы изображения делает его полезным для задач, требующих высокой точности в работе с визуальными данными. Кроме того, легковесная архитектура MLLMSeg позволяет использовать его на устройствах с ограниченными вычислительными ресурсами, что расширяет его применимость в реальных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, MLLMSeg представляет собой балансирующее решение для RES, которое обеспечивает высокую точность при низких затратах на вычисления. Будущие исследования могут расширить этот подход, оптимизируя его для более широкого спектра задач и улучшая его адаптивность к различным доменным данным.
Annotation:
Reference Expression Segmentation (RES) aims to segment image regions specified by referring expressions and has become popular with the rise of multimodal large models (MLLMs). While MLLMs excel in semantic understanding, their token-generation paradigm struggles with pixel-level dense prediction. Existing RES methods either couple MLLMs with the parameter-heavy Segment Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight pipelines that sacrifice accuracy. To address ...
ID: 2508.04107v2 cs.CV, cs.AI
Авторы:

Yongkang Li, Shengping Xiao, Shufang Zhu, Jianwen Li, Geguang Pu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Реактивная синтезирование систем из логики линейного временного порядка на конечных трассах (LTLf) является важной задачей в области автоматического проектирования реактивных систем. Оно заключается в построении контроллера, который гарантирует выполнение заданной спецификации, заданной в виде LTLf-формулы. Традиционно, это сводится к решению двухуровневой игры над Детерминированным Конечным Автоматом (DFA), построенным из LTLf-спецификации. Однако, построение такого DFA представляет сложную вычислительную задачу, которая является 2EXPTIME-complete в худшем случае. Существующие подходы к решению этой проблемы можно разделить на два ключевых направления. Первый подход заключается в композиционном построении DFA до решения игры, что позволяет использовать минимизацию автомата для снижения сложности вычислений. Однако, этот подход может быть неэффективен при работе с большими спецификациями, которые требуют полного построения автомата. Второй подход — инкрементальное построение DFA в процессе решения игры, что позволяет избежать полного построения автомата, но может привести к неоптимальным решениям из-за отсутствия полной информации о структуре системы. В данной работе авторы предлагают новый композиционный подход, который интегрирует преимущества обоих методов. Он ориентирован на решение задач, где спецификация представляет собой большую конъюнкцию меньших LTLf-формул, что является типичным случаем в практических приложениях. Цель состоит в том, чтобы создать более эффективный фреймворк для синтеза, который мог бы обрабатывать большие и сложные спецификации, избегая неэффективности существующих методов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод основывается на композиционном подходе к синтезу LTLf, который интегрирует процесс композиции с решением игры, а не с построением DFA. Это достигается за счет разбиения спецификации на меньшие компоненты, которые затем компонуются в процессе решения игры. Авторы предлагают два варианта композиции: первый вариант включает в себя предварительную минимизацию и последующую композицию, в то время как второй вариант основывается на инкрементальной композиции в процессе синтеза. Ключевой инновацией является то, что композиция выполняется «на лету», в процессе решения игры, а не заранее. Это позволяет избежать полного построения DFA, тем самым снижая сложность вычислений. Кроме того, предлагается механизм упрощения (pruning) промежуточных результатов, который позволяет уменьшить сложность последующих композиций и обнаруживать невыполнимость спецификации раньше. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предлагаемого метода авторы провели серию экспериментов на различных наборах данных. Эти данные включали в себя большие и сложные LTLf-спецификации, которые характеризовались высокой степенью композиционности. Эксперименты показали, что предлагаемый метод способен решать значительно больше задач, чем существующие методы. В частности, было показано, что оба варианта композиции — предварительная минимизация и инкрементальная композиция — имеют свои преимущества. Предварительная минимизация позволяет достичь большей эффективности в случаях, когда спецификация может быть значительно упрощена, в то время как инкрементальная композиция лучше подходит для динамического управления процессом синтеза. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый фреймворк имеет широкое применение в области автоматического проектирования реактивных систем, особенно в тех случаях, когда спецификации являются крупными и состоят из множества меньших компонентов. Этот подход может быть использован в различных приложениях, таких как автоматизация производственных процессов, разработка автономных систем и проектирование программного обеспечения с высокими требованиями к надежности. Преимущества этого метода заключаются в его способности обрабатывать большие и сложные спецификации, а также в его гибкости, которая позволяет выбирать между различными стратегиями композиции в зависимости от конкретной задачи. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен новый композиционный фреймворк для синтеза LTLf, который интегрирует композицию и решение игры в единый процесс. Этот подход демонстрирует высокую эффективность и способность решать задачи, недоступные для существующих методов. Будущие исследования могут быть направлены на дальнейшее улучшение эффективности метода, в том числе путем разработки более продвинутых методов минимизации и оптимизации процесса композиции. Кроме того, можно изучить возможности применения этого фреймворка к другим типам спецификаций и задач синтеза.
Annotation:
Reactive synthesis from Linear Temporal Logic over finite traces (LTLf) can be reduced to a two-player game over a Deterministic Finite Automaton (DFA) of the LTLf specification. The primary challenge here is DFA construction, which is 2EXPTIME-complete in the worst case. Existing techniques either construct the DFA compositionally before solving the game, leveraging automata minimization to mitigate state-space explosion, or build the DFA incrementally during game solving to avoid full DFA cons...
ID: 2508.04116v1 cs.AI
Авторы:

Ruochen Zhao, Simone Conia, Eric Peng, Min Li, Saloni Potdar

## КОНТЕКСТ И ПРОБЛЕМАТИКА Комплектация графов знаний (Knowledge Graph Completion, KGC) является ключевой задачей в области знаний, особенно в открытых областях, где данные постоянно изменяются. Существующие подходы к KGC часто основываются на предобученных языковых моделях, предварительно созданных запросах или однократном поиске информации. Однако эти методы сталкиваются с существенными ограничениями, особенно когда речь заходит о неизвестных или растущих сущностях, которые часто не представлены в предобученных моделях. Такие сущности могут включать новые личности, компании, события, которые появляются в новостных потоках или других динамических источниках. Традиционные подходы к KGC требуют значительных ресурсов для обучения и часто не могут эффективно адаптироваться к динамическим средам. Они могут некорректно обрабатывать непопулярные или новые сущности, что приводит к неполным или неточным графам знаний. Эта проблема становится особенно критичной в условиях быстро меняющихся информационных сред, где необходимо обеспечить актуальность и полноту графов знаний. Одной из ключевых проблем является невозможность многих существующих методов эффективно использовать динамические и непредсказуемые источники данных, такие как новостные статьи, блоги или социальные сети. Эти источники часто содержат важную информацию о новых сущностях, которая может быть недоступна в предобученных моделях. Таким образом, необходимо разработать новые подходы, которые могут динамически интегрировать информацию из различных источников и обеспечить более полное представление знаний о новых сущностях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается новый фреймворк под названием AgREE (Agentic Reasoning for Emerging Entities), который использует агентское мышление для комплектации графов знаний. Основная идея AgREE заключается в использовании итеративного поиска и многошагового рассуждения для динамического построения троек знаний (knowledge graph triplets). Агентский подход позволяет системе динамически адаптироваться к новым и неизвестным сущностям, используя стратегический поиск информации и рациональное мышление. AgREE работает в несколько этапов. Сначала, агент выполняет поисковые запросы для получения информации о новой сущности. Затем, он проводит многошаговое рассуждение на основе полученных данных, чтобы сформировать новые тройки знаний. Этот процесс позволяет AgREE динамически обновлять граф знаний, не требуя предварительного обучения на конкретных данных. Ключевой особенностью AgREE является его способность обрабатывать непопулярные или недавно появившиеся сущности, которые могут быть не представлены в предобученных моделях. Используя итеративный поиск и многошаговое рассуждение, AgREE может собирать информацию из различных источников и формировать более полные и актуальные графы знаний. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, чтобы оценить эффективность AgREE по сравнению с существующими методами KGC. Эксперименты были проведены на новом бенчмарке, созданном для оценки качества комплектации графов знаний на неизвестных сущностях. Для экспериментов использовались данные из различных источников, включая новостные статьи и веб-страницы. Результаты показали, что AgREE значительно превосходит существующие методы в контексте работы с неизвестными и непопулярными сущностями. В частности, AgREE показал лучшие результаты в построении троек знаний для сущностей, которые не были видны во время предварительного обучения языковых моделей. Повышение качества достигало 13,7% по сравнению с лучшими существующими подходами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод AgREE имеет широкое применение в областях, требующих поддержания актуальности и полноты графов знаний. Например, в сфере новостей, социальных сетей или электронной коммерции, где необходимо быстро реагировать на появление новых сущностей и информации. AgREE может быть использован для создания более динамических и адаптивных систем знаний, которые могут эффективно интегрировать новую информацию из различных источников. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ AgREE представляет собой новый подход к комплектации графов знаний, который сочетает агентское мышление и стратегический поиск информации. Этот подход демонстрирует высокую эффективность в работе с неизвестными и непопулярными сущностями, что является важной проблемой в современных системах знаний. Будущие исследования могут сосредоточиться на дальнейшей оптимизации метода и его интеграции с другими системами обработки знаний.
Annotation:
Open-domain Knowledge Graph Completion (KGC) faces significant challenges in an ever-changing world, especially when considering the continual emergence of new entities in daily news. Existing approaches for KGC mainly rely on pretrained language models' parametric knowledge, pre-constructed queries, or single-step retrieval, typically requiring substantial supervision and training data. Even so, they often fail to capture comprehensive and up-to-date information about unpopular and/or emerging ...
ID: 2508.04118v1 cs.AI, cs.CL
Авторы:

Sangwon Hyun, Hyunjun Kim, Jinhyuk Jang, Hyojin Choi, M. Ali Babar

**Резюме** Статья рассматривает проблему недостаточного исследования эффективных методов взаимодействия с Large Language Models (LLMs) в контексте реальных задач программирования, ограниченных простыми проблемами и выборочными приемами. Авторы предлагают комплексный эксперимент, охватывающий более сложные сценарии, в том числе задачи на уровне проекта, а не только функций. В ходе исследования, в котором приняли участие 36 участников разных уровней подготовки, были оценены 15 основных черт взаимодействия (HLI), влияющих на производительность в генерации кода. Отмечены пять ключевых рекомендаций для улучшения этих процессов и разработана категоризация 29 типов ошибок с предложенными мерами их устранения. Основной вывод: три HLI-функции значительно повлияли на производительность, что демонстрирует значимость широкого изучения воздействия человеко-LLM-интеракций на результативность.
Annotation:
The application of Large Language Models (LLMs) is growing in the productive completion of Software Engineering tasks. Yet, studies investigating the productive prompting techniques often employed a limited problem space, primarily focusing on well-known prompting patterns and mainly targeting function-level SE practices. We identify significant gaps in real-world workflows that involve complexities beyond class-level (e.g., multi-class dependencies) and different features that can impact Human-...
ID: 2508.04125v1 cs.SE, cs.AI
Авторы:

Zhaohong Huang, Yuxin Zhang, Mingbao Lin, Taojian Zhou, Guorong Cai, Rongrong Ji

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Медицинская имиджевая сегментация является ключевой задачей в медицинском образовании и клинической практике, так как она позволяет выделять и классифицировать различные структуры в медицинских изображениях, таких как УЗИ, колоноскопия и микроскопия. Однако, несмотря на значительные успехи в области глубокого обучения, существующие методы сегментации часто сталкиваются с проблемами, связанными с качеством и точностью результатов. Одной из основных причин этих проблем является недостаточная эксплуатация взаимодействия между низкоуровневыми детальными функциями и высокоуровневыми семантическими функциями во время процесса обучения. Традиционные методы глубокого надзора (Deep Supervision Networks) обычно фокусируются либо на детальных низкоуровневых функциях, либо на высокоуровневых семантических функциях, но редко учитывают их взаимодействие. Это может привести к потере важной информации и ухудшению качества сегментации. Кроме того, многие существующие подходы используют жестко заданные параметры для управления силой надзора, что может приводить к под оптимальным результатам. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения указанных проблем, авторы предлагают новую архитектуру под названием DS$^2$Net (Detail-Semantic Deep Supervision Network). Эта архитектура включает два ключевых модуля: Detail Enhance Module (DEM) и Semantic Enhance Module (SEM). DEM работает на низкоуровневых детальных функциях, выделяя мелкие детали изображений, которые могут быть критически важными для точной сегментации. SEM, с другой стороны, фокусируется на высокоуровневых семантических функциях, которые помогают в идентификации более общих структур и форм. Оба модуля работают вместе, чтобы обеспечить комплементарное надзорное обучение, где детальные и семантические функции совместно улучшают качество сегментации. Кроме того, DS$^2$Net вводит новый подход к управлению силой надзора с помощью неопределенности (uncertainty-based supervision loss). Это позволяет адаптивно регулировать силу надзора для различных уровней функций в зависимости от их неопределенности, что помогает избежать под оптимальных решений, которые часто возникают в традиционных методах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на шести различных бенчмарках, включая данные из колоноскопии, УЗИ и микроскопии. Результаты показывают, что DS$^2$Net постоянно превосходит современные методы сегментации в медицинской области. Например, на колоноскопических данных, DS$^2$Net показал значительное улучшение точности сегментации, особенно в выделении мелких деталей. Кроме того, авторы продемонстрировали, что использование неопределенности в качестве меры для регулирования силы надзора позволяет DS$^2$Net достигать лучших результатов по сравнению с традиционными методами, которые используют фиксированные параметры. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ DS$^2$Net имеет широкое применение в медицинской практике. Точная сегментация медицинских изображений критически важна для диагностики и планирования лечения. Например, в колоноскопии, где точность выделения полипов и других аномалий может быть фактором жизни или смерти, DS$^2$Net может значительно улучшить качество диагностики. Благодаря своей способности обрабатывать как детальные, так и семантические функции, DS$^2$Net может быть применен в различных медицинских областях, где высококачественная сегментация имеет решающее значение. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ DS$^2$Net представляет собой новую парадигму в медицинской имиджевой сегментации, которая объединяет детальные и семантические функции в единый фреймворк. Это позволяет достичь лучших результатов по сравнению с традиционными методами. В будущем, исследования могут быть направлены на дальнейшее улучшение архитектуры, включая интеграцию дополнительных модулей для обработки более сложных медицинских данных.
Annotation:
Deep Supervision Networks exhibit significant efficacy for the medical imaging community. Nevertheless, existing work merely supervises either the coarse-grained semantic features or fine-grained detailed features in isolation, which compromises the fact that these two types of features hold vital relationships in medical image analysis. We advocate the powers of complementary feature supervision for medical image segmentation, by proposing a Detail-Semantic Deep Supervision Network (DS$^2$Net)....
ID: 2508.04131v1 cs.CV, cs.AI
Авторы:

Hongyu Guo, Kuan Zhu, Xiangzhao Hao, Haiyun Guo, Ming Tang, Jinqiao Wang

Решение проблемы недостаточной точности в few-shot fine-grained visual classification (FGVC) предлагается в статье UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval. Авторы предлагают UniFGVC — универсальный тренировочно-свободный подход, превращающий FGVC в задачу multimodal retrieval. Используя Category-Discriminative Visual Captioner (CDV-Captioner), они эксплуатируют open-world knowledge multimodal large language models (MLLMs) для генерации структурированных текстовых описаний, отражающих тонкие атрибуты отличающих классов. Эти описания, в сочетании с visually similar reference images, повышают точность и уменьшают hallucination. UniFGVC конвертирует каждую картинку в image-description pair, обеспечивая боRизнее полные feature representations для затемняющегося retrieval pipeline. Отличительным признаком UniFGVC является его обширная совместимость с различными MLLMs и encoders, обеспечивая надежную generalization и adaptability в различных сценариях few-shot FGVC. Эксперименты на 12 FGVC benchmarks подтверждают выдающуюся эффективность UniFGVC по сравнению с предыдущими few-shot CLIP-based и даже several fully-supervised MLLMs-based approaches.
Annotation:
Few-shot fine-grained visual classification (FGVC) aims to leverage limited data to enable models to discriminate subtly distinct categories. Recent works mostly finetuned the pre-trained visual language models to achieve performance gain, yet suffering from overfitting and weak generalization. To deal with this, we introduce UniFGVC, a universal training-free framework that reformulates few-shot FGVC as multimodal retrieval. First, we propose the Category-Discriminative Visual Captioner (CDV-Ca...
ID: 2508.04136v1 cs.CV, cs.AI
Авторы:

Jinghang Han, Jiawei Chen, Hang Shao, Hao Ma, Mingcheng Li, Xintian Shen, Lihao Zheng, Wei Chen, Tao Wei, Lihua Zhang

--- title: МЕТОДЫ И ПРИНЦИПЫ РАБОТЫ --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Улучшение способностей рационализации Больших Языковых Моделей (БЯМ) с помощью обучения с подкреплением (Reinforcement Learning, RL) стало важной проблемой в области искусственного интеллекта. Одним из последних достижений в этой области является DeepSeek R1, который демонстрирует эффективность использования правил для вычисления функций преимущества (advantage functions) и руководства оптимизации политик. Однако существует серьезная проблема, связанная с тем, что когда несколько выборок (samples), полученных под одним призывом (prompt), приводят к одинаковым результатам, правильным или неправильным, групповое преимущество (group-based advantage) становится нулевым. Это приводит к исчезновению градиентов (vanishing gradients) и делает такие выборки бесполезными для обучения, что снижает эффективность обучения и результаты в конечных задачах. Данная проблема вызывает ограничения в обучении, особенно когда речь идет о высокой внутренней согласованности (intra-group consistency) модели. Для решения этой проблемы необходимо разработать метод, который может обеспечить значимые сигналы обучения даже в случаях высокой согласованности результатов, чтобы поощрять генерацию правильных и самосогласованных путей рассуждений (reasoning paths). ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод COPO (Consistency-Aware Policy Optimization), который вводит концепцию согласованности (consistency-awareness) в процесс оптимизации политик. Основная идея заключается в том, чтобы использовать глобальную структуру наград (global reward structure), основанную на согласованности результатов, чтобы обеспечить значимые сигналы для обучения даже в случае высокой внутренней согласованности модели. Ключевым элементом COPO является механизм глобальной потери (global loss), который учитывает согласованность выходных данных модели. Это гарантирует, что даже когда результаты выборок показывают высокую внутреннюю согласованность, процесс обучения по-прежнему получает полезные сигналы, что поощряет модель генерировать правильные и самосогласованные пути рассуждений. Кроме того, в COPO используется механизм энтропийного смягчения (entropy-based soft blending), который адаптивно балансирует между локальным оцениванием преимуществ (local advantage estimation) и глобальной оптимизацией. Этот механизм позволяет динамически переходить между эксплорацией (exploration) и конвергенцией (convergence) в течение процесса обучения, что является важной особенностью для повышения эффективности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного метода проведены эксперименты на нескольких математических задачах рассуждений (mathematical reasoning benchmarks). Результаты показывают значительные улучшения в производительности модели при использовании метода COPO. Особенно выделяется то, что метод позволяет модели генерировать более правильные и самосогласованные пути рассуждений, что является ключевым фактором успеха в таких задачах. Было продемонстрировано, что использование глобальной структуры наград и механизма энтропийного смягчения позволяет модели достичь лучших результатов по сравнению с традиционными методами обучения с подкреплением. Эти результаты подтверждают робастность и общую применимость метода COPO в различных задачах рассуждений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод COPO имеет широкое применение в областях, требующих высокого уровня рассуждений и согласованности, таких как математические задачи, логические выводы и другие комплексные проблемы. Благодаря его способности обеспечить значимые сигналы обучения даже в условиях высокой согласованности результатов, COPO может быть использован для улучшения эффективности обучения моделей в различных приложениях. Преимущества COPO заключаются в том, что он повышает эффективность обучения, позволяя моделям генерировать более точные и согласованные результаты. Это может быть особенно полезно в задачах, где важно получить не только правильные ответы, но и согласованные пути рассуждений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод COPO, который решает проблему ваньшинга градиентов (vanishing gradients) в обучении с подкреплением, связанную с высокой согласованностью результатов. Этот метод предлагает новую структуру наград и механизм энтропийного смягчения, которые обеспечивают значимые сигналы обучения и повышают эффективность процесса. Будущие исследования могут быть направлены на дальнейшее улучшение методов обучения с подкреплением для БЯМ, включая разработку более эффективных методов решения проблем связанных с согласованностью и генерацией правильных путей рассуждений. Также, можно рассмотреть возможность применения метода COPO в других областях, требующих высокого уровня рассуждений и согласованности.
Annotation:
Reinforcement learning has significantly enhanced the reasoning capabilities of Large Language Models (LLMs) in complex problem-solving tasks. Recently, the introduction of DeepSeek R1 has inspired a surge of interest in leveraging rule-based rewards as a low-cost alternative for computing advantage functions and guiding policy optimization. However, a common challenge observed across many replication and extension efforts is that when multiple sampled responses under a single prompt converge to...
ID: 2508.04138v1 cs.LG, cs.AI, cs.CL
Авторы:

Xuan Qi, Rongwu Xu, Zhijing Jin

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время выравнивание больших языковых моделей (LLMs) с желаниями и ожиданиями человека является одной из ключевых задач в области искусственного интеллекта. Для достижения этого выравнивания часто используются методы, такие как Reinforcement Learning from Human Feedback (RLHF) и Direct Preference Optimization (DPO). Однако эти методы требуют больших и дорогостоящих наборов данных, содержащих предпочтения человека, что создает значительные трудности в процессе обучения и подбора данных. Несмотря на то, что существуют различные подходы для выбора данных в задачах обучения с подкреплением, методы выбора высококачественных данных, ориентированных на предпочтения, остаются недостаточно изученными. Традиционные методы выбора данных зачастую не учитывают сложность примеров, что может приводить к неэффективному использованию ресурсов при обучении моделей. Особенно важно выбирать такие примеры, которые представляют большую сложность для модели, так как они могут более эффективно способствовать ее улучшению. В этой связи, разработка методов, основанных на сложности данных, является ключевым направлением для повышения эффективности обучения LLMs. В этой работе авторы предлагают новый метод выбора данных для предпочтений, основанный на механизме неявного вознаграждения DPO. Идея заключается в том, чтобы выбирать примеры, характеризующиеся меньшим неявным вознаграждением, что указывает на большую сложность этих примеров. Такой подход позволяет сосредоточиться на самых проблематичных данных, что потенциально может улучшить качество выравнивания модели и снизить затраты на подбор данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют новую стратегию выбора данных, основанную на механизме неявного вознаграждения DPO. Основная идея заключается в том, чтобы выбирать данные, которые имеют меньший неявный вознагражденный зазор (reward gap). Неявный вознагражденный зазор отражает разницу между ожидаемым вознаграждением для положительных и отрицательных предпочтений. Меньший зазор указывает на более сложные примеры, требующие большего усилия для выравнивания модели. Метод включает в себя несколько этапов. Вначале, данные для предпочтений собираются и оцениваются с помощью механизма DPO, что позволяет вычислить неявный вознагражденный зазор для каждого примера. Затем, выбираются примеры с наименьшим зазором, что указывает на их высокую сложность для модели. Эти выбранные данные используются в процессе обучения модели, что позволяет сосредоточиться на самых сложных случаях и повысить эффективность обучения. Архитектура метода основана на использовании DPO для оценки качества данных. Это позволяет определить, какие примеры лучше всего подходят для обучения, исходя из их сложности. Такая стратегия позволяет сократить объем данных, необходимых для обучения модели, при этом сохраняя высокое качество выравнивания. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предложенного метода. Эксперименты проводились на нескольких наборах данных, связанных с задачами выравнивания LLMs. В экспериментах использовались различные подходы к выбору данных, включая рандомизированный выбор, выбор на основе оценки качества и другие методы. Результаты показали, что метод, основанный на выборе данных с меньшим неявным вознагражденным зазором, показывает значительно лучшие результаты по сравнению с пятью другими базовыми методами. Наибольшее улучшение было достигнуто при использовании только 10% изначальных данных. Это указывает на высокую эффективность предложенного подхода в условиях ограниченных ресурсов. Кроме того, эксперименты показали, что выбор данных на основе сложности приводит к лучшему выравниванию модели с желаниями человека. Модель, обученная на выбранных данных, показала лучшие результаты в задачах выравнивания, что подтверждает эффективность предложенного метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое значение для разработки и обучения LLMs. Он позволяет сократить объем данных, необходимых для обучения модели, при этом повышая качество выравнивания. Это особенно важно в ситуациях, когда ресурсы ограничены, и требуется максимальная эффективность при обучении моделей. Потенциальные области применения включают в себя различные домены, где необходимо выравнивание моделей с желаниями пользователей, такие как чат-боты, системы рекомендаций и системы автоматизированного обучения. Предложенный метод также может быть использован в задачах, требующих высокого уровня точности и качества выравнивания модели с пользовательскими предпочтениями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен новый метод выбора данных для выравнивания LLMs, основанный на механизме неявного вознаграждения DPO. Этот метод показал высокую эффективность в условиях ограниченных данных и ресурсов, позволяя сократить объем данных, необходимых для обучения, при этом сохраняя высокое качество выравнивания. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая разработку более тонких методов оценки сложности данных и их применение в различных доменах. Кроме того, можно исследовать возможности интеграции этого подхода с другими методами выравнивания моделей, такими как RLHF, для достижения еще более высоких результатов.
Annotation:
Aligning large language models (LLMs) with human preferences is a critical challenge in AI research. While methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) are widely used, they often rely on large, costly preference datasets. The current work lacks methods for high-quality data selection specifically for preference data. In this work, we introduce a novel difficulty-based data selection strategy for preference datasets, grounded in the DPO ...
ID: 2508.04149v1 cs.CL, cs.AI, cs.LG
Показано 14111 - 14120 из 14425 записей