📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Yiheng Liu, Junhao Ning, Sichen Xia, Xiaohui Gao, Ning Qiang, Bao Ge, Junwei Han, Xintao Hu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) являются мощными инструментами в области естественного языка, но их развертывание в реальных приложениях часто сталкивается с проблемами, связанными со скоростью выполнения и потреблением GPU-памяти. Одним из ключевых подходов к решению этих проблем является структурная обрезка (structured pruning), которая позволяет сократить размер модели, удаляя менее важные единицы структуры, такие как нейроны или связи между ними. Однако существующие методы structured pruning часто игнорируют важный аспект LLMs — взаимодействие и сотрудничество между искусственными нейронами, которые критически важны для функциональности моделей. Традиционные подходы к обрезке основываются на оценке важности отдельных единиц структуры, но не учитывают макроскопическую архитектуру функциональных сетей в LLMs. Такой подход может привести к разрушению важных функциональных взаимосвязей, что, в свою очередь, снижает эффективность самой обрезки. Чтобы решить эту проблему, необходимо рассмотреть LLMs как комплексные системы, где взаимодействие между нейронами играет ключевую роль в поддержании их функциональности. Вдохновленные природными аналогами, такими как функциональные нейронные сети человеческого мозга, авторы предлагают новый подход к обрезке LLMs. Этот подход основывается на идентификации и сохранении функциональных сетей внутри модели, что позволяет сохранить ключевые функции модели даже после существенной её компрессии. Такой метод предлагает более глубокое понимание внутренней структуры LLMs и может повысить эффективность их работы в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках этого исследования авторы предлагают метод обрезки LLMs, основанный на идентификации и сохранении функциональных сетей. Они рассматривают LLMs как "цифровой мозг", который можно разбить на функциональные сети, аналогично тому, как в области нейроимеджинга идентифицируют функциональные сети мозга. Этот подход позволяет выделить ключевые нейроны, которые играют важную роль в обеспечении функциональности модели. Первым шагом является декомпозиция LLMs на функциональные сети. Для этого используются методы, аналогичные тем, что применяются в нейроимеджинге для анализа мозговых сетей. После идентификации этих сетей, авторы сохраняют ключевые нейроны, необходимые для поддержания функциональности сетей. Затем происходит фаза обрезки, в которой удаляются менее важные нейроны, не входящие в функциональные сети. Этот подход позволяет сократить размер модели, сохранив при этом её функциональность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предлагаемого метода. Для этого использовались различные датасеты и модели LLMs. Результаты показали, что предлагаемый метод успешно идентифицирует и сохраняет функциональные сетей в LLMs, что приводит к более эффективной обрезке моделей. Кроме того, эксперименты показали, что сохранение ключевых нейронов внутри функциональных сетей позволяет сократить размер модели без существенного ухудшения качества её производительности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод обрезки LLMs имеет значительный практический потенциал. Он может быть применен для ускорения выполнения моделей и снижения потребления GPU-памяти, что делает LLMs более доступными для реального времени и мобильных приложений. Кроме того, этот подход может быть использован для оптимизации LLMs в различных доменах, где важна высокая скорость выполнения и низкие требования к ресурсам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предлагаемый метод обрезки LLMs представляет собой значительный шаг вперед в области компрессии моделей. Он не только позволяет сократить размер моделей, но и сохраняет их функциональность благодаря идентификации и сохранению ключевых функциональных сетей. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода и его применении к более широкому кругу задач и моделей.
Annotation:
Structured pruning is one of the representative techniques for compressing large language models (LLMs) to reduce GPU memory consumption and accelerate inference speed. It offers significant practical value in improving the efficiency of LLMs in real-world applications. Current structured pruning methods typically rely on assessment of the importance of the structure units and pruning the units with less importance. Most of them overlooks the interaction and collaboration among artificial neuron...
ID: 2508.05239v1 cs.CL, cs.AI, cs.LG
Авторы:

Basna Mohammed Salih Hasan, Ramadhan J. Mstafa

## КОНТЕКСТ И ПРОБЛЕМАТИКА Классификация пола является важной областью в различных приложениях, таких как слежение и наблюдение, корпоративное профайлинг, и взаимодействие человека с компьютером. Определение пола человека представляет собой форму мягкой биометрии, которая помогает в идентификации личности. За последние годы было разработано множество методов для определения пола, основанных на различных физических признаках, таких как лицо, отпечатки пальцев, отпечатки ладони, ДНК, ухо, шаг и рост ребра. Однако методы, основанные на физических характеристиках лица, являются самыми популярными и широко используемыми. Одним из наиболее перспективных биометрических признаков является рост ребра. Исследования показали, что рост ребра остается вероятно константным на протяжении всей жизни человека. Кроме того, рост ребра виден извне и не требует вторжения в организм пользователя, что делает его удобным и практичным для реальных приложений. Доступны хорошо разработанные методы для сегментации и кодирования изображений роста ребра, что облегчает выбор и извлечение векторов атрибутов из текстур роста ребра. Однако, несмотря на широкое распространение методов классификации пола, существуют некоторые проблемы и пробелы в этой области. Например, многие существующие методы страдают от недостатков в точности и надежности, особенно при работе с большими и разнообразными наборами данных. Кроме того, существует потребность в более глубоком анализе и сравнении различных подходов для классификации пола, чтобы понять их сильные и слабые стороны. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данном исследовании предлагается детальный обзор и анализ различных методов классификации пола, основанных на росте ребра. Авторы предоставляют подробное описание методологий, используемых на различных этапах классификации пола. Обзор включает в себя различные подходы к сегментации и кодированию текстур роста ребра, а также методы извлечения и выбора векторов атрибутов. Авторы также обсуждают различные методы классификации, используемые в предыдущих исследованиях, и анализируют их эффективность. Они предлагают новые подходы и улучшения для существующих методов, направленные на повышение точности и надежности классификации пола. Кроме того, исследование охватывает использование различных алгоритмов машинного обучения и глубокого обучения для улучшения процесса классификации. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проводятся эксперименты с использованием различных наборов данных для оценки эффективности предлагаемых методов. Авторы используют как синтетические, так и реальные данные для тестирования и сравнения различных подходов к классификации пола. Результаты экспериментов показывают, что предлагаемые методы могут достигать высокой точности классификации, особенно при использовании современных методов машинного обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Классификация пола имеет широкое применение в различных областях, таких как безопасность, маркетинг, и медицинские исследования. Использование роста ребра как биометрического признака предоставляет некоторые преимущества, такие как неинвазивность и константность на протяжении жизни. Это делает его привлекательным для практических приложений, где необходима высокая точность и надежность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В исследовании представлены основные достижения в области классификации пола на основе роста ребра. Авторы выделяют значительные улучшения в точности и надежности методов, а также предлагают направления для будущих исследований. Они подчеркивают необходимость дальнейшего исследования и разработки более эффективных методов для обработки и анализа текстур роста ребра. Кроме того, исследование выделяет необходимость в создании более крупных и разнообразных наборов данных для тестирования и улучшения методов классификации пола.
Annotation:
Gender classification is attractive in a range of applications, including surveillance and monitoring, corporate profiling, and human-computer interaction. Individuals' identities may be gleaned from information about their gender, which is a kind of soft biometric.Over the years, several methods for determining a person's gender have been devised. Some of the most well-known ones are based on physical characteristics like face, fingerprint, palmprint, DNA, ears, gait, and iris. On the other han...
ID: 2508.05246v1 cs.CV, cs.AI, cs.LG
Авторы:

Sahar Salimpour, Lei Fu, Farhad Keramat, Leonardo Militano, Giovanni Toffetti, Harry Edelman, Jorge Peña Queralta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено новой парадигме создания автономных робототехнических систем, в которой роль центрального интеллекта играют фундаментальные модели — большие языковые модели (LLM) и зрительно-языковые модели (VLM). Традиционные подходы к построению поведения роботов опирались на жёстко заданные правила, конечные автоматы или узкоспециализированные нейросети, способные решать лишь заранее предопределённые задачи в ограниченных средах. Однако стремительное развитие фундаментальных моделей, обученных на масштабных интернет-данных, открыло возможность перенести универсальные способности к обобщению, рассуждению и пониманию естественного языка в физический мир. Появление моделей типа GPT-4, PaLM-E или Flamingo позволяет роботу интерпретировать человеческие инструкции в свободной форме, формировать высокоуровневые планы, запрашивать дополнительную информацию и даже самостоятельно исправлять ошибки. Однако интеграция этих моделей в реальные робототехнические системы сталкивается с рядом фундаментальных проблем. Во-первых, LLM/VLM демонстрируют «галлюцинации» и могут выдавать небезопасные или невыполнимые команды. Во-вторых, языковые модели оперируют токенами, тогда как роботам необходимы низкоуровневые сигналы управления (торques, joint angles, end-effector poses). В-третьих, отсутствует единая методология классификации и сравнения подходов: одни работы используют LLM как высокоуровневого планировщика, другие — как генератора кода, третьи — как унифицированный интерфейс к набору специализированных API. Наконец, поле развивается столь стремительно (еженедельно появляются новые open-source проекты, ROS-пакеты и промышленные фреймворки), что традиционные обзоры быстро устаревают. В статье предпринята попытка систематизировать как академические публикации, так и практические наработки сообщества, выделив архитектурные паттерны и предложив таксономию, способную вместить даже экспериментальные прототипы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию. На первом уровне формулируется таксономия, разделяющая все существующие решения по четырём осям: (1) «роль агента», (2) «глубина интеграции модели», (3) «уровень абстракции действий» и (4) «механизм обратной связи». Роль агента охватывает категории «планировщик» (LLM формирует последовательность подзадач), «координатор» (модель выбирает, какой из доступных модулей вызвать), «перцептор» (VLM извлекает семантику из сенсорных данных) и «универсальный интерфейс» (единая точка взаимодействия оператора и системы). Глубина интеграции варьируется от лёгкого «prompt-only» (LLM вызывается как внешняя API без дообучения) до «deep fine-tuning», где модель полностью переобучается на робототехнических датасетах. Уровень абстракции действий разделяет высокоуровневые символьные команды (например, «открой дверь»), среднеуровневые примитивы («схватить ручку») и низкоуровневые сигналы управления (joint torques). Обратная связь может быть лингвистической (успешность задачи описывается текстом), визуальной (сравнение «до/после» кадров) или цифровой (метрики измеряются скалярно). На втором уровне строится сравнительная таблица из 100+ проектов: от ранних работ 2022 года (PaLM-SayCan) до свежих open-source решений вроде ROS 2 GPT Integration или NVIDIA Isaac LLM Agent. Для каждого проекта фиксируется стек ПО (ROS 2, MoveIt, custom simulators), используемые модели (OpenAI GPT-4, Google PaLM-E, open-source LLaVA), типы сенсоров, пространство действий и репортированные метрики. Кроме того, авторы выделяют три архитектурных паттерна: (A) «LLM as Code Generator» (модель пишет Python-скрипты, которые затем исполняются средой), (B) «LLM as Policy Prior» (языковая модель задаёт распределение вероятностей над примитивами, которые уточняются RL или MPC), (C) «LLM as World-Model» (модель имитирует последствия действий и выбирает оптимальные). Предложенная таксономия динамическая: каждый новый проект может быть классифицирован по четырём признакам за
Annotation:
Foundation models, including large language models (LLMs) and vision-language models (VLMs), have recently enabled novel approaches to robot autonomy and human-robot interfaces. In parallel, vision-language-action models (VLAs) or large behavior models (BLMs) are increasing the dexterity and capabilities of robotic systems. This survey paper focuses on those words advancing towards agentic applications and architectures. This includes initial efforts exploring GPT-style interfaces to tooling, as...
ID: 2508.05294v1 cs.RO, cs.AI, cs.LG
Авторы:

Jiameng Huang, Baijiong Lin, Guhao Feng, Jierun Chen, Di He, Lu Hou

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Reasoning Language Models (LRLMs) стали важной составляющей для решения сложных задач вывода, используя методы chain-of-thought reasoning. Эти модели генерируют длинные последовательности логических шагов, обычно спускаясь в детали, чтобы достичь более точных решений. Однако, эффективность такого подхода становится все более проблематичной по причине растущего количества циклов рефлексии, вызванных определенными триггер-словами, такими как "Wait" («Ждите») и "Alternatively" («Иначе»). Эти рефлексивные поведения, хоть и помогают улучшить результаты в некоторых случаях, часто приводят к **overthinking problem** – генерации избыточных шагов вывода, которые не несут дополнительной полезности, но значительно увеличивают количество токенов, время выполнения и стоимость вычислений. Проблема в том, что излишняя рефлексия может не только повысить затраты на вычисления, но и ухудшить практическую применимость LRLMs, особенно в ситуациях, где время отклика и эффективность критичны. Таким образом, необходимо разработать методы, которые бы позволили контролировать и оптимизировать процесс рефлексии в моделях, сохраняя при этом высокое качество результатов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье авторы предлагают метод под названием **Certainty-Guided Reflection Suppression (CGRS)**, который направлен на уменьшение излишней рефлексии в LRLMs. Основная идея заключается в том, чтобы динамически подавлять генерацию рефлексивных триггеров в моменты, когда модель выражает высокую уверенность в своем текущем ответе. Это позволяет избежать ненужных циклов рефлексии без ущерба для качества вывода. CGRS работает как дополнение к существующим autoregressive generation pipelines, не требуя модификации архитектуры модели или дополнительного тренировочного процесса. Алгоритм основывается на оценке уверенности модели в каждом шаге вывода. Если уровень уверенности превышает заданный порог, то генерация рефлексивных триггеров прекращается, что эффективно предотвращает излишнюю генерацию. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на четырех различных бенчмарках резонанса: **AIME24**, **AMC23**, **MATH500** и **GPQA-D**. Результаты показали, что CGRS способен значительно сократить количество токенов, необходимых для генерации ответов, при этом сохраняя точность вывода. В среднем, эффективность сокращения токенов составила от 18.5% до 41.9% в зависимости от задачи и модели. Кроме того, эксперименты показали, что CGRS эффективен на различных архитектурах моделей (DeepSeek-R1-Distill, QwQ-32B, Qwen3) и в различных диапазонах размеров моделей (от 4B до 32B параметров). Это демонстрирует универсальность и скалируемость метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CGRS имеет значительное практическое значение для повышения эффективности LRLMs в реальных приложениях. Уменьшение количества токенов не только снижает вычислительные затраты, но также улучшает время отклика моделей, что критично для задач, требующих быстрых решений. Кроме того, метод легко интегрируется в существующие пайплайны, что делает его пригодным для широкого круга приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод CGRS, который эффективно снижает излишнюю рефлексию в LRLMs, сохраняя при этом высокий уровень точности. Будущие исследования могут фокусироваться на дальнейшей оптимизации таких моделей, в том числе на адаптации CGRS к более широкому спектру задач и доменов. Также, исследование влияния других факторов, таких как тип задачи и контекст, может помочь в улучшении эффективности метода.
Annotation:
Recent Large Reasoning Language Models (LRLMs) employ long chain-of-thought reasoning with complex reflection behaviors, typically signaled by specific trigger words (e.g., "Wait" and "Alternatively") to enhance performance. However, these reflection behaviors can lead to the overthinking problem where the generation of redundant reasoning steps that unnecessarily increase token usage, raise inference costs, and reduce practical utility. In this paper, we propose Certainty-Guided Reflection Supp...
ID: 2508.05337v1 cs.CL, cs.AI, cs.LG
Авторы:

Wonjun Kang, Byeongkeun Ahn, Minjae Lee, Kevin Galim, Seunghyuk Oh, Hyung Il Koo, Nam Ik Cho

## КОНТЕКСТ И ПРОБЛЕМАТИКА Текст-в-изображение (T2I) генерация является одной из ключевых областей искусственного интеллекта, которая преобразует текстовое описание в соответствующее визуальное представление. Эта область активно развивалась за последние годы благодаря развитию моделей, таких как Diffusion Models и Autoregressive Models. Однако, несмотря на значительные успехи, создание высококачественных изображений с композиционной точностью остается сложной задачей. Традиционные модели, основанные на Autoregressive Models, страдают от ограничений, вызванных каузальной (последовательной) вниманием и последовательным декодированием, что затрудняет эффективное и качественное генерирование изображений. В последнее время Masked Generative Transformers (MGT) получили широкое распространение как альтернатевная к Autoregressive Models. Они используют бидирекционное внимание и параллельное декодирование, что позволяет достигать более высокой эффективности и качества генерации. Однако, несмотря на эти преимущества, MGT также сталкиваются с проблемой композиционной точности. Например, даже современные модели Diffusion Models часто не могут правильно связать атрибуты и обеспечить точное соответствие текста и изображения. Эта проблема особенно заметна в сложных сценариях, где необходимо точно отображать отдельные объекты и их атрибуты. Несмотря на то, что Diffusion Models были широко исследованы в этом контексте, Masked Generative Transformers не получили такого же уровня внимания. Таким образом, требуется новый подход, который может улучшить композиционную точность в MGT без необходимости дополнительного обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают метод под названием **UNCAGE: Unmasking with Contrastive Attention Guidance**. Этот метод является методом без обучения, который улучшает композиционную точность MGT путем использования attention maps для определения токенов, которые лучше всего представляют отдельные объекты. UNCAGE работает на основе механизма "unmasking", где токены, которые были маскированы во время обучения, выделяются и улучшаются с помощью attention guidance. Ключевой компонент метода заключается в том, чтобы использовать contrastive attention guidance для того, чтобы повысить важность токенов, которые лучше всего соответствуют индивидуальным объектам в изображении. Это позволяет модели лучше фокусироваться на ключевых аспектах изображения, таких как объекты и их атрибуты, и поэтому повышает точность их представления. Техническая реализация UNCAGE включает в себя несколько этапов. Во-первых, модель генерирует изображение на основе заданного текста. Затем, с помощью attention maps, выбираются токены, которые больше всего соответствуют отдельным объектам. Эти токены получают больше веса в процессе декодирования, что приводит к лучшей композиционной точности. Метод не требует дополнительного обучения модели, что делает его высокоэффективным и пригодным для быстрого применения в различных сценариях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода UNCAGE, авторы провели ряд экспериментов на различных датасетах, включая COCO и CUB. Использовались различные метрики, такие как FID (Fréchet Inception Distance) и R-Precision, для оценки качества генерированных изображений. Результаты показали, что UNCAGE значительно улучшает композиционную точность генерированных изображений по сравнению со стандартными моделями MGT. Например, в моделях, использующих UNCAGE, было замечено значительное улучшение в плане точности представления отдельных объектов и их атрибутов. Это привело к лучшему FID и R-Precision по сравнению с базовыми моделями. Кроме того, эксперименты показали, что UNCAGE не только повышает качество генерации, но также делает это с незначительным дополнительным расходом ресурсов во время инференса. Это делает метод пригодным для использования в реальных приложениях, где важно сочетание качества и эффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ UNCAGE имеет широкий спектр практических приложений. Он может быть использован в областях, где важна высокая точность генерации изображений на основе текста, таких как компьютерная графика, дизайн, реклама, и даже в области медицины, где точность визуализации критична. Преимущества метода заключаются в том, что он не только повышает качество генерации, но также делает это без необходимости дополнительного обучения модели, что значительно упрощает его внедрение в существующие системы. Кроме того, UNCAGE может быть использован в сочетании с различными моделями MGT, что делает его универсальным инструментом для улучшения композиционной точности в различных контекстах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод UNCAGE, который улучшает композиционную точность Masked Generative Transformers в задачах текст-в-изображение генерации. Этот метод является безучебным и не требует дополнительного обучения модели, что делает его высокоэффективным и практичным для реального применения. Результаты экспериментов показали значительное улучшение качества генерации, особенно в сложных сценариях, где необходима точная представление отдельных объектов. В будущем, метод может быть дальнейше разработан для улучшения его применимости в более широких контекстах, включая мультимодальные модели и приложения в реальном времени. Кроме того, могут быть исследованы дополнительные способы улучшения attention guidance для еще более точного представления объектов и их атрибутов.
Annotation:
Text-to-image (T2I) generation has been actively studied using Diffusion Models and Autoregressive Models. Recently, Masked Generative Transformers have gained attention as an alternative to Autoregressive Models to overcome the inherent limitations of causal attention and autoregressive decoding through bidirectional attention and parallel decoding, enabling efficient and high-quality image generation. However, compositional T2I generation remains challenging, as even state-of-the-art Diffusion...
ID: 2508.05399v1 cs.CV, cs.AI, cs.LG
Авторы:

Hubert Baniecki, Maximilian Muschalik, Fabian Fumagalli, Barbara Hammer, Eyke Hüllermeier, Przemyslaw Biecek

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы language-image pre-training (LIP) стала одной из ведущих технологий в области компьютерного зрения и обработки естественного языка. Эти модели, такие как CLIP и SigLIP-2, обучаются на больших наборах данных изображений и текстов, что позволяет им выполнять задачи нулевого выстрела (zero-shot classification), локализации объектов, мультимодального поиска и семантического понимания. Однако, несмотря на их высокую эффективность, понимание того, как эти модели принимают решения, остается сложной задачей. Одним из ключевых проблем является то, что существующие методы объяснения, такие как салиентные карты (saliency maps), ограничены первой порядковой атрибутизацией (first-order attributions). Это означает, что они могут показывать, какие части изображения или текста важны для модели, но они не могут учитывать сложные взаимодействия между разными модальностями (cross-modal interactions), которые являются важной частью работы этих моделей. Это ограничение приводит к неполному пониманию процесса принятия решений моделью. Таким образом, есть потребность в более сложных методах объяснения, которые могут учитывать не только отдельные элементы, но и их взаимодействия. Такой подход может помочь в лучшем понимании как работы моделей, так и их ограничений, что в свою очередь может привести к улучшению их производительности и интерпретируемости. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод FIxLIP (Faithful Interaction Explanations for LIP Models), который основывается на идеях теории игр (game theory) для анализа взаимодействий между модальностями в моделях LIP. Основная идея заключается в использовании взвешенного индекса Банджафа (weighted Banzhaf interaction index) для оценки взаимодействий между разными частями входных данных, такими как изображения и текст. В отличие от традиционных методов, основанных на первом порядке (first-order), FIxLIP позволяет учитывать сложные взаимодействия между разными элементами входных данных. Это достигается благодаря тому, что метод анализирует не только каждый элемент по отдельности, но и их совместное влияние на выход модели. Кроме того, FIxLIP предлагает более эффективный с точки зрения вычислений подход по сравнению с другими методами, основанными на теории игр, такими как Shapley interaction index. Метод FIxLIP также предлагает расширение существующих метрик оценки объяснений, таких как pointing game и area between insertion/deletion curves, для использования с второпорядковыми методами объяснения (second-order interaction explanations). Это позволяет более точно оценивать качество полученных объяснений и сравнивать различные модели LIP. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода FIxLIP были проведены эксперименты на двух наборах данных: MS COCO и ImageNet-1k. Эти наборы данных широко используются для оценки моделей компьютерного зрения и естественного языка. В экспериментах были использованы различные модели LIP, такие как CLIP и SigLIP-2, а также различные варианты архитектуры, такие как ViT-B/32 и ViT-L/16. Результаты показали, что FIxLIP значительно превосходит традиционные методы, основанные на первом порядке, в терминах качества объяснений. Это продемонтрировано через метрики, такие как pointing game, где FIxLIP показал лучшие результаты. Кроме того, FIxLIP позволил лучше понять различия в работе различных моделей, таких как CLIP и SigLIP-2, а также показал, как разные архитектуры, такие как ViT-B/32 и ViT-L/16, влияют на качество объяснений. Это подтверждает практическую ценность метода для сравнения и анализа моделей LIP. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость метода FIxLIP заключается в том, что он позволяет лучше понять, как работают модели LIP, и как различные компоненты входных данных влияют на их решения. Это может быть полезно в различных приложениях, таких как медицинское изображение, автономные транспортные системы и другие области, где важно понимание принятия решений моделью. Кроме того, FIxLIP может быть использован для сравнения различных моделей и архитектур, что помогает выбрать лучшую модель для конкретной задачи. Это также может помочь в улучшении моделей, поскольку разработчики могут использовать полученные объяснения для идентификации и исправления ошибок в моделях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, FIxLIP представляет собой значительный шаг вперед в области объяснений моделей LIP. Он предлагает более сложный и точный подход к анализу взаимодействий между модальностями, что позволяет лучше понять, как эти модели принимают решения. В будущем, метод FIxLIP может быть расширен для использования в других областях, таких как обработка видео или мультимодальных данных. Кроме того, можно исследовать другие методы теории игр для дальнейшего улучшения качества объяснений. Это может привести к новым направлениям в разработке более интерпретируемых и надежных моделей LIP.
Annotation:
Language-image pre-training (LIP) enables the development of vision-language models capable of zero-shot classification, localization, multimodal retrieval, and semantic understanding. Various explanation methods have been proposed to visualize the importance of input image-text pairs on the model's similarity outputs. However, popular saliency maps are limited by capturing only first-order attributions, overlooking the complex cross-modal interactions intrinsic to such encoders. We introduce fa...
ID: 2508.05430v1 cs.CV, cs.AI, cs.LG
Авторы:

Meryem Yilmaz Soylu, Adrian Gallard, Jeonghyun Lee, Gayane Grigoryan, Rushil Desai, Stephen Harmon

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современной системе высшего образования процесс отбора кандидатов в магистерские программы все еще опирается на традиционные методы оценки, включая стандартизированные тесты и письма рекомендации (Letters of Recommendation - LOR). Несмотря на то, что LORы содержат богатую информацию о личностных качествах, профессиональных навыках и потенциале кандидатов, их анализ остается крайне трудоемким процессом. Приемные комиссии ежегодно сталкиваются с необходимостью обработки сотен и тысяч многостраничных текстовых документов, каждый из которых требует глубокого анализа и интерпретации. Особенно острой эта проблема становится в контексте онлайн-магистерских программ, где географическая удаленность кандидатов усиливает значение объективной оценки их soft skills, в первую очередь лидерских качеств. Исследования показывают, что лидерские навыки играют критически важную роль в успешности выпускников STEM-направлений, однако традиционные методы оценки через LOR зачастую не обеспечивают систематического и объективного анализа этих атрибутов. Существующая практика ручного просмотра рекомендательных писем подвержена человеческому фактору: усталости экспертов, субъективным предпочтениям и временным ограничениям. Это приводит к несогласованности в оценках и потенциальной утрате перспективных кандидатов. Более того, текущие системы не предоставляют структурированной обратной связи кандидатам по конкретным лидерским характеристикам, ограничивая их возможности для профессионального роста. Необходимость в автоматизированном, объективном и масштабируемом решении для анализа LOR стала критически важной для современных образовательных учреждений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения выявленных проблем авторы разработали инновационный инструмент LORI (LOR Insights) - систему искусственного интеллекта для автоматизированной оценки лидерских навыков кандидатов на основе анализа их рекомендательных писем. Система использует передовые методы обработки естественного языка и большие языковые модели, включая RoBERTa и LLaMA, для выявления ключевых лидерских атрибутов. Архитектура LORI основана на многоуровневом подходе к анализу текста. На первом этапе система выполняет предобработку текста, включая токенизацию, лемматизацию и удаление шумовых данных. Затем применяется RoBERTa-модель, обученная на специально подготовленном корпусе рекомендательных писем, для извлечения контекстуальных особенностей текста. Модель использует механизм внимания для идентификации ключевых фраз и концептов, связанных с лидерством. Система специально настроена на выявление трех основных категорий лидерских навыков: командная работа (teamwork), коммуникационные навыки (communication) и инновационность (innovation). Для каждой категории разработаны специфические метки и паттерны распознавания. Процесс обучения модели включал использование техники transfer learning с последующей тонкой настройкой на доменные данные. Для повышения точности классификации применялись методы ансамблирования и кросс-валидации. Особое внимание было уделено проблеме дисбаланса классов в обучающих данных. Авторы использовали стратегию weighted loss function для обеспечения равномерного представления всех категорий лидерских навыков. Кроме того, система включает модуль объяснимости, который генерирует человекочитаемые объяснения для каждого выявленного навыка, что критически важно для обратной связи кандидатам. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексное экспериментальное исследование проводилось на основе реальных данных, полученных от заявителей онлайн-магистерских программ в крупном исследовательском университете. Обучающая выборка включала 2450 рекомендательных писем, каждое из которых было аннотировано экспертами приемной комиссии по трем категориям лидерских навыков. Данные были разделены в соотношении 70/15/15 для обучения, валидации и тестирования соответственно. Для оценки эффективности системы использовались стандартные метрики классификации: точность (precision), полнота (recall) и F1-мера. Ключевые результаты показали исключительную производительность модели: RoBERTa достигла взвешенной F1-оценки 91.6%, при этом точность состав
Annotation:
Letters of recommendation (LORs) provide valuable insights into candidates' capabilities and experiences beyond standardized test scores. However, reviewing these text-heavy materials is time-consuming and labor-intensive. To address this challenge and support the admission committee in providing feedback for students' professional growth, our study introduces LORI: LOR Insights, a novel AI-based detection tool for assessing leadership skills in LORs submitted by online master's program applican...
ID: 2508.05513v1 cs.AI, cs.LG
Авторы:

Brandon Jaipersaud, David Krueger, Ekdeep Singh Lubana

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено феномену убеждения человека крупными языковыми моделями (LLM), которое стало особенно актуальным с появлением моделей нового поколения, демонстрирующих репликуемую способность формировать мнения и влиять на поведение пользователей. Несмотря на рост практического применения таких систем в маркетинге, образовании, политике и психологии, научное сообщество до сих пор не обладает инструментами, позволяющими объективно оценить и детально объяснить механизмы, с помощью которых LLM добиваются убеждения. Традиционные подходы, опирающиеся на дорогостоящие методы с опросами пользователей или затратные промпт-эксперименты, не масштабируются и не дают динамической картины изменений в процессе многоходовых диалогов. Ключевой проблемой является отсутствие методов сплошного мониторинга внутренних представлений модели в ходе диалога, что делает невозможным определить момент перелома — мгновение, когда адресат фактически соглашается с аргументами LLM. Также неизвестно, насколько типология личности собеседника и выбор тактики убеждения отражаются в активациях нейросети в реальном времени. Отсутствие прозрачности не позволяет ни предотвращать вредоносное применение технологии, ни улучшать полезные сценарии, требующие этичного убеждения. Работа ставит целью заполнить этот пробел, предложив легковесный, но информативный способ изучения динамики убеждения в естественных многоходовых разговорах, где каждый ход может менять вероятность успеха и требует точечной диагностики. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы адаптировали линейные зонды (linear probes) — простейшие логистические регрессоры, обучаемые на замороженных активациях скрытых слоёв LLM — для количественной оценки трёх когнитивных компонентов убеждения: успешности убеждения (success), личностных характеристик собеседника (personality) и тактики убеждения (strategy). Идея состоит в том, что активации на любом слое содержат сжатую информацию, достаточную для линейного классификатора, чтобы предсказать целевую переменную. Процедура обучения включает два этапа. Сначала на фиксированном наборе диалогов вычисляются активации на промежуточных слоях модели (обычно на уровнях, близких к последнему слою энкодера или первому слою декодера). Затем для каждого слоя обучается отдельный зонд, минимизирующий кросс-энтропию между предсказанной меткой и истинной (например, «успех»/«неуспех»). Для надёжности авторы использовали k-fold кросс-валидацию и контролировали переобучение регуляризацией L2. Для задачи «success» метка формировалась на основе явного согласия пользователя или изменения его позиции в анкете до и после диалога. В задаче «personality» использовались психометрические шкалы Большой пятёрки (OCEAN), полученные из предварительного опроса участников. Метки «strategy» кодировались экспертами по 12-ти предопределённым категориям, включая апелляции к авторитету, эмоциональные ловушки, социальное доказательство и т. д. Особенность метода — возможность применять зонд к каждому токену или к усреднённым активациям целого хода, что позволяет отслеживать, в какой именно момент модель «осознаёт» успех убеждения или меняет тактику. В отличие от промптинга, зонды не требуют генерации новых текстов и работают на порядки быстрее, что критично для анализа крупных корпусов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на двух наборах данных: 1) 12 000 англоязычных диалогов, собранных на Amazon Mechanical Turk, где модель GPT-3.5-turbo убеждала людей поддержать конкретную политическую позицию; 2) 4 500 диалогов по продуктовому маркетингу в сети Reddit, где целью было склонить пользователя к покупке. Для каждого диалога был доступен полный лог реплик, временные метки и метаданные собеседника. Базовым сравнением служил zero-shot промптинг с инструкцией «Определи, было ли достигнуто согласие» и few-shot цепочка мыслей с 5 примерами. Зонды обучались на
Annotation:
Large Language Models (LLMs) have started to demonstrate the ability to persuade humans, yet our understanding of how this dynamic transpires is limited. Recent work has used linear probes, lightweight tools for analyzing model representations, to study various LLM skills such as the ability to model user sentiment and political perspective. Motivated by this, we apply probes to study persuasion dynamics in natural, multi-turn conversations. We leverage insights from cognitive science to train p...
ID: 2508.05625v1 cs.CL, cs.AI, cs.LG
Авторы:

Nicola Casali, Alessandro Brusaferri, Giuseppe Baselli, Stefano Fumagalli, Edoardo Micotti, Gianluigi Forloni, Riaz Hussein, Giovanna Rizzo, Alfonso Mastropietro

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Оценка параметров интравоксельного некогерентного движения (IVIM) из диффузионно-взвешенного МРТ является сложной задачей из-за некорректно ставимой обратной задачи и высокой чувствительности к шумам, особенно в перфузионной компоненте. Традиционные методы, такие как нейронные сети, борются с неопределенностью в оценках, что может привести к недостоверным результатам. Дополнительная сложность заключается в том, что нейронные сети, как правило, не предоставляют информацию о неопределенности их прогнозов. Это может приводить к недостаткам в клинической практике, где точность и надежность оценок критичны. Таким образом, необходимо разработать метод, который не только обеспечивает точную оценку параметров IVIM, но также квантифицирует неопределенность, позволяя идентифицировать недостоверные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается проблематический фреймворк на основе глубоких ансамблей (Deep Ensembles, DE) и смешанных сетей плотностей (Mixture Density Networks, MDNs) для квантифицирования неопределенности в оценках параметров IVIM. Метод комбинирует силу нейронных сетей с проблематическим подходом, чтобы разделить неопределенность на два компонента: алеаторическую неопределенность (Aleatoric Uncertainty, AU) и эпистемическую неопределенность (Epistemic Uncertainty, EU). MDNs позволяют моделировать плотность вероятности параметров IVIM, что дает возможность получать не только точечные оценки, но и распределения вероятностей. Архитектура MDN обучается на синтезированных данных и оценивается на симулируемых и реальных данных. Разделение AU и EU позволяет лучше понять источники неопределенности, что важно для клинического применения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки метода проведены эксперименты на данных, синтезированных с использованием симуляции, и на двух реальных наборах данных. Результаты показали, что MDNs производят более калиброванные и острые предсказательные распределения для параметров D и f, хотя небольшое преувеличение было замечено для параметра D*. Индекс Robust Coefficient of Variation (RCV) показал, что оценки параметра D* стали более плавными при использовании MDNs по сравнению с традиционными гауссовыми моделями. Однако, наблюдалась повышенная EU на реальных данных, что может указывать на несоответствие между синтезированными данными и реальными условиями сканирования. Это подчеркивает важность включения EU в модель, что позволяет выявить недостоверные оценки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в клинической практике, где точная оценка параметров IVIM и их неопределенность играет ключевую роль в диагностике и мониторинге болезней. Фреймворк может быть адаптирован для моделирования других физических моделей, что делает его универсальным инструментом в медицинском образовании. Кроме того, квантификация неопределенности позволяет идентифицировать недостоверные результаты, что может улучшить качество клинических решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен комплексный фреймворк для квантификации неопределенности в моделях IVIM, который обеспечивает точную оценку параметров и разделение неопределенности на AU и EU. Будущие исследования могут фокусироваться на улучшении модели для еще более точного описания реальных условий и на расширении её применения для других физических моделей. Также важно исследовать влияние различных симуляционных стратегий на производительность модели.
Annotation:
Accurate estimation of intravoxel incoherent motion (IVIM) parameters from diffusion-weighted MRI remains challenging due to the ill-posed nature of the inverse problem and high sensitivity to noise, particularly in the perfusion compartment. In this work, we propose a probabilistic deep learning framework based on Deep Ensembles (DE) of Mixture Density Networks (MDNs), enabling estimation of total predictive uncertainty and decomposition into aleatoric (AU) and epistemic (EU) components. The me...
ID: 2508.04588v1 eess.IV, cs.AI, cs.LG
Авторы:

Mo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются мощным инструментом для решения многих задач, однако, когда речь идет о работе с длинными контекстами, их производительность сильно снижается из-за явления проактивного вмешательства (proactive interference). Это случается, когда неуместная информация из ранних частей контекста мешает рациональному мышлению и восстановлению памяти. До сих пор, многие исследования были направлены на создание внешних систем памяти, которые дополняют возможности LLMs. Однако, эти методы часто требуют значительных изменений в архитектуре модели или дополнительной подготовки. Проблема в том, что LLMs должны уметь эффективно управлять своей внутренней памятью и вниманием, чтобы справиться с длинными контекстами. Традиционные подходы, такие как увеличение длины контекста или использование внешних мемориальных систем, не всегда эффективны в борьбе со специфичными проблемами, такими как неуместное воздействие неактуальной информации. Это подчеркивает необходимость разработки новых методов, которые позволят LLMs активно управлять своим контекстом и фокусироваться на актуальной информации. В этой статье предлагается новый подход, называемый Sculptor, который разработан для активного управления контекстом LLMs. Он позволяет моделям самостоятельно формировать и оптимизировать свою внутреннюю рабочую память, подобно тому, как человек выбирает актуальную информацию, отбрасывая неактуальную. Этот подход основывается на идее "скульптурирования" контекста, где LLMs могут активно управлять информацией, которая доступна им для рассмотрения, что повышает их эффективность в решении задач с длинными контекстами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Sculptor представляет собой фреймворк, основанный на трех основных компонентах, которые позволяют LLMs управлять своим контекстом: 1. **Context Fragmentation (Фрагментация Контекста)**: Этот компонент позволяет разделять длинный контекст на более мелкие, управляемые фрагменты. Это помогает LLMs сосредоточиться на актуальных частях без необходимости обрабатывать весь контекст целиком. 2. **Summary, Hide, and Restore (Создание Кратких Сводок, Скрытие и Восстановление)**: Sculptor позволяет LLMs сжимать информацию в краткие сводки, скрывать несущественные детали, и восстанавливать важные части контекста когда это необходимо. Это позволяет моделям сосредоточиться на ключевых моментах, не теряя важные данные. 3. **Intelligent Search (Интеллектуальный Поиск)**: Эта функция позволяет LLMs искать и извлекать релевантную информацию из контекста, используя специальные алгоритмы поиска. Это помогает моделям быстро находить нужные данные, не предоставляя им неактуальных или несвязанных частей контекста. Эти компоненты вместе позволяют LLMs активно управлять своей рабочей памятью, что помогает минимизировать влияние неактуальной информации и повышает точность рассуждений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Sculptor, были проведены эксперименты на двух наборах данных: PI-LLM (Proactive Interference LLM) и NeedleBench Multi-Needle Reasoning. Эти наборы данных представляют задачи, требующие обработки длинных контекстов с высокой информативностью и требующих высокой точности рассуждений. В результате экспериментов было показано, что Sculptor значительно повышает производительность LLMs, даже без необходимости специального тренировочного набора данных. Это достигается благодаря тому, что LLMs могут естественно освоить и использовать инструменты Sculptor для управления своим контекстом. Кроме того, результаты показали, что Sculptor не только уменьшает влияние проактивного вмешательства, но также повышает надежность и точность рассуждений LLMs на различных типах задач. Это подтверждает, что активное управление контекстом является ключевым фактором для улучшения производительности LLMs при работе с длинными контекстами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость Sculptor заключается в том, что этот подход может быть применен в различных областях, где необходимо обрабатывать большие объемы информации. Например, в области медицинского диагностирования, юридического анализа, или финансового мониторинга, где контекст может быть чрезвычайно длинным и содержать множество несвязанных деталей. Преимущества Sculptor включают в себя улучшенную эффективность LLMs, уменьшение ошибок, связанных с неактуальной информацией, и повышение надежности рассуждений. Это может привести к более надежным и точным решениям в задачах, требующих обработки длинных и сложных контекстов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, Sculptor представляет собой новый подход к управлению контекстом в LLMs, который позволяет моделям активно формировать свою рабочую память и фокусироваться на релевантной информации. Этот метод показал значительные улучшения в производительности LLMs при работе с длинными контекстами, даже без необходимости специальной подготовки. В будущем, этот подход может быть развит для решения более широкого круга задач, включая многомодальные контексты и задачи, требующие динамического управления информацией. Более того, Sculptor может быть интегрирован в другие модели и архитектуры, чтобы улучшить их производительность в различных приложениях.
Annotation:
Large Language Models (LLMs) suffer from significant performance degradation when processing long contexts due to proactive interference, where irrelevant information in earlier parts of the context disrupts reasoning and memory recall. While most research focuses on external memory systems to augment LLMs' capabilities, we propose a complementary approach: empowering LLMs with Active Context Management (ACM) tools to actively sculpt their internal working memory. We introduce Sculptor, a framew...
ID: 2508.04664v1 cs.CL, cs.AI, cs.LG
Показано 1671 - 1680 из 1687 записей