📚 Саммари научных статей из arXiv

Найдено 573 результатов по запросу 'cs.CL, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation In Multi-Modal Large Language Models

2025-08-19

Авторы:

Wenhui Zhu, Xiwen Chen, Zhipeng Wang, Shao Tang, Sayan Ghosh, Xuanzhao Dong, Rajat Koner, Yalin Wang

#### Контекст В последние годы появились многомодальные большие языковые модели (MLLMs), которые оперируют несколькими типами данных, включая текст и изображения. Одной из ключевых задач, с которой сталкиваются такие модели, является Instructed Visual Segmentation (IVS), или указательная визуальная сегментация. Задача IVS заключается в том, чтобы выделить объекты на изображении или видео в соответствии с естественным языковым запросом. Несмотря на то, что MLLMs достигли высокой точности в IVS, их высокий косвенный затратный порог, особенно при работе с видео, остается значительной проблемой. Это ограничение становится все более актуальным в ситуациях, требующих реального времени. В этой статье мы исследуем эффективность визуальных токенов в MLLMs и разрабатываем метод, который позволяет сократить накладные расходы без существенного ущерба качеству. #### Метод Мы предлагаем на основе EVTP-IVS, новый метод эффективной визуальной токен-прайзинг, который оптимизирует выбор токенов для того, чтобы сохранить максимальную информативность с минимальным количеством токенов. Метод основывается на алгоритме k-center, который включает в себя специальные техники для учета пространственной информации. Это позволяет гарантировать представительность выделяемых областей изображения или видео. Мы также применяем информационно-теоретический анализ, который подтверждает эффективность нашего подхода. Решение EVTP-IVS целенаправленно уменьшает требования к вычислительным ресурсам без потери качества, что делает его пригодным для применения в реальном времени. #### Результаты Мы провести эксперименты на нескольких стандартных IVS-benchmarks, включая образцы изображений и видео. Наши результаты показывают, что EVTP-IVS дает скорость выполнения задачи до 5 раз выше на видео-задачах и до 3,5 раз на изображениях, сохранив при этом около 80% токенов. Это приводит к значительной экономии времени и ресурсов при сохранении высокой точности. Метод EVTP-IVS также показал лучшие результаты по сравнению с другими методами упрощения вывода, в том числе с теми, которые используют более сложные архитектуры или методы. #### Значимость Предлагаемый метод EVTP-IVS имеет широкие возможности применения в сферах, требующих высокой производительности и эффективности. Например, это может быть использовано в робототехнике, автоматизированной работе, в задачах анализа видео на требовательных устройствах или в ситуациях, где ресурсы вычислений ограничены. Наш подход не только уменьшает стоимость вычислений, но и улучшает производительность в реальном времени, что открывает

Annotation:

Instructed Visual Segmentation (IVS) tasks require segmenting objects in images or videos based on natural language instructions. While recent multimodal large language models (MLLMs) have achieved strong performance on IVS, their inference cost remains a major bottleneck, particularly in video. We empirically analyze visual token sampling in MLLMs and observe a strong correlation between subset token coverage and segmentation performance. This motivates our design of a simple and effective toke...

ID: 2508.11886v1 cs.CV, cs.AI, cs.CL, cs.LG, eess.IV

arXiv PDF

📄 Controlling Multimodal LLMs via Reward-guided Decoding

2025-08-19

Авторы:

Oscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal

## Контекст Multimodal Large Language Models (MLLMs) — это мощные модели, которые обрабатывают и генерируют текст, изображения и другие типы данных. Их применение растет в областях, таких как автоматическое описание изображений, робототехника и системы помощи людям с ограниченными возможностями. Однако возникает необходимость в том, чтобы эти модели могли быть более контролируемыми и адаптированы к различным потребностям пользователей. Например, в задачах, таких как интерактивное обучение или системы помощи, пользователи могут хотеть управлять точностью и шириной результатов. **Controlling Multimodal LLMs via Reward-guided Decoding** — это попытка решить эту проблему, предлагая первую методику для воздействия на процесс определения результатов модели. ## Метод Работа предлагает новую методику для управления процессом декодирования MLLM, используя вознаграждение (reward) в качестве руководства. Этот подход включает в себя создание моделей вознаграждения, которые оценивают качество результатов модели, например, точность и ширину обнаружения объектов. Эти модели вводятся в процесс декодирования, где они отзываются для влияния на выбор слов и фраз. Таким образом, пользователь может динамически регулировать точность и ширину результатов, которые модель генерирует, не требуя предварительного обучения. Это дает гибкость в управлении работой модели во время выполнения, что важно для задач, где требуется быстрая адаптация. ## Результаты Исследование проводилось на стандартных бенчмарках, включающих задачи, такие как обнаружение объектов и интерактивные задачи генерирования текста. Были проведены эксперименты, показавшие, что новая методика дает значительный улучшение в контролируемости модели. Например, модель может быть настроена на приоритет точности или ширины обнаружения, в зависимости от задачи. Было также показано, что она показывает лучшие результаты по сравнению с другими методами гарантии точности результатов. ## Значимость Предложенный подход может быть применен в различных областях, таких как робототехника, интерактивные системы обучения и системы помощи, где требуется контролируемая интерактивность. Он позволяет улучшить качество результатов, давая пользователям большее количество возможностей для регулирования модели. Это также может привести к экономии ресурсов, так как пользователи могут регулировать ширину процесса поиска, уменьшая необходимость выполнения дорогостоящих операций. ## Выводы Наша работа представляет первую методику для контролируемого декодирования MLLM через вознаграждение. Мы демонстрируем, что модель может быть настроена на приоритет точности или ширины результатов и показывает лучшие результаты по

Annotation:

As Multimodal Large Language Models (MLLMs) gain widespread applicability, it is becoming increasingly desirable to adapt them for diverse user needs. In this paper, we study the adaptation of MLLMs through controlled decoding. To achieve this, we introduce the first method for reward-guided decoding of MLLMs and demonstrate its application in improving their visual grounding. Our method involves building reward models for visual grounding and using them to guide the MLLM's decoding process. Con...

ID: 2508.11616v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs

2025-08-15

Авторы:

Eray Eren, Qingju Liu, Hyeongwoo Kim, Pablo Garrido, Abeer Alwan

## Контекст Просодия (speech prosody) — это важный аспект речи, который необходим для передачи эмоций, интонаций, информационных приоритетов и индивидуальных особенностей речи. Однако создание моделей просодии, которые эффективно могут принимать текстовые и акустические входы, остается сложной задачей. Недостаток мощных моделей просодии приводит к недостатку точности в таких задачах, как text-to-speech (TTS) и других, где просодия играет ключевую роль. Существующие модели часто страдают от ограниченности в обработке текста и акустических признаков вместе, что приводит к предсказаниям, которые могут быть точными лишь в части. Мотивируя нашу работу является необходимость разработки модели, которая бы способствовала повышению эффективности моделей просодии и предоставляла новые возможности в задачах, где просодия играет важную роль. ## Метод Предлагаемая модель, **ProMode**, является stand-alone моделью, которая предназначена для преобразования текстовых сигналов в просодические признаки, такие как F0 (частота ф F0) и энергия. Она использует как входные данные звуковые признаки, так и текстовые данные, которые частично замаскированы, и производит унифицированный фиксированного размера просодический вектор. Этот вектор, в свою очередь, используется декодером для предсказания отсутствующих частей акустического сигнала. Модель обучается на данных GigaSpeech dataset и включает в себя архитектуру, состоящую из энкодера (который обрабатывает текст и акустику) и декодера (который предсказывает акустические признаки). Модель обучается так, чтобы учитывать обе части входных данных, что позволяет повысить точность предсказаний просодии. ## Результаты Мы проводили эксперименты для оценки точности предсказания F0 и энергии в предложениях. Наши результаты показали, что ProMode превосходит текущие стандартные модели просодии на разных уровнях гранулярности. Мы также интегрировали наши предсказанные просодические признаки в TTS-систему и провели перцептивные тесты, которые показали, что наши результаты превосходят базовые модели по предпочтениям пользователей в пределах просодических признаков. Эти результаты демонстрируют, что ProMode может быть эффективно использована в текстово-слойных моделях речи для повышения качества моделей просодии. ## Значимость Модель ProMode может быть применена в различных областях, включая текстовые-слойные модели речи, синтез речи, генерацию речи и другие задачи, где просодия играет важную роль. Одной из основных преимуществ этой модели является ее способность обрабатывать тексты и акустические признаки вместе, что дает более качественные предсказания просодии. Это может привести к повышению точности в задача

Annotation:

Prosody conveys rich emotional and semantic information of the speech signal as well as individual idiosyncrasies. We propose a stand-alone model that maps text-to-prosodic features such as F0 and energy and can be used in downstream tasks such as TTS. The ProMode encoder takes as input acoustic features and time-aligned textual content, both are partially masked, and obtains a fixed-length latent prosodic embedding. The decoder predicts acoustics in the masked region using both the encoded pros...

ID: 2508.09389v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Personalized Product Search Ranking: A Multi-Task Learning Approach with Tabular and Non-Tabular Data

2025-08-15

Авторы:

Lalitesh Morishetti, Abhay Kumar, Jonathan Scott, Kaushiki Nag, Gunjan Sharma, Shanu Vashishtha, Rahul Sridhar, Rohit Chatter, Kannan Achan

## Контекст Поиск продуктов на основе персонализации является ключевым аспектом современных электронных магазинов, позволяя клиентам быстрее находить товары, соответствующие их интересам. Однако существуют значительные сложности в этой области, включая разнообразие видов данных (табличные и нетабличные), неоднородные приоритеты клиентов и нехватку качественных методов для оценки семантической схожести. Исследователи стремятся создать модели, которые могут эффективно обрабатывать такие сложные данные и оптимизировать релевантность результатов поиска. Наша модель стремится решить эти проблемы, используя новую архитектуру, которая объединяет различные типы данных и использует предварительно обученные модели для более точного понимания пользовательских запросов и продуктов. ## Метод Мы предлагаем модель, основанную на **мультизадачном обучении (MTL)**, которая объединяет данные разного типа: табличные (например, данные о продукте и пользователе) и нетабличные (текст, описание продукта). Наша модель использует **TinyBERT** для семантических эмбеддингов, что позволяет лучше понять смысл запросов и продуктов. Также мы вводим новую **технику выбора данных**, которая позволяет лучше учесть разнообразные модели поведения клиентов. Модель также оценивает релевантность результатов с помощью механизма, основанного на **семантической схожести** и **клик-тру-рейтах**, который является альтернативой традиционным лэйблам, создаваемым человеческими экспертами. ## Результаты Мы провели эксперименты сравнивая нашу модель с несколькими базовыми алгоритмами, включая XGBoost, TabNet, FT-Transformer, DCN-V2 и MMoE. Мы использовали разные типы данных для проверки того, насколько модель способна хорошо обрабатывать табличные и нетабличные данные. Результаты показали, что наша модель существенно превосходит базовые модели, особенно в ситуациях, когда нужно обрабатывать смешанные типы данных. Мы также провели абляционные исследования, показав, что как включение релевантных лэйблов, так и подготовка TinyBERT и интерактивность между TinyBERT и запросами-продуктами сильно повышают эффективность модели. ## Значимость Наша модель может быть применена в различных сферах, включая электронную коммерцию, рекомендательные системы и прогнозирование пользовательского поведения. Она предлагает значительные преимущества, такие как улучшенная точность в рекомендациях и оптимизация рейтинга продуктов. Наш подход может повлиять на область персонализации, помогая лучше понимать потребности пользователей и улучшать их опыт пользователя. ## Выводы Мы установили, что интеграция нетабличных

Annotation:

In this paper, we present a novel model architecture for optimizing personalized product search ranking using a multi-task learning (MTL) framework. Our approach uniquely integrates tabular and non-tabular data, leveraging a pre-trained TinyBERT model for semantic embeddings and a novel sampling technique to capture diverse customer behaviors. We evaluate our model against several baselines, including XGBoost, TabNet, FT-Transformer, DCN-V2, and MMoE, focusing on their ability to handle mixed da...

ID: 2508.09636v1 cs.IR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Improving Diversity in Language Models: When Temperature Fails, Change the Loss

2025-08-15

Авторы:

Alexandre Verine, Florian Le Bronnec, Kunhao Zheng, Alexandre Allauzen, Yann Chevaleyre, Benjamin Negrevergne

#### Контекст В современной лингвистике и искусственном интеллекте значительное внимание уделяется развитию языковых моделей, которые должны обеспечивать как высокую точность (Precision), так и широкий абстрактный вывод (Recall). Однако, повышение только одной из этих сторон часто приводит к ухудшению другой. Это проблема впервые выделена в работе по улучшению точности моделей, но анализ ситуации, когда изменение температуры не приводит к улучшению Recall, был ограничен. Наша мотивация заключается в разработке методов, позволяющих улучшить как точность, так и Recall в языковых моделях, чтобы они могли покрывать большее количество ситуаций в реальном мире. #### Метод Мы привёл краткую аналитическую архитектуру модели, основываясь на экспериментах с изменением температуры. Для повышения точности использовалась формула: $$\text{Precision} = \frac{TP}{TP + FP}$$ где $TP$ — точные предсказания, $FP$ — ложные срабатывания. Для измерения Recall использовалась формула: $$\text{Recall} = \frac{TP}{TP + FN}$$ где $FN$ — пропущенные предсказания. Мы проводили эксперименты с разными моделями, включая GPT-2, и измеряли их поведение при разных значениях температуры. Также мы проверяли, как изменение loss function оказывает влияние на точность и Recall. #### Результаты Мы провели эксперименты с целью изучить, насколько эффективно изменение температуры влияет на Precision и Recall. Мы протестировали модели GPT-2 на различных наборах данных с разными настройками температуры. Эксперименты показали, что низкая температура приводит к повышению точности, но снижению Recall. В то же время, при повышении температуры, модель становится более абстрактной, но подвержена высокой частоте ошибочных предсказаний. Измерения показали, что самый эффективный результат достигается при оптимальной настройке температуры. Мы также проверили, насколько изменение loss function влияет на точность и Recall. Наши результаты показали, что подход, основанный на новом loss function, позволяет достичь более желательного баланса между точностью и Recall по сравнению с простой моделью, использующей только temperature scaling. #### Значимость Наши результаты имеют значительное значение в сфере лингвистики и искусственного интеллекта. Они могут быть применены в различных областях, таких как генерация текста, переводчики, интеллектуальные помощники и другие системы, требующие баланса между точностью и Recall. Мы показали, что наш подход может привести к улучшению качества вывода моделей, что имеет важное значение для создания более универсальных и эффективных языковых моделей. Эти результаты также открывают путь для будущих исследований в области улучшения точности и

Annotation:

Increasing diversity in language models is a challenging yet essential objective. A common approach is to raise the decoding temperature. In this work, we investigate this approach through a simplistic yet common case to provide insights into why decreasing temperature can improve quality (Precision), while increasing it often fails to boost coverage (Recall). Our analysis reveals that for a model to be effectively tunable through temperature adjustments, it must be trained toward coverage. To a...

ID: 2508.09654v1 cs.CL, cs.LG

arXiv PDF

📄 Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

2025-08-15

Авторы:

Vaishnavi Shrivastava, Ahmed Awadallah, Vidhisha Balachandran, Shivam Garg, Harkirat Behl, Dimitris Papailiopoulos

#### Контекст В последние годы появились большие языковые модели (LLM), которые позволяют решать не только простые задачи, но и задачи, требующие высокого уровня логического рассуждения. Однако эти модели часто страдают от проблемы "длинного ответа", когда для достижения более высокой точности ответы становятся длиннее и содержат много ненужной информации. Это приводит к значительному увеличению необходимой вычислительной стоимости. Наша исследовательская группа работает над эффективным решением этой проблемы, стремясь сократить длину ответов без потери точности. #### Метод Мы предлагаем **Group Filtered Policy Optimization (GFPO)**, архитектуру, которая учит модели сократить длину ответов, используя эффективный подход к выборке и фильтрации. Мы работаем с конкретными метриками: длина ответа и эффективность токенов (то есть "результат за токен"). Наша модель оптимизирует эти характеристики, научаясь выбирать более короткие, но точные ответы во время тренировки, чтобы во время использования не производить излишних вычислений. #### Результаты Мы проверили нашу модель на нескольких сложных задачах, включая тесты по STEM и программированию. Наши эксперименты показали, что GFPO существенно сокращает длину ответов в сравнении с традиционными алгоритмами, которые пытаются повысить точность, увеличив длину ответа. Мы также показали, что оптимизация под "результат за токен" дает еще большую эффективность, сокращая длину до 71-85%. #### Значимость Наш подход может быть применен в области создания эффективных языковых моделей для решения сложных задач, таких как решение задач по STEM, программированию и логического моделирования. Он позволяет сократить стоимость вычислений, не ухудшая точность. Это имеет значительный потенциал для улучшения практического применения моделей, особенно в ситуациях, где вычислительная стоимость критична. #### Выводы Мы доказали, что наш подход может эффективно решать проблему длинного ответа, существенно сократив необходимый объем вычислений. В будущем мы планируем провести дополнительные эксперименты для переноса этого подхода на другие типы задач и моделей, чтобы усилить его широкое применение.

Annotation:

Large language models trained with reinforcement learning with verifiable rewards tend to trade accuracy for length--inflating response lengths to achieve gains in accuracy. While longer answers may be warranted for harder problems, many tokens are merely "filler": repetitive, verbose text that makes no real progress. We introduce GFPO (Group Filtered Policy Optimization), which curbs this length explosion by sampling larger groups per problem during training and filtering responses to train on ...

ID: 2508.09726v1 cs.CL, cs.LG

arXiv PDF

📄 Neural Bandit Based Optimal LLM Selection for a Pipeline of Tasks

2025-08-15

Авторы:

Baran Atalar, Eddie Zhang, Carlee Joe-Wong

## Контекст В последние годы высокая популярность больших языковых моделей (LLMs) вызвана их универсальностью и применением во многих областях. Однако, при выполнении сложных задач, одна LLM может не обеспечить достаточного качества вывода. Чтобы улучшить результаты, задачи предлагаются разбивать на меньшие подзадачи, которые затем могут быть выполнены разными LLMs, каждая из которых оптимизирована для конкретной подзадачи. Например, в области медицины могут быть выделены LLMs для сводки медицинских записей, проверки итогов, и извлечения диагноза. Большинство существующих методов LLM-селекции или маршрутизации не учитывают зависимость выхода одного этапа от другого, что влияет на качество и стоимость решения задачи. Мы предлагаем алгоритм, основанный на контекстной бандитной структуре, чтобы решить эту проблему, учитывая уникальные связи между задачами и подзадачами. ## Метод Мы предлагаем алгоритм, основанный на моделировании LLM-поведения с помощью контекстно-нейронаучных моделей и бандитной структуры. Этот алгоритм обучает нейронные сети, которые предсказывают успешность каждой LLM на каждой подзадаче. Модели обучаются онлайн, что позволяет им оптимизировать выбор LLMs даже в условиях отсутствия исторических данных о их производительности. Ключевой идеей является моделирование зависимостей между подзадачами, чтобы предоставить улучшенные выборки LLMs в зависимости от результатов предыдущих этапов. Мы также используем нейронные модели, которые могут обучаться в реальном времени, чтобы учитывать изменения поведения LLMs в зависимости от контекста. ## Результаты Мы проверили наш алгоритм на двух наборах данных: телекоммуникационных запросов и медицинских диагнозах. Наши эксперименты показали, что онлайн-обучение моделей позволяет создавать более точные предсказания успешности LLMs на каждой подзадаче. Мы сравнили нашу модель с другими LLM-селекционными алгоритмами и показали, что у нас есть значительные выигрыши в качестве решений и снижении стоимости. Благодаря нейронной модели мы можем эффективно учитывать связи между подзадачами и выбирать LLMs, которые создают меньшую зависимость в качестве решений. ## Значимость Наш алгоритм может быть применен для различных приложений, которые требуют последовательного использования LLMs в различных подзадачах. Он намного эффективнее существующих методов, так как учитывает связи между этапами и уменьшает уровень ошибок в выборе LLMs. Это может привести к более эффективному использованию ресурсов, снижению затрат и улучшению общего качества решений. Мы также планируем расширить исследования, включая применение нашего подхода

Annotation:

With the increasing popularity of large language models (LLMs) for a variety of tasks, there has been a growing interest in strategies that can predict which out of a set of LLMs will yield a successful answer at low cost. This problem promises to become more and more relevant as providers like Microsoft allow users to easily create custom LLM "assistants" specialized to particular types of queries. However, some tasks (i.e., queries) may be too specialized and difficult for a single LLM to hand...

ID: 2508.09958v1 cs.CL, cs.LG

arXiv PDF

📄 Fake-Mamba: Real-Time Speech Deepfake Detection Using Bidirectional Mamba as Self-Attention's Alternative

2025-08-15

Авторы:

Xi Xuan, Zimo Zhu, Wenxin Zhang, Yi-Cheng Lin, Tomi Kinnunen

## Контекст Синтез речи продолжает развиваться, однако это приносит новые секретностных угрозы, особенно в области глубокого подделывания речи (deepfake). Определение и анализ таких поддельных речевых фрагментов становится ключевым для защиты от мошенничества и фальсификации. Несмотря на то, что существуют современные способы обнаружения deepfake, они часто сталкиваются с проблемами, такими как высокая задержка и ограниченная обнаружительная эффективность. Fake-Mamba предлагает альтернативный подход к обнаружению deepfake, используя bidirectional Mamba в качестве альтернативы Self-Attention. Этот подход может обнаруживать не только локальные, но и глобальные особенности синтетической речи. Он имеет реальное время обработки, что делает его пригодным для практического применения в реальных условиях. Этот подход может быть применен для борьбы с мошенничеством, защиты личных данных и обеспечения безопасности в системах управления доступом. ## Метод Fake-Mamba основывается на XLSR-архитектуре, которая хранит богатые звуковые представления. Библиотека Mamba, в качестве альтернативы Self-Attention, используется для получения глобальных и локальных контекстов речи. Разработаны три различных модели: TransBiMamba, ConBiMamba и PN-BiMamba. Эти модели сочетают в себе локальные и глобальные характеристики, чтобы обнаруживать не только синтетические элементы речи, но и различия в вариациях интонации. Fake-Mamba была тщательно тренирована на широком диапазоне данных, включая ASVspoof 21 LA, 21 DF и In-The-Wild, чтобы обеспечить высокую точность и обнаружение поддельных речи в разных условиях. Инновационными являются специальные эффективные модули, созданные для того, чтобы повысить производительность и точность модели. ## Результаты Fake-Mamba была протестирована на трех различных наборах данных. На ASVspoof 21 LA, 21 DF и In-The-Wild она показала значения Equal Error Rate (EER) 0.97%, 1.74% и 5.85%, соответственно. Это превышает результаты для других новых моделей, таких как XLSR-Conformer и XLSR-Mamba. Результаты показывают, что Fake-Mamba обеспечивает высокую точность в реальном времени, даже при обработке длинных фрагментов речи. Она также демонстрирует высокую обнаружительную эффективность на различных наборах данных, что делает ее широко применимой в различных сценариях. ## Значимость Fake-Mamba может использоваться в различных областях, включая безопасность цифровых систем, защиту от фишинга, идентификацию злоумышленников и защиту личных данных. Она предлагает несколько преимуществ, таких как более высокая точность, меньшая задержка и широкая генерализуемость. Этот подход может привести к значительным улучшениям в защите от мошеннич

Annotation:

Advances in speech synthesis intensify security threats, motivating real-time deepfake detection research. We investigate whether bidirectional Mamba can serve as a competitive alternative to Self-Attention in detecting synthetic speech. Our solution, Fake-Mamba, integrates an XLSR front-end with bidirectional Mamba to capture both local and global artifacts. Our core innovation introduces three efficient encoders: TransBiMamba, ConBiMamba, and PN-BiMamba. Leveraging XLSR's rich linguistic repre...

ID: 2508.09294v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 DeCAL Tokenwise Compression

2025-08-14

Авторы:

Sameer Panwar

## Контекст Сжатие данных, особенно в области обработки языка, является ключевым инструментом для эффективного использования ресурсов, особенно в условиях ограниченной мощности вычислительных систем. На сегодняшний день, многие методы сжатия требуют серьезных вычислительных ресурсов или не могут обеспечить высокое качество сжатия. Это приводит к затруднениям в применении этих методов в реальных сценариях, в том числе в обработке текстов и контекстно-свободных задачах. Далее, существующие подходы часто не учитывают тонкие точностные потери, которые могут возникнуть при сжатии. Значительное сжатие данных, сохраняющее высокое качество, представляет большой интерес для развития технологий, поскольку это позволяет экономить ресурсы, увеличивая эффективность и повышая гибкость приложений. Например, в области распознавания речи, текстового понимания и вопроса-ответа, где размеры данных могут быть огромными, эффективное сжатие данных может привести к значительным экономиям в числе вычислительных операций и вычислительных ресурсов. ## Метод DeCAL (Denoising Compressed-Aware Language model) предлагает новый подход к сжатию данных, опираясь на модель предсказания текста типа encoder-decoder с мощным методом pretraining на основе денуisingа (рестартирования текста). Модель DeCAL использует как кодировщик, так и декодер, которые обучаются с помощью данных, генерируемых случайным образом, для построения высококачественных компрессионных представлений. Несмотря на свою цель — максимально улучшить качество сжатия данных — DeCAL включает определенные модификации кодировщика для оптимального результата. Эти модификации направлены на то, чтобы максимизировать качество сжатия данных, даже при повышении накладных расходов на вычислительные операции. Таким образом, DeCAL стремится достичь высокого качества сжатия при минимальных потерях точности, что делает его подход работающим в реальных условиях. ## Результаты В экспериментах, проведенных для оценки DeCAL, были использованы различные задачи, включая вопрос-ответ, суммаризацию и мульти-векторное сравнение. Данные для этих задач были получены из реальных баз данных, чтобы гарантировать реалистичность результатов. На 2x сжатии, DeCAL демонстрирует почти идентичную точность к несжатым данным, а на 8x сжатии происходит только незначительный потерь в метриках. Это показывает, что DeCAL обеспечивает высокое качество сжатия, даже при высоких степенях сжатия. Эти результаты показывают, что DeCAL может эффективно использоваться в задачах, требующих высокого качества сжатия, например, в ситуациях, где необходимо быстро обрабатывать большие объ

Annotation:

This paper introduces DeCAL, a new method for tokenwise compression. DeCAL uses an encoder-decoder language model pretrained with denoising to learn to produce high-quality, general-purpose compressed representations by the encoder. DeCAL applies small modifications to the encoder, with the emphasis on maximizing compression quality, even at the expense of compute. We show that DeCAL at 2x compression can match uncompressed on many downstream tasks, with usually only minor dropoff in metrics up ...

ID: 2508.08514v1 cs.CL, cs.LG

arXiv PDF

📄 A Survey on Training-free Alignment of Large Language Models

2025-08-14

Авторы:

Birong Pan, Yongqi Li, Weiyu Zhang, Wenpeng Lu, Mayi Xu, Shen Zhou, Yuanyuan Zhu, Ming Zhong, Tieyun Qian

## Контекст Интеллектуальные технологии на основе текста, такие как ло LNMs (Large Language Models), широко используются в различных сферах, от синтеза текста до поддержки принятия решений. Однако вопросы этики, юридичности и безопасности заставляют требовать от этих моделей высоких стандартов в области соответствия знаний и поведению валандация знаний. Традиционно, для достижения соответствия используются методы тренировки, включающие в себя ресурсоёмкие процессы fine-tuning (FT), которые могут привести к утере знаний и сложностям при использовании в сценариях с ограниченными ресурсами. В свете этих ограничений появились новые подходы, такие как training-free (TF) alignment, которые позволяют достигать соответствия без необходимости дорогостоящих тренировок. Этот фактор делает TF-методы полезными для как открытого, так и закрытого использования моделей. ## Метод Данная статья посвящена первому полномасштабному обзору TF-методов, используемых для aligning LLMs. Методология разделяется на три основных этапа: pre-decoding, in-decoding и post-decoding. Для каждого этапа проводится подробный анализ, включая описание механизмов, преимуществ, и ограничений, а также их модификации для multimodal LLMs (MLLMs). Эта систематизация позволяет выделить ключевые аспекты и ограничения каждого подхода, чтобы определить направления для будущих исследований и улучшений. ## Результаты Исследование включает в себя обзор методов TF-alignment, основанных на различных принципах, таких как in-context learning, decoding-time adjustments и post-generation corrections. Эксперименты проводились в различных условиях, включая задачи с LLMs-only и MLLMs. Результаты показали, что TF-методы могут достичь качественных результатов в aligning, даже при ограниченных ресурсах. Они также демонстрируют высокую адаптивность в сценариях, где fine-tuning невозможен из-за отсутствия модели или ресурсов. ## Значимость TF-методы имеют широкое применение в сферах, где адаптация моделей к конкретным потребностям является критичной. Они демонстрируют выгоды в следующих областях: открытой доступности моделей, быстрой адаптации к изменениям в задачах, экономии ресурсов. Также, TF-методы могут стать ключевым фактором в развитии безопасных и этичных моделей, которые соответствуют юридическим и этическим стандартам. ## Выводы TF-методы предлагают возможность aligning LLMs без ресурсоёмких тренировочных процессов, что делает их уникальным решением для большинства существующих проблем. Однако остаются значительные ограничения, такие как ограниченность в обработке сложных задач и недостаточность для каких-то конкретных приложений. Будущие исследования

Annotation:

The alignment of large language models (LLMs) aims to ensure their outputs adhere to human values, ethical standards, and legal norms. Traditional alignment methods often rely on resource-intensive fine-tuning (FT), which may suffer from knowledge degradation and face challenges in scenarios where the model accessibility or computational resources are constrained. In contrast, training-free (TF) alignment techniques--leveraging in-context learning, decoding-time adjustments, and post-generation ...

ID: 2508.09016v1 cs.CL, cs.LG

arXiv PDF

1
2
50
51
52
53
54
57
58

Показано 511 - 520 из 573 записей