📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Snegha A, Sayambhu Sen, Piyush Singh Pasi, Abhishek Singhania, Preethi Jyothi
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
With the release of new large language models (LLMs) like Llama and Mistral,
zero-shot cross-lingual transfer has become increasingly feasible due to their
multilingual pretraining and strong generalization capabilities. However,
adapting these decoder-only LLMs to new tasks across languages remains
challenging. While parameter-efficient fine-tuning (PeFT) techniques like
Low-Rank Adaptation (LoRA) are widely used, prefix-based techniques such as
soft prompt tuning, prefix tuning, and Llama Adap...
📄 Alif: Advancing Urdu Large Language Models via Multilingual Synthetic Data Distillation
2025-10-14Авторы:
Muhammad Ali Shafique, Kanwal Mehreen, Muhammad Arham, Maaz Amjad, Sabur Butt, Hamza Farooq
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Developing a high-performing large language models (LLMs) for low-resource
languages such as Urdu, present several challenges. These challenges include
the scarcity of high-quality datasets, multilingual inconsistencies, and safety
concerns. Existing multilingual LLMs often address these issues by translating
large volumes of available data. However, such translations often lack quality
and cultural nuance while also incurring significant costs for data curation
and training. To address these is...
Авторы:
Colin Hong, Xu Guo, Anand Chaanan Singh, Esha Choukse, Dmitrii Ustiugov
## Контекст
Исследования в области обучения глубоким сетям становятся все более актуальными в связи с повышением спроса на эффективные и быстрые методы обработки информации. Одним из актуальных направлений является улучшение реального времени ответа Large Language Models (LLM), чтобы они могли быстрее и точнее решать сложные задачи. Одной из популярных техник, которая получила внимание в этой области, является Self-Consistency (SC). SC использует множество параллельных цепочек рассуждений и выбирает решение на основе голосования большинством. Хотя SC показала себя эффективной, её значительная вычислительная стоимость ограничивает широкое развёртывание в реальном времени. Необходимо разработать более эффективные стратегии, которые сохранят эффективность SC, но снимут свои ограничения по ресурсам.
## Метод
Мы разработали новую методику Slim-SC, основанную на анализе интер-цепочечной схожести в рассуждениях. Slim-SC использует стратегию шага по шагу позволяющую удалить ненужные рассуждения, оставив только самые важные. Мы проводили анализ теоретических неэффективностей SC и использовали эмпирические данные для проверки наших выводов. Наша методика включает в себя техники, которые позволяют уменьшить вычислительный оверхед, не уменьшая точности решений. Мы применили Slim-SC к трём STEM-датасетам и двум LLM-архитектурам, чтобы проверить её эффективность.
## Результаты
Наши эксперименты показали, что Slim-SC эффективно уменьшает latency и количество вычислительных операций (KVC) до 45% при использовании R1-Distill, при этом сохраняя или даже улучшая точность решений. Это демонстрирует что Slim-SC является простым, но эффективным аналогом SC в случае решения STEM-задач. Мы также показали, что наши результаты могут быть расширены для других LLM-архитектур, что делает Slim-SC широко применимым в ситуациях, где необходима высокая эффективность и скорость работы.
## Значимость
Этот подход может быть применён в различных областях, где требуется быстрая и эффективная обработка текста, таких как NLP, решение STEM-задач и даже в сфере машинного обучения. Slim-SC не только уменьшает вычислительные затраты, но и улучшает производительность моделей в реальном времени. Это открывает новые возможности для развития моделей LLM, в том числе в ситуациях, где ресурсы ограничены и необходима высокая производительность.
## Выводы
Мы доказали, что Slim-SC является эффективным альтернативным подходом к Self-Consistency, который снимает препятствия, связанные с высоким потреблением ресурсов, при этом сохраняя точность решений. В дальнейшем нам предстоит расширить нашу мето
Annotation:
Recently, Test-Time Scaling (TTS) has gained increasing attention for
improving LLM reasoning performance at test time without retraining the model.
A notable TTS technique is Self-Consistency (SC), which generates multiple
reasoning chains in parallel and selects the final answer via majority voting.
While effective, the order-of-magnitude computational overhead limits its broad
deployment. Prior attempts to accelerate SC mainly rely on model-based
confidence scores or heuristics with limited e...
Авторы:
Jim Dilkes, Vahid Yazdanpanah, Sebastian Stein
#### Контекст
Область исследования, связанная с применением больших языковых моделей (LLMs) в качестве агентов последовательного стратегического принятия решений, является относительно новой, но уже привлекла внимание благодаря возможности эффективного использования LLMs в таких задачах. Однако существуют значительные ограничения: LLMs часто требуют огромных ресурсов для выполнения хорошо, что делает их менее практичными в реальных сценариях. Большинство методов пост-тренировки LLMs, ориентированных на решение этой проблемы, разработаны для задач с одной итерацией и не спроектированы для решения задач с несколькими этапами, где кредитное назначение (credit assignment) для каждой стадии является ключевым. Данная работа адресует эти проблемы, предлагая новый подход для улучшения поведения LLMs в задачах последовательного принятия решений.
#### Метод
Методом решения является Multi-Step Group-Relative Policy Optimization (MS-GRPO), алгоритм, разработанный для последовательного улучшения поведения LLMs в задачах с несколькими этапами. Этот алгоритм основывается на формальных моделях Text-Mediated Stochastic Game (TSMG) и Language-Agent Policy (LAP), которые позволяют ему аккуратно назначать кредит за каждый шаг в последовательном решении. Наша модификация включает в себя поиск стратегии оптимальной оценки того, какой шаг в задаче с несколькими шагами вносит больший вклад в окончательный результат. Для этого мы внедрили абсолютно-преимущественную стратегию взвешивания, которая учитывает весь эпизод в качестве размера присуждаемого кредита. Эта стратегия улучшает темп обучения и позволяет лучше справляться с нетривиальными задачами.
#### Результаты
Мы проверили наш подход на двух задачах: Snake и Frozen Lake. Для экспериментов использовались две модели языковых моделей разных размеров: 3 миллиардов параметров и 72 миллиардов параметров. Улучшенная модель 3 миллиардов параметров, полученная с помощью MS-GRPO, показала значительное улучшение в производительности, превосходя базовую модель 72 миллиардов параметров на 50% в задаче Frozen Lake. Эти результаты показывают, что целевая пост-тренировка может быть эффективным способом улучшения поведения LLMs в задачах последовательного принятия решений, даже при малом размере модели.
#### Значимость
Методы, представленные в нашей работе, могут привести к значительным преимуществам в области искусственного интеллекта, особенно в тех случаях, когда необходимо использовать упрощенные модели с меньшим размером. Это может привести к экономии ресурсов и увеличению эффективности в сценариях, где требуется быстрое решение. Кроме того, наши результаты могут открыть пути для дальнейших исследований в области по
Annotation:
Large Language Models (LLMs) show potential as sequential decision-making
agents, but their application is often limited due to a reliance on large,
computationally expensive models. This creates a need to improve smaller
models, yet existing post-training methods are designed for single-turn
interactions and cannot handle credit assignment in multi-step agentic tasks.
To address this, we introduce Multi-Step Group-Relative Policy Optimization
(MS-GRPO), a new algorithm for post-training LLM age...
Авторы:
Kabir Khan, Priya Sharma, Arjun Mehta, Neha Gupta, Ravi Narayanan
#################################
## Контекст
#################################
Large Language Models (LLMs) — это мощные инструменты для обработки текстов, но они имеют существенную проблему: их знания являются статичными и быстро устаревают. Например, при обновлении статистических данных или изменении событий в мире, LLMs не могут адаптироваться без дорогостоящей и время-затратной процедуры переучивания. Такие процессы требуют огромных вычислительных ресурсов и могут привести к задержкам в развертывании обновленных моделей. Кроме того, традиционные методы редактирования знаний могут привести к нежелательным побочным эффектам, таким как неточность или удаление ценной информации.
Данная статья рассматривает эту проблему и предлагает фреймворк DySK-Attn, который позволяет LLMs эффективно обновлять свои знания в реальном времени. Основной идеей является использование динамического знаний сграфа (Knowledge Graph, KG), который может быть мгновенно обновлен без необходимости переучивания модели.
#################################
## Метод
#################################
Фреймворк DySK-Attn основывается на синергии между LLM и динамическим KG. Главная инновация заключается в использовании динамической спарсед-аттенции (Sparse Knowledge Attention), которая исключает ненужную информацию за счёт выбора только наиболее связанных фактов с запросом.
В свою очередь, спарсед-аттенция работает примерно следующим образом: сначала выполняется поиск по базе знаний с использованием ключевых слов запроса. Затем, на основе полученных результатов, выбирается наиболее подходящий набор фактов, который после этого передаётся LLM для генерации ответа. Эта стратегия позволяет избежать вычислительной сложности десятичной аттенции к большой базе знаний, увеличивая вместо этого эффективность и точность полученных ответов.
Также, DySK-Attn включает гибкие механизмы для обновления KG без перестройки модели от начала до конца. Это достигается за счёт интеграции специальных модулей обновления, которые могут быть применены непосредственно во время работы модели.
#################################
## Результаты
#################################
Для оценки эффективности DySK-Attn проведено рядовое экспериментальное исследование на задачах время-зависимого реагирования (time-sensitive question-answering). Использовались три типа датасетов:
1. **Новости**: для тестирования модели в области новостных событий.
2. **Политические события**: для проверки точности в терминах политических данных.
3. **Нефтегазовые рынки**: для проверки работы модели в области финансовых данных.
В результате, DySK-Attn показала значительный выигрыш в точности ответов и вычислительной эффективности по сравнению с традиционными RAG-моделями и техниками моделирования. Например, в задаче обновления дан
Annotation:
Large Language Models (LLMs) suffer from a critical limitation: their
knowledge is static and quickly becomes outdated. Retraining these massive
models is computationally prohibitive, while existing knowledge editing
techniques can be slow and may introduce unforeseen side effects. To address
this, we propose DySK-Attn, a novel framework that enables LLMs to efficiently
integrate real-time knowledge from a dynamic external source. Our approach
synergizes an LLM with a dynamic Knowledge Graph (KG...
Авторы:
Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru, Kripabandhu Ghosh
## Контекст
Актуальность исследования связана с быстрым развитием систем на основе Больших Лингвистических Моделей (LLM), которые применяются для обеспечения систем роботов-техпомощников. Одной из основных проблем в этой области является недостаточная оценка устойчивости таких систем к внесению обобщенных изменений в фактические вопросы. Эти изменения, называемые "обфускацией", могут состоять в искажении именованных сущностей, добавлении развлекательных материалов или смыслового перегружения. Без тестирования таких изменений невозможно оценить надежность и точность LLMs в работе с вопросами и ответами. Исследование посвящено выявлению этих проблем и разработке системы для их систематического исследования.
## Метод
Методология исследования основывается на разработке многоуровневой системы обфускации, которая включает три различных типа изменений в вопросах. **Named-Entity Indirection** состоит в замене именованных сущностей (например, ФИО, местами происшествий) на их формальные представления (например, "Субъект 1"). **Distractor Indirection** включает в себя вывод отвлеченных ответных вариантов, которые не соответствуют фактическим данным. **Contextual Overload** предполагает добавление лишней информации, которая может сбить с толку модель. Таким образом, ObfusQAte представляет собой новую методологию для тестирования LLM на систематические искажения вопросов в ходе имитации реальных условий работы.
## Результаты
В ходе экспериментов, проведенных с использованием широкого круга данных, было изучено поведение LLMs в ответ на обфусцированные вопросы. Основной показатель — это уменьшение точности ответов, возрастающее в небольших шагах при наличии обфускации. Модели не только предоставляют неточные ответы, но и вводят ложноположительные варианты. Эти результаты были получены при оценке моделей на объеме данных, представляющем собой широкую спектр текстов, включая новостные материалы, энциклопедические статьи и справочные данные.
## Значимость
Результаты имеют важное значение для развития роботов-техпомощников, так как позволяют оценить устойчивость LLM к ошибкам при обобщенных вопросах. Обфускация позволяет выявить ошибки в моделях, мотивируя разработку методов улучшения их надежности. Эта работа может быть применена в сферах, где точность ответов критична, например, в медицине, юриспруденции и финансовых системах. Она также открывает пути для развития новых моделей устойчивых к таким изменениям.
## Выводы
Разработанная ObfusQAte-фреймворк предоставляет многоуровневый подход для оценки устойчивости LLM к обфускации вопросов. Основные достижения включаю
Annotation:
The rapid proliferation of Large Language Models (LLMs) has significantly
contributed to the development of equitable AI systems capable of factual
question-answering (QA). However, no known study tests the LLMs' robustness
when presented with obfuscated versions of questions. To systematically
evaluate these limitations, we propose a novel technique, ObfusQAte and,
leveraging the same, introduce ObfusQA, a comprehensive, first of its kind,
framework with multi-tiered obfuscation levels designed...