📚 Саммари научных статей из arXiv

Найдено 7549 результатов по запросу 'cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 ALOPE: Adaptive Layer Optimization for Translation Quality Estimation using Large Language Models

2025-08-13

Авторы:

Archchana Sindhujan, Shenbin Qian, Chan Chi Chun Matthew, Constantin Orasan, Diptesh Kanojia

################################# ## Контекст ################################# Область исследования — Quality Estimation (QE) для машинного перевода (MT), которая оценивает качество перевода без использования дополнительных трансляционных меток. Это задача кросс-языковая и относительно сложная для существующих моделей, особенно в случае низкоресурсных языков. Особенности QE заключаются в том, что необходимо понять, насколько хорошо генерируется перевод, не имея полных справочных трансляций. Повышенные трудности возникают при использовании моделей, которые не были предварительно обучены для регрессионных задач, а для подготовки были использованы модели с целью генерировать текст (каузиальная модельность). Большие языковые модели (LLMs), несмотря на выдающееся качество во многих задачах натурального обработки языка, в случае QE сталкиваются с проблемами, такими как несоответствие между предварительной подготовкой и регрессионными задачами. Таким образом, целью исследования является разработка адаптивной структуры, которая бы способствовала повышению качества шаблонов перевода, оптимизировав слои трансформеров на основе регрессионных задач. ################################# ## Метод ################################# Разработанная модель, ALOPE (Adaptive Layer Optimization for Translation Quality Estimation), включает в себя несколько инновационных подходов: 1. **Low-Rank Adapters (LoRA)** — это универсальные адаптации, размещенные в каждом слое трансформеров, которые позволяют уменьшить количество параметров, не ухудшая качество регрессионного предсказания. 2. **Dynamic Weighing** — стратегия, которая позволяет адаптировать веса представлений из разных слоев, оптимизируя их в соответствии с задачей QE. 3. **Multi-Head Regression** — это стратегия, в которой каждая регрессионная голова предсказывает качество перевода, а полученные результаты агрегируются в единый результат. 4. **Layer-Wise Adaptation** — механизм, который позволяет использовать только выбранные слои трансформеров для QE, адаптируя их к регрессионным задачам. Таким образом, ALOPE позволяет оптимизировать слои трансформеров для кросс-языковой регрессии, увеличивая точность и скорость обучения. ################################# ## Результаты ################################# Эксперименты проводились на различных датасетах, включающих низкоресурсные языки (например, африканский, вьетнамский) и языки с большим количеством данных (например, английский, немецкий). Для тренировки использовались модели LLMs, в том числе готовые модели Transformer с разными предобученными слоями. В результате: - Модель ALOPE показала значительное повышение точности QE по сравнению с существующими LLM-based QE моделями. - Особенно выдающиеся результаты были получены при использовании низкоресурсных языков, где дру

Annotation:

Large Language Models (LLMs) have shown remarkable performance across a wide range of natural language processing tasks. Quality Estimation (QE) for Machine Translation (MT), which assesses the quality of a source-target pair without relying on reference translations, remains a challenging cross-lingual task for LLMs. The challenges stem from the inherent limitations of existing LLM-based QE systems, which are pre-trained for causal language modelling rather than regression-specific tasks, furth...

ID: 2508.07484v1 cs.CL, cs.AI

arXiv PDF

📄 Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

2025-08-13

Авторы:

Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson

#### Контекст Дипломатия — сложная и информационно-объемная игра, требующая стратегического мышления, взаимодействия и тонкого понимания социальных отношений. Участие в этой игре требует высокого уровня мотивации и компетентности от игроков. Существующие методы учебных и тестовых задач для оценки моделей языкового понимания не позволяют оценить их возможности в такой сложной области. Это приводит к ограниченности в широком применении моделей языкового понимания в задачах, требующих стратегического мышления. Наша мотивация заключается в том, чтобы создать метод, позволяющий оценивать модели языкового понимания на полноценных задачах дипломатии, не требуя дополнительной обучения или предварительной подготовки. #### Метод Мы предлагаем методологию, призванную оценивать модели языкового понимания на полноценной задаче дипломатии без необходимости дополнительной подготовки. Мы используем данные для итеративной оптимизации игрового пространства, чтобы улучшить комплексность и точность игрового процесса. Инновационной частью нашего подхода является использование текстовой игровой системы, которая позволяет моделям языкового понимания работать в реальном времени, упрощая процесс тестирования и анализа. Мы также вводим метод критического анализа состояний игры, который позволяет быстро исследовать и анализировать ключевые моменты в игре. #### Результаты Мы провели эксперименты с различными моделями языкового понимания, включая модели с разным количеством параметров. Мы отобрали модели, которые совершенно не требуют дополнительной настройки и имеют широкий диапазон возможностей. Мы также проводили сравнение основных моделей, определяя, какие модели демонстрируют лучший результат в задаче дипломатии. Оказалось, что модели с большим количеством параметров показывают лучшие результаты. Однако мы также обнаружили, что даже модели с меньшим количеством параметров могут выполнять достаточно хорошую работу. Эти результаты позволяют нам понять, как модели языкового понимания могут оценивать сложные ситуации в игре дипломатии. #### Значимость Наш подход демократизирует оценку моделей языкового понимания, позволяя использовать их в задачах, требующих стратегического мышления. Он упрощает процесс тестирования и позволяет проводить сравнение моделей в разных ситуациях. Этот подход также предоставляет новый взгляд на то, какие способности моделей языкового понимания возникают при их обучении на других задачах. Это может привести к новым возможностям в использовании моделей языкового понимания в сложных задачах, требующих с

Annotation:

We present the first evaluation harness that enables any out-of-the-box, local, Large Language Models (LLMs) to play full-press Diplomacy without fine-tuning or specialized training. Previous work required frontier LLMs, or fine-tuning, due to the high complexity and information density of Diplomacy's game state. Combined with the high variance of matches, these factors made Diplomacy prohibitive for study. In this work, we used data-driven iteration to optimize a textual game state representati...

ID: 2508.07485v1 cs.AI, cs.CL, cs.CY, cs.LG

arXiv PDF

📄 Word Clouds as Common Voices: LLM-Assisted Visualization of Participant-Weighted Themes in Qualitative Interviews

2025-08-13

Авторы:

Joseph T. Colonel, Baihan Lin

## Контекст Область визуализации и анализа текстовых данных широко используется в исследованиях, предоставляя визуальные инструменты для выявления интересных моделей и отношений в данных. Одной из популярных техник является использование **word clouds**, которые агрегируют слова по частоте их использования. Однако в контексте квалитиативных интервью эти методы часто оказываются неэффективными. Они переоценивают нерелевантные слова, не учитывают парафразы и разбивают семантически связанные идеи на независимые фрагменты. В результате, данные могут быть представлены неточно, что снижает эффективность в ранней стадии анализа. Это ставит перед исследователями задачу развития более точных и интерактивных визуальных методов. ## Метод **ThemeClouds** — это инструмент, основанный на генеративных моделях языка (LLMs), который предлагает новую логику визуализации темы в квалитиативных интервью. Он оптимизирует традиционные подходы, используя LLM для идентификации тем на уровне понятий в тексте. Вместо того, чтобы только подсчитывать частоту слов, ThemeClouds рассчитывает, сколько уникальных участников упоминает каждую тему. Это дает более точное представление о важности темы в контексте всего интервью. Инструмент позволяет исследователям настраивать настройки визуализации и проводить прозрачный анализ. Это делает инструмент гибким и пригодным для различных исследовательских задач. ## Результаты На основе интервью пользователей, проводивших эксперимент с различными конфигурациями звукового прибора (31 участника, 155 транскриптов), ThemeClouds продемонстрировал вышеперечисленные преимущества. Сравнивая его с традиционными методами, такими как LDA и BERTopic, ThemeClouds показал более точное отображение реальных предпочтений участников. Он отфильтровал нерелевантные слова и объединил семантически связанные темы, что упростило интерпретацию результатов. Это демонстрирует мощь глубокого обучения в предоставлении более точных и интерактивных визуализаций. ## Значимость ThemeClouds может быть применен в различных областях, где требуется анализ квалитиативных данных, включая исследования в области медицины, образования, IT и т.д. Он предоставляет более точное представление частоты тем и позволяет исследователям быстрее узнавать основные модели в данных. Также он может быть полезен для создания интерактивных визуальных анализов, которые позволяют проводить подробные кросс-условий сравнения. ## Выводы ThemeClouds представляет собой современный подход к визуализации квалитиативных интервью, используя глубокое обучение для улучшения точности и понятности данных. Он обесп

Annotation:

Word clouds are a common way to summarize qualitative interviews, yet traditional frequency-based methods often fail in conversational contexts: they surface filler words, ignore paraphrase, and fragment semantically related ideas. This limits their usefulness in early-stage analysis, when researchers need fast, interpretable overviews of what participant actually said. We introduce ThemeClouds, an open-source visualization tool that uses large language models (LLMs) to generate thematic, partic...

ID: 2508.07517v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 Conversational DNA: A New Visual Language for Understanding Dialogue Structure in Human and AI

2025-08-13

Авторы:

Baihan Lin

## Контекст Понимание и анализ диалогов — это ключевой аспект во многих областях, включая психологию, образовательные технологии, искусственный интеллект и даже лингвистику. Однако традиционные методы анализа диалогов часто сводятся к статистическим обзорам, которые не полностью отражают глубину и сложность человеческого общения. Это ставит под вопрос эффективность таких подходов при анализе диалогов, где важны такие аспекты, как эмоциональная напряженность, тематическая структура и интерактивная инерция. "Conversational DNA" — это инновационный подход к визуализации диалогов, который предлагает новую систему знаков для интерпретации и понимания структуры диалога. Он предлагает трактовать диалог как живую систему, где каждая часть может быть визуализирована и проанализирована с помощью биологических метафор, таких как цветные градиенты, темные линии и лепестковые структуры. Такой подход позволяет выявлять взаимодействия и шаблоны, которые могут быть пропущены при традиционном анализе. Таким образом, "Conversational DNA" предлагает новую перспективу для понимания и визуализации диалогов, которая может помочь не только в живых общениях, но и в искусственных системах. ## Метод "Conversational DNA" — это визуальная система, основанная на техниках данных и биологических метафор. Она предлагает визуальные модели, которые иллюстрируют структуру и динамику диалога. Цветные градиенты используются для представления эмоциональных траекторий, когда частичные оттенки цвета могут указывать на рывки или эмоциональные штормовые волны. Темные линии используются для представления темы или темных полосок, которые охватывают разные части диалога. Также используются лепестковые структуры, которые помогают отобразить логические отношения между разными топиками и темами. Методология включает в себя несколько этапов: предварительная обработка данных, визуализация диалога с помощью метафорических моделей и экспериментальный анализ результатов. Для использования этой методики, необходимо превратить диалог в графическое представление, где каждый элемент (слово, фраза, топик) представляется в виде "структурного состава", который можно сравнивать и анализировать. Этот подход позволяет понять, как тематическая структура диалога развивается во времени и как разные элементы связаны друг с другом. ## Результаты В экспериментах были использованы данные из терапевтических бесед, а также диалогов, происходивших между людьми и искусственным интеллектом. Визуальные

Annotation:

What if the patterns hidden within dialogue reveal more about communication than the words themselves? We introduce Conversational DNA, a novel visual language that treats any dialogue -- whether between humans, between human and AI, or among groups -- as a living system with interpretable structure that can be visualized, compared, and understood. Unlike traditional conversation analysis that reduces rich interaction to statistical summaries, our approach reveals the temporal architecture of di...

ID: 2508.07520v1 cs.HC, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 IBPS: Indian Bail Prediction System

2025-08-13

Авторы:

Puspesh Kumar Srivastava, Uddeshya Raj, Praveen Patel, /Shubham Kumar Nigam, Noel Shallum, Arnab Bhattacharya

#### Контекст Обработка балов в индийских судах является одной из наиболее частых процедур, однако она сталкивается с тематиками субъективности, задержек и несогласованности. Более 75% населения индийских тюрем составляют несостоявшие процесс лиц, которые часто принадлежат к социоэкономическим уровням низкого уровня. Недоступность быстрых и справедливых решений о балах приводит к губительным последствиям для прав человека и усугубляет жалобы в вопросах справедливости юридического регулирования. Для решения этой проблемы мы предлагаем **Indian Bail Prediction System (IBPS)** — AI-powered фреймворк, предназначенный для помощи в принятии решений о балах, предсказания результатов и создания обоснованных юридических аргументов на основе фактических данных и нормативных актов. #### Метод Мы создали большую выборку данных, состоящую из 150,430 судебных актов о балах, полученных из высоких индийских судов. Данные были обработаны и дополнены структурированными аннотациями, включая возраст, здоровье, уголовную историю, категорию преступления, продолжительность задержания, регулирующие акты и юридический анализ. Мы использовали параметр-эффективные методы для тонкой настройки большого языкового модели и оценили его результаты в различных конфигурациях, включая с разным доступом к юридической информации и модели RAG (Retrieval-Augmented Generation). #### Результаты Наши эксперименты показали, что модели, настроенные с использованием юридического контекста, значительно выше производительность, чем базовые модели, и показывают высокую точность и качество рассуждений. Мы проверили их на независимой выборке данных, проанализированной специалистами по правоотношениям. Такие результаты демонстрируют значительную эффективность IBPS в оптимизации процесса принятия решений о балах, уменьшения задержек и повышения справедливости в индийской судебной системе. #### Значимость IBPS предлагает новый подход к улучшению системы судебных разбирательств в Индии. Он может применяться в различных сферах, включая помощь юристам, судьям и правозащитным организациям. Основные преимущества — транспарентность, масштабируемость и возможность повторения. Исследование системы может повлиять на улучшение системы правосудия, снижение задержек и формирование процедурной справедливости в юридических процессах. #### Выводы Результаты нашего исследования подтверждают эффективность IBPS в поддержке данных для принятия решений о балах. Будущие исследования будут сфокусированы на углублении анализа юридического контекста, у

Annotation:

Bail decisions are among the most frequently adjudicated matters in Indian courts, yet they remain plagued by subjectivity, delays, and inconsistencies. With over 75% of India's prison population comprising undertrial prisoners, many from socioeconomically disadvantaged backgrounds, the lack of timely and fair bail adjudication exacerbates human rights concerns and contributes to systemic judicial backlog. In this paper, we present the Indian Bail Prediction System (IBPS), an AI-powered framewor...

ID: 2508.07592v1 cs.CL, cs.AI

arXiv PDF

📄 ThinkTuning: Instilling Cognitive Reflections without Distillation

2025-08-13

Авторы:

Aswin RRV, Jacob Dineen, Divij Handa, Md Nayem Uddin, Mihir Parmar, Chitta Baral, Ben Zhou

#### Контекст Современные тестируемые широковезучные языковые модели (LLMs) обладают способностью выполнять многошаговую мысль и саморефлексию. Однако многие из этих моделей не обладают исходной способностью мыслить и анализировать. Вместо этого они так называемые "мыслящие" способности приобретают, опираясь на результаты работы генетического алгоритма. Это означает, что возможности мыслить не формируются действительно внутри модели, а просто обнаруживаются и используются. Поэтому, возникает вопрос: можно ли научить модели, которые не обладают естественной способностью мыслить, развить эту способность самостоятельно? В нашем исследовании мы предлагаем ThinkTuning — метод, основанный на подкреплении взаимодействия с целью развития модели не только саморазвития, но и рационального мышления. #### Метод ThinkTuning предлагает интерактивный подход для обучения модели с использованием градиентного подкрепления на основе политик (GRPO). Мы используем метод обучения, который подобен занятиям с учителем. Учитель (teacher-model) предлагает задачу, позволяет ученику (student-model) попробовать решить ее самостоятельно, а затем предоставляет корректирующую информацию, указывая на правильный путь. Эта корректировка помогает модели раскрыть внутреннее потенциальное мышление, которое позволяет правильно решить задачу. Итак, мы используем градиентный подкрепление для учителя, а затем используем его для улучшения модели-ученика. Метод был протестирован на различных данных, в том числе на бенчмарках MATH-500, AIME и GPQA-Diamond, показав положительные результаты по сравнению с базовым GRPO. #### Результаты Мы провели эксперименты для оценки ThinkTuning на нескольких датасетах, в том числе на MATH-500, AIME и GPQA-Diamond. Наша модель показала средний выигрыш в производительности в 3,85% по сравнению с нулевым шагом (zero-shot). На MATH-500, AIME и GPQA-Diamond, ThinkTuning показала поимки в 2,08%, 2,23% и 3,99% соответственно по сравнению с базовым GRPO. Эти результаты показали, что ThinkTuning позволяет модели без начальной способности мыслить развить этот навык, а также повысить свои результаты на задачах, требующих многошаговой логической работы. #### Значимость Развитие моделей, которые могут мыслить и саморефлексироваться, имеет значимую значимость в области ИИ. Например, такие модели могут быть использованы в преподавании, диагностике, и сложных задачах, требующих комплексного анализа. ThinkTuning предлагает новый подход к развитию этих способностей, не зависящий от предварительного создания базы знаний, что может упростить развитие новых моделей, которые могут выполнять сложные рассуждения

Annotation:

Recent advances in test-time scaling have led to the emergence of thinking LLMs that exhibit self-reflective behaviors and multi-step reasoning. While RL drives this self-improvement paradigm, a recent study (Gandhi et al., 2025) shows that RL alone does not truly instill these new reasoning abilities - it merely draws out behaviors already present in the base models. This raises a question: How can we train the models that don't exhibit such thinking behavior to develop it in the first place? T...

ID: 2508.07616v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

2025-08-13

Авторы:

Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

## Контекст Модель рассуждений с длинным цепным соображением (long Chain-of-Thought, long CoT) является ключевым инструментом для решения сложных задач, требующих логического и последовательного мышления. Однако существует ряд проблем в области инноваций в этих моделях, включая неполное раскрытие деталей обучения, что ограничивает возможность воспроизведения высокопроизводительных моделей. Более того, существуют проблемы с текущими механизмами ограничения (clipping) в технике оптимизации с подкреплением (reinforcement learning, RL), такие как подавление критических сигналов эксплорирования и игнорирование неоптимальных траекторий. Эти проблемы способствуют неэффективности моделей в обучении с учителем и расширении их возможностей. ## Метод Klear-Reasoner представляет собой модель с логическим рассуждением, основанную на полной видимости процесса обучения. Методы включают: 1. **Длинное Chain-of-Thought Supervised Fine-Tuning (long CoT SFT):** Эта техника использует выборку высококачественных данных, чтобы тренировать модель на расстановке последовательности соображений. 2. **Reinforcement Learning with Gradient-Preserving Clipping Policy Optimization (GPPO):** Эта оптимизационная политика использует градиентные сигналы, проходящие через отсеченные токены, что позволяет улучшить эффективность модели при работе с неоптимальными траекториями. 3. **Абляционные исследования:** Эксперименты проводились для оценки каждого элемента рабочего процесса, включая различные варианты данных и методов оптимизации. ## Результаты Klear-Reasoner показала впечатляющие результаты в нескольких бенчмарках: 90.5% на AIME 2024, 83.2% на AIME 2025, 66.0% на LiveCodeBench V5 и 58.1% на LiveCodeBench V6. Эта модель отличается своей способностью логически соображать и решать проблемы в области математики и программирования. Анализ показал, что сборка высококачественных данных для SFT лучше воспроизводит высокую производительность, чем объемные данные, а GPPO повышает модельную эффективность в обучении на неоптимальных траекториях. ## Значимость Klear-Reasoner имеет широкие перспективы применения в области интеллектуальных технологий, в том числе в образовательных системах, прогнозировании и решении задач, требующих высокой логической способности. Ее преимущество в том, что она может обучаться более эффективно, используя меньше ресурсов, чем другие модели. Будущие исследования будут нацелены на расширение этих технологий на другие задачи, а также на повышение точности и эффективности решений. ## Выводы Klear-Reasoner доказала свою высокую эффективность в решении задач, требующих длинных рассуждений. Она способна обучаться более эффективно, благодаря GP

Annotation:

We present Klear-Reasoner, a model with long reasoning capabilities that demonstrates careful deliberation during problem solving, achieving outstanding performance across multiple benchmarks. Although there are already many excellent works related to inference models in the current community, there are still many problems with reproducing high-performance inference models due to incomplete disclosure of training details. This report provides an in-depth analysis of the reasoning model, covering...

ID: 2508.07629v2 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 InterChart: Benchmarking Visual Reasoning Across Decomposed and Distributed Chart Information

2025-08-13

Авторы:

Anirudh Iyengar Kaniyar Narayana Iyengar, Srija Mukhopadhyay, Adnan Qidwai, Shubhankar Singh, Dan Roth, Vivek Gupta

## Контекст В сфере обработки естественного языка и визуального распознавания существует значительный интерес к возможностям визуального логического мышления, которое заключается в том, чтобы выводить выводы на основе информации, представленной в виде графических данных, таких как графики и диаграммы. Одна из самых сложных задач в этой области заключается в том, чтобы оценить модели визуального логического мышления, которые могут работать с несколькими связанными графиками, которые встречаются в реальной жизни, например, в отчетах о научных исследованиях, финансовых анализах или панелях управления. Несмотря на то, что существуют бенчмарки, оценивающие модели визуального распознавания в отношении отдельных графиков, нет ни одного бенчмарка, который бы позволял оценивать их качество, работая с несколькими связанными графиками, которые требуют визуального и текстового понимания. Мы предлагаем **InterChart**, новый диагностический бенчмарк, который оценивает эти возможности, позволяя моделям работать с графиками, которые требуют не только интерпретации визуальных данных, но и интеграции информации из нескольких графиков. ## Метод **InterChart** состоит из трех типов задач, которые требуют визуального и текстового понимания, а также возможности работы с несколькими графиками. В первой задаче, **factual reasoning**, модели должны выполнять вывод на основе изображений отдельных графиков. Во второй задаче, **integrative analysis**, модели должны выполнять анализ, интегрируя информацию из нескольких синтетически связанных графиков. В третьей задаче, **semantic inference**, модели должны выполнять семантические выводы на основе визуально сложных графиков, которые требуют не только визуального, но и текстового понимания. Мы создали три уровня сложности, начиная с простых задач, которые требуют только визуального распознавания, и заканчивая сложными задачами, которые требуют визуального и текстового понимания, а также выполнения нескольких шагов логического мышления. Мы использовали данные, собранные из реальных графических данных, чтобы создать бенчмарк, который сильно отличается от предыдущих бенчмарков, ориентированных на отдельные графики. ## Результаты Мы проверили **InterChart** на нескольких существующих визуально-лингвистических моделях, включая те, которые считаются лидирующими в области. Мы обнаружили, что даже лучшие модели показывают существенную ухудшение качества, когда требуется интеграция информации из нескольких графиков. Мы также обнаружили, что модели показывают лучшие результаты, когда мы декомпозируем гра

Annotation:

We introduce InterChart, a diagnostic benchmark that evaluates how well vision-language models (VLMs) reason across multiple related charts, a task central to real-world applications such as scientific reporting, financial analysis, and public policy dashboards. Unlike prior benchmarks focusing on isolated, visually uniform charts, InterChart challenges models with diverse question types ranging from entity inference and trend correlation to numerical estimation and abstract multi-step reasoning...

ID: 2508.07630v1 cs.CL, cs.AI, cs.CV, I.2.7; I.2.10; I.4.10; I.7.5

arXiv PDF

📄 Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents

2025-08-13

Авторы:

Tianyi Ma, Yue Zhang, Zehao Wang, Parisa Kordjamshidi

## Контекст Vision-and-Language Navigation (VLN) представляет собой сложное задание, требующее систем извлечения смысла из естественных языковых инструкций и эффективной навигации в развернутых 3D-средах. Несмотря на то, что последние достижения в области VLN были подспорьем широкомасштабной предобученности и расширению данных, существуют значительные проблемы с общую стойкостью, особенно когда требуется повышенное пространственное или временное разумление. Например, существующие агенты часто падают при визуальной и языковой неоднородности, которую представляют незнакомые среды и нестандартные инструкции. Мотивацией для нас является создание более устойчивого и гибкого подхода, который может быть применен в нестандартных сценариях. ## Метод Мы предлагаем SkillNav, модульную архитектуру, включающую в себя структурированные, навыково-ориентированные принципы для взаимодействия с 3D-средами. SkillNav декомпозирует навигацию на независимые атомарные навыки, такие как "Перемещение по высоте", "Распознавание областей и регионов", и "Остановка и пауза". Каждый из этих навыков выполняется специализированным под-агентом. Для того чтобы обеспечить динамическое выбор наиболее подходящего под-агента во время выполнения, мы предложили новый тип Vision-Language Model (VLM)-based router, который используется для множественных действий. Этот модуль, используя визуальные сенсоры и языковые команды, выбирает наиболее подходящий под-агент, ориентируясь на под-цели и историю действий. Основная идея заключается в структурированной модели, которая позволяет роутеру гибко реагировать на изменения в среде. ## Результаты Мы провели эксперименты на двух бенчмарках: R2R и GSA-R2R. На R2R, SkillNav достиг нового состояния технологии с повышенным уровнем производительности в задачах навигации по сложным 3D-средам. На GSA-R2R, что включает нестандартные стили инструкций и неизвестные среды, SkillNav стабильно показал свою способность к генерализации. Мы также провели анализ вариативности наших моделей, продемонстрировав улучшение отдельных навыков и их взаимодействия, что включает в себя наблюдения о том, как каждый под-агент был влиятелен на общую систему. ## Значимость SkillNav может быть применен в сферах, требующих действий в сложных средах, таких как управление роботами, виртуальная реальность и системы помощи при навигации. Наши результаты свидетельствуют о значительных преимуществах, таких как увеличение устойчивости к неизвестным средам, повышение точности распознавания инструкций и упрощение моделей для требовательных задач. Мы также показали, что наш

Annotation:

Vision-and-Language Navigation (VLN) poses significant challenges in enabling agents to interpret natural language instructions and navigate complex 3D environments. While recent progress has been driven by large-scale pre-training and data augmentation, current methods still struggle to generalize to unseen scenarios, particularly when complex spatial and temporal reasoning is required. In this work, we propose SkillNav, a modular framework that introduces structured, skill-based reasoning into...

ID: 2508.07642v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 GLiClass: Generalist Lightweight Model for Sequence Classification Tasks

2025-08-13

Авторы:

Ihor Stepanov, Mykhailo Shtopko, Dmytro Vodianytskyi, Oleksandr Lukashov, Alexander Yavorskyi, Mykyta Yaroshenko

#### Контекст Классификация является одной из самых распространенных задач в искусственном интеллекте, используемой для фильтрации, сортировки и категоризации данных. В современных AI-системах, обрабатывающих огромные объемы входных данных, ключевым требованием является высокая точность и эффективность. Это становится особенно важной для раннего этапа ввода, где ошибки могут повлиять на всю последующую обработку. Динамические изменения потребностей пользователей подчеркивают необходимость моделей с сильными zero-shot и few-shot способностями. Хотя генеративные модели типа LLMs стали стандартом для zero-shot классификации благодаря их гибкости, они страдают от непоследовательного поведения и высокой вычислительной сложности. Cross-encoders, широко используемые в RAG-решениях, страдают от высокой сложности обработки больших наборов меток. Эмбеддинг-базисные способы эффективны, но в трудных сценариях с логическими и семантическими ограничениями часто ограничиваются. Мы предлагаем GLiClass — метод, основанный на GLiNER, который адаптирован для последовательной классификации. Он обеспечивает высокую точность и эффективность, не per-token-based, что позволяет ему сочетать гибкость zero-shot с эффективностью. #### Метод GLiClass основывается на GLiNER (Global-Local Interaction-based NER), архитектуре, которая использует маркированные токены для глобальной интеракции и локальных линейных моделей для семантического сжатия. Для классификации последовательностей мы преобразуем задачу в серию NER-подобных подзадач, используя маркированные токены для всех классов в тренировочных данных. Это позволяет модели воспринимать все вероятности классов в каждом токене как новый мета-класс. Мы также внедрили PPO для обучения моделей с помощью human-in-the-loop, что улучшает качество в случае недостатка данных. Таким образом, GLiClass выполняет сравнение между текстом и мета-классами в целом, что позволяет получать устойчивые и точные результаты в разных условиях. #### Результаты Мы провели эксперименты на нескольких популярных датасетах (AGNews, DBPedia) и сравнили GLiClass с LSTM, Transformer, cross-encoders и embedding-based моделями. Говоря об эффективности, GLiClass показал почти одинаковую точность с моделями типа embedding-based, но с значительно более высокой скоростью. Он также демонстрирует сильные результаты при few-shot обучении, превосходя другие архитектуры в сценариях с недостатком данных. Более того, PPO-обучение демонстрирует его устойчивость в сценариях с необходимостью обучения на основе корпоративного опыта или руководства пользователя. #### Значимость GLiClass может использоваться в широком кругу приложений, включая рекомендательные систем

Annotation:

Classification is one of the most widespread tasks in AI applications, serving often as the first step in filtering, sorting, and categorizing data. Since modern AI systems must handle large volumes of input data and early pipeline stages can propagate errors downstream, achieving high efficiency and accuracy is critical. Moreover, classification requirements can change dynamically based on user needs, necessitating models with strong zero-shot capabilities. While generative LLMs have become mai...

ID: 2508.07662v1 cs.LG, cs.AI, cs.CL

arXiv PDF

1
2
716
717
718
719
720
754
755

Показано 7171 - 7180 из 7549 записей