📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning

2025-08-16

Авторы:

Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen

## Контекст Область исследования включает в себя изучение многоязычного коммонсенс-разума, который относится к возможности логического смысления и решения проблем в разных языковых и культурных контекстах. Несмотря на недавние успехи в развитии Reasoning-Reinforced Large Language Models (LLMs), способности этих моделей в области многоязычного коммонсенс-разума остаются мало изученными. Это приводит к проблемам в распознавании и применении гуманского знания о мире в разных языковых и культурных окружениях. Этот недостаток может сказаться на решении задач в значительной мере зависящих от культурного контекста. Наша мотивация заключается в разработке бенчмарка, который способен тестировать и анализировать многоязычные модели разума. ## Метод Мы предлагаем **MultiLingual and Scalable Benchmark for Skill-based Commonsense Reasoning (mSCoRe)**, основанный на трех основных компонентах: (1) **новая таксономия**, позволяющая детально проанализировать разные аспекты моделей разума, (2) **синтетическая пайплайн-данных**, специально разработанная для оценки коммонсенс-разума, и (3) **класса сложности**, который динамически меняет сложность задач в зависимости от развития моделей. Эти компоненты гарантируют точное и широкое тестирование моделей в многоязычном контексте. ## Результаты Были проведены эксперименты с восемью современными LLMs разного размера и обучаемости. Результаты показали, что даже самые продвинутые модели сталкиваются с трудностями при решении задач на высоком уровне сложности, особенно в области многоязычного коммонсенс-разума. Эти модели сталкиваются с проблемами в понимании тонкостей культурного контекста и сложных логических задач, которые требуют совершенствования. ## Значимость **mSCoRe** может применяться в различных областях, таких как развитие более сильных многоязычных моделей разума, улучшение систем перевода, создание интеллектуальных систем обработки естественного языка. Он предоставляет уникальные возможности для анализа моделей разума, помогая идентифицировать слабые места в их работе. Потенциальное влияние заключается в улучшении многоязычного понимания и возможности создания культурно ориентированных решений. ## Выводы **mSCoRe** подтвердило сложность многоязычного коммонсенс-разума и выявил узкие места существующих моделей. Будущие исследования будут сконцентрированы на улучшении моделей разума, ориентированных на многоязычность, и внедрении методов позволяющих лучше адаптировать модели к различным культурным окружениям.

Annotation:

Recent advancements in reasoning-reinforced Large Language Models (LLMs) have shown remarkable capabilities in complex reasoning tasks. However, the mechanism underlying their utilization of different human reasoning skills remains poorly investigated, especially for multilingual commonsense reasoning that involves everyday knowledge across different languages and cultures. To address this gap, we propose a \textbf{M}ultilingual and Scalable Benchmark for \textbf{S}kill-based \textbf{Co}mmonsens...

ID: 2508.10137v1 cs.CL, cs.AI

arXiv PDF

📄 LaajMeter: A Framework for LaaJ Evaluation

2025-08-16

Авторы:

Gal Amram, Eitan Farchi, Shmulik Froimovich, Raviv Gal, Avi Ziv

## Контекст Область исследования: Large Language Models (LLMs) используются в качестве оценщиков в естественном языковом процессовании, в частности в качестве LLM-as-a-Judge (LaaJ). Данный подход показывается эффективным в общих задачах естественного языка, но сталкивается с трудностями в доменных контекстах, где данные с аннотациями недостаточны и экспертная оценка требует больших затрат. LaaJs в таких ситуациях оцениваются с помощью метрик, которые часто не проверены в конкретном домене. Это затрудняет определение качества оценщиков и наличия достаточного порога для их эффективности. В настоящем исследовании предлагается LaaJMeter — рамформда для систематического meta-evaluation LaaJ, которая позволяет генерировать синтетические данные, представляющие виртуальные модели и оценщики. Этот подход позволяет провести методический анализ различных метрик в реалистичных условиях. ## Метод LaaJMeter — это симуляционная фреймворк, который позволяет моделировать виртуальные модели и оценщики, чтобы проводить систематический анализ метрик оценивания. Он обеспечивает контролируемую среду для тестирования различных метрик, позволяя инженерам проверить, правильно ли они отличают лучшие и худшие LaaJs, а также определять подходящие пороги для оценщиков. Фреймворк расширяет возможности для повышения достоверности и повторяемости оценки в NLP, особенно в ситуациях с ограниченными ресурсами. Технически, LaaJMeter позволяет генерировать синтетические наборы данных, представляющие виртуальные модели и оценщики, для построения интеллектуальных вариантов оценки. ## Результаты В ходе исследования использовались синтетические данные, представляющие задачи перевода кода из легаси-программирования. Эксперименты показали разницу в чувствительности различных метрик к качеству оценщика. Например, некоторые метрики оказались более чувствительными к ошибкам оценщиков, чем другие. Эти результаты подтверждают значимость инструмента LaaJMeter для отбора и применение подходящих метрик, а также выявляют ограничения существующих методов. ## Значимость LaaJMeter может быть применен в различных доменах, где требуется надежная и эффективная оценка LaaJ, в том числе в ситуациях с ограниченным объемом данных. Он позволяет провести подробный анализ метрик и выбрать подходящий порог для определения качества оценщика. Этот подход может способствовать развитию более надежных и репродуцируемых систем оценки в NLP. ## Выводы LaaJMeter предоставляет новую форма meta-evaluation систем LaaJ, которая позволяет глубоко анализировать и повышать качество оценщиков. Результаты показывают, что существу

Annotation:

Large Language Models (LLMs) are increasingly used as evaluators in natural language processing tasks, a paradigm known as LLM-as-a-Judge (LaaJ). While effective in general domains, LaaJs pose significant challenges in domain-specific contexts, where annotated data is scarce and expert evaluation is costly. In such cases, meta-evaluation is often performed using metrics that have not been validated for the specific domain in which they are applied. As a result, it becomes difficult to determine ...

ID: 2508.10161v1 cs.CL, cs.AI

arXiv PDF

📄 Understanding Textual Emotion Through Emoji Prediction

2025-08-16

Авторы:

Ethan Gordon, Nishank Kuppa, Rigved Tummala, Sriram Anasuri

################################# ## Контекст ################################# Текстовые эмоции являются ключевым аспектом в понимании человеческих отношений с компьютерами. Они позволяют системам анализировать интенции и усиливать пользовательский опыт. Однако, многие существующие модели страдают от проблемы классного несбалансированности и неэффективности в сложных случаях. Например, некоторые модели не могут точно предсказать редкие эмоциональные классы, что снижает их практическую ценность. Наша мотивация заключается в создании модели, которая не только обеспечивает высокую точность, но и эффективно работает с редкими классами, повышая роль эмоционального анализа в человеко-компьютерных взаимодействиях. ################################# ## Метод ################################# Чтобы понять текстовые эмоции, мы применяем четыре глубоких архитектуры: фидфорвардная сеть, зеркальная сеть, трансформер и BERT. Мы применяем набор данных TweetEval, который позволяет тренировать и проверять модели на текстовых последовательностях. Для присутствия классного несбалансированности используется фокусный потери и регуляризация. Это помогает сузить разрыв в производительности между более частыми и реже встречающимися классами, оптимизируя модель для лучшей общей точности и специфичности. ################################# ## Результаты ################################# Мы проводим эксперименты с каждой моделью, измеряя точность, F1-меру и скорость обучения. Результаты показывают, что BERT показывает наивысшую общую точность, благодаря своему предварительноучитываемому анализу. Однако CNN демонстрирует лучшую эффективность при работе с редкими классами, что улучшает поддержку эмоционального анализа. Регуляризация и фокусный потери показывают существенный вклад в качество предсказаний, особенно для редких классов. Таким образом, этот результат подтверждает, что выбор модели и оптимизация параметров важны для точного и эффективного текстового анализа эмоций. ################################# ## Значимость ################################# Наша работа будет иметь важное значение в различных областях, таких как социальные сети, маркетинг, и системы поддержки решений. Она позволяет системам лучше понимать и отвечать на эмоциональные состояния пользователей. Это может улучшить человеко-компьютерные взаимодействия, особенно в ситуациях, когда редкие эмоциональные классы требуют прецизионного анализа. Благодаря более точному и эффективному пониманию текстовых эмоций, наша модель может способствовать более естественному и эмоционально интеллектуальному общению. ################################# ## Выводы ################################# Наше исследование показывает, что выбор модели и оптимизация ключевые факторы для точного понимания текстовых эмоци

Annotation:

This project explores emoji prediction from short text sequences using four deep learning architectures: a feed-forward network, CNN, transformer, and BERT. Using the TweetEval dataset, we address class imbalance through focal loss and regularization techniques. Results show BERT achieves the highest overall performance due to its pre-training advantage, while CNN demonstrates superior efficacy on rare emoji classes. This research shows the importance of architecture selection and hyperparameter...

ID: 2508.10222v1 cs.CL, cs.AI, cs.LG, cs.NE

arXiv PDF

📄 Using Large Language Models to Measure Symptom Severity in Patients At Risk for Schizophrenia

2025-08-16

Авторы:

Andrew X. Chen, Guillermo Horga, Sean Escola

## Контекст Клинически высокий риск (CHR) для развития шизофрения требует частых мониторингов симптомов для оперативной корректировки лечения. Одним из популярных инструментов для оценки симптомов шизофрении является Brief Psychiatric Rating Scale (BPRS), но он сложно применяется в клинической практике из-за длительных структурированных интервью. Эта проблема становится актуальной в свет роста интереса к шизофрении и частоте реализации рефератов в этой области. Мы исследуем возможность использования БОЛЬШИХ языковых моделей (LLMs) для предсказания BPRS-параметров на основе записей клинических интервью, что может существенно облегчить процесс мониторинга. ## Метод Для построения модели использовалась BPRS-параметризация из 409 записей клинических интервью из AMP-SCZ-когорты. Мы использовали zero-shot, one-shot и few-shot подходы, настроив модель на варьировании информации и синтезировании новых моделей на основе предыдущих данных. Модель тренировалась на связи между текстовыми данными и BPRS-метриками, чтобы предсказывать BPRS-параметры с максимальной точностью. ## Результаты LLM-модель показала высокое согласованность с BPRS-параметрами в zero-shot режиме (median concordance: 0.84, ICC: 0.73), почти добившись уровня согласованности человеческих интервьюеров. Эти результаты сохраняются при использовании данных на внешних языках (median concordance: 0.88, ICC: 0.70). Модель также демонстрирует способность учитывать лонгитюдные данные в парушот или фавшот режимах, улучшая точность предсказания. ## Значимость Этот подход может значительно упростить мониторинг симптомов у CHR-пациентов, повысив точность и стандартизировав ассистентские инструменты для врачей. Большие языковые модели также увеличивают шансы на интернационализацию подхода, позволяя применять его в различных регионах. Этот инновационный подход может стать ключевым элементом в раннем выявлении и контроле шизофрении. ## Выводы LLMs-модели демонстрируют высокую точность и согласованность в предсказании BPRS-параметров, могут стать альтернативой ручным оценкам. Будущие исследования будут сфокусированы на расширении данных, улучшении моделей и их применении в практических задачах клинической практики.

Annotation:

Patients who are at clinical high risk (CHR) for schizophrenia need close monitoring of their symptoms to inform appropriate treatments. The Brief Psychiatric Rating Scale (BPRS) is a validated, commonly used research tool for measuring symptoms in patients with schizophrenia and other psychotic disorders; however, it is not commonly used in clinical practice as it requires a lengthy structured interview. Here, we utilize large language models (LLMs) to predict BPRS scores from clinical intervie...

ID: 2508.10226v1 cs.CL, cs.AI

arXiv PDF

📄 Yet another algorithmic bias: A Discursive Analysis of Large Language Models Reinforcing Dominant Discourses on Gender and Race

2025-08-16

Авторы:

Gustavo Bonil, Simone Hashiguti, Jhessica Silva, João Gondim, Helena Maia, Nádia Silva, Helio Pedrini, Sandra Avila

#### Контекст В последние годы искусственный интеллект (AI) становится все более важной частью нашего цифрового общества, динамично развиваясь и применяясь во многих сферах жизнедеятельности. Одним из самых удачных достижений AI являются боLge-дэтала ларже энджел модели (LLMs), которые успешно используются в различных областях, от работы с текстами до перевода и синтеза речи. Однако, с ростом сложности этих моделей возникает вопрос их влияния на социальные дискриминации и закрепленные в языке дискурсы. Многие исследования уже выявляли, что LLMs могут развивать или даже усиливать центральные доминирующие дискурсы, включая те, которые связаны с гендерными и расовыми дискриминациями. Несмотря на выгоды, которые приносят LLMs, проблема распространения биаса в их результатах остается актуальной. Особенно важно это для гендерных и расовых дискурсов, где биас может привести к ускорению социальных неравенств. Наша мотивация заключается в том, чтобы понять, какие способы существуют для изучения и устранения таких биаса в AI-системах. #### Метод Мы применяем квалитативный, дискурсивный подход для анализа выводов LLMs, используя тексты, сгенерированные разными моделями. Наша исследовательская домашка основывается на сказках, где главными персонажами являются женщины разных рас (черных и белых). Мы проводим ручной анализ этих текстов, стараясь выявить встроенные гендерные и расовые биасы, которые могут отображаться в их характере, поведении и судьбе. Метод базируется на визуальном и когнитивном анализе, что позволяет акцентировать внимание на том, как язык используется для формирования образов и представлений в контексте дискурса. Мы также исследуем, насколько эффективны алгоритмы поправки биаса и как они меняют структуру этих текстов, чтобы уменьшить негативные эффекты. #### Результаты Мы выявили несколько интересных тенденций в сгенерированных текстах. Белые женщины часто описываются как лидеры своих собственных историй, при этом сфокусированные на самопознании и саморазвитии. Черные женщины, с другой стороны, часто изображаются в контексте истории их народа, стремительной резистенции и наследии. Модели также склонны дублировать существующие социальные стереотипы, что приводит к продолжению устаревших представлений. Когда мы просили модели исправить эти биасы, они в основном просто изменили формулировку, не убирая основные проблемные смыслы. Это показывает, что текущие методы поправки биаса в LLMs недостаточно эффективны и часто оставляют недооцененным влияние предрассудко

Annotation:

With the advance of Artificial Intelligence (AI), Large Language Models (LLMs) have gained prominence and been applied in diverse contexts. As they evolve into more sophisticated versions, it is essential to assess whether they reproduce biases, such as discrimination and racialization, while maintaining hegemonic discourses. Current bias detection approaches rely mostly on quantitative, automated methods, which often overlook the nuanced ways in which biases emerge in natural language. This stu...

ID: 2508.10304v1 cs.CL, cs.AI

arXiv PDF

📄 ReviewRL: Towards Automated Scientific Review with RL

2025-08-16

Авторы:

Sihang Zeng, Kai Tian, Kaiyan Zhang, Yuru wang, Junqi Gao, Runze Liu, Sa Yang, Jingxuan Li, Xinwei Long, Jiaheng Ma, Biqing Qi, Bowen Zhou

#### Контекст Peer review является основополагающим элементом научного прогресса, но сталкивается с значимыми вызовами в условиях растущего объема научных работ и возрастающей усталости рецензентов. Автоматические методы рецензирования сталкиваются с проблемами, такими как неточность фактических данных, несогласованность оценок и глубина анализа. Эти недостатки приводят к генерированию поверхностных или широко известных рекомендаций, которые не имеют ценности для улучшения научных работ. Было предложено ReviewRL, первый фреймворк на основе усовершенствованного алгоритма RL, способный автоматически генерировать высококачественные научные рецензии, обеспечивающие глубокий анализ и точную оценку. #### Метод Фреймворк ReviewRL основывается на трех основных компонентах: (1) **Pipeline для Ретриева-Аугментированной Генерации Контекста (ArXiv-MCP)**, которая включает в себя выдержки из статей на ArXiv, чтобы обеспечить контекстуальное развитие рецензии; (2) **Выделение Модели Обучения с Супервизором (Supervised Fine-Tuning)**, которая учитывает требования к научному рецензированию, чтобы установить основные навыки генерации рецензий; (3) **Подход Обучения с Реинфорсментом (Reinforcement Learning)**, который улучшает качество рецензии и точность оценки, используя композитную функцию награды. Эта архитектура обеспечивает высокую точность и глубину анализа, достигаемую большинством существующих автоматических систем. #### Результаты Проведенные эксперименты на ICLR 2025 работах показали, что ReviewRL превосходит существующие методы по всем основным показателям, включая точность оценки, глубину и целостность рецензий. Методы моделирования значимости, такие как BLEU и ROUGE, показали, что ReviewRL может генерировать рецензии, которые близки по качеству к рецензиям, осуществляемым человеком. Эти результаты доказывают, что ReviewRL может значительно улучшить качество и эффективность научного рецензирования. #### Значимость ReviewRL может применяться в системах автоматического рецензирования, чтобы уменьшить нагрузку на человеческих рецензентов и улучшить качество научного общения. Его преимуществоми являются дополнительная точность в оценке, полнота и глубина анализа, а также уменьшение времени, необходимого для проведения рецензии. Он может способствовать более эффективному использованию ресурсов в научных журналах и онлайн-платформах. #### Выводы ReviewRL представляет собой первый успешный подход к автоматизации рецензирования научных работ с помощью RL. Он устанавливает основу для дальнейшего исследования в этой области, и его реализация будет доступна на GitHub. Б

Annotation:

Peer review is essential for scientific progress but faces growing challenges due to increasing submission volumes and reviewer fatigue. Existing automated review approaches struggle with factual accuracy, rating consistency, and analytical depth, often generating superficial or generic feedback lacking the insights characteristic of high-quality human reviews. We introduce ReviewRL, a reinforcement learning framework for generating comprehensive and factually grounded scientific paper reviews. ...

ID: 2508.10308v1 cs.CL, cs.AI

arXiv PDF

📄 Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation

2025-08-16

Авторы:

Huizhen Shu, Xuying Li, Qirui Wang, Yuji Kosuga, Mengqiu Tian, Zhuo Li

#### Контекст Современные естественные языковые модели (LLM), основывающиеся на глубоких нейронных сетях, достигли высокого качества в решении задач естественного языка. Однако это привело к усилению риска их использования в опасных сценариях, включая создание вредоносного контента и обход безопасности. Таким образом, проблема атак на эти модели остается актуальной для гарантии их безопасного использования. Одной из мотиваций для исследования является необходимость понять слабые места моделей и способы их улучшения. Нашим целью является разработка метода, который может генерировать мотивированные атаки на текст для тестирования и улучшения моделей. #### Метод Мы предлагаем Sparse Feature Perturbation Framework (SFPF), новую методологию для атак на тексты в целях тестирования модели. Основоположником этого подхода является использование спарсинговых автокодировщиков (Sparse Autoencoder, SAE) для выявления и модификации ключевых признаков в тексте. В рамках этого подхода мы декодируем текст с помощью SAE, чтобы получить его представление в скрытом слое, а затем применяем кластеризацию для идентификации сигналов с высокой активацией. Эти высоко активированные признаки являются мотивационными точками для последующей модификации текста. Мы выбираем те признаки, которые будут перетасовываться, чтобы сохранить злонамерение атаки, но при этом усилить сигналы безопасности. Это позволяет сгенерировать текст, который может скрыть свой вредоносный характер и успешно обходить нынешние системы защиты. #### Результаты Мы провели эксперименты с использованием различных данных, включая тексты из реальных задач естественного языка. Мы применяли наши методы к различным моделям и обнаружили, что SFPF эффективно обходит существующие методы защиты, в том числе те, которые основываются на машинном обучении и ручной моделировании. Мы также оценили полученные результаты с помощью метрик, таких как успешность атаки и сохранение смысла текста. Эксперименты показали, что SFPF вышел вперед в сравнении с другими методами, показывая высокую точность и эффективность в генерации текста, который может обходить защиту. #### Значимость Метод SFPF может быть применен в различных областях, включая тестирование безопасности моделей, анализ рисков и улучшение моделей. Одним из основных преимуществ является возможность создания мотивированных текстов, которые могут помочь в раскрытии уязвимостей моделей и их улучшении. Это может привести к более надежным и безопасным естественным языковым моделям, которые будут лучше справляться с непредвиденными входными данными. Мы считаем, что SFPF может иметь

Annotation:

With the rapid proliferation of Natural Language Processing (NLP), especially Large Language Models (LLMs), generating adversarial examples to jailbreak LLMs remains a key challenge for understanding model vulnerabilities and improving robustness. In this context, we propose a new black-box attack method that leverages the interpretability of large models. We introduce the Sparse Feature Perturbation Framework (SFPF), a novel approach for adversarial text generation that utilizes sparse autoenco...

ID: 2508.10404v1 cs.CL, cs.AI

arXiv PDF

📄 ComoRAG: A Cognitive-Inspired Memory-Organized RAG for Stateful Long Narrative Reasoning

2025-08-16

Авторы:

Juyuan Wang, Rongchen Zhao, Wei Wei, Yufeng Wang, Mo Yu, Jie Zhou, Jin Xu, Liyan Xu

#### Контекст Научные исследования в области текстового понимания и реактивного умственного анализа (RAG) сталкиваются с значительными вызовами при анализе длинных текстовых контекстов, таких как романы и художественные произведения. Эти тексты обусловлены сложными сюжетными линиями и дополнительными связями между героями и сущностями. Существующие методы теряются при выполнении длительных и связанных задач, так как ограничены в своей способности сохранять и эффективно использовать информацию из больших контекстов. Таким образом, есть потребность в разработке новых подходов, которые могли бы эффективно поддерживать stateful reasoning в длинных текстовых контекстах. #### Метод Как показано в работе, ComoRAG представляет собой итеративный подход к сбору и обработке информации, который подражает человеческому мышлению при работе с памятью. Взаимодействие происходит в динамической среде памяти, где каждая итерация включает следующие этапы: 1) генерация поисковых запросов для выявления новых связей; 2) получение новых данных из памяти; 3) обновление глобальной памяти с учётом новых сведений. Таким образом, ComoRAG может эффективно сохранять информацию о ключевых связях в течение долгого текста и выполнить stateful reasoning, являясь первым в своём классе. #### Результаты В ходе экспериментов на 200K+ токенов были протестированы современные методы RAG, включая и новый ComoRAG. На основе данных, полученных из 4 проведённых многозначных тестов, ComoRAG демонстрировал выдающиеся результаты. В сравнении с лучшим текущим RAG-методом, ComoRAG показал увеличение точности до 11% при решении сложных задач, в которых требуется глобальное понимание текста. Эти результаты указывают на высокую эффективность ComoRAG в обработке длинных текстов с глубоким контекстом. #### Значимость Помимо оптимизации существующих RAG-моделей, ComoRAG может быть применен в различных областях, включая литературный анализ, глубокий поиск и приложения в ИИ. Его преимущества включают более точное понимание текста, более эффективную обработку длинных текстов и высокую точность в решении тестов, требующих глобального контекста. Это может привести к новым возможностям в текстовом анализе, повышению качества ИИ-систем и повышению производительности в поле текстовых приложений. #### Выводы ComoRAG представляет собой прорыв в области stateful reasoning в текстовых контекстах. Его технология, основанная на принципах человеческого ума, позволила достичь изумительных результатов в тестировании на длинных текстах. На будущее планируется расширение функций ComoRAG, у

Annotation:

Narrative comprehension on long stories and novels has been a challenging domain attributed to their intricate plotlines and entangled, often evolving relations among characters and entities. Given the LLM's diminished reasoning over extended context and high computational cost, retrieval-based approaches remain a pivotal role in practice. However, traditional RAG methods can fall short due to their stateless, single-step retrieval process, which often overlooks the dynamic nature of capturing i...

ID: 2508.10419v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 When Language Overrules: Revealing Text Dominance in Multimodal Large Language Models

2025-08-16

Авторы:

Huyu Wu, Meng Tang, Xinhan Zheng, Haiyun Jiang

## Контекст Проблема **текстовой доминанты (text dominance)** в **мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLMs)** является значимой темой в современных исследованиях. Эти модели обладают выдающимися возможностями в различных мультимодальных задачах, однако наблюдается неравномерная зависимость от **текста** в процессе работы. Это приводит к неэффективному использованию данных других модов, таких как **изображения**, **звук**, **видео**, **серии времени** и **графы**. До этого, выявленная проблема была приписывалась системным уклонению к тексту из-за **архитектур моделей** или **несбалансированной биазы данных**. Однако, в данной работе, эта проблема рассматривается в широком многомодальном контексте, включая не только изображения и видео, но и современные модовые данные, такие как **аудио**, **серии времени** и **графы**. Этот подход позволяет провести систематическое исследование и изучить взаимодействие модов в новых условиях. ## Метод Для изучения **текстовой доминанты** в MLLMs, авторы вводят два новые метрики: **Modality Dominance Index (MDI)** и **Attention Efficiency Index (AEI)**. **MDI** измеряет степень зависимости модели от текста, а **AEI** оценивает эффективность использования модов в процессе принятия решений. Для экспериментов, авторы используют пять различных модов: **изображения**, **видео**, **аудио**, **серии времени** и **графы**. Методы анализа включают расчет этих метрик на основе различных тестовых данных, а также изучение влияния различных архитектур и техник сжатия токенов может иметь на баланс модели. Эти методы позволяют выявить **три основных причины текстовой доминанты**: **редкость токенов других модов**, **проектирование архитектуры модели** и **задачи, которые неявно продвигают текст**. ## Результаты Эксперименты показали, что **текстовая доминанта** существенна и переносима по всем рассмотренным модам, включая **изображения**, **видео**, **аудио**, **серии времени** и **графы**. Результаты показали, что модели страдают от **необходимости использовать текст** даже когда другие модовые данные могут быть более подходящими. Были выявлены влиятельные факторы, такие как **сжатие токенов**, **неоптимальный дизайн архитектуры** и **статическая оболочка задач**, которые подталкивают модель к тексту. Например, **LLaVA-7B** имела **MDI 10.23** до применения метода сжатия токенов, но после его применения, **MDI** был снижен до **0.86**, что позволило улучшить баланс модели. ## Значимость Предложенный подход имеет большое значение для развития более **сбалансированных моделей**, которые могут эффективно использовать данные из всех модов. Изученные методы могут

Annotation:

Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities across a diverse range of multimodal tasks. However, these models suffer from a core problem known as text dominance: they depend heavily on text for their inference, while underutilizing other modalities. While prior work has acknowledged this phenomenon in vision-language tasks, often attributing it to data biases or model architectures. In this paper, we conduct the first systematic investigation of text domina...

ID: 2508.10552v1 cs.CL, cs.AI

arXiv PDF

📄 Continuous Bangla Sign Language Translation: Mitigating the Expense of Gloss Annotation with the Assistance of Graph

2025-08-16

Авторы:

Safaeid Hossain Arib, Rabeya Akter, Sejuti Rahman

#### Контекст Миллионы людей по всему миру страдают от дефицита слуха и слуховой имперантности. Знакровая речь является богатой и уникальной формой коммуникации для дефицитных слуха. Однако в обществах, ориентированных на говорение, знаковая речь часто недооценивается, что приводит к коммуникативным барьерам и социальному изоляции. Наша работа, "Continuous Bangla Sign Language Translation: Mitigating the Expense of Gloss Annotation with the Assistance of Graph", нацелена на уменьшение затрат на глоссальную аннотацию путем разработки эффективной методики перевода знаковой речи. Мы интегрировали графовые методы с архитектурой transformer, что позволило достичь новых результатов в области знакового перевода. #### Метод Мы предлагаем интегрированный подход, который сочетает графовые архитектуры с transformer-архитектурой. Нашу архитектуру, названную STGCN-LSTM, мы применяем к знаковому переводу с комбинацией нескольких функций и разных стратегий фуссирования. Модель обучается на широком наборе данных, включая RWTH-PHOENIX-2014T, CSL-Daily, How2Sign и BornilDB v1.0, чтобы обеспечить широкий спектр знаковых сообщений. Модель позволяет обрабатывать знаковые словари без глоссы, что упрощает процесс перевода и улучшает его точность и скорость. #### Результаты Мы проводили эксперименты на нескольких датасетах, включая RWTH-PHOENIX-2014T, CSL-Daily, How2Sign и BornilDB v1.0. Метод STGCN-LSTM показал значительные улучшения по сравнению с текущими результатами, в частности, увеличил BLEU-4 счет на 4.01 для RWTH-PHOENIX-2014T, 2.07 для CSL-Daily, и 0.5 для How2Sign. Мы также впервые внедрили бенчмаркинг на датасете BornilDB v1.0, установив новый злам для будущих исследований. Наш подход демонстрирует лучшие результаты по сравнению с существующими методами, показывая перспективу графовых технологий в знаковом переводе. #### Значимость Наша работа имеет значительные применения в области знакового перевода, особенно для тех, кто использует знаковую речь. Мы демонстрируем улучшение точности и скорости перевода без необходимости глоссальных аннотаций. Это уменьшает затраты на обучение модели и делает перевод более доступным для дефицитных слуха. Наши результаты могут быть применены в системах перевода знаковых языков, обучении моделей для знаковых языков, а также в улучшении социальных связей и доступности для дефицитных слуха. #### Выводы Мы добились значительных улучшений в знаковом переводе, используя интегрированный подход со смесью графовых и transformer-архитектур. Наша работа доказывает, что графовые методы могут значительно улучшить точность и эфф

Annotation:

Millions of individuals worldwide are affected by deafness and hearing impairment. Sign language serves as a sophisticated means of communication for the deaf and hard of hearing. However, in societies that prioritize spoken languages, sign language often faces underestimation, leading to communication barriers and social exclusion. The Continuous Bangla Sign Language Translation project aims to address this gap by enhancing translation methods. While recent approaches leverage transformer archi...

ID: 2508.10687v1 cs.CL, cs.AI

arXiv PDF

1
2
184
185
186
187
188
204
205

Показано 1851 - 1860 из 2042 записей