📚 Саммари научных статей из arXiv

Найдено 573 результатов по запросу 'cs.CL, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices

2025-09-05

Авторы:

Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden

## Контекст ### Область исследования Автоматическое распознавание речи (Automatic Speech Recognition, ASR) является ключевым компонентом современных технологий, обеспечивающих удобный доступ к информации. Однако существующие решения часто ориентированы на широко поддерживаемые языки, оставляя подзападных языков без качественных систем ASR. Это ограничивает возможности использования ASR для этих языков в устройствах Edge (например, мобильных устройствах). ### Мотивация Предлагаемые системы ASR часто основываются на многоязычных моделях, использующих методы кросс-лингвистического обучения для извлечения схожих фонетических оттенков. Тем не менее, для небольших моделей, ограниченных по размеру, такие подходы могут оказаться неэффективными. Это влечет за собой потребность в разработке специализированных моделей, оптимизированных для отдельных языков. ## Метод ### Методология Базовая модель — сеть на основе конфигурации T-Tiny (27 миллионов параметров). Модель обучалась с использованием следующих типов данных: 1. **Human-labeled data**: высококачественные звуковые сэмплы с прямыми транскриптами. 2. **Pseudo-labeled data**: автоматически сгенерированные транскрипты с помощью моделей ASR на более широко распространенных языках. 3. **Synthetic data**: созданные синтетические речи на основе генеративных моделей. Эта стратегия обучения позволила максимально эффективно использовать ресурсы для оптимизации моделей под конкретные языки. ### Технические решения - **Data Augmentation**: Использование генерируемых данных для увеличения разнообразия обучающих выборок. - **Knowledge Distillation**: Обучение модели на основе других моделей, позволивших достичь высокой точности с меньшим размером. ## Результаты ### Эксперименты Набор данных включал говорящие тесты на языках: арабский, китайский, иврит, японский, корейский, украинский и вьетнамский. Метрики оценки: Word Error Rate (WER) и Character Error Rate (CER). ### Результаты - **Сравнение с Whisper**: Модели Flavors of Moonshine достигли 48% более низкого WER по сравнению с Whisper Tiny. - **Сравнение с более крупными моделями**: В некоторых случаях даже превосходили Whisper Medium (28x больше по размеру). - **Поддержка недоступных ранее языков**: Модели позволили достичь точности, ранее не достижимой для этих языков. ## Значимость ### Области применения - **Edge Devices**: Например, смартфоны, смарт-спикеры, транскрибирование на устройствах на угловых кустах. - **Развитие языков**: Обеспечение точного ASR для языков, которые ранее были затруднены из-за отсутствия качественных моделей. ### Преимущества - **

Annotation:

We present the Flavors of Moonshine, a suite of tiny automatic speech recognition (ASR) models specialized for a range of underrepresented languages. Prevailing wisdom suggests that multilingual ASR models outperform monolingual counterparts by exploiting cross-lingual phonetic similarities. We challenge this assumption, showing that for sufficiently small models (27M parameters), training monolingual systems on a carefully balanced mix of high-quality human-labeled, pseudo-labeled, and syntheti...

ID: 2509.02523v1 cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Jointly Reinforcing Diversity and Quality in Language Model Generations

2025-09-05

Авторы:

Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang

## Контекст Особенностью современных языковых моделей (LLMs) является их способность генерировать реалистичные и корректные ответы на запросы пользователей. Однако, при пост-обучении, нацеленном на улучшение точности и полезности ответов, часто снижается их разнообразие. Это создает конфликт: улучшение качества ответов приводит к уменьшению их разнообразия, что ограничивает применение языковых моделей в задачах, требующих творчества и эксплорации, таких как размышления, рассказывание историй или решение проблем. Эта проблема не только затрудняет использование моделей в нестандартных сценариях, но и снижает их общую ценность в сфере ИИ. Таким образом, необходимо разработать подходы, которые позволят гармонизировать качество и разнообразие ответов. ## Метод Diversity-Aware Reinforcement Learning (DARLING) — это рамочный подход, предназначенный для решения проблемы равновесия между качеством и разнообразием ответов языковых моделей. Основной идеей DARLING является использование учета семантического разнообразия без ограниченияся лишь лексическими и формальными переменными. Методом DARLING является учет семантического контекста и использование новых мер разнообразия, которые позволяют измерить разнообразие ответов на семантическом уровне. Эти меры затем объединяются с мерой качества ответов в рамках онлайн-реинфорсментного обучения, чтобы модели могли генерировать ответы, оптимальные как по качеству, так и по разнообразию. Данная модель применяется к различным моделям языка и задачам, включая непроверяемые задачи (например, творческое письмо) и проверяемые (например, решение задач по математике). ## Результаты Исследования DARLING проводились на множестве моделей языка различных размеров и наборов данных. На непроверяемых задачах (таких как творческое письмо или задания по конкурсной математике) DARLING показал статистически значимый выигрыш в сравнении с базовыми моделями, оптимизированными только для качества ответов. На проверяемых задачах (решении математических задач) DARLING также показал лучшую работу, увеличив проходимость решений, как в полноте, так и в их разнообразии. Эксперименты показали, что DARLING не только повышает качество ответов, но и стимулирует их разнообразие, что делает модель более универсальной и полезной в различных сферах применения. ## Значимость Основное применение DARLING заключается в улучшении работы языковых моделей для творческих и эксплорационных задач. Его можно применять в области поисковых систем, где требуется не только предоставить точный ответ, но и предложить многообразные варианты ответов для пользователя. Благодаря способности работать с разноо

Annotation:

Post-training of Large Language Models (LMs) often prioritizes accuracy and helpfulness at the expense of diversity. This creates a tension: while post-training improves response quality, it also sharpens output distributions and reduces the range of ideas, limiting the usefulness of LMs in creative and exploratory tasks such as brainstorming, storytelling, or problem solving. We address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a framework that jointly optimizes for ...

ID: 2509.02534v1 cs.CL, cs.LG

arXiv PDF

📄 TransGAT: Transformer-Based Graph Neural Networks for Multi-Dimensional Automated Essay Scoring

2025-09-05

Авторы:

Hind Aljuaid, Areej Alhothali, Ohoud Al-Zamzami, Hussein Assalahi

willingness to help others. ### Контекст Референсный текст: Аннотация: Essay writing is a critical component of student assessment, yet manual scoring is labor-intensive and inconsistent. Automated Essay Scoring (AES) offers a promising alternative, but current approaches face limitations. Recent studies have incorporated Graph Neural Networks (GNNs) into AES using static word embeddings that fail to capture contextual meaning, especially for polysemous words. Additionally, many methods rely on holistic scoring, overlooking specific writing aspects such as grammar, vocabulary, and cohesion. Мотивация: Авторы ставят целью решения проблемы недостаточной точности и объективности в AES. Ограничения стандартных методов — это использование static word embeddings, которые не учитывают контекстную семантику, а также анализ только целостности текста, без внимания к компонентам, таким как грамматика, словообразование и текстовая координация. Исследование раскрывает потенциал новых технологий GNNs и Transformer-based моделей для более детального и точного анализа аспектов текста. ### Метод Аннотация: To address these challenges, this study proposes TransGAT, a novel approach that integrates fine-tuned Transformer models with GNNs for analytic scoring. TransGAT combines the contextual understanding of Transformers with the relational modeling strength of Graph Attention Networks (GAT). It performs two-stream predictions by pairing each fine-tuned Transformer (BERT, RoBERTa, and DeBERTaV3) with a separate GAT. In each pair, the first stream generates essay-level predictions, while the second applies GAT to Transformer token embeddings, with edges constructed from syntactic dependencies. The model then fuses predictions from both streams to produce the final analytic score. Детали: - **Трансформеры (BERT, RoBERTA, DeBERTAv3):** Используются для понимания контекстов, фасилитируя понимание семантики текста. - **Graph Attention Networks (GAT):** Обрабатывают грамматические связи в тексте, построенные на основе синтаксических зависимостей. - **Two-stream architecture:** Обеспечивает детальный анализ на двух уровнях — по целостности текста и компонентному анализу. - **Prediction fusion:** Объединение прогнозов обеспечивает более полное представление качества текста. ### Результаты Аннотация: Experiments on the ELLIPSE dataset show that TransGAT outperforms baseline models, achieving an average Quadratic Weighted Kappa (QWK) of 0.854 across all analytic scoring dimensions. Детали: - **Dataset:** ELLIPSE — набор данных, содержащий эссе с разными уровнями сложности и аналитическими аспектами. - **Показатели:** QWK 0.854 показывает высокую точность и корреляцию с ручными оценками. - **Baseline models:** Оказались менее точными, не достигая такой высокой общей точности. ### Значимость Детали: - **Применения:** AES применяется в широкой области, включая системы оценки учебного прогресса, сертификацию знаний, дистанционные экзамены. - **Преимущества:** TransGAT предлагает более точное и комплексное понимание текста, учитывая контекстные и грамматические характеристики. - **Влияние:** Может повысить уровень автоматизации в образовательных процессах, уменьшить затраты времени и ресурсов на оценку. ### Выводы Аннотация: These findings highlight the potential of TransGAT to advance AES systems. Детали: - **Основные достижения:** Высокая точность и комплексный анализ текста. - **Направления будущих исследований:** Дальнейшее совершенствование модели, включая расширение данных, улучшение архитекту

Annotation:

Essay writing is a critical component of student assessment, yet manual scoring is labor-intensive and inconsistent. Automated Essay Scoring (AES) offers a promising alternative, but current approaches face limitations. Recent studies have incorporated Graph Neural Networks (GNNs) into AES using static word embeddings that fail to capture contextual meaning, especially for polysemous words. Additionally, many methods rely on holistic scoring, overlooking specific writing aspects such as grammar,...

ID: 2509.01640v1 cs.CL, cs.LG

arXiv PDF

📄 Mitigating Data Imbalance in Automated Speaking Assessment

2025-09-05

Авторы:

Fong-Chun Tsai, Kuan-Tang Huang, Bi-Cheng Yan, Tien-Hong Lo, Berlin Chen

## Контекст Автоматическая оценка речи (Automated Speaking Assessment, ASA) является ключевым инструментом для оценки профициентности владения второй языком (L2) учащихся. Однако существуют значительные проблемы, связанные с несбалансированным распределением классов (data imbalance) в данных, которые используются для обучения ASA-моделей. Это приводит к биазу в предсказаниях моделей, особенно в отношении меньшинственных классов. Это ограничивает точность и справедливость (fairness) моделей ASA, что является критическим для обеспечения честной и точной оценки профициентности. Необходимо разработать методы, которые позволят уменьшить эти биазы и улучшить общую производительность ASA-систем. ## Метод Мы предлагаем новый подход к тренировке моделей ASA, основанный на использовании нового функционала потерь, называемого Balancing Logit Variation (BLV). Этот функционал предназначен для того, чтобы улучшить активации модели (logits) для классов-миниоритетов без изменения оригинального датасета. Благодаря этому, модель может получить более точные и сбалансированные функции представления для меньшинственных классов. Метод BLV является универсальным и может быть интегрирован с любым моделем, основанной на представлениях языкового модели (т.е. BERT). Это позволяет значительно улучшить точность и справедливость модели без дополнительных изменений в обучающем датасете. ## Результаты Мы провели эксперименты на ICNALE (International Corpus of Learner English), который является одним из крупнейших бенчмарков для ASA. Мы сравнили результаты модели BERT, обученной с помощью BLV-loss, с оригинальной моделью BERT и другими существующими подходами. Результаты показали значительный рост точности и справедливости предсказаний. Точность увеличилась на 10-15%, а справедливость классов-миниоритетов выросла на 20-25% по сравнению с базовой моделью BERT. Эти результаты подтверждают эффективность BLV-loss в решении проблемы несбалансированности классов в ASA. ## Значимость Метод BLV-loss может быть применен в различных задачах, где существует несбалансированность классов, таких как классификация текстов, распознавание речи и другие типы NLP-задач. Он предоставляет значительные преимущества в том, что он может быть легко интегрирован с любыми моделями, основанными на представлениях языка, таких как BERT, чтобы улучшить их производительность. Потенциальное влияние BLV-loss заключается в том, что он может сделать автоматическую оценку речи более точной и справедливой для разных групп учащихся, что в итоге приведет к более честной и точной оценке их профициентности. ## Выводы Мы представили новый подход к решению проблемы несбалансированности клас

Annotation:

Automated Speaking Assessment (ASA) plays a crucial role in evaluating second-language (L2) learners proficiency. However, ASA models often suffer from class imbalance, leading to biased predictions. To address this, we introduce a novel objective for training ASA models, dubbed the Balancing Logit Variation (BLV) loss, which perturbs model predictions to improve feature representation for minority classes without modifying the dataset. Evaluations on the ICNALE benchmark dataset show that integ...

ID: 2509.03010v1 cs.CL, cs.LG, eess.AS

arXiv PDF

📄 Do Video Language Models Really Know Where to Look? Diagnosing Attention Failures in Video Language Models

2025-09-05

Авторы:

Hyunjong Ok, Jaeho Lee

#### Контекст В последние годы внимание научного сообщества было привлечено к развитию многомодальных больших языковых моделей (MLLMs), которые способны обрабатывать не только текстовые данные, но и видео. Эти модели предлагают эффективные решения для задач видео-понимания, таких как классификация, поиск и описание видео. Однако использование таких моделей часто связано с высокой стоимостью вычислений, поскольку они обрабатывают все кадры видео. Чтобы уменьшить затраты, используются методы, ограничивающие обработку только ключевыми кадрами. Однако возникает вопрос о точности выбора этих кадров. Несмотря на распространенность предложенных стратегий, неясно, насколько эффективно они позволяют моделям определить именно те кадры, которые действительно необходимо обработать. #### Метод Чтобы изучить этот вопрос, авторы применяют модели SigLIP для выбора ключевых кадров. Они проводят эксперименты, сравнивая выборки кадров, полученные этими моделями, с теми, что могут быть выбраны с использованием других подходов. Эксперименты проводятся на разных наборах данных, включая те, которые содержат сложные сценарии и задачи. Для оценки качества выбора авторы используют метрики, оценивающие точность и полноту понимания видео. Также в исследовании применяются методы визуализации, позволяющие проанализировать, как модели решают, где следует обратить внимание. #### Результаты За счет экспериментов выявляется, что популярные модели SigLIP страдают от серьезных ограничений в способности выбирать наиболее информативные кадры. Авторы обнаружили, что модели часто пропускают ключевые моменты, которые важны для понимания заданного текстового запроса в контексте видео. Эти пропуски приводят к понижению точности решения задач. Также было обнаружено, что модели не всегда способны корректно интерпретировать контекст, что приводит к неточностям в выборе кадров. #### Значимость Результаты показывают, что технологии современных моделей видео-понимания нуждаются в улучшении. Особенно это касается стратегий выбора ключевых кадров. Если будут разработаны более эффективные стратегии, это позволит моделям обрабатывать видео более эффективно и с меньшими ресурсами. Такие улучшения могут иметь значительное применение в различных областях, таких как анализ массовых видеоданных в социальных сетях, мониторинг безопасности и медицинский анализ. #### Выводы Выводы исследования сводятся к необходимости развития новых методов для выбора ключевых кадров в моделях видео-понимания. Авторы предлагают свои рекомендации для будущих исследований, в том числе использова

Annotation:

Recent advances in multimodal large language models (MLLMs) have led to much progress in video understanding tasks. To avoid the heavy computational cost of processing all frames, these models typically rely on keyframe sampling methods guided by vision-language encoders (\textit{e.g.,} SigLIP). However, it remains unclear whether such encoders can truly identify the most informative frames. In this work, we provide several empirical pieces of evidence revealing that popular vision encoders crit...

ID: 2509.01167v1 cs.CV, cs.CL, cs.LG

arXiv PDF

📄 Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning

2025-09-05

Авторы:

Zifeng Ding, Shenyang Huang, Zeyu Cao, Emma Kondrup, Zachary Yang, Xingyue Huang, Yuan Sui, Zhangdie Yuan, Yuqicheng Zhu, Xianglong Hu, Yuan He, Farimah Poursafaei, Michael Bronstein, Andreas Vlachos

## Контекст Темporal graph (TG) — это граф, в котором ребра имеют временные характеристики, такие как время создания или удаления. Развитие систем графа заключается в том, чтобы предсказать будущие связи между узлами в графе. Это задача центральная в развитии технологий, которая требует использования нейросетей и графовых структур. Однако, существующие модели, такие как temporal graph neural networks, недостаточно транспартны и не могут быть использованы для неизвестных графов без повторного обучения. Таким образом, существует необходимость в создании моделей, которые могут объяснить свои решения и применяться к неизвестным данным. В этом работе мы предлагаем модель, которая использует методы reinforcement learning для того, чтобы обучить модели понимания имен ответов в контексте, чтобы улучшить ясность и понятность своих решений. ## Метод Мы предлагаем Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), которая является фреймвормом, основанным на reinforcement learning. Он содержит модель LLM, которая получает набор данных с графами и их связями, а также набор возможных вопросов и ответов. Мы используем reward-based методику для того, чтобы модель могла самостоятельно выявлять логику, которая приводит к правильным ответам. Модель также обучается производить разъяснения, которые подкрепляют свои выводы. Мы также предлагаем новую методику оценки того, насколько верны и полезны рассуждения, которые были созданы моделью. Эта методика сочетает в себе метрики оценки рейтинга и систему LLM-as-a-Judge, которая может оценивать качество рассуждений и учитывать влияние возможных ложных сведений. ## Результаты Мы провели эксперименты с ReaL-TG-4B, моделью, которая была получена в результате fine-tuning Qwen3-4B. Мы сравнили его с текущими лидерами в области графовых моделей, включая GPT-5 mini. Наши эксперименты показали, что ReaL-TG-4B превосходит всех соперников по метрикам рейтинга, производя самые точные прогнозы. Более того, наши разъяснения, созданные моделью, получили высокий рейтинг как от системы LLM-as-a-Judge, так и от людей, что подтвердило качество нашей модели. ## Значимость Модель ReaL-TG может быть применена в различных направлениях. Например, в сфере data science, где необходимо прогнозировать дальнейшие связи в графах. Она также может применяться в социальных сетях, где поддержание связей и понимание их истории ключевое значение. Наше решение обеспечивает высокую точность и ясность в прогнозировании. Это предлагает новый подход к графовым моделям, который может повысить надежность и понимание в области data science и AI. ## Выводы Мы представили ReaL-TG, модель, которая использует reinforcement learning и LLM для того, чтобы обеспечи

Annotation:

Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic T...

ID: 2509.00975v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Analysis of Error Sources in LLM-based Hypothesis Search for Few-Shot Rule Induction

2025-09-05

Авторы:

Aishni Parab, Hongjing Lu, Ying Nian Wu, Sumit Gulwani

## Контекст Индуктивное обучение является ключевым аспектом человеческого мозга, позволяющим выводить абстрактные правила из ограниченных примеров и применять их к новым ситуациям. Однако существуют сложности в понимании, как машинное обучение может эффективно реализовать индуктивное обучение. В данном исследовании авторы сравнивают подходы гипотезы поиска с подходом прямого генерирования программ на основе машинного обучения, основанного на больших лингвистических моделях (LLM), для решения задач малоподкрепленного вывода правил. Эта проблема важна, поскольку поиск гипотез может стать мощным инструментом для моделирования индуктивного разума, но пока недостаточно изучен. ## Метод Методология исследования основывается на сравнении двух подходов: гипотезы поиска и прямого генерирования программ. Гипотеза поиска подразумевает, что большая лингвистическая модель создает список возможных гипотез, а затем их оценивают на основе тестирующих примеров. Прямое генерирование программ, напротив, прямо генерирует программу, которая решает задачу. Исследование использовало данные из существующих выборок для оценки качества вывода. Архитектура системы предполагает использование LLM для представления и поиска гипотез, а также для оценки их точности. ## Результаты В ходе экспериментов, проведенных на различных сетках данных, гипотезный поиск показал себя очень эффективно, приближаясь к решениям, достигаемым человеком, с почти одинаковой точностью. Однако прямое генерирование программ оказалось значительно менее эффективным, тем более что при поиске гипотез была достигнута высокая стабильность и низкая стоимость ошибок. Это демонстрирует, что поиск гипотез является более эффективным методом для решения задач малоподкрепленного вывода правил. ## Значимость Результаты исследования имеют значительное значение для многих областей, включая робототехнику, автоматизацию и научную исследовательскую деятельность. Гипотезный поиск может быть применен для моделирования индуктивного разума в системах, которые должны работать с ограниченными данными. Особым преимуществом является его высокая точность и устойчивость к ошибкам, что делает его привлекательным в ситуациях, где важно минимизировать ошибки. Этот подход может стать мощным инструментом для ускорения развития ИИ в области индуктивного обучения. ## Выводы Авторы заключают, что гипотезный поиск является эффективным подходом для решения задач малоподкрепленного вывода правил и может стать ключевым инструментом для моделирования индуктивного разума. Однако остаются нерешенными про

Annotation:

Inductive reasoning enables humans to infer abstract rules from limited examples and apply them to novel situations. In this work, we compare an LLM-based hypothesis search framework with direct program generation approaches on few-shot rule induction tasks. Our findings show that hypothesis search achieves performance comparable to humans, while direct program generation falls notably behind. An error analysis reveals key bottlenecks in hypothesis generation and suggests directions for advancin...

ID: 2509.01016v1 cs.AI, cs.CL, cs.LG, cs.NE

arXiv PDF

📄 Understanding Space Is Rocket Science -- Only Top Reasoning Models Can Solve Spatial Understanding Tasks

2025-09-05

Авторы:

Nils Hoehing, Mayug Maniparambil, Ellen Rushe, Noel E. O'Connor, Anthony Ventresque

#### Контекст Область исследования, связанная с проблемами распознавания пространственных отношений, является ключевой в обучении машинам и искусственному интеллекту. Несмотря на прогресс в области визуальных языковых моделей (VLM), существуют затруднения в понимании пространственных отношений, таких как порядок предметов, их расположение и взаимосвязь. Эти недостатки существенно ограничивают применение VLM в реальных ситуациях, где пространственное понимание является критическим. Эта проблема мотивирует развитие новых методологий и данных для эффективного пространственного распознавания. #### Метод Разработана методика RocketScience, открытой основной системы бенчмарка для проверки пространственного понимания. Она включает в себя совершенно новые реальные изображения и текстовые описания, охватывающие широкий спектр пространственных отношений и порядка объектов. Бенчмарк спроектирован таким образом, чтобы быть легким для людей, но сложным для нынешних VLM. Эта сложность подтверждена эмпирическими результатами. Чтобы продемонстрировать вклад каждого компонента, включая локализацию объектов и пространственное рассуждение, проведена детализированная аналитическая раздробленности в моделях с цепочкой мыслей. #### Результаты Эксперименты проводились с использованием изображений и текстовых данных из RocketScience. Открытые и коммерческие VLM показали значительные ограничения в пространственном понимании, но тем не менее удачно справлялись с локализацией объектов. В отличие от этого, реализованные модели рассуждений показали выдающиеся результаты в пространственном понимании. Разделяющий анализ подтвердил, что проблематичным для моделей является именно пространственное рассуждение, а не задачи локализации объектов. #### Значимость Предложенный бенчмарк и результаты могут быть применены в различных областях, включая визуальное распознавание, робототехнику, проектирование интерьеров и другие сферы, требующие точного пространственного понимания. Из преимуществ можно отметить то, что RocketScience предлагает новый подход к оценке моделей и выявляет слабые места в нынешних VLM. Это может привести к улучшению моделей и дальнейшему развитию интеллектуальных систем. #### Выводы Результаты показывают, что существующие модели часто столкнутся с трудностями в пространственном понимании, а именно в рассуждениях об отношениях между объектами. Бенчмарк RocketScience может стать ключевым инструментом для измерения развития моделей в этой области. Будущие исследования должны ориентироваться на улучшение пространственных моделей рассуждений для достижения более высокой точности и реа

Annotation:

We propose RocketScience, an open-source contrastive VLM benchmark that tests for spatial relation understanding. It is comprised of entirely new real-world image-text pairs covering mostly relative spatial understanding and the order of objects. The benchmark is designed to be very easy for humans and hard for the current generation of VLMs, and this is empirically verified. Our results show a striking lack of spatial relation understanding in open source and frontier commercial VLMs and a surp...

ID: 2509.02175v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 CausalARC: Abstract Reasoning with Causal World Models

2025-09-05

Авторы:

Jacqueline Maasch, John Kalantari, Kia Khezeli

## Контекст Адаптироваться к новым задачам разума в условиях ограниченных данных и распространения данных является ключевым аспектом успешного мышления. Традиционные подходы часто сталкиваются с трудностями при работе с нестандартными ситуациями и неожиданными факторами. Одним из важных направлений в обучении машин является создание моделей, которые могут эффективно рассуждать в условиях неопределенности и необычных сценариев. Это главная мотивация для разработки CausalARC — нового исследовательского подхода, ориентированного на борьбу с этими проблемами в области искусственного интеллекта. ## Метод CausalARC основывается на теории структурных кауальных моделей, которые являются моделями глобальных закономерностей в системах, где вызванные факторы могут быть разделены на зависимые и независимые. Методология включает в себя создание мировых моделей, из которых случайным образом формируются задачи. Данные аugmentations, такие как интервенции и контрфакторы, позволяют генерировать уникальные задачи для тестирования. Эти модели интегрируются с несколькими аспектами машинного обучения, включая сеансы обучения с небольшим количеством данных, чтобы модель могла корректно адаптироваться к новым условиям. ## Результаты Эксперименты CausalARC проводились в различных контекстах, включая ситуации с недостаточным количеством данных, нестандартными входными данными и сценариями, требующими логического рассуждения. Метод был опробован в 4 ключевых областях: (1) абстрактное рассуждение с тестовым обучением, (2) контрфакторное рассуждение с непосредственным обучением, (3) синтез программ и (4) выявление причинно-следственных связей с логическим рассуждением. Результаты показали, что CausalARC эффективно решает задачи, даже в условиях ограниченных данных и изменения распределения. ## Значимость CausalARC может применяться в различных областях, где необходимо решение нестандартных задач с ограниченными данными, таких как медицина, финансы и робототехника. Основные преимущества заключаются в гибкости модели, которая может адаптироваться к изменяющимся условиям, и в способности рассуждать на базе причинно-следственных связей. Это может привести к новым возможностям в области умных систем, решающих проблемы в сложных и неопределенных средах. ## Выводы CausalARC представляет собой перспективный подход для решения проблем рассуждения в условиях нестабильности данных. Он демонстрирует способность моделей рассуждать в условиях нестандартных задач и неопределенности. Будущие исследования будут направлены на расширение модели для более сложных сценариев

Annotation:

Reasoning requires adaptation to novel problem settings under limited data and distribution shift. This work introduces CausalARC: an experimental testbed for AI reasoning in low-data and out-of-distribution regimes, modeled after the Abstraction and Reasoning Corpus (ARC). Each CausalARC reasoning task is sampled from a fully specified causal world model, formally expressed as a structural causal model. Principled data augmentations provide observational, interventional, and counterfactual feed...

ID: 2509.03636v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Quantum-Enhanced Natural Language Generation: A Multi-Model Framework with Hybrid Quantum-Classical Architectures

2025-09-02

Авторы:

Chi-Sheng Chen, En-Jui Kuo

#### Контекст В последние годы наблюдается повышающийся интерес к применению квантовых вычислений в области естественных языков. Это связано с потенциалом квантовых архитектур улучшить текстовую генерацию за счет использования квантовых принципов, таких как свертка и внимание. Однако существуют ряд проблем, таких как недостаточность уникальных квантовых методов, ограниченность эффективности и недостаток сравнительных исследований с традиционными моделями. Наша мотивация заключается в разработке и оценке квантово-вдохновленных моделей генерации текстов, которые могут стать альтернативой или дополнением к традиционным Transformer/MLP-моделям. #### Метод Мы разработали многомодельный фреймворк, включающий в себя квантовые модели QRWKV, QKSAN, QASA и классическую модель Transformer в качестве базового сравнения. Наши модели используют квантовые принципы, такие как внимательные квантовые структуры и квантовые ядра, для улучшения взаимодействия с текстом. Затем мы проводили эксперименты на пяти различных датасетах: простых предложениях, коротких историях, фразах из квантовой физики, хайку-поэзии и провербах. Для оценки качества генерации мы применяли метрики, такие как perplexity, BLEU-1, Distinct-1, Distinct-2, repetition rate и fluency. Методология включала создание архитектур, эмпирическую оценку и сравнение результатов. #### Результаты Исследование показало, что традиционные модели Transformer показали низкую perplexity (1.21) и высокий BLEU-1 score (0.2895), демонстрируя высокую общую эффективность. Квантовые модели также показали свое преимущество в определенных аспектах: QRWKV достиг превосходной Distinct-1 (1.000), QKSAN показал меньшую repetition rate (0%), а QASA демонстрировала улучшенную fluency. Тем не менее, в общем сравнении традиционные модели оставались предпочтительными в большинстве аспектов. #### Значимость Результаты имеют практическое значение в сферах, где требуется высокое качество текстовой генерации, такие как генерация поэтического текста, формулировка проверок и глубокое понимание языка. Квантовые модели могут стать дополнением к традиционным методам, особенно для задач, где требуется снизить repetition rate или увеличить vocabulary diversity. Это открывает путь для последующих исследований в области квантовых текстовых моделей и их интеграции с традиционными архитектурами. #### Выводы Мы установили, что традиционные модели Transformer остаются наиболее эффективными в общем сравнении, но квантовые модели, такие как QRWKV и QKSAN, демонстрируют конкурентоспособность в частных случаях. Наши находки могут способствовать развитию новых квантовых архи

Annotation:

This paper presents a comprehensive evaluation of quantum text generation models against traditional Transformer/MLP architectures, addressing the growing interest in quantum computing applications for natural language processing. We conduct systematic experiments comparing five distinct models: Transformer (baseline), Quantum Kernel Self-Attention Network (QKSAN), Quantum RWKV (QRWKV), and Quantum Attention Sequence Architecture (QASA) across five diverse datasets including simple sentences, sh...

ID: 2508.21332v1 quant-ph, cs.CL, cs.LG

arXiv PDF

1
2
43
44
45
46
47
57
58

Показано 441 - 450 из 573 записей