📚 Саммари научных статей из arXiv

Найдено 7506 результатов по запросу 'cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy

2025-08-09

Авторы:

Hongze Tan, Jianfei Pan

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время получение глубокой и точной информации из больших языковых моделей (Large Language Models, LLMs) стало важной задачей. Одним из ключевых методов для достижения этой цели является Reinforcement Learning (RL), который стремится улучшить точность и согласованность моделей. Однако существующие подходы, такие как Group Relative Policy Optimization (GRPO), сталкиваются с проблемой грубого распределения наград (credit assignment) по токенам в последовательности. Это ограничивает их эффективность в задачах сложной цепочки рассуждений, где необходимо выделять и усиливать конкретные элементы последовательности. Традиционные методы RL, такие как DAPO, применяют одинаковые награды ко всем токенам в последовательности, что может привести к неточному обучению. Это особенно заметно в задачах, требующих точного понимания и логического рассуждения, где некоторые токены могут быть более важными для правильного решения, чем другие. Недостаточное распределение наград также может привести к неэффективному использованию модельных ресурсов и неоптимальному обучению. Авторы статьи предлагают решение этой проблемы с помощью **Dynamic Entropy Weighting**, который позволяет создавать более тонкие и динамические награды для токенов и последовательностей. Идея заключается в том, что высокий уровень энтропии в токенах, составляющих корректные ответы, может служить руководством для улучшения модели. Это позволяет направить обучение в нужном направлении, оптимизировав политику на основе энтропии. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают два новых метода для улучшения обучения RL: **Group Token Policy Optimization (GTPO)** и **Sequence-Level Group Relative Policy Optimization (GRPO-S)**. Оба метода основываются на концепции **Dynamic Entropy Weighting**, которая использует энтропию токенов для формирования более точных наград. ### GTPO (Group Token Policy Optimization) В GTPO каждый токен в последовательности назначается своей наградой, которая основывается на его энтропии. Токены с высокой энтропией получают большие награды, тогда как токены с низкой энтропией получают меньшие награды. Это позволяет создавать более детальные и точные сигналы для обновления модельной политики, что в конечном счете приводит к лучшему обучению. ### GRPO-S (Sequence-Level Group Relative Policy Optimization) В GRPO-S награда назначается не только на уровне токенов, но и на уровне последовательностей. Каждая последовательность получает награду, основанную на средней энтропии её токенов. Это позволяет выделять целые последовательности, которые являются более полезными для обучения, и направлять модель на оптимизацию этих последовательностей. Оба метода, GTPO и GRPO-S, используют энтропию для создания более детальных сигналов для обучения, что позволяет модели более эффективно распознавать и оптимизировать важные элементы последовательности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности их методов. Использовались данные из различных доменов, включая задачи логических рассуждений и понимания естественного языка. Эксперименты проводились на базе модели DAPO, которая служила базой для сравнения. Результаты показали, что методы GTPO и GRPO-S значительно превосходят DAPO в терминах точности и качества получаемых результатов. Использование энтропии в качестве ключевого фактора для формирования наград позволило достичь лучших результатов в задачах, требующих глубокого рассуждения. Было показано, что токены с высокой энтропией действительно играют ключевую роль в улучшении модельной политики. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемые методы GTPO и GRPO-S имеют широкое применение в областях, требующих глубокого понимания и рассуждения. Они могут быть использованы для улучшения точности моделей в таких задачах, как автоматическое завершение предложений, вопросов и ответов, а также в областях, где важна точная логическая структура ответов. Основными преимуществами данных методов являются: - **Улучшенная точность**: Благодаря более точному распределению наград, модели становятся более точными в решении сложных задач. - **Эффективность обучения**: Динамическое присвоение наград позволяет оптимизировать процесс обучения, сокращая время и ресурсы, необходимые для достижения хороших результатов. - **Применимость в реальных сценариях**: Методы могут быть интегрированы в различные приложения, требующие высокого качества рассуждений, такие как чат-боты, системы поддержки и автоматические помощники. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлены два новых метода, GTPO и GRPO-S, которые используют энтропию токенов для формирования более точных наград в RL. Эти методы показали значительные улучшения по сравнению с традиционными подходами, такими как DAPO. В будущем можно исследовать дальнейшие возможности улучшения этих методов, например, используя другие критерии для формирования наград или применяя их в более широких областях, таких как многомодальные модели и задачи, связанные с визуальным восприятием. Также важно изучить влияние этих методов на модели с различными архитектурами и размерами. В целом, предложенные методы открывают новые возможности для улучшения глубоких моделей рассуждений, что может иметь значительное влияние на развитие искусственного интеллекта.

Annotation:

Reinforcement learning (RL) with algorithms like Group Relative Policy Optimization (GRPO) improves Large Language Model (LLM) reasoning, but is limited by a coarse-grained credit assignment that applies a uniform reward to all tokens in a sequence. This is a major flaw in long-chain reasoning tasks. This paper solves this with \textbf{Dynamic Entropy Weighting}. Our core idea is that high-entropy tokens in correct responses can guide the policy toward a higher performance ceiling. This allows u...

ID: 2508.04349v1 cs.CL, cs.AI

arXiv PDF

📄 Chain of Questions: Guiding Multimodal Curiosity in Language Models

2025-08-09

Авторы:

Nima Iji, Kia Dashtipour

**Резюме** В статье представлен фреймворк Chain of Questions (CoQ), расширяющий метод chain-of-thought для повышения логических и рациональных способностей в multimodal language models. Основная проблема заключается в том, что нынешние модели сталкиваются с трудностями при работе с multimodal data, не в состоянии активно выбирать и использовать информацию из разных модальностей (вид, звук, спациальная перцепция) для точного рассуждения. CoQ предлагает стратегию, в которой модель сама формирует и задает targeted questions, ориентируясь на потребности в конкретных модальностях для построения правильного решения. Результаты экспериментов на собственном multimodal датасете, объединяющем WebGPT, ScienceQA, AVSD и ScanQA, показали, что CoQ улучшает модельную точность, при этом увеличивая интерпретируемость и адекватность процесса рассуждения к задаче. Таким образом, CoQ демонстрирует свою эффективность в работе с multimodal сценариями, повышая качество интеллектуальных задач.

Annotation:

Reasoning capabilities in large language models (LLMs) have substantially advanced through methods such as chain-of-thought and explicit step-by-step explanations. However, these improvements have not yet fully transitioned to multimodal contexts, where models must proactively decide which sensory modalities such as vision, audio, or spatial perception to engage when interacting with complex real-world environments. In this paper, we introduce the Chain of Questions (CoQ) framework, a curiosity-...

ID: 2508.04350v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 Improving Crash Data Quality with Large Language Models: Evidence from Secondary Crash Narratives in Kentucky

2025-08-09

Авторы:

Xu Zhang, Mei Chen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Повышение качества данных о дорожно-транспортных происшествиях (ДТП) является ключевым фактором для повышения безопасности дорожного движения. Одной из серьезных проблем в этой области является точная идентификация вторичных ДТП, которые часто недостаточно задокументированы в основных отчетах. Вторичные ДТП — это события, которые происходят в результате задержек или перенаправлений трафика, вызванных первичным ДТП. Традиционные методы анализа часто не могут эффективно обрабатывать свободные текстовые описания событий, что приводит к потере важной информации. В штате Кентукки были собраны и проверены вручную 16 656 нарратива ДТП за период 2015–2022 годов, в которых было подтверждено 3 803 вторичных ДТП. Эти данные показывают, что традиционные методы классификации и анализа текстовых данных страдают от ограниченной точности и высокого уровня ложноположительных результатов. Поэтому необходимо разработать более точные и эффективные методы, основанные на современных технологиях обработки естественного языка (НЛП), для анализа таких текстовых данных. Использование передовых моделей НЛП, таких как Large Language Models (LLMs) и файн-тюнинговые трансформеры, может предоставить новые возможности для улучшения качества данных. Однако эти модели отличаются по точности, скорости работы и вычислительным требованиям. Таким образом, целью данного исследования является оценка эффективности различных моделей НЛП для улучшения качества данных о ДТП, специально в контексте идентификации вторичных ДТП. ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании были использованы три класса моделей для анализа текстовых нарративов ДТП: 1. **Zero-shot Large Language Models (LLMs):** Эти модели, такие как LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B и Gemma3:27B, работают без предварительной калибровки на специфических данных. Они используют обширные знания, встроенные в модели, для классификации текстов. 2. **Файн-тюнинговые трансформеры:** Этот класс включает модели BERT, DistilBERT, RoBERTa, XLNet и Longformer, которые были специально оттюнированы на данных ДТП Кентукки за период 2015–2021 годов. 3. **Традиционная логистическая регрессия:** Этот метод использовался в качестве базового для сравнения с более передовыми моделями. Модели были обучены на данных 2015–2021 годов и протестированы на данных 2022 года, которые содержали 1 771 нарратив. Методология включала в себя подготовку данных, обучение моделей и оценку их производительности с использованием метрик, таких как точность (accuracy) и F1-score. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов показали, что файн-тюнинговые трансформеры достигли наилучших результатов. Модель RoBERTa показала наивысший F1-score (0,90) и точность (95%). Эти результаты значительно превосходят базовый метод логистической регрессии, который достиг F1-score только 0,66. Zero-shot LLMs также показали высокую эффективность, особенно Gemma3:27B, которая достигла F1-score 0,86 и высокого recall (0,94). Однако эти модели требуют значительных вычислительных ресурсов. Например, обработка данных с помощью DeepSeek-R1:70B заняла до 723 минут, в то время как файн-тюнинговые модели обрабатывали тестирующий набор за секунды после короткого обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование демонстрирует практическую значимость использования передовых моделей НЛП для улучшения качества данных о ДТП. Файн-тюнинговые трансформеры, такие как RoBERTa, предоставляют высокую точность и эффективность, что делает их подходящими для реального применения. Кроме того, исследование подчеркивает важность разработки эффективных стратегий развертывания, таких как локальное размещение моделей с целью обеспечения конфиденциальности, а также использование ансамблей моделей для повышения точности. Инкрементальная обработка данных может также помочь в обеспечении масштабируемости таких систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показывает, что файн-тюнинговые трансформеры являются наиболее эффективными для улучшения качества данных о ДТП. Однако существует потенциал для дальнейшего улучшения с помощью оптимизации размеров моделей и использования меньших LLMs для сокращения времени обработки. Будущие исследования могут фокусироваться на разработке более эффективных методов для реального времени обработки данных и интеграции этих технологий в существующие системы мониторинга безопасности дорожного движения.

Annotation:

This study evaluates advanced natural language processing (NLP) techniques to enhance crash data quality by mining crash narratives, using secondary crash identification in Kentucky as a case study. Drawing from 16,656 manually reviewed narratives from 2015-2022, with 3,803 confirmed secondary crashes, we compare three model classes: zero-shot open-source large language models (LLMs) (LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B, Gemma3:27B); fine-tuned transformers (BERT, DistilBERT, RoBERTa, XLNet, ...

ID: 2508.04399v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 Why are LLMs' abilities emergent?

2025-08-09

Авторы:

Vladimír Havlík

**Резюме** В статье рассматривается проблема эмергентных способностей Large Language Models (LLMs), которые часто возникают неожиданно, несмотря на отсутствие прямого обучения на этих задачах. Автор анализирует эти свойства с помощью теоретического анализа и эмпирических исследований, отталкиваясь от нейронных сетей глубокого обучения. Он отличает их работу от символьных парадигм, подчеркивая нелинейную и стохастическую природу DNNs. Скрытые способности LLMs, такие как grokking или phase transitions, обусловлены динамическими процессами внутри системы, а не просто синергией своих элементов. Основной вывод — эмергентные способности LLMs являются результатом универсальных принципов, подобных тем, что определяются в физике, химии и биологии. Автор призывает перейти от феноменологического рассмотрения к пониманию внутренних динамических преобразований, которые делают эти системы такими эффективными. Это изменение парадигмы может помочь лучше понять и лучше контролировать эмергентные способности AI.

Annotation:

The remarkable success of Large Language Models (LLMs) in generative tasks has raised fundamental questions about the nature of their acquired capabilities, which often appear to emerge unexpectedly without explicit training. This paper examines the emergent properties of Deep Neural Networks (DNNs) through both theoretical analysis and empirical observation, addressing the epistemological challenge of "creation without understanding" that characterises contemporary AI development. We explore ho...

ID: 2508.04401v1 cs.CL, cs.AI

arXiv PDF

📄 Beyond Pixels: Exploring DOM Downsampling for LLM-Based Web Agents

2025-08-09

Авторы:

Thassilo M. Schiepanski, Nicholas Piël

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время продвинутые языковые модели (LLMs) позволили создать автономных веб-агентов, которые могут выполнять задачи в веб-приложениях. Такие модели действуют как моментальные бэкенды доменной модели, консультируясь с веб-задачами и соответствующим состоянием приложения. Однако ключевой проблемой является сериализация состояния приложения, так называемый "снапшот". Существующие веб-агенты опираются на "уземлённые" GUI-снапшоты, то есть скриншоты с визуальными подсказками, чтобы представлять состояние пользовательского интерфейса (UI). Этот подход приближает процесс к человеческому восприятию, и изображения представляют собой относительно дешевый формат ввода для моделей. Однако, визуальное восприятие LLMs ещё недостаточно развито в сравнении с их способностью интерпретировать код. Другой подход заключается в использовании DOM-снапшотов, которые структурно похожи на HTML и могут быть более эффективными. Тем не менее, большой размер входных токенов в DOM-снапшотах препятствует их эффективному использованию в веб-агентах. Эта проблема становится особенно актуальной, учитывая, что LLMs должны обрабатывать большие объёмы данных в рамках своего контекстного окна. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается новый алгоритм под названием D2Snap – первый в своем роде алгоритм для сжатия DOM-снапшотов. D2Snap основан на бэкенде GPT-4o и разработан для сокращения размера входных данных, сохраняя при этом ключевую информацию о пользовательском интерфейсе. Алгоритм спроектирован таким образом, чтобы сократить количество токенов, необходимых для представления DOM-снапшота, при этом сохраняя его структурные особенности. D2Snap выполняет "доуменьшение" DOM-снапшотов, сохраняя их иерархическую структуру, которая является важной особенностью для LLMs. Это позволяет модели эффективнее обрабатывать входные данные, не превышая пределы контекстного окна модели. Благодаря этому, D2Snap может быть интегрирован в веб-агентов для выполнения задач, связанных с веб-приложениями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности D2Snap авторы провели серию экспериментов на основе датасета Online-Mind2Web. В этих экспериментах были использованы задачи, где LLMs должны были выполнять различные действия на основе веб-интерфейса. Результаты показали, что D2Snap-сжатые DOM-снапшоты достигают успешности в 67% случаев, что соответствует базовому уровню успешности GUI-снапшотов (65%), но с меньшим количеством токенов входных данных (порядок величины 1e3). Кроме того, были исследованы различные конфигурации D2Snap, и один из них, который использовал немного больше токенов, но все еще помещался в контекстном окне модели, показал лучшие результаты, превосходя базовый GUI-снапшот на 8%. Это подтверждает, что иерархическая структура DOM является важной особенностью для LLMs и может быть эффективно использована для повышения точности выполнения задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод D2Snap имеет значительный потенциал для практического применения в области веб-агентов. Благодаря своей способности сокращать размер DOM-снапшотов, D2Snap позволяет LLMs более эффективно обрабатывать данные веб-интерфейсов, не превышая ограничений контекстного окна модели. Это может быть особенно полезно в ситуациях, когда необходимо выполнять сложные задачи, требующие обработки больших объёмов данных. Кроме того, D2Snap может быть использован в различных приложениях, где необходимо автоматизировать взаимодействие с веб-приложениями, таких как автоматизация тестирования, мониторинга и анализа веб-страниц. Его эффективность в уменьшении размера входных данных также может быть полезна в ситуациях, где требуется быстрое и эффективное взаимодействие с веб-приложениями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования было показано, что D2Snap является эффективным алгоритмом для сжатия DOM-снапшотов, позволяющим LLMs обрабатывать веб-задачи с высокой точностью. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритма, в частности, на оптимизации его производительности и расширении его применимости к более широкому кругу задач. Также, исследование может быть расширено для включения более сложных веб-интерфейсов и более разнообразных задач, чтобы проверить широкую применимость D2Snap в реальных условиях.

Annotation:

Frontier LLMs only recently enabled serviceable, autonomous web agents. At that, a model poses as an instantaneous domain model backend. Ought to suggest interaction, it is consulted with a web-based task and respective application state. The key problem lies in application state serialisation $\unicode{x2013}$ referred to as snapshot. State-of-the-art web agents are premised on grounded GUI snapshots, i.e., screenshots enhanced with visual cues. Not least to resemble human perception, but for i...

ID: 2508.04412v1 cs.AI, cs.CL, cs.HC

arXiv PDF

📄 StepFun-Formalizer: Unlocking the Autoformalization Potential of LLMs through Knowledge-Reasoning Fusion

2025-08-09

Авторы:

Yutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui Cao, Lei Qi, Rui Zhang, Zidong Du, Jie Yan, Xing Hu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Autoformalization — это процесс преобразования математических утверждений на естественном языке в формальный язык, который может быть обработан системами формальной проверки доказательств или формальной верификации. Несмотря на значительные успехи, достигнутые благодаря применению моделей языкового обработки (LLMs), эта задача все еще столкнулась со значительными трудностями. Одной из главных проблем является низкая точность преобразования, вызванная недостаточным освоением моделями формального доменного знания и ограниченными способностями к резону при анализе естественного языка и выравнивании его с формальным представлением. Ключевыми требованиями для эффективного autoformalization являются: 1) полное понимание формальных объектов и знаний домена, необходимых для корректного идентификации и представления математических конструкций, и 2) способность к резонированию над естественным языком для точного отображения неформальных контекстов в формальные выражения. Без первого, модели не могут корректно опознавать формальные объекты; без второго, они не могут точно интерпретировать реальные контексты и сопоставить их с формальными выражениями. Существующие подходы часто падают в точности из-за нехватки этих ключевых способностей. Таким образом, необходимо разработать методологию, которая бы объединяла эти две составляющие в единый процесс обучения, позволяя моделям достигать высокой точности в autoformalization. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить выявленные проблемы, авторы представляют ThinkingF — комплексную пайплайн для синтеза данных и обучения моделей, нацеленную на улучшение обеих ключевых способностей. Эта пайплайн состоит из двух основных этапов: построение высококачественных датасетов и их использование в процессе обучения моделей. В первом этапе создаются два датасета. Первый датасет формируется путем дистилляции и выбора большого количества примеров, богатых формальным знанием. Этот датасет направлен на развитие глубокого понимания формального домена у моделей. Второй датасет формируется с помощью генерации неформально-формальных рассуждений, которые основываются на шаблонах, разработанных экспертами. Эти шаблоны помогают обучать модели к резонированию и выравниванию между неформальным и формальным языком. Во втором этапе применяются два метода обучения: Supervised Fine-Tuning (SFT) и Reinforcement Learning with Value-Reward (RLVR). Эти методы позволяют моделям не только освоить формальные знания, но и улучшить способность к резонированию и выравниванию. Архитектура моделей, полученных в результате этого процесса, основана на базовых LLMs размером 7B и 32B. Эти модели показывают высокую способность к формальному знанию и неформально-формальному выравниванию, что является результатом функционального слияния двух ключевых способностей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного подхода были проведены эксперименты на двух фундаментальных датасетах: FormalMATH-Lite и ProverBench. Модель StepFun-Formalizer-32B достигла рекордных результатов, показав BEq@1 (exact match accuracy) в 40.5% на FormalMATH-Lite и 26.7% на ProverBench. Эти результаты значительно превосходят результаты предыдущих моделей, как общего назначения, так и специализированных под autoformalization. Было показано, что модели, обученные с помощью ThinkingF, не только лучше понимают формальные объекты, но также эффективнее выравнивают неформальные контексты с формальными выражениями. Эти результаты демонстрируют значительный прогресс в решении проблем недостаточной точности, которая была характерна для предыдущих подходов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный подход имеет широкое применение в областях, требующих формальной верификации и автоматизации математических доказательств. Он может быть использован в разработке программного обеспечения, системах автоматической проверки доказательств, а также в образовательных целях для обучения студентов формальной математике. Преимущества этого подхода заключаются в высокой точности преобразования, что позволяет автоматизировать процесс преобразования неформальных математических утверждений в формальные, что значительно экономит время и усилия человека. Кроме того, этот подход может быть использован в различных научных и инженерных дисциплинах, где формальные выражения играют ключевую роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ StepFun-Formalizer представляет собой значительный шаг вперед в области autoformalization. Он не только показывает высокую точность, но также открывает новые возможности для применения LLMs в формальных задачах. Будущие исследования могут фокуссироваться на дальнейшем улучшении моделей, особенно в области резонирования и выравнивания между неформальным и формальным языками, а также на расширении областей применения этого подхода.

Annotation:

Autoformalization aims to translate natural-language mathematical statements into a formal language. While LLMs have accelerated progress in this area, existing methods still suffer from low accuracy. We identify two key abilities for effective autoformalization: comprehensive mastery of formal-language domain knowledge, and reasoning capability of natural language problem understanding and informal-formal alignment. Without the former, a model cannot identify the correct formal objects; without...

ID: 2508.04440v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Automated Generation of Curriculum-Aligned Multiple-Choice Questions for Malaysian Secondary Mathematics Using Generative AI

2025-08-09

Авторы:

Rohaizah Abdul Wahid, Muhamad Said Nizamuddin Nadim, Suliana Sulaiman, Syahmi Akmal Shaharudin, Muhammad Danial Jupikil, Iqqwan Jasman Su Azlan Su

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современной образовательной практике существует актуальная проблема создания высококачественных и масштабируемых оценивающих инструментов, особенно в условиях ограниченных ресурсов. Эта проблема особенно остро стоит в регионах с низким уровнем ресурсов, где языки обучения, такие как Бахаса Мелайу, имеют ограниченные ресурсы для разработки образовательного контента. Малазийская система образования сталкивается с трудностями в обеспечении точности и соответствия учебному плану при создании оценивающих материалов. Это создает потребность в инновационных подходах, которые могли бы обеспечить качество и соответствие курсивному плану. Generative AI (GenAI) представляет собой перспективное решение для автоматического генерирования оценивающих вопросов, однако этот подход не без вызовов. Одной из ключевых проблем является обеспечение фактической точности и соответствия учебному плану, особенно для ресурсоемких языков. Таким образом, требуется разработка методологий, которые могли бы обеспечить высокое качество автоматически генерируемых вопросов, основанных на официальных учебных материалах и планах. Цель данного исследования – разработка и сравнение различных методологий автоматического генерирования вопросов для математики 1 класса на языке Бахаса Мелайу, используя модель OpenAI's GPT-4. Исследование рассматривает четыре последовательных подхода к генерации вопросов: от базовых незаземленных подсказок до более сложных методологий, основанных на Retrieval-Augmented Generation (RAG). Исследование также анализирует точность и соответствие учебному плану, используя специально разработанные методы оценки, такие как Semantic Textual Similarity (STS) и RAG-based Question-Answering (RAG-QA). ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании были разработаны четыре последовательных подхода к генерации вопросов. Первые два метода основаны на незаземленных подсказках, которые генерируют вопросы без непосредственного использования дополнительных контекстуальных данных. Эти методы включают структурированные и базовые подходы к формулировке запросов. Третий и четвертый подходы основаны на RAG-методологии, которая дополняет модель генерации дополнительными контекстуальными данными. Один из них использует фреймворк LangChain для упрощения процесса, а другой реализуется вручную для более тонкого контроля над процессом. Оба подхода используют официальные учебные материалы, включая заметки учителей и годовой учебный план (RPT), для обеспечения соответствия учебному плану. Кроме того, была разработана двойная система оценки для проверки генерируемых вопросов. Одна из компонентов, STS, измеряет соответствие вопросов учебному плану, а другая, RAG-QA, проверяет фактическую точность вопросов путем их проверки с помощью дополнительных контекстуальных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проведены эксперименты, которые сравнивают четыре подхода к генерации вопросов. Результаты показывают, что RAG-based подходы значительно превосходят незаземленные подсказки в терминах соответствия учебному плану и фактической точности. Методы, основанные на RAG, продемонстрировали лучшие результаты в измерении STS и RAG-QA, показывая высокий уровень соответствия курсивному плану. Дополнительно, исследование провело анализ того, как удобство использования фреймворка LangChain сравнивается с более тонким контролем, предоставляемым ручной реализацией. Это показало, что фреймворк LangChain обеспечивает более простой интеграцию, но может ограничивать точность контроля. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данное исследование имеет значительное практическое применение в области образования, особенно в регионах с низким уровнем ресурсов. Разработанная методология может быть использована для создания высококачественных оценивающих материалов, которые соответствуют учебному плану и обеспечивают фактическую точность. Это может быть особенно полезно для регионов, где языки обучения имеют ограниченные ресурсы. Преимущества этого подхода включают в себя масштабируемость, высокую точность и возможность адаптации к конкретным учебным планам. Это может способствовать развитию EdTech-решений в Малазии и других регионах с похожими условиями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует, что RAG-based подходы являются эффективными для генерации высококачественных оценивающих вопросов, соответствующих учебному плану. Это открывает перспективы для дальнейшего развития EdTech-решений, особенно в регионах с низким уровнем ресурсов. Будущие исследования могут фокусироваться на улучшении точности и эффективности таких систем, а также на расширении их применения на другие предметы и регионы.

Annotation:

This paper addresses the critical need for scalable and high-quality educational assessment tools within the Malaysian education system. It highlights the potential of Generative AI (GenAI) while acknowledging the significant challenges of ensuring factual accuracy and curriculum alignment, especially for low-resource languages like Bahasa Melayu. This research introduces and compares four incremental pipelines for generating Form 1 Mathematics multiple-choice questions (MCQs) in Bahasa Melayu u...

ID: 2508.04442v1 cs.CL, cs.AI

arXiv PDF

📄 OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

2025-08-09

Авторы:

Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие искусственного интеллекта приблизило человечество к реализации мечты о создании универсальных цифровых ассистентов, подобных J.A.R.V.I.S из киновселенной Marvel. Традиционные подходы к автоматизации задач ограничивались узкоспециализированными решениями, способными выполнять лишь предопределенный набор операций в строго контролируемых средах. Однако появление мультимодальных больших языковых моделей ((M)LLM) открыло принципиально новые возможности для создания агентов, способных взаимодействовать с вычислительными устройствами через стандартные интерфейсы пользователя, такие как графические интерфейсы (GUI). Ключевая проблема заключается в том, что современные операционные системы и приложения разработаны для человеческого взаимодействия, а не для машинной автоматизации. Это создает ряд фундаментальных вызовов: необходимость понимания визуального контента экрана, интерпретации семантики элементов интерфейса, планирования сложных многошаговых задач и адаптации к изменениям в интерфейсах различных приложений. Существующие решения либо требуют специализированного программирования под каждое приложение, либо обладают ограниченной обобщающей способностью. Особенно остро стоит проблема "grounding" - способности агента связать высокоуровневые инструкции на естественном языке с конкретными действиями в интерфейсе. Например, команда "отправь отчет менеджеру по электронной почте" требует понимания, где находится приложение почты, как прикрепить файл, как выбрать нужного получателя и множества других контекстно-зависимых действий. Эта проблема усугубляется разнообразием операционных систем, версий приложений и индивидуальных настроек пользователей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Статья предлагает комплексную системную методологию создания OS Agents - агентов, способных автономно управлять вычислительными устройствами через стандартные интерфейсы операционных систем. Методология базируется на трех фундаментальных компонентах: среда наблюдения, пространство действий и архитектура агента. Среда наблюдения представлена как мультимодальное пространство, включающее визуальную информацию экрана (screenshots), структурное представление интерфейса (accessibility tree), текстовый контент и историю взаимодействий. Для обработки этой информации используются специализированные MLLM, обученные на синтетических и реальных датасетах, содержащих пары "screenshot-описание-действие". Пространство действий охватывает все возможные способы взаимодействия с GUI: клики мышью, клавиатурный ввод, прокрутка, перетаскивание, а также системные действия (запуск приложений, переключение между окнами). Для обеспечения надежности действий используется двухуровневая система: высокоуровневое планирование генерирует последовательность абстрактных действий, которые затем конкретизируются на уровне grounding в конкретные координаты и типы взаимодействий. Архитектура агента включает четыре ключевых модуля: модуль понимания (переводит наблюдения в семантическое представление), модуль планирования (разбивает высокоуровневые задачи на последовательность действий), модуль grounding (сопоставляет действия с конкретными элементами интерфейса) и модуль исполнения (выполняет действия и контролирует их результат). Для эффективного обучения используется комбинация обучения с подкреплением, имитационного обучения и самостоятельного улучшения через взаимодействие со средой. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Оценка эффектiveness OS Agents проводилась на 15 специализированных бенчмарках, охватывающих различные сценарии использования: веб-навигация (Mind2Web, WebArena), работа с офисными приложенияами (OfficeBench), управление мобильными устройствами (AndroidControl) и сложные многоприложные сценарии (OSWorld). На бенчмарке Mind2Web, включающем 2000 задач веб-навигации, лучшие OS Agents достигли 65.2% точности, что на 23% превышает предыдущие методы. В более сложной среде WebArena с динамическими веб-сайтами достигнута точность 38.7%, приблизившись к человеческому уровню в 45.2%. Особенно впечатляющие результаты показаны в задачах многошаговой автоматизации: в среднем агенты справлялись с задачами, требующими 8-12 последовательных

Annotation:

The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This p...

ID: 2508.04482v1 cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Enhancing Dialogue Annotation with Speaker Characteristics Leveraging a Frozen LLM

2025-08-09

Авторы:

Thomas Thebaud, Yen-Ju Lu, Matthew Wiesner, Peter Viechnicki, Najim Dehak

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных системах диалоговой транскрипции широко используются технологии обработки естественного языка, в том числе Большие Языковые Модели (Large Language Models, LLMs). Они применяются для улучшения грамматики, пунктуации и читаемости транскриптов. Однако, несмотря на высокую эффективность, существует ряд проблем, связанных с дополнительной обработкой диалоговых данных. Одной из таких проблем является нехватка контекстуальной информации о говорящих, такой как их возраст, пол, эмоциональное состояние и другие характеристики. Данные метаданные могут значительно обогатить транскрипты, облегчить анализ и улучшить понимание контекста. Однако, добавление таких метаданных обычно требует тяжелой работы по их сбору и аннотации, что требует больших вычислительных ресурсов и времени. Кроме того, многие существующие подходы требуют тщательной доработки моделей для конкретных задач, что может быть затратно и трудоемко. Это создает потребность в более эффективном и модульном подходе к добавлению метаданных о говорящих, который мог бы использовать преимущества существующих моделей без необходимости их дополнительного обучения. В данной работе авторы предлагают решение этой проблемы, используя модели, замороженные на определенном этапе (frozen models), для добавления метаданных о говорящих, таких как возраст, пол и эмоциональное состояние. Они используют модели Whisper и WavLM для обработки аудиоданных и LLAMA для обработки текстовой информации, без необходимости дополнительного обучения этих моделей. Этот подход позволяет сохранить модульность и скорость обработки, одновременно обеспечивая высокую точность в определении характеристик говорящих. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи обогащения диалоговых транскриптов метаданными о говорящих, авторы предлагают использовать модели Whisper и WavLM для обработки аудиоданных и LLAMA для обработки текста. Основная идея заключается в том, чтобы использовать эти модели в "замороженном" состоянии, т.е. без необходимости их доработки или дополнительного обучения для конкретной задачи. Аудиоданные обрабатываются с помощью Whisper или WavLM для извлечения акустических функций, а затем эти функции передаются в LLAMA для определения метаданных, таких как возраст, пол и эмоциональное состояние. Для связи аудио- и текстовых представлений используются легковесные коннекторы, которые позволяют эффективно передавать информацию между моделями. Это позволяет сохранить модульность системы, т.е. каждая модель может работать независимо, а результаты их работы собираются в единый набор метаданных. Кроме того, авторы демонстрируют, что LLAMA может быть использована для прямого сравнения x-векторов (x-vectors), что позволяет достичь низкого уровня ошибок (Equal Error Rate, EER) в некоторых сценариях. Этот подход имеет несколько преимуществ. Во-первых, он позволяет использовать предобученные модели без необходимости их дополнительного обучения, что существенно снижает вычислительные затраты. Во-вторых, модульная структура позволяет легко добавлять или изменять компоненты системы без необходимости переобучения всей модели. Наконец, этот подход обеспечивает высокую скорость обработки, что делает его пригодным для реального времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода авторы провели серию экспериментов на различных наборах данных. Они использовали данные, содержащие диалоги с различными характеристиками говорящих, для тестирования способности моделей определять возраст, пол и эмоциональное состояние. Результаты экспериментов показали, что предложенный метод достигает высокой точности в определении этих характеристик, при этом сохраняя высокую скорость обработки. В частности, авторы показали, что модель LLAMA может быть использована для прямого сравнения x-векторов, достигая Equal Error Rate (EER) в 8.8% в некоторых сценариях. Это говорит о высокой точности модели в определении характеристик говорящих. Кроме того, предложенный метод показал хорошую производительность на различных наборах данных, что подтверждает его универсальность и применимость в различных контекстах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области диалоговой транскрипции и анализа речи. Он может быть использован для обогащения транскриптов метаданными о говорящих, что может быть полезно в таких областях, как анализ эмоций, улучшение качества обслуживания клиентов, а также в области медицинского и психологического консультирования. Одним из ключевых преимуществ этого метода является его модульность и высокая скорость обработки, что делает его пригодным для использования в реальном времени. Кроме того, использование замороженных моделей снижает вычислительные затраты, что делает этот подход более доступным для более широкого круга пользователей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод для обогащения диалоговых транскриптов метаданными о говорящих, использующий замороженные модели Whisper, WavLM и LLAMA. Этот подход показал высокую точность и скорость обработки, одновременно сохраняя модульность и легковесность системы. В будущем можно рассмотреть возможность дальнейшего улучшения этого метода, в том числе путем интеграции более точных моделей для обработки аудио- и текстовых данных. Кроме того, можно исследовать возможность применения этого подхода к другим областям, таким как анализ социальных интеракций или мониторинг эмоционального состояния в реальном времени.

Annotation:

In dialogue transcription pipelines, Large Language Models (LLMs) are frequently employed in post-processing to improve grammar, punctuation, and readability. We explore a complementary post-processing step: enriching transcribed dialogues by adding metadata tags for speaker characteristics such as age, gender, and emotion. Some of the tags are global to the entire dialogue, while some are time-variant. Our approach couples frozen audio foundation models, such as Whisper or WavLM, with a frozen ...

ID: 2508.04795v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization

2025-08-09

Авторы:

Negar Foroutan, Clara Meister, Debjit Paul, Joel Niklaus, Sina Ahmadi, Antoine Bosselut, Rico Sennrich

## КОНТЕКСТ И ПРОБЛЕМАТИКА Tokenization — это первый и, как часто случается, наименее анализируемый шаг в большинстве конвейеров обработки естественного языка (NLP). Традиционные алгоритмы для обучения токенизаторов основываются на частотном подходе, который предпочитает языки, преобладающие в обучающих данных. Это приводит к неравномерному качеству токенизации для языков с малоресурсными данными, которые часто имеют длинные, морфологически неправильные токены или содержат <UNK> (неизвестные слова). Это неравенство в токенизации усиливает существующие социально-экономические неравенства между пользователями разных языков, создавая недостаток доступности для менее распространенных языков. Например, токенизация для редких языков может быть неэффективной и требовать больше вычислительных ресурсов, что приводит к увеличению финансового бремени для пользователей этих языков. Подходы к улучшению справедливости токенизации являются критически важными, особенно в многоязычных контекстах, где необходимо обеспечить равномерное качество обработки текста на разных языках. Традиционные методы, такие как Byte Pair Encoding (BPE), не учитывают неравенство между языками в процессе обучения, что может приводить к непропорциональным результатам для менее распространенных языков. Для решения этой проблемы необходимо разработать методы, которые могут обеспечить более справедливую токенизацию для всех языков, независимо от их ресурсности. Это подход, ориентированный на справедливость (fairness-aware), становится важной составляющей для создания более инклюзивных и доступных NLP-систем. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается Parity-aware Byte Pair Encoding (BPE) — модификация широко используемого алгоритма BPE, ориентированная на улучшение справедливости токенизации в многоязычных наборах данных. Основная идея Parity-aware BPE заключается в том, чтобы максимизировать сжатие для языка, который в данный момент имеет наихудшую компрессию. На каждом шаге слияния алгоритм выбирает пару символов, которая приводит к наибольшему улучшению для языка с наименьшим коэффициентом сжатия. Таким образом, алгоритм стремится к более равномерному распределению длин токенов между языками, тем самым уменьшая неравенство в токенизации. Parity-aware BPE не требует значительных изменений в существующей архитектруре BPE, но добавляет дополнительный механизм для мониторинга и коррекции неравенства между языками. Такой подход позволяет сохранить высокую степень глобального сжатия, при этом существенно улучшая равномерность токенизации между языками. Этот метод также позволяет сохранить качество модели языка на задачах обработки естественного языка, не нанося значительных потерь в производительности модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на многоязычных данных, чтобы оценить эффективность Parity-aware BPE по сравнению со стандартным BPE. Использовались наборы данных, представляющие широкий спектр языков, включая как ресурсоемкие, так и малоресурсные языки. Результаты показали, что Parity-aware BPE значительно улучшил справедливость токенизации, сократив неравенство в длине токенов между языками. Это было достигнуто без существенного ухудшения глобального коэффициента сжатия. Кроме того, авторы протестировали модели языкового моделирования, обученные на токенизированных данных, и не обнаружили существенного ухудшения качества модели на задачах, таких как перевод и классификация текста. Это подтверждает, что Parity-aware BPE может быть эффективно использован в приложениях NLP без потери качества. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод Parity-aware BPE имеет значительное практическое применение в многоязычных NLP-системах. Он может быть использован для улучшения доступности и справедливости систем обработки естественного языка для менее распространенных языков. Это особенно важно в контексте развития инклюзивных технологий, где необходимо обеспечить равное качество обработки для всех пользователей, независимо от языка. Parity-aware BPE может быть применен в различных областях, таких как машинный перевод, анализ социальных сетей, обработка клиентских запросов и другие приложения, где необходима поддержка множества языков. Преимущество этого метода заключается в том, что он позволяет сохранить высокое качество модели языка, не увеличивая вычислительные затраты. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что Parity-aware BPE является эффективным методом для улучшения справедливости токенизации в многоязычных контекстах. Он позволяет сократить неравенство в длине токенов между языками, не нанося существенных потерь в глобальном сжатии и качестве модели. Будущие исследования могут расширить этот подход, включив дополнительные механизмы для улучшения справедливости и доступности NLP-систем для менее распространенных языков. Также может быть исследовано влияние Parity-aware BPE на другие аспекты моделей языкового обработки, таких как интерпретируемость и эффективность.

Annotation:

Tokenization is the first -- and often least scrutinized -- step of most NLP pipelines. Standard algorithms for learning tokenizers rely on frequency-based objectives, which favor languages dominant in the training data and consequently leave lower-resource languages with tokenizations that are disproportionately longer, morphologically implausible, or even riddled with <UNK> placeholders. This phenomenon ultimately amplifies computational and financial inequalities between users from different ...

ID: 2508.04796v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
742
743
744
745
746
750
751

Показано 7431 - 7440 из 7506 записей