📚 Саммари научных статей из arXiv

Найдено 370 результатов по запросу 'cs.CL, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 WolBanking77: Wolof Banking Speech Intent Classification Dataset

2025-09-25

Авторы:

Abdou Karim Kandji, Frédéric Precioso, Cheikh Ba, Samba Ndiaye, Augustin Ndione

#### Контекст На текущий момент большинство исследований в области классификации намерений (intent classification) сосредоточены на высокоресурсных языках, что приводит к недостатку данных и моделей для низкоресурсных языков. Это особенно актуально для регионов, где значительная часть населения говорит на языках, которые чаще всего говорятся, но мало пишутся или читаются. Например, в Сенегале около 90% населения говорит на языке Волоф, при том, что иллютереность в стране достигает 42%. Волоф широко распространен в целом регионе Западной Африки и говорится более 10 миллионами людей. Данная работа предлагает WolBanking77 — большую выборку данных для классификации намерений в банковской сфере на языке Волоф, чтобы повысить исследовательские возможности в этой области. #### Метод Методология разработки WolBanking77 основывается на сборе и подготовке данных в области банковских услуг на языке Волоф. Для создания данных использовались знания по банковским услугам, а дополнительные банковские сценарии были созданы для увеличения разнообразия данных. Данные были проверены качеством и разделены на тренировочные, валидационные и тестовые выборки. Также были проведены эксперименты с использованием различных моделей классификации намерений (text-based и voice-based), чтобы оценить качество работы на данных. Архитектура использовалась стандартная для классификации текстовых данных, но была адаптирована для использования с аудиоданными. #### Результаты На WolBanking77 были проведены эксперименты с различными моделями, включая текстовые модели (такие как BERT) и аудиомодели (такие как DeepSpeech). Оценены метрики F1-score и Word Error Rate (WER) для текстовых и звуковых моделей. Была проведена сравнительная аналитика результатов, что подтвердило эффективность моделей на данной выборке. Также был создан подробный анализ содержания данных, включая распределение классов и сложность выборки. Эти результаты демонстрируют высокую точность и общую эффективность моделей на данной базе. #### Значимость Данный ресурс может быть полезен для развития искусственного интеллекта в регионе, особенно для низкоресурсных языков. WolBanking77 открывает новые возможности для разработки моделей классификации намерений в сфере банковских услуг на Волофе, что может способствовать улучшению банковских сервисов в регионе. Более широко, данный ресурс может быть использован для развития технологий естественного языка в низкоресурсных регионах, что поможет снизить языковые барьеры в различных областях, включая банковское обслуживание, медицину и образование. #### Выводы Работа доказала,

Annotation:

Intent classification models have made a lot of progress in recent years. However, previous studies primarily focus on high-resource languages datasets, which results in a gap for low-resource languages and for regions with a high rate of illiterate people where languages are more spoken than read or written. This is the case in Senegal, for example, where Wolof is spoken by around 90\% of the population, with an illiteracy rate of 42\% for the country. Wolof is actually spoken by more than 10 m...

ID: 2509.19271v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models

2025-09-24

Авторы:

Tsz Ting Chung, Lemao Liu, Mo Yu, Dit-Yan Yeung

#### Контекст Современные технологии в области глубокого обучения позволили значительно продвинуться в области логического разума в языках, особенно в тех, как бо LARGE LANGUAGE MODELS (LLMs). Улучшение логического рассуждения в естественных языках является ключевым аспектом исследований в ИИ, так как оно играет важную роль в предсказании текстов, обработке естественного языка и обобщения знаний. Однако, текущие модели имеют тяжелые проблемы с логическим рассуждением. Одна из проблем заключается в том, что предыдущие тесты, оценивающие логические модели, часто слишком специфичны и не учтут важные ситуации. Также, многие существующие бенчмарки для оценки логического рассуждения в LLMs либо недостаточно точно охватывают его, либо не учитывают разнообразие языков и логических структур. Это приводит к неверной оценке моделей. Данный материал предлагает новую модель, которая может помочь получить более точную оценку логических способностей моделей. #### Метод Мы предлагаем новую модель, названную DivLogicEval, которая представляет собой рамку для оценки логических способностей лардж-лангуэдж моделей. Модель основывается на новых принципах логического рассуждения, которые учитывают разнообразие языков и логических структур. В рамках этого проекта мы создали датасет, состоящий из сложных логических задач, которые требуют тщательного исследования. Была также разработана новая метрика для оценки результатов, минимизирующая влияние биаса и ненадежности в стандартных метриках. Наши исследования включали в себя тщательную проверку логических моделей, сравнение их результатов с реальными данными и тестирование разных моделей на разных языках. #### Результаты Мы провели ряд экспериментов с популярными моделями логического рассуждения, включая GPT-3, T5, BERT и другие. Мы получили результаты, показывающие, насколько эти модели способны выполнять логические задачи с разным уровнем сложности. Наши эксперименты показали, что новый бенчмарк DivLogicEval дает более точные оценки, чем существующие методы. Мы также сравнили показатели моделей на разных языках и получили интересные выводы о том, как разные модели справляются с задачами в зависимости от языка. #### Значимость Наш бенчмарк может применяться в различных областях, в том числе в обучении новых моделей логического рассуждения, в тестировании моделей на разнообразии языков и в оценке улучшений моделей. Он предлагает новый подход к оценке логических моделей, который может быть использован для представления более точных и детальных

Annotation:

Logic reasoning in natural language has been recognized as an important measure of human intelligence for Large Language Models (LLMs). Popular benchmarks may entangle multiple reasoning skills and thus provide unfaithful evaluations on the logic reasoning skill. Meanwhile, existing logic reasoning benchmarks are limited in language diversity and their distributions are deviated from the distribution of an ideal logic reasoning benchmark, which may lead to biased evaluation results. This paper t...

ID: 2509.15587v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Domain-Adaptive Pre-Training for Arabic Aspect-Based Sentiment Analysis: A Comparative Study of Domain Adaptation and Fine-Tuning Strategies

2025-09-24

Авторы:

Salha Alyami, Amani Jamal, Areej Alhothali

## Контекст Аспект-базированный сентиментный анализ (ABSA) — это важный подход в естественном языковом обработке, позволяющий организациям понять отношение клиентов к конкретным аспектам продукта или услуги. Данный подход имеет решающее значение для улучшения пользовательского опыта и повышения качества обслуживания. Несмотря на широкое применение ABSA в английском языке, его применение в арабском языке ограничивается существующими проблемами, связанными с недостатком меток и отклонениями в семантике. Эти проблемы усиливаются тем, что модели на основе глубокого обучения часто тренируются на общих языковых данных, что приводит к биазу и неэффективности при работе с доменами, такими как арабская традиционная и разговорная лексика. Изучение этих трудностей мотивировало авторов начать работу над разработкой метода, который мог бы улучшить эффективность ABSA в арабском языке. ## Метод Для решения проблемы эффективности ABSA в арабском языке, авторы предложили подход, основанный на доменной адаптации для предобучения моделей с использованием локального контекста. Этот метод включал в себя использование моделей с глубоким знанием языка, таких как BERT, для предварительного обучения на доменных данных. Авторы применяли три стратегии файн-тюнинга: фичи-экстракция, полное файн-тюнинг и адаптер-базированный подход. Эти техники использовались для улучшения производительности в двух задачах: классификации аспектов-сентиментов (ASC) и извлечении выражений целевых объектов (OTE). Данный подход был применен к различным арабским датасетам, а результаты сравнивались с базовыми моделями, чтобы оценить эффективность адаптации и файн-тюнинга. ## Результаты Наблюдалось, что доменное предобучение может привести к небольшому, но заметному улучшению производительности, особенно в задачах, где данные требуют дополнительной специфики. Адаптер-базированный метод показал высокую эффективность за счет меньшего потребления ресурсов. Однако результаты экспериментов показали, что имеются проблемы с модельными предсказаниями, относящимися к неточностям в метках датасетов и сложностям с пониманием лексико-синтаксических отношений. В ABSA, проблемы включают неточное определение сентимента, сложности с различением контекстных связей, предпочтение терминам положительному сентименту и сложности с обработкой многосложных выражений. Для OTE, основные проблемы заключались в неточности в синтаксических зависимостях, понимании многосложных выражений и наличии весомых зависимостей от языковых характеристик. ## Значимость Предложенный подход

Annotation:

Aspect-based sentiment analysis (ABSA) in natural language processing enables organizations to understand customer opinions on specific product aspects. While deep learning models are widely used for English ABSA, their application in Arabic is limited due to the scarcity of labeled data. Researchers have attempted to tackle this issue by using pre-trained contextualized language models such as BERT. However, these models are often based on fact-based data, which can introduce bias in domain-spe...

ID: 2509.16788v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Advancing Speech Understanding in Speech-Aware Language Models with GRPO

2025-09-24

Авторы:

Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel

## Контекст Говорящие языковые модели (LLM) становятся все более важными для различных аспектов технологий, включая специальные системы, связанные с распознаванием речи, техническими библиотеками, системами рекомендации и другими. Особенно актуальной стала работа с задачами, возникающими при работе с говорящими языками, таких как автоматическое переводить речи и отвечать на вопросы. Однако существуют различные проблемы, связанные с этим, включая трудности в понимании речи, нормализации входных данных, а также обработке новых типов задач. На практике, многие текущие решения ограничены в том, что они ориентированы на задачи с фиксированными ответами, что не позволяет сделать модели более универсальными. В этом контексте требуется развитие моделей, которые могут подстраиваться под различные типы задач и языков. ## Метод Мы предлагаем метод **Group Relative Policy Optimization (GRPO)**, который используется для обучения моделей **Speech-Aware Large Language Models (SALLMs)**. GRPO широко используется для обучения моделей с целью повышения эффективности и точности. **BLEU** (Bilingual Evaluation Understudy) - это сигнал реWARD, который используется для оценки качества перевода или генерирования текста. Мы используем GRPO в комбинации с BLEU, чтобы оптимизировать модели SALLMs для задач, таких как **Spoken Question Answering** и **Automatic Speech Translation**. Мы также используем off-policy samples (записанные при помощи других моделей) для расширения области исследований и повышения точности моделей. ## Результаты Мы проводили эксперименты с различными данными и сравнили результаты с применением GRPO и стандартной SFT (Sequence-to-Sequence Fine-Tuning). Модель SALLM, обученная с помощью GRPO, показала лучшие результаты по нескольким ключевым метрикам, включая BLEU, ROUGE-L и METEOR. Мы также показали, что использование off-policy samples может улучшить качество генерирования и обработки новых типов задач. Эти результаты показали, что GRPO может быть эффективным методом для обучения моделей SALLM, что позволяет добиться лучших результатов на различных типах говорящих языков. ## Значимость Метод GRPO может быть применен в различных сферах, включая модели для распознавания речи, автоматического перевода речи и решения различных задач лингвистики. Этот подход может использоваться в системах, которые требуют высокого качества генерирования текста и понимания речи. Это позволит сделать модели более универсальными и эффективными для различных языков и типов данных. Например, модель SALLM с GRPO может стать базой для развития новых систем, повышающих точность и мощность автоматического перевода и распознавания речи. ## Выводы Мы представили **GRPO** - метод для обучения моделей Speech-Aware Large Language Models, который показал высокую эффективность по сравнению с сущест

Annotation:

In this paper, we introduce a Group Relative Policy Optimization (GRPO)-based method for training Speech-Aware Large Language Models (SALLMs) on open-format speech understanding tasks, such as Spoken Question Answering and Automatic Speech Translation. SALLMs have proven highly effective for speech understanding tasks. GRPO has recently gained traction for its efficiency in training LLMs, and prior work has explored its application to SALLMs, primarily in multiple-choice tasks. Building on this,...

ID: 2509.16990v1 cs.CL, cs.AI, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 The Transfer Neurons Hypothesis: An Underlying Mechanism for Language Latent Space Transitions in Multilingual LLMs

2025-09-24

Авторы:

Hinata Tezuka, Naoya Inoue

## Контекст В последние годы развитие многоязычных глубоких сетевых моделей (Multilingual Large Language Models, LLMs) стало одним из основных направлений искусственного интеллекта. Эти модели применяются для решения различных задач, включая перевод текста, оформление текста и анализ текста. Однако существуют значительные проблемы, связанные с их работой в многоязычных режимах. Хотя многоязычные модели обычно имеют доступ ко всем языкам в процессе обучения, они часто возвращаются к использованию английского языка в качестве центрального языка. Эта проблема отражается в том, что модели часто используют английский язык как язык-источник и целевой язык в задачах перевода и других задач, что может привести к ложным соотношениям и уменьшению качества предсказаний. Настоящее исследование посвящено поиску решения этой проблемы и раскрытию новых подходов для обеспечения более эффективного использования многоязычных моделей. ## Метод Мы предлагаем новую методологию, которая основывается на анализе внутренних динамик моделей многоязычных LLMs. Главной идеей является предположение, что существуют особые нейроны в модели, названные **"трансферными нейронами"**, которые привязаны к модулю MLP. Эти нейроны выполняют ключевую роль в переводе представлений между языковыми-конкретными подпространствами и общим семантическим подпространством. Мы также используем анализ влияния нейронов с различными задачами, такими как перевод и регуляризация текста, для подтверждения наших предположений. Для экспериментов мы использовали различные многоязычные модели, такие как mBERT и XLM-R, с разными настройками. ## Результаты Наши эксперименты подтвердили наличие трансферных нейронов в моделях многоязычных LLMs. Мы провели эксперименты с разными настройками и данными, в том числе с многоязычными текстовыми данными в различных языках. Мы применяли техники анализа влияния нейронов для определения вклада трансферных нейронов в логику моделей. Наши результаты показали, что эти нейроны играют критическую роль в правильном переводе и выполнении задач, связанных с многоязычностью. Мы также демонстрируем, что лежат в основе успеха моделей, которые удачно выполняют задачи многоязычного перевода и регуляризации текста. ## Значимость Наши находки имеют значительное значение для развития многоязычных моделей и их применения в реальной жизни. Мы показали, что эффективное управление трансферными нейронами может улучшить качество предсказаний в задачах, связанных с многоязычным текстом. Это открывает новые возможности для применения моделей в таких областях, как медицина

Annotation:

Recent studies have suggested a processing framework for multilingual inputs in decoder-based LLMs: early layers convert inputs into English-centric and language-agnostic representations; middle layers perform reasoning within an English-centric latent space; and final layers generate outputs by transforming these representations back into language-specific latent spaces. However, the internal dynamics of such transformation and the underlying mechanism remain underexplored. Towards a deeper und...

ID: 2509.17030v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 LifeAlign: Lifelong Alignment for Large Language Models with Memory-Augmented Focalized Preference Optimization

2025-09-24

Авторы:

Junsong Li, Jie Zhou, Bihao Zhan, Yutao Yang, Qianjun Pan, Shilian Chen, Tianyu Huai, Xin Li, Qin Chen, Liang He

## Контекст Одна из ключевых проблем в области развития бо LLM (больших языковых моделей) является сохранение приоритетов пользователя при адаптации к новым задачам или доменам. Большинство предыдущих подходов страдают от проблемы "забывания" (catastrophic forgetting), когда модель теряет уже выученные сведения при усвоении новых. Это порождает проблему сохранения высокого качества предпочтений пользователя. Наша модель LifeAlign представляет собой новый подход к "живой" адаптации (lifelong alignment), которая позволяет модели управлять и сохранять предпочтения пользователя в процессе последовательного обучения. Наша модель может быть применена в различных сценариях, где необходимо постоянное соблюдение пользовательских предпочтений во время обучения модели. ## Метод Метод LifeAlign основывается на двух основных компонентах. Первый - это **фокализованная оптимизация приоритетов (focalized preference optimization)**, которая позволяет модели изучать новые приоритеты без удаления старых. Второй - **консолидация короткосрочной памяти в долгосрочную** (short-to-long memory consolidation), которая использует техники сжатия с помощью уменьшения размерности. Эта техника позволяет модели хранить и эффективно использовать память, необходимую для сохранения предпочтений. Мы также оптимизировали процесс, который позволяет модели научиться новым приоритетам без ущерба для уже приобретенных. Эта архитектура достигает баланса между узкой направленностью и широкой гибкостью. ## Результаты Мы проводили многочисленные эксперименты для оценки LifeAlign в сценариях, где необходимо учитывать последовательность изменений предпочтений. Мы использовали различные данные, включая тексты, задачи различных сфер, таких как медицина, технологии и финансы. Наши эксперименты показали, что LifeAlign превосходит другие методы в хранении предыдущих предпочтений, при этом поддерживая качество выдачи для новых задач. Мы также провели сравнительный анализ с другими подходами, показав, что LifeAlign показывает лучший результат в сохранении знаний и обеспечении качественного выполнения задач. ## Значимость Мы видим применение LifeAlign в различных областях, где необходимо сохранение приоритетов в процессе работы с пользователями. Например, в сфере медицины модель может запоминать предпочтения врачей и пациентов для персонализированного лечения. В финансовой сфере модель может учитывать предпочтения инвесторов для оптимального распределения активов. Этот подход также может быть применен в области образования и интеллектуальных помощников, где модель будет персонализированно реагировать на пользователя. Это дает новые шансы для гибкого и эффективного использования моделей в реальных ситуациях. ## Выводы LifeAlign представляет собой перс

Annotation:

Alignment plays a crucial role in Large Language Models (LLMs) in aligning with human preferences on a specific task/domain. Traditional alignment methods suffer from catastrophic forgetting, where models lose previously acquired knowledge when adapting to new preferences or domains. We introduce LifeAlign, a novel framework for lifelong alignment that enables LLMs to maintain consistent human preference alignment across sequential learning tasks without forgetting previously learned knowledge. ...

ID: 2509.17183v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Probabilistic Token Alignment for Large Language Model Fusion

2025-09-24

Авторы:

Runjia Zeng, James Chenhao Liang, Cheng Han, Zhiwen Cao, Jiahao Liu, Xiaojun Quan, Yingjie Victor Chen, Lifu Huang, Tong Geng, Qifan Wang, Dongfang Liu

#### Контекст Современные боLатие на основе large language models (LLMs) представляют собой мощные инструменты для решения различных задач, включая генерацию текста, трансляцию и помощь в программировании. Однако развитие и обучение LLMs с нуля требуют больших вычислительных ресурсов и времени, что приводит к неэффективности в условиях ограниченных возможностей. Другой подход — слияние уже имеющихся LLMs различных архитектур — может создать модель с более широким спектром возможностей. Тем не менее, традиционные методы слияния LLMs требуют специально определенного словаря, что может ограничивать их гибкость и универсальность в различных контекстах. Это ограничение может привести к понижению качества использования моделей в ситуациях, где словарь не полностью соответствует контексту. #### Метод Мы предлагаем **Probabilistic Token Alignment (PTA-LLM)**, подход, основанный на современных теориях оптимального транспорта, чтобы решить проблему недостаточной гибкости в существующих методах. В PTA-LLM вместо статического словаря используется **проблема транспорта с пространственным и линейным распределением**, что делает метод более универсальным и динамичным. Наша методология включает две основные стадии: 1. **Распределенное оптимальное транспортирование** — алгоритм оптимизации, использующий распределения токенов как входные данные для адаптивного слияния моделей. 2. **Пространственная интеграция** — техника, которая позволяет выравнивать токены двух моделей с учетом их независимости и дополняющихся характеристик. Такой подход позволяет разбираться в сложности слияния моделей, даже когда словарь или распределение токенов не являются статичными или универсальными. #### Результаты Мы провели эксперименты с несколькими парами LLMs различных архитектур, включая Transformer-based и Recurrent-based модели. Для этих экспериментов использовались такие данные, как разнообразные текстовые базы, в том числе статей, коротких сообщений и кодов. Наши результаты показывают, что PTA-LLM превосходит традиционные методы в следующих аспектах: - **Производительность**: Модели, объединенные с помощью PTA-LLM, показали значительные улучшения в задачах генерации текста, классификации и понимания языка. - **Гибкость**: Модели показали улучшенную работу в различных контекстах, независимо от специфики словаря или данных. - **Производительность расчетов**: Метод PTA-LLM демонстрирует более эффективную обработку в сравнении с полностью отлаженными моделями, которые требуют больших ресурсов для обучения. #### Значимость Результаты нашего исс

Annotation:

Training large language models (LLMs) from scratch can yield models with unique functionalities and strengths, but it is costly and often leads to redundant capabilities. A more cost-effective alternative is to fuse existing pre-trained LLMs with different architectures into a more powerful model. However, a key challenge in existing model fusion is their dependence on manually predefined vocabulary alignment, which may not generalize well across diverse contexts, leading to performance degradat...

ID: 2509.17276v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

2025-09-24

Авторы:

Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee

#### Контекст Осуществление многомерных взаимодействий между текстом и аудио является ключевым запросом в современных текстовых моделях. Хотя люди способны осуществлять понятие аудиосвойств, таких как звуковой тон, громкость или связь звука с источником, исходя из знаний пространства, большинство текстовых моделей страдают от малой способности обрабатывать такие свойства. Этот ряд ограничений может стать препятствием для эффективных многомодальных приложений. Одним из шагов к решению этой проблемы является разработка AuditoryBench++, которая представляет собой новую меру для оценки моделей текстов в части их способности к аудиокоммуникации и соотнесению. #### Метод **AuditoryBench++** представляет собой набор задач, которые разбиваются на две группы: базовые аудиосравнения и социально-контекстуальные рассуждения. Методика использует специальные токены для синтеза информации в процессе вывода. Таким образом, модель может генерировать и анализировать аудиоконцепты, используя свои внутренние механизмы. Для оценки моделей был разработан алгоритм **AIR-CoT** (Auditory Imagination Reasoning with Chain-of-Thought), который имеет возможность расширять текстовую информацию, используя аудиоконцепты в процессе рассуждения. #### Результаты Мы проводили эксперименты с различными текстовыми моделями, включая обученные с нуля LLMs и модели с многомодальными возможностями. Результаты показали, что AIR-CoT не только превосходит готовые модели без дополнительных модификаций, но и существенно улучшает результаты в сравнении с моделями, в которых использовался дополнительный аудиоконтекст. Это улучшение является примечательным, так как AIR-CoT не требует внешних сенсорных данных, таких как аудиозаписи. #### Значимость Аудиокомпетентность, предлагаемая **AuditoryBench++**, может найти применение в широком спектре многомодальных приложений, таких как системы опоры на текст, роботы-компаньоны, и обозреватели смысла звука. Этот подход открывает новые возможности для лучшего понимания и интерактивности с многомодальными текстовыми моделями. Благодаря AIR-CoT, модели могут достичь более высокого уровня рациональности в аудиоконтекстах, не требуя дополнительных аудиоданных. #### Выводы **AuditoryBench++** и AIR-CoT являются прорывными направлениями в области развития моделей, которые могут обрабатывать аудиоконцепты. Наши результаты открывают путь к будущим исследованиям в области взаимодействия текста и аудио, призывая к дальнейшему исследованию аудиокомпетентности в текстовых моделях. Мы считаем, что этот подход может значительно улучшить многомодальные приложения, даруя и

Annotation:

Even without directly hearing sounds, humans can effortlessly reason about auditory properties, such as pitch, loudness, or sound-source associations, drawing on auditory commonsense. In contrast, language models often lack this capability, limiting their effectiveness in multimodal interactions. As an initial step to address this gap, we present AuditoryBench++, a comprehensive benchmark for evaluating auditory knowledge and reasoning in text-only settings. The benchmark encompasses tasks that ...

ID: 2509.17641v1 cs.CL, cs.AI, cs.LG, cs.SD

arXiv PDF

📄 Investigating Bias: A Multilingual Pipeline for Generating, Solving, and Evaluating Math Problems with LLMs

2025-09-24

Авторы:

Mariam Mahran, Katharina Simbeck

## Контекст Государственный образовательный стандарт (ГОС) в Германии определяет критерии математического образования с детских садов до 10 классов. Однако существует недостаток систематизированных методик по разработке и оценке математических задач, особенно в многоязычной среде. Ларже Лангуедж Моделс (LLMs) становятся популярнее в области образовательной поддержки, но вариативность их результатов зависит от языка взаимодействия. Этот факт создает проблемы для глобализации образования и справедливости в доступе к инновационным технологиям. Наша исследовательская группа предлагает внедрить многоязычную автоматизированную систему для генерации, решения и оценки математических задач, которая станет доступной для разных языков и культур. ## Метод Мы разработали многоязычную систему для генерации, решения и оценки математических задач, ориентированную на критерии ГОС. Для этого мы создали 628 задач, используя методы конвертации текста на математические формулы, подходящие для обучения. Затем мы эти задачи перевели на английский, немецкий и арабский языки. Для каждого языка мы использовали три модели ЛЛМ (GPT-4o-mini, Gemini 2.5 Flash и Qwen-plus), чтобы генерировать шаговое решение задач. В качестве критерия качества решений мы привлекли третью сторону — ЛЛМ-оценщиков: Claude 3.5 Haiku. Эта модель сравнивала решения по всем трем языкам и оценивала их качество с учетом точности, грамотности и полноты. ## Результаты Лараже Лангуедж Моделы способны решать задачи на нескольких языках, но результаты показывают существенные различия в качестве решений. Английские решения постоянно получают высшие оценки от ЛЛМ-оценщиков, в то время как арабские решения часто являются самыми низкими в рейтинге. Эти результаты отражают явный языковый биас в текущих моделях, что подтверждает необходимость развития более справедливых многоязычных систем. ## Значимость Мы видим широкие возможности для применения нашей системы в области мультиязычного образования. Особенно актуальным является использование нашей системы в германском образовании. Она может помочь улучшить доступ к качественному образованию для говорящих на арабском и немецком языках. Более того, наша система может стать моделью для других стран, где широко используют многоязычные системы в образовательном контексте. Это может способствовать решению проблемы языкового биаса в технологиях и сделать образование более справедливым и доступным во всем мире. ## Выводы Мы успешно разрабо

Annotation:

Large Language Models (LLMs) are increasingly used for educational support, yet their response quality varies depending on the language of interaction. This paper presents an automated multilingual pipeline for generating, solving, and evaluating math problems aligned with the German K-10 curriculum. We generated 628 math exercises and translated them into English, German, and Arabic. Three commercial LLMs (GPT-4o-mini, Gemini 2.5 Flash, and Qwen-plus) were prompted to produce step-by-step solut...

ID: 2509.17701v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 DIVERS-Bench: Evaluating Language Identification Across Domain Shifts and Code-Switching

2025-09-24

Авторы:

Jessica Ojo, Zina Kamel, David Ifeoluwa Adelani

Описание области исследования, существующих проблем и мотивации ## Контекст Language Identification (LID) — это основная задача в области многоязычного NLP, которая играет ключевую роль в различных приложениях, таких как распознавание речи, текстовое оформление и моделирование языка. Однако существующие модели часто переобучаются к чистому, монолюгистическому тексту, что приводит к снижению качества работы в реальных условиях. Это связано с тем, что многие системы не тренируются на шумных, информальных или код-переключающихся текстах, которые являются типичными для реальных сценариев. Это ограничение особенно заметно при обработке многоязычных данных, где текст может монолингвально и код-переключающимся языками. Мотивация для этого исследования заключается в разработке более зернистого и включающего LID-системы, которые могут справляться с такими трудностями в реальных условиях. Детальное описание методологии, технических решений и архитектуры ## Метод DIVERS-Bench — это комплексный подход к оценке новых моделей LID, который охватывает следующие домены: речи, веб-текст, социальные медиа, детские стихи и код-референция. Мы также представляем DIVERS-CS, новый набор данных для код-переключения, содержащий 10 пар языков. Для выполнения экспериментов использовались три типовые модели LID: mBERT, XLM-R и DistilBERT. Мы оцениваем их производительность в условиях чистого текста и шумных входных данных. Для решения проблемы код-переключения в DIVERS-CS разработана специальная архитектура, которая использует многоязычные представления для определения слов на разных языках. Эта методика позволяет модели более точно обнаруживать и разделять языки в контексте управления. Описание экспериментов, используемых данных и полученных результатов ## Результаты Исследования показали, что хотя LID-системы показывают высокий уровень точности на традиционных, чистых данных, их производительность снижается в шумных условиях. На DIVERS-Bench, модели достигли точности 96-98% на чистых данных, но эта точность упала до 60-70% на шумных и код-переключающихся данных. Это свидетельствует о слабой способности моделей обрабатывать неструктурированные и многоязычные данные. В DIVERS-CS, модели также сталкивались с трудностями при попытке обнаружить и разделять языки в контексте код-переключения. Например, точность распознавания слов на разных языках в одном предложении оказалась ниже 50% для большинства моделей. Эти результаты подтверждают необходимость развития LID-систем, которые могут обрабатывать более широкий спектр реальных сценариев

Annotation:

Language Identification (LID) is a core task in multilingual NLP, yet current systems often overfit to clean, monolingual data. This work introduces DIVERS-BENCH, a comprehensive evaluation of state-of-the-art LID models across diverse domains, including speech transcripts, web text, social media texts, children's stories, and code-switched text. Our findings reveal that while models achieve high accuracy on curated datasets, performance degrades sharply on noisy and informal inputs. We also int...

ID: 2509.17768v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
23
24
25
26
27
36
37

Показано 241 - 250 из 370 записей