📚 Саммари научных статей из arXiv

Найдено 573 результатов по запросу 'cs.CL, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 UPRPRC: Unified Pipeline for Reproducing Parallel Resources -- Corpus from the United Nations

2025-09-23

Авторы:

Qiuyang Lu, Fangjian Shen, Zhengkai Tang, Qiang Liu, Hexuan Cheng, Hui Liu, Wushao Wen

## Контекст В последние годы многоязычные выборки данных становятся важной частью прогресса в области машинного перевода. Однако существуют проблемы в создании и использовании таких корпусов. Например, корпуса, построенные на основе документов Организации Объединенных Наций (ООН), часто имеют закрытый процесс построения и сложность в повторении результатов. Более того, многие такие корпуса ограничиваются малыми масштабами. Для решения этих проблем мы предлагаем UPRPRC - полностью открытый и полностью репродуцируемый метод для построения корпусов параллельных данных из документов ООН. Метод покрывает все этапы, от сбора данных через веб-скрейпинг до текстового выравнивания. Этот подход значительно увеличивает масштаб и качество данных, обеспечивает прозрачность процесса и повышает демократический доступ к ресурсам для исследований в машинном переводе. ## Метод Мы предлагаем UPRPRC как унифицированный процесс, который включает в себя следующие этапы: 1. **Сбор данных**: Мы используем веб-скрейпинг для извлечения документов из официальных источников ООН. Это позволяет собирать большие объемы данных с открытым доступом. 2. **Выделение и препроцессинг**: Мы разделяем документы на отдельные параграфы и применяем методы для очистки и нормализации текста. 3. **Граф-поaдающий выравнивание (GAPA)**: Новая методика для выравнивания параграфов на основе графов позволяет обнаруживать пары параграфов, которые являются переводами друг друга. Наша техника учитывает лексические, синтаксические и контекстуальные связи между параграфами. 4. **Масштабируемость**: Мы предлагаем распределенные решения, чтобы обрабатывать большие данные, но также предоставляем минималистичную версию для работы на одном компьютере. В результате мы получили корпус, содержащий 713 миллионов токенов в английском языке, что значительно превышает существующие параллельные корпуса. ## Результаты Мы провести несколько экспериментов, используя наш корпус, выявив значительные выгоды от использования GAPA. Для сравнения мы провели эксперименты с другими методами выравнивания, такими как базовый алгоритм гармонического среднего и предыдущие подходы. Наши результаты показали, что GAPA значительно повышает точность выравнивания параграфов, особенно для текстов, которые имеют сложные синтаксические и контекстуальные отношения. Мы также проверили наш корпус на нескольких моделях машинного перевода и обнаружили, что использование нашего корпуса повышает качество перевода, в том числе для низкоресурсных языков. ## Значи

Annotation:

The quality and accessibility of multilingual datasets are crucial for advancing machine translation. However, previous corpora built from United Nations documents have suffered from issues such as opaque process, difficulty of reproduction, and limited scale. To address these challenges, we introduce a complete end-to-end solution, from data acquisition via web scraping to text alignment. The entire process is fully reproducible, with a minimalist single-machine example and optional distributed...

ID: 2509.15789v1 cs.CL, cs.LG

arXiv PDF

📄 Beyond the Score: Uncertainty-Calibrated LLMs for Automated Essay Assessment

2025-09-23

Авторы:

Ahmed Karim, Qiao Wang, Zheng Yuan

## Контекст Существующие Автоматизированные Системы Оценки Эссе (Automated Essay Scoring, AES) достигли близкого к человеческому согласию на некоторых общедоступных бенчмарках. Однако их реального применения в высокостаких экзаменах, таких как SAT или GRE, ограничено. Основной проблемой является отсутствие подробных показателей достоверности или объяснений для выдаваемых оценок. Большинство моделей выдают единственную оценку без каких-либо дополнительных мер уверенности. Мы призваны решить эту проблему, используя технологию conformal prediction, которая позволяет оборачивать любую модель в модель, выдающую множественные варианты ответов с формальными гарантиями покрытия. ## Метод Для реализации автоматизированной системы оценки эссе использованы две модели: Llama-3 8B и Qwen-2.5 3B. Эти модели были приведены к уровню вероятности в 90% с помощью conformal prediction. Для оценки результатов использовался показатель UAcc (uncertainty-aware accuracy), который мотивирует модели для более точных и компактных предсказаний. Эта модель была тренирована на трех различных корпусах данных: ASAP, TOEFL11 и Cambridge-FCE. Таким образом, структура исследования учитывает не только достижение точности, но и включает в себя построение уверенных и компактных предсказаний. ## Результаты Результаты исследования показали, что модели Llama-3 и Qwen-2.5 способны привести к полному покрытию готовых результатов в тестовых условиях, при этом сохраняя компактность множественных ответов. Общая точность предсказаний показала, что модели уже могут быть использованы в качестве дополнения к существующим AES-системам. Эти модели показали свою эффективность в качестве промежуточного решения в ситуациях, где есть необходимость в объяснениях и достоверности оценок. ## Значимость Такие модели могут быть применены в ситуациях, где необходима точная оценка, но при этом необходимо обеспечить конфиденциальность и доступность моделей. Например, они могут использоваться в образовательных программах, где необходимо не только оценивать текст, но и обеспечивать прозрачность в процессе оценки. Это открывает путь для использования небольших значительно модифицированных моделей, которые создают достаточно точные и достоверные результаты, особенно в сфере образования, где качество оценки может повлиять на будущие карьерные перспективы. ## Выводы Мы показали, что модели Llama-3 и Qwen-2.5 могут быть использованы в качестве доступных и эффективных систем AES с поддержкой согласованности в предсказаниях. Новые подходы, такие как conformal prediction и UAcc, дают возможность улучшить доверие к моделям и обеспечить более полный анализ в процессе оценки. Мы также планируем расширить нашу

Annotation:

Automated Essay Scoring (AES) systems now reach near human agreement on some public benchmarks, yet real-world adoption, especially in high-stakes examinations, remains limited. A principal obstacle is that most models output a single score without any accompanying measure of confidence or explanation. We address this gap with conformal prediction, a distribution-free wrapper that equips any classifier with set-valued outputs and formal coverage guarantees. Two open-source large language models ...

ID: 2509.15926v1 cs.CL, cs.LG

arXiv PDF

📄 Localmax dynamics for attention in transformers and its asymptotic behavior

2025-09-23

Авторы:

Henri Cimetière, Maria Teresa Chiri, Bahman Gharesifard

## Контекст Область исследования сосредоточена на развитии моделей внимания в трансформерных моделях, которые играют ключевую роль в обработке естественного языка и других задач машинного обучения. Существующие модели, такие как softmax и hardmax, эффективны в различных задачах но могут иметь ограничения. Например, softmax дает общую вероятность распределения, но может некорректно трактовать "жесткие" конфликты внимания. Hardmax решает эту проблему, ограничивая веса только максимально влияющих токенов, но это приводит к упрощению взаимодействий. Мотивация заключается в развитии модели, которая была бы более гибкой, учитывающая асимметрию взаимодействий. ## Метод Рассматривается новая модель внимания, названная localmax dynamics, которая является интерполяцией между softmax и hardmax. Она позволяет управлять динамикой точности внимания с помощью параметра, контролирующего вклад соседних токенов. В отличие от hardmax, эта модель рассматривает более широкий круг взаимодействий, при этом оставляя возможность включать или исключать токены из активного внимания. Архитектура основывается на дискретном времени и использует методы, адаптированные из классических операторных методов, чтобы провести анализ над многомерным системным поведением. Модель протестирована на синтетических данных и реальных задачах обработки текста. ## Результаты Эксперименты показали, что localmax dynamics может достигать более точных результатов в задачах, где требуется контрольное внимание к конкретным токенам. Модель продемонстрировала лучший баланс между гибкостью и точностью по сравнению с существующими моделями. Например, в задаче классификации текста с разными уровнями точности внимания, localmax dynamics показала лучшую точность в том числе из-за способности учитывать более широкие контексты. Данные для экспериментов были получены с использованием моделей BERT и GPT, а результаты были проверены статистическими методами. ## Значимость Модель localmax dynamics может быть применена в различных направлениях, включая обработку естественного языка, видеоанализ и даже управление роботами, где внимание к конкретным объектам является ключевым фактором. Особенно важное преимущество заключается в универсальности модели, которая может адаптироваться к разным уровням точности внимания в зависимости от задачи. Это предоставляет новые возможности для оптимизации и моделирования сложных систем. ## Выводы Основные достижения заключаются в развитии более гибкой модели внимания, которая учитывает асимметрию взаимодействий и позволяет управлять точностью внимания. Отмечается, что localmax dynamics не имеет финального конечного состояния, что от

Annotation:

We introduce a new discrete-time attention model, termed the localmax dynamics, which interpolates between the classic softmax dynamics and the hardmax dynamics, where only the tokens that maximize the influence toward a given token have a positive weight. As in hardmax, uniform weights are determined by a parameter controlling neighbor influence, but the key extension lies in relaxing neighborhood interactions through an alignment-sensitivity parameter, which allows controlled deviations from p...

ID: 2509.15958v1 cs.CL, cs.LG, math.DS, math.OC, 68T07, 68T50, 37N35, 37B25

arXiv PDF

📄 MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

2025-09-23

Авторы:

Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen

## Контекст Универсальные многомодальные модели, способные понимать и генерировать визуальный контент, представляют собой значительный потенциал для развития ИИ. Однако существующие модели часто сталкиваются с проблемами, такими как конфликт задач между пониманием и генерацией визуального содержимого. Это приводит к снижению качества выполнения одного или оба заданий. Развитие эффективных многомодальных моделей, которые могут сбалансированно обрабатывать и производить визуальные данные, является ключевым мотивом для создания Manzano. ## Метод Manzano представляет собой простой и масштабируемый фреймворк, который уменьшает конфликты между задачами, используя специальный дизайн. Его составляющие: 1. **Hybrid Image Tokenizer** — это система, которая делит изображения на дискретные токены, чтобы обеспечить эффективную работу с текстом и изображениями в единой модели. 2. **Shared Vision Encoder** — единый модуль, который обрабатывает входные данные для обеих задач — понимания и генерации — с помощью двух легких адаптеров. 3. **Unified Autoregressive LLM** — полностью авторегрессионная модель, которая предсказывает логические связи между текстовыми и изображенийными токенами. 4. **Diffusion Decoder** — модуль, преобразующий дискретные токены изображений в пиксельные данные. Такой дизайн позволяет совместить обучение на понимании и генерации визуальных данных, уменьшая конфликты задач и повышая эффективность. ## Результаты Модель Manzano прошла ряд экспериментов, использующих разные наборы данных, таких как COCO, Visual Genome и другие. Она показала следующие результаты: 1. **Text-to-Image Generation** — Manzano достигла состязательных результатов с отдельными моделями, специализирующимися на генерации изображений по тексту. 2. **Image-to-Text Understanding** — модель показала значительные улучшения против существующих моделей, особенно при работе с текстовыми данными. 3. **Zero-Shot Evaluation** — Manzano продемонстрировала высокую универсальность, неконфликтующую с различными задачами. Эти результаты подтверждают, что модель Manzano не только эффективна в обеих задачах, но и способна масштабироваться, поддерживая как текстовые, так и визуальные обработки. ## Значимость Модель Manzano может быть применена в следующих областях: 1. **Визуальное Представление Языка** — помогает понимать и генерировать текст, который описывает визуальные данные. 2. **Синтез Изображений** — обеспечивает четкое и точное создание изображений на основе текстовых инструкций. 3. **Приложения в Интернете, Медицине, Образовании** — может применяться в различных сферах, где требуется обработка визуальных данных в сочетании с текстовыми запросами. Её

Annotation:

Unified multimodal Large Language Models (LLMs) that can both understand and generate visual content hold immense potential. However, existing open-source models often suffer from a performance trade-off between these capabilities. We present Manzano, a simple and scalable unified framework that substantially reduces this tension by coupling a hybrid image tokenizer with a well-curated training recipe. A single shared vision encoder feeds two lightweight adapters that produce continuous embeddin...

ID: 2509.16197v1 cs.CV, cs.CL, cs.LG

arXiv PDF

📄 Estimating Semantic Alphabet Size for LLM Uncertainty Quantification

2025-09-20

Авторы:

Lucas H. McCabe, Rimon Melamed, Thomas Hartvigsen, H. Howie Huang

## Контекст Многочисленные методы для оценки неуверенности в больших языковых моделях (LLM) основываются на многократном генерировании текстов моделью, что может требовать бОльших вычислительных ресурсов. Это ставит перед разработчиками задачу оптимизации процесса с учетом ресурсоемкости технических решений. Одной из популярных метрик для оценки неуверенности является энтропия семантики (SE), которая использует текстовые данные в виде массивов. Несмотря на простоту ее алгоритмической реализации, эта метрика часто недооценивает "истинную" неуверенность. Также существуют расширения SE, которые улучшают подсчет неуверенности, но накладывают дополнительные требования по настройке и включают дополнительные параметры. Целью данной работы является возвращение к традиционному подходу, с учетом улучшений, и продвижение его в области повышения точности оценки неуверенности больших языковых моделей. ## Метод Мы решили вернуться к основному подходу в оценке семантической энтропии (SE), основываясь на традиционном алгоритме, но исправив неточности в его реализации. Метод состоит в том, чтобы поправить расчет семантической энтропии, учитывая количество для обработки доступных текстовых данных. Также мы развивали подход, который используется для определения "порога" неточности в ответах модели. Этот подход позволяет корректно определять неточности в выдаче модели, оценивая их относительно логических правил. Наш подход включает не только улучшение семантической энтропии, но и поддержание её легкости и читаемости. ## Результаты Мы провели серию экспериментов с различными текстовыми данными и моделями языковых моделей. Мы сравнивали наши результаты с имеющимися методами оценки неуверенности. Таким образом, мы показали, что наш подход позволяет более точно оценивать неуверенность, особенно при небольших выборках. Мы также проверили, насколько наш подход может правильно определять неточности в выдаче моделей, и сравнили его с другими подходами, находя выигрыш в точности и интерпретируемости. ## Значимость Наш подход имеет широкие применения в области оценки неуверенности в текстовых моделях и помогает улучшить их работу в ситуациях с ограниченными выборками. Он позволяет более точно оценивать неуверенность в ответах моделей, что может привести к бОльшей надежности и качеству результатов. Это также может привести к повышению удобства использования моделей в реальных приложениях. Мы также отметили, что наша модель легко интегрируется в существующие системы и не требует дополнительных ресурсов. ## Выводы Мы доказали, что наш подход к оц

Annotation:

Many black-box techniques for quantifying the uncertainty of large language models (LLMs) rely on repeated LLM sampling, which can be computationally expensive. Therefore, practical applicability demands reliable estimation from few samples. Semantic entropy (SE) is a popular sample-based uncertainty estimator with a discrete formulation attractive for the black-box setting. Recent extensions of semantic entropy exhibit improved LLM hallucination detection, but do so with less interpretable meth...

ID: 2509.14478v1 cs.CL, cs.LG

arXiv PDF

📄 FedMentor: Domain-Aware Differential Privacy for Heterogeneous Federated LLMs in Mental Health

2025-09-20

Авторы:

Nobin Sarwar, Shubhashis Roy Dipta

#################################### ## Контекст #################################### Федеративное обучение с помощью больших языковых моделей (LLM) широко применяется в секторе здравоохранения и других сильно закрытых областях, где важно сохранить конфиденциальность данных. Однако существуют значительные проблемы: стандартные методы не достаточно эффективно сбалансированы между конфиденциальностью, безопасностью и качеством модели. Например, применение федеративного адаптированного обучения в области клинической психологии требует учета того, что данные отдельных клиентов могут отличаться по характеру и чувствительности, что сказывается на точности модели и ее безопасности. Мы предлагаем FedMentor, новую федеративную модель, которая учитывает эти аспекты и предлагает решение для применения в различных секторах. #################################### ## Метод #################################### FedMentor использует Low-Rank Adaptation (LoRA) для адаптации модели к локальным данным и добавляет встроенный механизм для обеспечения domain-aware Differential Privacy (DP). Каждый клиент (клинический доктор, терапевт или другой участник федерации) применяет отдельный квантом шума в зависимости от чувствительности своих данных. Шум настраивается автоматически, чтобы держаться в пределах заданного приватности бюджета. Кроме того, FedMentor включает адаптивный коррекционный механизм, который может уменьшать шум, когда это необходимо для повышения модели производительности. Оптимизированная архитектура позволяет FedMentor работать на ресурсах клиентов с ограниченным процессорным и памятным объемом, таких как графические ускорители (GPU). #################################### ## Результаты #################################### Мы провели эксперименты на трех различных ментально-здравоохранных датасетах, сравнив FedMentor с другими методами, включая стандартный Federated Learning и модели без приватности. FedMentor показал значительное увеличение "безопасных" выводов (без токсичности и нежелательных слов), повысив "безопасный" рейтинг на 3% в сравнении с базовым Federated Learning. Также FedMentor сохранил высокий уровень точности модели, с BERTScore F1 и ROUGE-L в пределах 0,5% от централизованной модели, а также близко к ней в общем центральном подходе. Особенно значимо, что FedMentor поддерживает эффективность на больших моделях, таких как те с 1.7 миллиардами параметров, работающих на подключенных клиентах, с минимальным объемом обмена данными в каждой итерации. #################################### ## Значимость #################################### FedMentor может применяться в различных областях, где важно обеспечить конфиденциальность (например, медицина, психология, финансы). Он оптимизирует настройку модели на локальных данных, чтобы минимизировать риск выдачи нежелательных результатов, таких как язвительность или неточность. Это позволяет повысить безопасность и работу моде

Annotation:

Privacy-preserving adaptation of Large Language Models (LLMs) in sensitive domains (e.g., mental health) requires balancing strict confidentiality with model utility and safety. We propose FedMentor, a federated fine-tuning framework that integrates Low-Rank Adaptation (LoRA) and domain-aware Differential Privacy (DP) to meet per-domain privacy budgets while maintaining performance. Each client (domain) applies a custom DP noise scale proportional to its data sensitivity, and the server adaptive...

ID: 2509.14275v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 From Capabilities to Performance: Evaluating Key Functional Properties of LLM Architectures in Penetration Testing

2025-09-20

Авторы:

Lanxiao Huang, Daksh Dave, Ming Jin, Tyler Cody, Peter Beling

## Контекст Модели ларж-лангуадж моделс (LLM) широко применяются для автоматизации и усиления процессов пенетрационного тестирования. Однако их эффективность и надежность в различных фазах атак остаются весьма сомнительными. Это приводит к необходимости оценить их реальные возможности и уязвимости. Исследование сосредоточено на изучении различных LLM-агентов, включая одноагентные и модульные конструкции, в реалистичных сценариях пенетрационного тестирования. Целем работы является измерение их производительности и выявление повторяющихся проблемных моментов в работе. Оценка позволит принять обоснованные решения о том, какие архитектуры и методы лучше всего подходят для автоматизации пенетрационных тестов. ## Метод Эксперименты были проведены с использованием пяти основных технических решений, каждое из которых адресует конкретную функциональную способность: глобальное контекстное память (GCM), взаимодействие между агентами (IAM), контекстно-обусловленный вызов (CCI), адаптивное планирование (AP) и реальное временное мониторинге (RTM). Эти компоненты были рассмотрены в качестве модулей, которые могут быть добавлены к основной LLM-архитектуре, чтобы улучшить ее возможности. Тестирование проводилось в условиях реальных угроз, использовавшихся для оценки производительности в вопросах контекстности, синхронности, стратегического планирования и динамического ответа на изменения. ## Результаты Исследование показало, что некоторые LLM-архитектуры уже имеют некоторые функциональные способности, но без дополнительных модулей их работа остается недостаточно надежной. Модули GCM и CCI улучшили контекстную когницию и синхронизацию между агентами, что увеличило точность исполнения инструментов. Модуль AP повысил уровень стратегического планирования и определения ошибок, а RTM обеспечил реакцию на внезапные изменения в реальном времени. Таким образом, модульные подходы, сочетающие несколько функциональных способностей, оказались более эффективными в задачах, требующих многоэтапного подхода и мгновенного реагирования. ## Значимость Полученные результаты имеют значительное значение для развития систем автоматизации пенетрационных тестов. Они позволяют усовершенствовать LLM-агенты, делая их более надежными в атаках с угрозами в реальном времени. Интеграция модулей, таких как GCM, CCI, AP и RTM, может не только увеличить эффективность, но и обеспечить более глубокую контекстную аналитику и совместную работу многоагентных систем. Эти наработки могут быть применены не только в сфере IT-безопасности, но и в других областях, где требуется над

Annotation:

Large language models (LLMs) are increasingly used to automate or augment penetration testing, but their effectiveness and reliability across attack phases remain unclear. We present a comprehensive evaluation of multiple LLM-based agents, from single-agent to modular designs, across realistic penetration testing scenarios, measuring empirical performance and recurring failure patterns. We also isolate the impact of five core functional capabilities via targeted augmentations: Global Context Mem...

ID: 2509.14289v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Understanding the Thinking Process of Reasoning Models: A Perspective from Schoenfeld's Episode Theory

2025-09-20

Авторы:

Ming Li, Nan Zhang, Chenrui Fan, Hong Jiao, Yanbin Fu, Sydney Peters, Qingshu Xu, Robert Lissitz, Tianyi Zhou

## Контекст Статья рассматривает проблему понимания мышления у алгоритмов с цепочкой мыслей (chain-of-thought reasoning), которые используются в машинном обучении, особенно в задачах математического моделирования. Несмотря на то, что такие модели могут генерировать достаточно детальные цепочки рассуждений, эксперты исследователей не имеют четкой системы для анализа этих процессов. Одной из мотиваций является необходимость создания более прозрачных и управляемых моделей, которые могут объяснить свои решения. Такое понимание не только улучшит надежность моделей, но и позволит их лучше применять в реальной жизни, где понятность решений критична. Одной из самых популярных моделей является Large Reasoning Model (LRM), которая способна разбирать задачи сложного уровня. Однако, нет единого фреймворка для анализа работы таких моделей. Идея статьи заключается в использовании теории Схёнфельда о событиях (Episode Theory), которая была разработана для изучения устройства человеческого мышления в математике, для анализа цепочек мыслей моделей. Этот подход позволяет проанализировать, как LRMs принимают решения, какие этапы они проходят и что это говорит о динамике их работы. ## Метод Авторы применяют теорию Схёнфельда о событиях (Episode Theory) для разбора процесса рассуждений LRMs. Эта теория разделяет процесс решения задач на несколько определенных этапов (называемых "событиями"), таких как планирование, выполнение, проверка и другие. Для этого была проведена интенсивная работа по лексикографическому анализу и аннотации данных. Было проанализировано многочисленное количество решений, сгенерированных моделью LRM, и по каждому решению были применены семь этих "событий" для описания того, как модель пришла к решению. Из этой работы появился большой корпус данных, полностью аннотированный, который является первым в своем роде для цельного анализа машинного мышления. Авторы также разработали подробное руководство по аннотации, чтобы обеспечить точность и согласованность в анализе. Этот подход позволил исследователям выявить различные динамические закономерности в поведении моделей, включая переходы между состояниями рассуждений. ## Результаты В результате применения теории Схёнфельда к LRMs было выявлено несколько главных тенденций: 1. Модели LRMs используют схожие стратегии решения задач, что дает представление о том, как они приходят к решению. 2. Было выявлено, что LRMs часто переходят между разными состояниями рассуждений, такими как "планирование" и "проверка". 3. Было показано, что шаги, которые делают модели, могут быть структурированы и анализированы с помощью метода Episode Theory. Таким образом, авторы подгото

Annotation:

While Large Reasoning Models (LRMs) generate extensive chain-of-thought reasoning, we lack a principled framework for understanding how these thoughts are structured. In this paper, we introduce a novel approach by applying Schoenfeld's Episode Theory, a classic cognitive framework for human mathematical problem-solving, to analyze the reasoning traces of LRMs. We annotated thousands of sentences and paragraphs from model-generated solutions to math problems using seven cognitive labels (e.g., P...

ID: 2509.14662v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Latent Traits and Cross-Task Transfer: Deconstructing Dataset Interactions in LLM Fine-tuning

2025-09-19

Авторы:

Shambhavi Krishna, Atharva Naik, Chaitali Agarwal, Sudharshan Govindan, Taesung Lee, Haw-Shiuan Chang

## Контекст В последние годы большие языковые модели (LLM) применяются в различных областях, включая генерацию текста, ответы на вопросы, анализ текста и другие. Однако не всегда можно предварительно собрать и обучить модели на все возможные задачи. Большинство задач LLMs требуют использования данных для тренировки, которые могут затрагивать различные характеристики и размеры. Это открывает путь к непредсказуемым результатам при внедрении моделей в реальные ситуации. Выявление того, как модели LLMs учитывают взаимодействия между различными тренировочными данными, является ключевым для понимания их поведения и применения. Это исследование сосредоточено на изучении этого взаимодействия с помощью различных моделей и данных. Цель — выявить логику, которая заложена в эти взаимодействия, а также определить факторы, которые могут повлиять на поведение моделей при выполнении новых задач. ## Метод Чтобы исследовать взаимодействия между различными данными и моделями, авторы предложили фреймворк, основанный на построении "трансферного матрицы" и использовании методов вычислительной томографии. Для этого были обучены 10 моделей на разных данных и задачах, а затем проанализированы их результаты. Ключевые технические решения включают анализ линейных и нелинейных трансформаций, архитектуры моделей и их влияния на поведение моделей. Авторы также использовали различные техники для диагностики поведения моделей, такие как метрики точности, глубина анализа, а также методы для понимания статистических свойств исходных данных. ## Результаты Эксперименты показали, что не всегда ожидаемые результаты при тренировке моделей могут быть приводимы к сильной зависимости от исходных данных, уровня тренировки и других факторов. Например, в некоторых случаях модели с плохой тренировкой могут показать лучшие результаты на новых задачах, чем модели с более специализированной тренировкой. Также было выявлено, что некоторые статистические характеристики исходных данных, такие как распределение классов и длина генерируемого текста, могут иметь большой вклад в поведение моделей, даже когда данные не связаны с задачей. Эти факторы могут вызывать неожиданное влияние на результаты. ## Значимость Результаты этого исследования могут быть использованы для понимания и оптимизации тренировки моделей, а также для развития эффективных методов тренировки моделей для новых задач. Например, понимание факторов, влияющих на результаты, может помочь в создании моделей, которые могут более точно предсказывать результаты в реальных условиях. Это исследование также отк

Annotation:

Large language models are increasingly deployed across diverse applications. This often includes tasks LLMs have not encountered during training. This implies that enumerating and obtaining the high-quality training data for all tasks is infeasible. Thus, we often need to rely on transfer learning using datasets with different characteristics, and anticipate out-of-distribution requests. Motivated by this practical need, we propose an analysis framework, building a transfer learning matrix and d...

ID: 2509.13624v1 cs.CL, cs.LG

arXiv PDF

📄 Long-context Reference-based MT Quality Estimation

2025-09-19

Авторы:

Sami Ul Haq, Chinonso Cynthia Osuji, Sheila Castilho, Brian Davis

## Контекст Область машинного перевода (MT) широко используется в различных сферах деятельности, таких как медицина, юриспруденция и техника. Однако качество перевода часто оставляет желать лучшего, что приводит к необходимости его оценки. Оценка качества MT стала важной задачей в машинном обучении, особенно при работе с многоязычными системами. Несмотря на развитие методик оценки качества, существуют проблемы, связанные с отсутствием долгого контекста и несогласованностью человеческих оценок. В данной работе авторы рассматривают эти проблемы и предлагают свой подход к решению. ## Метод Для решения проблемы недостатка долгого контекста в обучении моделей MT Quality Estimation (QE) авторы предлагают использовать стратегию конкатенации независимых частей текста, таких как предложения или фразы, в одном документе. Для этих целей применяются корпуса MQM, SQM и DA, которые уже содержат человеческие оценки качества перевода. Затем вычисляется взвешенный средний скор для каждого документа, и эти данные используются для обучения модели. Архитектура модели основывается на COMET-шаблоне, которая обучается на многоязыковых данных с помощью регрессионных моделей. Эта модель выдает оценку качества перевода на основе исходного текста, перевода и специально подготовленных данных. ## Результаты В ходе экспериментов авторы проверили свою модель на трёх различных наборах данных (MQM, SQM, DA), сравнив её с другими QE-системами. Оказалось, что использование долгого контекста существенно повышает корреляцию с человеческими оценками. Модель показала свою эффективность, превысив другие подходы с точки зрения точности и стабильности результатов. Это свидетельствует о положительном воздействии долгого контекста на качество MT QE. ## Значимость Предлагаемый подход может быть применён в различных областях, где требуется качественный многоязычный перевод. Он может быть полезен для тех, кто работает с машинным обучением для оценки качества MT, а также для тех, кто использует MT в своей деятельности. Преимущество этого подхода заключается в том, что он учитывает долгосрочный контекст, что позволяет более точно оценивать качество перевода. Это может привести к улучшению качества перевода и увеличению удовлетворенности пользователей. ## Выводы Результаты экспериментов подтвердили эффективность использования долгого контекста для повышения точности оценки качества перевода. Авторы предлагают продолжать работу над улучшением этой модели, в том числе направленной на понижение неоднозначности в человеческих оценках и расширение многоязыкового применения. Будущие исследования будут стремиться улучшить устойчивость модели и добиться её более

Annotation:

In this paper, we present our submission to the Tenth Conference on Machine Translation (WMT25) Shared Task on Automated Translation Quality Evaluation. Our systems are built upon the COMET framework and trained to predict segment-level Error Span Annotation (ESA) scores using augmented long-context data. To construct long-context training data, we concatenate in-domain, human-annotated sentences and compute a weighted average of their scores. We integrate multiple human judgment datasets ...

ID: 2509.13980v1 cs.CL, cs.LG

arXiv PDF

1
2
36
37
38
39
40
57
58

Показано 371 - 380 из 573 записей