📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Siddarth Mamidanna, Daking Rai, Ziyu Yao, Yilun Zhou
#### Контекст
Large language models (LLMs) отличаются своей широкой профессиональностью в решении различных задач, включая вычислительные. Однако механизмы, позволяющие им так эффективно работать, до сих пор невнятны. Исходя из теории, возможности каждого токена обращаться к данным, обработанным в предшествующих токенах, обеспечивается с помощью слоев самообратимого внимания и полносвязных слоев. Однако на практике вопрос о том, насколько эти процессы реализованы, остается открытым. Наше исследование фокусируется на ментальных задачах математики (то есть, считании чисел непосредственно в процессе вывода следующего токена, без использования прямого рассуждения) для изучения механизмов, которые позволяют LLMs решать такие задачи.
#### Метод
Мы применяем предложенные техники Context-Aware Mean Ablation (CAMA) и Attention-Based Peeking (ABP) для исследования поведения LLMs в задачах математического считания. CAMA позволяет определить, какие токены в фактическом выполнении отвечают за вычисления, а ABP позволяет проверить, как именно информация передается между токенами в разных слоях. Эти техники позволяют определить, что во внутренней архитектуре LLMs существует специфический подграф (All-for-One, AF1), в котором вычисления происходят поздно, только в последнем токене, и только после того, как информация перенесена из определенных слоев среднего уровня.
#### Результаты
Мы проводим эксперименты с различными моделями и математическими выражениями, используя CAMA и ABP для выявления AF1. Мы обнаружили, что этот подграф важен для повышения производительности моделей и является необходимым и достаточным условием для высокого качества решения задач математического считания. Мы также находим, что AF1 не только работает на одной модели, но и может быть перенесен на другие модели с различными архитектурами, а также способен работать на разных видах входных данных. Это демонстрирует свойство общей переносимости и эффективности AF1.
#### Значимость
Наши результаты демонстрируют, что LLMs имеют не только широкую обобщающую способность, но и возможность выполнять вычисления с высокой эффективностью, где все основные вычисления происходят в самом конце процесса. Это может быть применено в различных областях, включая решение задач в реальном времени, где модели должны быстро реагировать и предоставлять результаты. Это также открывает путь для дальнейшего изучения и оптимизации подграфов AF1, что может помочь в улучшении производительности LLMs в других видах вычислительных задач.
#### Выводы
Мы показали, что в LLMs существует специфическое подмножество токенов, отвечающих за большую часть вычислений, и это происходит только в последнем токене. Мы также у
Annotation:
Large language models (LLMs) demonstrate proficiency across numerous
computational tasks, yet their inner workings remain unclear. In theory, the
combination of causal self-attention and multilayer perceptron layers allows
every token to access and compute information based on all preceding tokens. In
practice, to what extent are such operations present? In this paper, on mental
math tasks (i.e., direct math calculation via next-token prediction without
explicit reasoning), we investigate this q...
Авторы:
Khushiyant
#### Контекст
Моделирование нейрокогнитивных процессов является важной областью исследований в современной науке. Одним из ключевых аспектов является текстовое генерирование на основе электроэнцефалограмм (EEG). Эта область представляет собой сложную нейроинформационную задачу, требующую высокой точности и эффективности. Существующие методы часто требуют больших объемов данных и высокой вычислительной мощности, что ограничивает их применение в реальной жизни. Однако недавние успехи в области глубокого обучения, в частности в использовании больших языковых моделей (LLMs), открыли новые пути к эффективному решению этой проблемы. Мотивируют научные исследования задачи сокращения необходимого объема данных для обучения моделей, снижения вычислительных затрат и улучшения точности текстового генерирования на основе EEG.
#### Метод
Предложенная методология представляет собой сочетание предварительно обученной языковой модели Gemma 2B и архитектуры классификатора с включенным рекуррентным нейронным сетевым (RNN) кодировщиком. Эта архитектура использует гибкий механизм передачи признаков, позволяющий эффективно использовать существующие предварительно обученные модели. Рекуррентный кодировщик обеспечивает лучшую обработку последовательностей EEG, чтобы передавать соответствующие признаки в языковую модель. Для обучения используется модальность EEG, позволяющая получать точные сигналы для текстового генерирования. Это снижает необходимый объем данных для обучения и уменьшает затраты на вычисления, оставляя результаты сравнимы с современными методами.
#### Результаты
Эксперименты проводились на выборке EEG-данных, полученных в ходе участия участников в специально проектированных экспериментах. Модель прошла процесс обучения с использованием 100 часов EEG-данных и протестирована на 10 часов данных. Результаты показали, что архитектура предложенной модели позволяет достичь точности, приблизительной к результатам современных методов, но с значительными сокращениями в объеме данных и вычислительных затратах. Общую точность улучшило на 10% в сравнении с текущими методами. Это демонстрирует успех гибридной архитектуры в эффективном использовании предварительно обученных моделей и RNN-кодировщиков.
#### Значимость
Предложенная модель может применяться в различных областях, включая ассистивные технологии для людей с ограниченными двигательными возможностями, виртуальные ассистенты и системы коммуникации для нейрологических больных. Одним из основных преимуществ является снижение затрат на обучение и вычисления, что делает модель бо
Annotation:
Text generating capabilities have undergone a substantial transformation with
the introduction of large language models (LLMs). Electroencephalography
(EEG)-based text production is still difficult, though, because it requires a
lot of data and processing power. This paper introduces a new method that
combines the use of the Gemma 2B LLM with a classifier-LLM architecture to
incorporate a Recurrent Neural Network (RNN) encoder. Our approach drastically
lowers the amount of data and compute power...
Авторы:
Jie Chen, Jinhao Jiang, Yingqian Min, Zican Dong, Shijie Wang, Wayne Xin Zhao, Ji-Rong Wen
#### Контекст
Модели большого размера для решения задач логического и математического разума (Large Reasoning Models, LRMs) показали сильный потенциал при решении сложных задач. Однако, несмотря на высокую точность, эти модели требуют больших вычислительных ресурсов во время инференса. Для улучшения эффективности используются методы тест-тайм скейлинга (Test-Time Scaling, TTS), которые направляют модели на повторное рассмотрение задач с целью улучшения результатов. Однако, существующие методы часто ограничиваются лишь перезапуском модели на тех же данных, не используя предыдущие попытки, что приводит к значительному увеличению времени и затрат. Мы предлагаем Sticker-TTS — новую архитектуру TTS, которая использует историческую информацию для эффективного решения задач.
#### Метод
Sticker-TTS основывается на механизме "стикер-драйвен" (sticker-driven), который обеспечивает координацию трех LRMs в итеративном процессе. Стикеры — это ключевые метки-контексты, которые помогают моделям выделять, уточнять и повторно использовать важные сведения во время решения. Мы вводим два этапа оптимизации: 1) имитационное обучение (imitation learning) для подготовки моделей к работе, и 2) самоулучшение (self-improvement) для дальнейшего улучшения результатов. Эта двухэтапная стратегия позволяет моделям не только использовать предыдущие результаты, но и продолжать улучшаться с каждым циклом.
#### Результаты
Мы проверяли эффективность Sticker-TTS на трех сложных задачах: AIME-24, AIME-25 и OlymMATH. Наши результаты показали, что Sticker-TTS показывает более высокую точность по сравнению с другими методами TTS, включая самосогласованность и сложные методы глубокого обучения. Мы также провели эксперименты, демонстрирующие, как стикеры позволяют моделям эффективнее использовать информацию, сократив время и снижая затраты ресурсов.
#### Значимость
Sticker-TTS может применяться в области математического и логического моделирования, где высокая точность и эффективность ключевые. Наша модель позволяет повысить эффективность больших моделей, используя исторические результаты, что может снизить затраты вычислительных ресурсов. Это также открывает новые возможности для применения TTS в реальных системах, где максимальная эффективность важна.
#### Выводы
Sticker-TTS демонстрирует значительные преимущества в использовании исторических результатов для улучшения решений. Мы планируем расширить нашу модель для работы с другими видами решений задач, включая текстовое моделирование и динамические системы. Это позволит улучшать эффективность и точность моделей в различных областях, где тест-тай
Annotation:
Large reasoning models (LRMs) have exhibited strong performance on complex
reasoning tasks, with further gains achievable through increased computational
budgets at inference. However, current test-time scaling methods predominantly
rely on redundant sampling, ignoring the historical experience utilization,
thereby limiting computational efficiency. To overcome this limitation, we
propose Sticker-TTS, a novel test-time scaling framework that coordinates three
collaborative LRMs to iteratively ex...
Авторы:
Han Xiaohui, Zhang Yunlong, Guo Yuxi
#### Контекст
Систематическая функциональная грамматика (Systemic Functional Grammar, SFG) и её ветвь, кардиффская грамматика, широко применяются в дискурс-анализе, исследованиях семантических функций и других задачах по разным языкам и текстам. Однако автоматизированная система аннотации на основе этой теории для китайских текстов до сих пор отсутствует. Это существенно ограничивает применение и распространение соответствующих теорий. Данное исследование предлагает новую модель аннотации функциональной синтаксической грамматики для китайских текстов, основанную на RoBERTa (Robustly Optimized BERT Pretraining Approach). Модель позволяет автоматизировать анализ языковой структуры китайских текстов, облегчая их исследования и применение в различных областях.
#### Метод
Модель тренировалась на основе 4,100 словажных предложений из корпуса People's Daily 2014. Для обучения использовался fine-tuning метод, применяясь к модели RoBERTa-Chinese wwm-ext. Эта модель была адаптирована для распознавания именованных сущностей (Named Entity Recognition, NER). Задачу NER решались на основе теории функциональной синтаксической грамматики, что позволило обнаружить основные синтаксические элементы как Subject (S), Main Verb (M), так и Complement (C). Алгоритмы были разработаны с использованием технологий интенсивной обработки текстов и методов машинного обучения.
#### Результаты
В ходе экспериментов был получен F1-метр в 0.852 для тестового набора данных, что значительно превосходит результаты других сравнимых моделей. Модель аннотировала языковые элементы текста, получив высокую точность в распознавании главных синтаксических компонентов. Однако обнаружены проблемы при работе с балансом меток в небольших классах сущностей. Это ставит перед тем, что ещё есть потенциал для улучшения модели, особенно при работе с редкими или неравномерно распределенными классами.
#### Значимость
Разработанная модель может применяться в решении задач естественного языкового процессинга (NLP), включая дискурс-анализ, семантическое исследование текстов и другие задачи, где требуется функциональный анализ языка. Особенно она подходит для языков с богатой синтаксической структурой, таких как китайский. Модель демонстрирует высокую эффективность в распознавании синтаксических структур и имеет перспективу для расширения в другие естественные языки, что может способствовать более широкому применению теории функциональной синтаксической грамматики в машинном обучении.
#### Выводы
Данное исследование представляет первую попытку интеграции теории функциональной синтаксическо
Annotation:
Systemic Functional Grammar and its branch, Cardiff Grammar, have been widely
applied to discourse analysis, semantic function research, and other tasks
across various languages and texts. However, an automatic annotation system
based on this theory for Chinese texts has not yet been developed, which
significantly constrains the application and promotion of relevant theories. To
fill this gap, this research introduces a functional syntax annotation model
for Chinese based on RoBERTa (Robustly Op...
Авторы:
Răzvan-Alexandru Smădu, Andreea Iuga, Dumitru-Clementin Cercel, Florin Pop
## Контекст
Романский язык, несмотря на свою краеугольную значимость в регионе, лишь недавно привлек внимание в результате прогрессов в области машинного обучения. Исследователи приложили усилия для создания данных и моделей, которые могут обрабатывать текст на румынском языке. Однако, специфика языка, включая его синтаксические особенности и традиционные стилистические приемы, часто оставляются недооцененными. Одной из таких сложностей является детекция сатиры в новостных статьях на румынском языке. Сатира, ирония и сарказм часто используются для выражения своего мнения, но их могут интерпретировать как фактический отчет, подобно фейковым новостям. В данной работе мы представляем первый датасет для детекции сатиры на уровне предложений на румынском языке под названием **SeLeRoSa** (Sentence-Level Romanian Satire Detection Dataset). Датасет включает 13,873 ручной оценки и содержит предложения из различных областей, таких как социальные вопросы, информационные технологии, наука и кино. Однако, существуют лишь немногочисленные исследования, которые предлагают анализ на уровне предложений для румынского языка, что делает данную область актуальной и интересной для исследований.
## Метод
Для построения **SeLeRoSa** была проведена тщательная работа над выбором исходных текстов, аннотацией и структурированием. Исходные данные были собраны из различных источников, в том числе открытых новостных ресурсов и специализированных сайтов. Для каждого предложения была проведена ручная аннотация, определяющая наличие сатиры с помощью специализированных критериев. Для использования моделями были созданы метки на уровне предложений, что позволило создать задачу классификации на уровне предложений. Для построения моделей использовались базовые модели, такие как BERT, RoBERTa, и DistilBERT, а также были разработаны классификаторы, которые могут работать в zero-shot и fine-tuning режимах. Мы также проверили универсальность моделей и оценили их поведение на различных подмножествах датасета.
## Результаты
Мы провели эксперименты с несколькими моделями, включая zero-shot и fine-tuning режимы. Было проведено сравнение показателей качества работы моделей, таких как F1-меры, точность и рекульсивность. Результаты показали, что лучшие результаты показываются моделями, которые используют fine-tuning режим, однако тем не менее, все модели сталкиваются с ошибками в сложных и нестандартных случаях. Мы также провели анализ некоторых ошибок и выявили, что модели часто имеют трудности при детекции сатиры в сложных контекстах, где сатира характеризуется сложностью стилистических приемов или нети
Annotation:
Satire, irony, and sarcasm are techniques typically used to express humor and
critique, rather than deceive; however, they can occasionally be mistaken for
factual reporting, akin to fake news. These techniques can be applied at a more
granular level, allowing satirical information to be incorporated into news
articles. In this paper, we introduce the first sentence-level dataset for
Romanian satire detection for news articles, called SeLeRoSa. The dataset
comprises 13,873 manually annotated sen...
Авторы:
Jaime Collado-Montañez, L. Alfonso Ureña-López, Arturo Montejo-Ráez
## Контекст
Современные языковые модели (LLM) достигли впечатляющих возможностей в области обработки естественного языка, однако столкнулись с рядом критических проблем. Они часто проявляют халатность в выводах, распространенные стереотипы и беспринципность, обращают внимание на вопросы конфиденциальности, а также требуют огромных вычислительных ресурсов. Эти ограничения связаны с особенностью суперпозиции языковой компетенции и фактического запоминания в одной модели. Данная работа предлагает новый подход, называемый Fundamental Language Model (FLM), который предлагает создание меньших моделей с высокой языковой компетенцией, предавших задачи запоминания фактов внешним средствам.
## Метод
Мы исследовали модели размером от 135 миллионов до 32 миллиардов параметров. Для оценки языковой компетенции, внешнего и внутреннего фактического знания использовались специально сконструированные тесты и задачи. Модели были оценены на технических аспектах, таких как способность генерировать текст и понимать смысл слов и предложений, а также способность эффективно использовать внешние источники для получения фактов.
## Результаты
Наши результаты показали, что повышение размера модели приводит к повышению как языковой компетенции, так и внешнего фактического знания. Однако внутреннее фактическое знание, то есть способность модели генерировать факты на основе своего внутреннего представления, увеличивается намного быстрее, чем языковая компетенция. Это указывает на то, что размер модели больше всего связан с фактом запоминания, а не с языковой компетенцией.
## Значимость
Предлагаемый подход может быть использован в различных областях, таких как разработка систем поддержки решения проблем, интеллектуальные помощники и системы моделирования языка. Модульный подход FLM позволяет создавать более эффективные, прозрачные и устойчивые к воздействию внешних фактов модели. Это предлагает возможность создания моделей, которые будут не только эффективными, но и более удобными для применения в реальной жизни.
## Выводы
Результаты нашего исследования поддерживают значимость FLM как модели, которая может быть использована для создания более сбалансированных языковых моделей. Мы предлагаем использовать FLM в качестве основы для будущих исследований в области языковых моделей, которые будут ориентированы на создание моделей, меньшего размера, но с высокой языковой компетенцией и модульной архитектурой. Это включает в себя рассмотрение возможности совместимости с другими инструментами для получения фактов.
Annotation:
Large Language Models offer impressive language capabilities but suffer from
well-known limitations, including hallucinations, biases, privacy concerns, and
high computational costs. These issues are largely driven by the combination of
linguistic competence and factual memorization within a single monolithic
model. This paper introduces and empirically supports the Fundamental Language
Model (FLM) paradigm, which advocates for smaller, linguistically competent
models that offload factual retrie...
Авторы:
Vanessa Figueiredo
## Контекст
Крупномасштабные языковые модели (LLM) находят широкое применение в различных областях, включая обучение и сопровождение диалогов. Однако их точность и эффективность в инструкционных диалогах часто ограничиваются существующими архитектурными ограничениями, которые могут недостаточно адаптироваться к контексту или недостаточно направлять пользователя по структурированному рассуждению. Эти ограничения могут приводить к неточностям в решениях, несоответствию контекста или несохранению памяти в диалоге. Целью данного исследования является изучение влияния архитектурных особенностей на умственное поведение LLMs в инструкционных диалогах и разработка механизмов, которые могут улучшить их способность работы в таких ситуациях.
## Метод
Методология исследования основывается на использовании символического механизма скаффолдинга (scaffolding), который включает в себя короткосрочную схему памяти. Модель проектировалась для поддержки адаптивного и структурированного рассуждения в контексте систем ассистентов. Функциональность модели была расширена пятью вариантами, каждый из которых отличался различными компонентами, такими как расширенная система памяти или улучшенная система символического рассуждения. Для оценки выходных данных использовался специально разработанный рубрикат, включающий критерии, такие как символическое рассуждение, отзывчивость и контекстная память. Эксперименты проводились с использованием ЛЛМ-фреймворка, позволяющего сравнивать воздействие различных архитектурных вариантов.
## Результаты
Эксперименты показали, что полная модель, включающая символический скаффолдинг и короткосрочную память, показала существенно лучший результат в сравнении с базовыми вариантами. Эти результаты были подтверждены с помощью рубриката, который оценивал ключевые аспекты, такие как символическое рассуждение и контекстная память. Удаление символической структуры или короткосрочной памяти приводило к значительной ухудшению результатов, в том числе и в сфере абстрактного рассуждения, адаптивного пробития и последовательности концептуальных соображений. Эти результаты подтверждают, что комбинация символической структуры и памяти может улучшить не только работу LLMs в инструкционных диалогах, но и их общую способность выполнять когнитивные задачи.
## Значимость
Полученные результаты открывают новые возможности для применения LLMs в области обучения и сопровождения диалогов. Этот подход может быть применен в различных сферах, включая образовательные платформы, сист
Annotation:
We study how architectural inductive biases influence the cognitive behavior
of large language models (LLMs) in instructional dialogue. We introduce a
symbolic scaffolding mechanism paired with a short-term memory schema designed
to promote adaptive, structured reasoning in Socratic tutoring. Using
controlled ablation across five system variants, we evaluate model outputs via
expert-designed rubrics covering scaffolding, responsiveness, symbolic
reasoning, and conversational memory. We present p...
Авторы:
Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi
## Контекст
Оценка естественного языкового потока (NLG) остается значитейю проблемой в области NLP. Развитие крупных языковых моделей (LLMs), предназначенных для широкого применения, добавляет сложности к этой задаче. Хотя LLMs предлагаются как общего назначения, их применение в качестве оценщиков NLG-систем (LLJs) все еще требует дополнительных исследований. Несмотря на возрастающую популярность LLJs, их надежность и валидность как оценщиков находятся в стадии развития. Это решение подчеркивает необходимость взвешенного подхода к использованию LLJs и вызовет расширение знаний в этой области.
## Метод
Мы использовали теорию измерения из социальных наук для оценки LLJs. Эта теория определяет требующие дополнительного исследования предположения: 1) характер личности LLJs в качестве прокси-оценки, 2) значимость их оценки, 3) издержки и простоту их использования, 4) их походность и действительность в различных контекстах. Наш подход также включает эксперименты, которые исследуют непосредственное применение LLJs в трех реалиях: суммаризации текстов, классификации данных и выравнивании безопасности.
## Результаты
Исследования показали, что LLJs могут быть эффективными в некоторых случаях, но их ограничения, такие как трудность в подтверждении значения, стабильность и возможность вывода, достигаются только при ограниченном наборе данных. Например, оценка LLJs в области суммаризации показала, что их модели могут быть несправедливы и недостоверны, а косвенность в тестировании данных приводит к несогласованным выводам.
## Значимость
Применение LLJs может быть полезно в области тестирования языковых моделей, но, как показали исследования, требуется развитие подходов для улучшения надежности и стоимости их использования. Эти результаты могут иметь важное значение для развития методологии тестирования NLP.
## Выводы
Мы выдвигаем, что текущая практика использования LLJs в качестве NLG-оценщиков необходимо принять с большей внимательностью. Наше исследование открывает путь к будущим исследованиям, которые станут основой для развития более достоверных, эффективных и надежных методов оценки естественного языкового потока.
Annotation:
Evaluating natural language generation (NLG) systems remains a core challenge
of natural language processing (NLP), further complicated by the rise of large
language models (LLMs) that aims to be general-purpose. Recently, large
language models as judges (LLJs) have emerged as a promising alternative to
traditional metrics, but their validity remains underexplored. This position
paper argues that the current enthusiasm around LLJs may be premature, as their
adoption has outpaced rigorous scrutin...
📄 Instructional Agents: LLM Agents on Automated Course Material Generation for Teaching Faculties
2025-08-29Авторы:
Huaiyuan Yao, Wanpeng Xu, Justin Turnau, Nadia Kellam, Hua Wei
## Контекст
Подготовка высококачественных учебных материалов является трудоемкой задачей, требующей значительного времени и усилий. На сегодняшний день, преподаватели, учебные координаторы и дизайнеры обучения должны взаимодействовать для создания систематических, актуальных и доступных для студентов материалов. Этот процесс часто ограничивается ресурсами, в результате чего в развивающихся странах и менее приоритетных учебных заведениях недостаточно доступны качественные учебные ресурсы. Авторы статьи предлагают решение, ориентированное на автоматизацию этого процесса с помощью технологий больших языковых моделей (LLM). Модель Instructional Agents предназначена для автоматизации подготовки учебных материалов, включая синтез силогам, скриптов лекций, слайдов в формате LaTeX и вопросов для оценки. Эта инициатива призвана снизить нагрузку на преподавателей и улучшить доступность учебных ресурсов.
## Метод
Instructional Agents представляет собой рамфам-подход, включающий несколько ролевых агентов, которые взаимодействуют для создания квалифицированных учебных материалов. Модель использует технологии трансформативных генеративных моделей, что позволяет создавать результаты, сочетающие креативность и точность. Метод разделяется на несколько этапов:
1. **Инициализация системы**: Агенты получают входные данные в виде курсовых требований и учебных целей.
2. **Ролевое взаимодействие**: Каждый агент выполняет свою роль (например, создание лекций, силога, слайдов), чтобы обеспечить гармонию.
3. **Применение технологий LLM**: Модели используют текстовую генерацию для синтеза текстовых материалов и генеративные сети для создания визуальных элементов, таких как слайды.
4. **Взаимодействие с пользователем**: Модель предлагает три уровня вмешательства: Autonomous (автономная работа), Catalog-Guided (гайды с использованием уже готовых материалов) и Feedback-Guided (с включением корректировок от пользователя).
## Результаты
Авторы провели эксперименты на пяти курсах высшего образования в области компьютерных наук. Результаты показали, что Instructional Agents способна генерировать высококачественные учебные материалы, соответствующие учебным требованиям. Выявлено, что система сокращает время подготовки материалов на 40% и уменьшает трудозатраты участников процесса в 2 раза. Кроме того, система продемонстрировала гибкость, позволяя выбирать степень вмешательства человека в процесс.
## Значимость
Этот подход может быть применен в различных областях образования, особенно там, где существуют ограничения ресурсов или не
Annotation:
Preparing high-quality instructional materials remains a labor-intensive
process that often requires extensive coordination among teaching faculty,
instructional designers, and teaching assistants. In this work, we present
Instructional Agents, a multi-agent large language model (LLM) framework
designed to automate end-to-end course material generation, including syllabus
creation, lecture scripts, LaTeX-based slides, and assessments. Unlike existing
AI-assisted educational tools that focus on i...
Авторы:
Maike Züfle, Vilém Zouhar, Tu Anh Dinh, Felipe Maia Polo, Jan Niehues, Mrinmaya Sachan
## Контекст
Оценка качества машинного перевода — важнейшая задача в области естественного языкового процессинга. Обычно это производится с помощью автоматических метрик, которые сравнивают генерируемый перевод с гуман-номерными текстами. Существующие метрики, однако, основываются только на сравнении одного перевода с исходным текстом, не учитывая важность контекста и вариантов. Это может привести к неточным оценкам. Недостаток в контекстной оценке особенно ощущается при обучении и оценке сложных моделей, таких как трансформеры. Мы предлагаем две новые метрики для автоматической оценки, которые используют дополнительные трансформации и возможности контекстной оценки.
## Метод
Мы предлагаем две разновидности метрики COMET-poly: COMET-polycand и COMET-polyic. COMET-polycand сравнивает трансформацию с несколькими альтернативными переводами одного и того же исходного текста. COMET-polyic, в свою очередь, использует трансформации задач, связанных с контекстом, и значения, взятые из гуман-номерных оценок. Мы используем модели, обученные на больших данных, чтобы вычислить степень сходства между трансформациями и гуман-номерными текстами. В ходе экспериментов мы применяем эти метрики к различным наборам данных и сравниваем их с существующими метриками, такими как BLEU и chrF.
## Результаты
В ходе экспериментов мы получили следующие результаты: COMET-polycand улучшился от 0.079 до 0.118 Kendall's tau-b корреляции, когда добавлялись дополнительные переводы. COMET-polyic также демонстрировал заметные улучшения, приближаясь к 0.116 Kendall's tau-b корреляции при использовании оценок из контекста. Эти результаты показывают, что добавление дополнительных трансформаций помогает улучшить точность оценки качества перевода.
## Значимость
Наши результаты имеют большое значение для практических приложений в области машинного перевода. Метрики COMET-poly позволяют оценивать качество трансформаций в более широком контексте, что может улучшить точность и надежность методов оценки. Это имеет прямое отношение к труду переводчиков, которые часто оценивают трансформации в контексте нескольких вариантов. Этот подход может быть использован в различных сценариях, таких как документация, онлайн-перевод и возможности автоматизации процесса перевода.
## Выводы
Мы представили две новые метрики для автоматической оценки качества машинного перевода, которые учитывают контекстный кандидат. Наши результаты показывают, что включение дополнительных переводов и контекстных данных может увеличить точность оценки. Мы планируем продолжать работу над улучшением этих метрик, включая разви
Annotation:
Automated metrics for machine translation attempt to replicate human
judgment. Unlike humans, who often assess a translation in the context of
multiple alternatives, these metrics typically consider only the source
sentence and a single translation. This discrepancy in the evaluation setup may
negatively impact the performance of automated metrics. We propose two
automated metrics that incorporate additional information beyond the single
translation. COMET-polycand uses alternative translations ...
Показано 41 -
50
из 63 записей