📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Jinyi Han, Xinyi Wang, Haiquan Zhao, Tingyun li, Zishang Jiang, Sihang Jiang, Jiaqing Liang, Xin Lin, Weikang Zhou, Zeye Sun, Fei Yu, Yanghua Xiao

#### Контекст Проблема существующих методов самопроверки языковых моделей заключается в реактивной природе их работы. Они также опираются на фиксированное число итераций, что затрудняет определение оптимального времени и содержания рефинемента в зависимости от процесса генерации. Такое подходящее время может существенно влиять на качество исходящего ответа. Вдохновленные человеческим методом динамического формирования мыслей при выполнении задач, авторы предлагают ProActive Self-Refinement (PASR) — метод, позволяющий языковым моделям проводить самопроверку в процессе генерации. Такой подход позволяет не только улучшать качество ответов, но и эффективно регулировать ресурсы, потребляемые генерацией. #### Метод PASR предлагает динамическую модель рефинемента, основанную на внутреннем состоянии модели и обстоятельствах контекста. Он позволяет модели принимать решения о том, когда и как проводить рефинемент на основе внутреннего состояния в течение генерации. В отличие от методов, требующих полной регенерации ответов, PASR выполняет проверку только необходимого контекста, что экономит ресурсы. Технический аппарат PASR включает в себя особый алгоритм для определения точки рефинемента и выбора конкретного варианта рефинемента, основываясь на вероятностных моделях. Такой подход допускает продвинутую регуляризацию, способствующую эффективной интерактивной работе модели. #### Результаты Эксперименты проводились на 10 различных задачах, включая задачи решения задач, вывода и текстового понимания. Для оценки улучшения использовались метрики, такие как токен-реконсденс и точность ответов. Результаты показали, что PASR способен снизить потребление токенов на 41.6% в сравнении с стандартными методами генерации, при этом повысив точность ответов на 8.2%. Эти результаты доказывают, что PASR позволяет языковым моделям стать более эффективными и точными в выполнении задач, при этом существенно сокращая ресурсозатраты. #### Значимость PASR может применяться в различных сферах, где требуется высокая точность и эффективность вывода языковых моделей. Из преимуществ можно отметить экономию ресурсов, улучшение качества ответов, а также устойчивость к ненадобной регенерации. Этот подход может стать основой для развития будущих моделей, позволяя им подходить к задачам динамически, что значительно улучшит их взаимодействие с пользователями. #### Выводы Результаты PASR подтверждают эффективность динамического самопроверки в процессе генерации. Он доказывает, что языковые модели могут быть улучшены с помощью логичного регулирования процесса. Б
Annotation:
Recent advances in self-refinement have demonstrated significant potential for improving the outputs of large language models (LLMs) through iterative refinement. However, most existing self-refinement methods rely on a reactive process with a fixed number of iterations, making it difficult to determine the optimal timing and content of refinement based on the evolving generation context. Inspired by the way humans dynamically refine their thoughts during execution, we propose ProActive Self-Ref...
ID: 2508.12903v1 cs.CL, cs.AI
Авторы:

Xinhe Li, Jiajun Liu, Peng Wang

#### Контекст Модели языка с высокой емкостью (LLMs) представляют собой мощные инструменты для решения математических задач, основываясь на систематической логике и интуитивном понимании. Однако их высокая стоимость и требования к памяти ограничивают их применение. Небольшие модели языка (SLMs) часто испытывают проблемы с примитивным рассуждением, требуя подсчетных данных для улучшения их рассуждений. Это аналогично психологической теории двух систем разума: System 1 (быстрый, интуитивный подход) и System 2 (медленный, последовательный). Мотивируясь этими двумя системами, предлагается новая методология, которая позволяет улучшить рассуждения в SLMs. #### Метод Метод, названный LoRID (Logic-Oriented Reasoning Distillation), включает несколько этапов. Сначала используется LLM для создания содержательных данных, построенных на основе вопросов и соответствующих рассуждений. Затем, LoRA блок встроен в SLM для манипуляции мыслительными цепочками (Chain-of-Thought, CoT). Далее, вводятся два дополнительных модуля: Knowledge Generator (KG) и Deep Reasoner (DR). KG выводит только знания, а DR использует их для решения задач. Между KG и DR проводится синхронизация, чтобы улучшить согласованность результатов. Этот процесс повторяется для повышения точности и углубления рассуждений. #### Результаты Исследования проводились на нескольких датасетах, включая GSM8K, MathQA и AQuA. LoRID показал значительные улучшения по сравнению с базовыми моделями и даже со многими современными подходами. На GSM8K, LoRID достиг 93.1% точности, превосходя вторую лучшую модель на 16.1%. Это указывает на эффективность LoRID в повышении способности SLM к математическому рассуждению. #### Значимость LoRID может быть применен в области обучения машин, где необходим простой, но эффективный подход к рассуждениям. Он улучшает способность небольших моделей решать задачи, близкими к естественному человеческому мышлению. Это может быть полезно в образовательных системах, где необходимо построение понятных и рациональных выводов. #### Выводы LoRID доказал свою эффективность в улучшении математического рассуждения SLMs. Несмотря на развитие технологий, существуют необходимость и возможность продолжать развитие более простых и эффективных подходов к обучению моделей языка. Будущие исследования будут фокусироваться на оптимизации работы LoRID и его применении в других областях, таких как синтез решений и принятие решений в условиях неопределенности.
Annotation:
Recent studies have demonstrated that Large Language Models (LLMs) have strong mathematical reasoning abilities but rely on hundreds of billions of parameters. To tackle the challenge of poor reasoning in Small Language Models (SLMs), existing methods typically leverage LLMs to generate massive amounts of data for cramming training. In psychology, they are akin to System 1 thinking, which resolves reasoning problems rapidly based on experience and intuition. However, human learning also requires...
ID: 2508.13037v1 cs.CL, cs.AI
Авторы:

Long Ma, Fangwei Zhong, Yizhou Wang

## Контекст Ускоренное развитие генеративных моделей, таких как расширенные языковые модели и модели распределенного диффузия, позволило генерировать разнообразный и полезный контент. Однако эти модели обычно тренируются на токенах с фиксированным или случайным порядком, что может не соответствовать логическому порядку во входных данных. Это ограничивает их эффективность при решении задач, требующих точного понимания логической структуры. Например, в задачах решательского и планового характера необходимо выбирать токены в зависимости от контекста и целей задачи. Мы отметили, что существующие подходы недостаточно адаптивны для этих задач. Мы использовали $V$-информационное представление для оценки трудности последовательного выбора токенов в задачах с адаптивными требованиями выбора. Это вдохновило на разработку метода Reinforced Context Order Recovery (ReCOR). ## Метод ReCOR представляет собой фреймворк с подкреплением, позволяющий выбирать порядок генерации токенов адаптивно в зависимости от контекста. Мы использовали статистику токенов в обучении, чтобы оценить сложность каждого токена. Решение включает модельную архитектуру, которая статистически оценивает трудность подбора токенов и выбирает следующий токен в процессе обучения и реального выполнения. Метод позволяет автоматически определять порядок генерации токенов без использования дополнительных меток, что делает его универсальным для различных задач. ## Результаты Мы провели эксперименты на нескольких сложных датасетах, включая задачи резолюции и планирования. Резалты показали, что ReCOR превосходит базовые модели и в некоторых случаях даже оверперформит модели, оснащенные доступом к истинному порядку токенов. Наши эксперименты также продемонстрировали, что ReCOR может адаптироваться к различным типам задач, повышая точность решения. ## Значимость Важность ReCOR заключается в его подходе к адаптивной генерации порядка токенов, который позволяет лучше решать задачи, требующие логического порядка. Метод может использоваться в различных областях, включая планирование, решение проблем, интеллектуальные системы и анализ текста. Этот подход представляет собой новую методологию, которая может улучшить качество решений и увеличить эффективность генеративных моделей в адаптивных задачах. ## Выводы Мы представляем ReCOR, продвигающийся подход для адаптивного выбора порядка генерации токенов. Этот подход позволяет моделям достигать высокого качества решения задач, сохраняя гибкость и адаптивность. Мы планируем продолжить исследования в этой области, особенно с точки зрения улучшения моделей и их применения в реальных
Annotation:
Modern causal language models, followed by rapid developments in discrete diffusion models, can now produce a wide variety of interesting and useful content. However, these families of models are predominantly trained to output tokens with a fixed (left-to-right) or random order, which may deviate from the logical order in which tokens are generated originally. In this paper, we observe that current causal and diffusion models encounter difficulties in problems that require adaptive token genera...
ID: 2508.13070v1 cs.CL, cs.AI
Авторы:

Kawin Mayilvaghanan, Siddhant Gupta, Ayush Kumar

#### Контекст В контактных центрах абстрактная суммаризация является основным приложением, где большие языковые модели (LLMs) днем и ночью генерируют миллионы сводных отчетов по звонкам. Хотя качество этих суммарных текстов может показаться высоким, неясно, не страдают ли LLMs от системных ошибок, которые могут привести к упущениям или переудействующему отношению к определенным аспектам звонка. Эти недостатки могут влечь за собой ухудшение качества обслуживания и недовольство клиентов. Хотя существуют исследования по социальным и позиционным ошибкам, нет ясности в отношении биаз, которые могут возникнуть в контексте контактных центров — мы их называем **операционным биазом**. Целью нашего исследования является заполнить этот пробел, создав метод, который позволит нам увидеть и измерить эти биазы. #### Метод Мы представляем **BlindSpot** — рамочный подход, основанный на тезавуре, состоящей из 15 категорий операционного биаза, таких как дисфлюенция, говорящий, тема. BlindSpot работает с LLM в качестве нулевого-шаттовый классификатор, чтобы вывести распределение категорий для каждого из 15 биазных показателей в паре звонка транскрипта и соответствующего ему сводного текста. Для измерения биаза вводятся две метрики: **Fidelity Gap** (разность логарифмических распределений) и **Coverage** (процент отсутствующих лейблов). Мы выбрали 2500 реальных звонков в качестве обучающей выборки, использовали 20 моделей LLM разных размеров и производителей (таких как GPT, Llama и Claude), чтобы провести эмпирический эксперимент. #### Результаты Эксперименты показали, что биазы в LLMs, которые используются в контактных центрах, являются системными и присутствуют во всех протестированных моделях, независимо от их размера или семейства. Например, мы обнаружили, что суммарные отчеты часто скрывают важные аспекты, такие как дисфлюенция речи или точные подробности темы беседы. **Fidelity Gap** показал, что биазы могут быть достаточно существенными, а **Coverage** показал, что 20-30% важных клиентских деталей могут упускаться из сводных отчетов. #### Значимость Наши результаты имеют широкое применение в области контактных центров. Мы показали, что BlindSpot может быть инструментальным для отслеживания и устранения операционных биаз в LLMs. Это может способствовать улучшению качества обслуживания, повышению доверия к искусственному интеллекту, и, в конечном итоге, повышению удовлетворенности клиентов. Мы также выделили направления для будущих исследований, такие как расширение тезавура для включения более сложных форм биаза и оптими
Annotation:
Abstractive summarization is a core application in contact centers, where Large Language Models (LLMs) generate millions of summaries of call transcripts daily. Despite their apparent quality, it remains unclear whether LLMs systematically under- or over-attend to specific aspects of the transcript, potentially introducing biases in the generated summary. While prior work has examined social and positional biases, the specific forms of bias pertinent to contact center operations - which we term ...
ID: 2508.13124v1 cs.CL, cs.AI
Авторы:

Xin Chen, Junchao Wu, Shu Yang, Runzhe Zhan, Zeyu Wu, Ziyang Luo, Di Wang, Min Yang, Lidia S. Chao, Derek F. Wong

## Контекст Современные бо LLM (large language models) широко используются в различных областях, но при этом создают новые риски, такие как распространение поддельной информации и дезориентация пользователей. Одним из ключевых аспектов становится мониторинг и контроль генерируемого текста. Несмотря на развитие методов распознавания текстов, генерируемых LLMs, существуют существенные проблемы с их точностью и устойчивостью в условиях выхода за пределы обучающих данных (out-of-distribution, OOD). Эти недостатки могут привести к недостоверности данных и негативным последствиям в реальном мире. Однако недавние исследования показали, что внутренние представления LLMs могут содержать более глубокие статистические признаки, которые могут быть эффективно использованы для распознавания генерируемого текста. ## Метод Метод RepreGuard основывается на теории, что внутренние представления LLM скрывают более подробные статистические особенности, которые могут быть использованы для отличения текстов, генерируемых LLMs (LGT), от текстов, написанных людьми (HWT). Для этого предлагается систематические анализ внутренних представлений, созданных двумя суррогатными моделями: одна для генерации LGT, другая — для HWT. Для этих представлений вычисляются проекционные скоры, основываясь на определенном направлении, которое учитывает детальные статистические особенности. Метод также включает в себя адаптивный пороговый метод, который позволяет точно отличать LGT от HWT, даже при разных размерах текстов и в условиях выхода за пределы обучения. ## Результаты Эксперименты проводились на множестве данных, включая обучающие и тестовые наборы, а также тексты, генерируемые различными LLMs. Метод RepreGuard показал самые высокие результаты с AUROC 94.92% при оценке в интервале in-distribution (ID) и OOD. Он также показал высокую устойчивость к различным текстовым размерным характеристикам и обычным методам атак. Это указывает на то, что RepreGuard эффективен в разных условиях и способен обнаруживать тексты, генерируемые LLMs, даже при изменении условий. ## Значимость Наиболее значимым преимуществом RepreGuard является его гибкость и надёжность в распознавании текстов, генерируемых LLMs в различных условиях. Это может быть применено в многих областях, включая мониторинг сетевых сообщений, системы образования, и даже в системы безопасности. Также, RepreGuard демонстрирует надёжность в сравнении с существующими методами, которые часто страдают от недостатка в устойчивости в OOD сценариях. ## Выводы Результаты экспериментов показывают, что RepreGuard является эффектив
Annotation:
Detecting content generated by large language models (LLMs) is crucial for preventing misuse and building trustworthy AI systems. Although existing detection methods perform well, their robustness in out-of-distribution (OOD) scenarios is still lacking. In this paper, we hypothesize that, compared to features used by existing detection methods, the internal representations of LLMs contain more comprehensive and raw features that can more effectively capture and distinguish the statistical patter...
ID: 2508.13152v1 cs.CL, cs.AI
Авторы:

Yuangang Li, Yiqing Shen, Yi Nian, Jiechao Gao, Ziyi Wang, Chenxiao Yu, Shawn Li, Jie Wang, Xiyang Hu, Yue Zhao

## Контекст Современные большие языковые модели (LLMs) сталкиваются с проблемой **hallucinations** — выводов, показательно соответствующих языку, но несоответствующих логике или рациональным принципам. Эти эффекты могут привести к нежелательным последствиям в задачах, требующих высокого качества выводов. Несколько исследований указали на то, что **causal reasoning** способствует уменьшению таких несоответствий. Однако, существующие подходы, такие как Chain-of-Thought (CoT) и его варианты на основе графов, оперируют на уровне токенов и не могут представлять сущности в виде структурных зависимостей. Это ограничивает их эффективность в моделировании сложных ситуаций, где необходимо учитывать условные зависимости. Опытные пользователи моделей знают, что на практике LLM может давать неточные ответы, даже в базовых ситуациях, что подтверждает необходимость развития новых методов для уменьшения такого поведения. ## Метод Мы предлагаем **causal-DAG construction and reasoning (CDCR-SFT)** — систему, которая позволяет модели LLM явно отображать логическое представление зависимостей между переменными в виде **directed acyclic graph (DAG)**. Этот подход включает в себя: 1. **Causal-DAG construction**: модель выводит граф, представляющий структуру сущностей и их взаимосвязей. 2. **Reasoning over DAG**: модель применяет рациональный анализ к полученному графу, выполняя вывод на основе условных зависимостей. Для обучения и экспериментов мы создали **CausalDR** — новую базу данных включающую 25 368 примеров, каждый содержащий вопрос, пример графа, рассуждения и корректный ответ. Мы применяем этот подход к нескольким LLMs, тестируя их на различных задачах. ## Результаты Наши эксперименты показали, что **CDCR-SFT** выдает следующие результаты: - **На тестовой выборке CLADDER** — **95.33% точность**, превышая человеческую производительность (94.8%, впервые достигнутая). - **На HaluEval** — повышение точности на 10%, что уменьшило степень логических несоответствий в выводах. - Эти результаты подтверждают, что модель, использующая структуру DAG, эффективно устраняет логические несоответствия в выводах больших языковых моделей. ## Значимость **Применение**: Метод **CDCR-SFT** может применяться в различных областях, где требуется высококачественный вывод, например в журналистике, медицине, юриспруденции и других критически важных сферах. **Преимущества**: Этот подход уменьшает уровень логических ошибок и повышает доверие к выводам моделей, что определяет его перспективность в области супервизорного обучения. **Влияние**: Этот подход может иметь решающий вклад в развитие
Annotation:
Large language models (LLMs) exhibit logically inconsistent hallucinations that appear coherent yet violate reasoning principles, with recent research suggesting an inverse relationship between causal reasoning capabilities and such hallucinations. However, existing reasoning approaches in LLMs, such as Chain-of-Thought (CoT) and its graph-based variants, operate at the linguistic token level rather than modeling the underlying causal relationships between variables, lacking the ability to repre...
ID: 2508.12495v1 cs.CL, cs.AI, cs.LG
Авторы:

Jonas van Elburg, Peter van der Putten, Maarten Marx

## Контекст В статье рассматривается вопрос оценки моделей вывода с использованием ранжирования ответных моделей с помощью вывода (Retrieval-Augmented Generation, RAG). Несмотря на значительные улучшения LLMs, оценка их работы становится сложной из-за отсутствия доступных классических тренировочных данных. Авторы исследуют возможность использования синтетического QA-данных, генерируемых LLMs, в качестве альтернативы настоящим тренировочным данным. Целью является определение того, насколько эффективны синтетические данные для сопоставления рангов RAG-моделей с помощью признаков, подходящих для любого конкретного задания. ## Метод Авторы проводят вычислительные эксперименты, используя две разные группы гипотез. В первом эксперименте они меняют параметры ретрайвера, сохраняя постоянную генераторную модель. Во втором эксперименте меняются параметры генератора, при этом ретрайвер остается неизменным. Используются четыре различных набора данных: два открытых и два проприетарных. Оценка производится по возможности моделей RAG классифицировать результаты ранжирования в зависимости от параметров модели. ## Результаты Результаты показывают, что синтетические бенчмарки могут значительно повысить надежность оценки RAG-моделей. Это продемонстрировано на двух открытых наборах данных, где RAG-модели с разными параметрами ретрайвера показали схожие результаты с ранжированием, основанным на тренировочных данных. Однако есть небольшой разрыв в результатах, когда сравниваются ранжирования, основанные на генераторах с разными архитектурами. Это может быть вызвано тем, что синтетические данные недостаточно эффективно копируют задачи, которые необходимы для сопоставления реальных данных, и стилистическую биазу, присущую определенным LLMs. ## Значимость Синтетические данные могут стать важной альтернативой для оценки RAG-моделей в ситуациях, когда данные от пользователей недоступны. Улучшение поддержки синтетических данных может повысить надежность и скорость развития RAG-моделей, особенно в области прикладных задач. Однако необходимо продолжить работу над уменьшением разрыва между синтетическим и реальным ранжированием, чтобы обеспечить более точную интерпретацию результатов. ## Выводы Авторы подтверждают, что синтетические данные могут быть эффективным инструментом для оценки RAG-моделей, особенно когда стандартные данные отсутствуют. Однако необходимо продолжать работу над созданием более универсальных синтетических тестов, чтобы улучшить их точность. Будущие исследования должны сфокусироваться на уменьшении стилистических биаз и создании более широкой ст
Annotation:
We investigate whether synthetic question-answer (QA) data generated by large language models (LLMs) can serve as an effective proxy for human-labeled benchmarks when such data is unavailable. We assess the reliability of synthetic benchmarks across two experiments: one varying retriever parameters while keeping the generator fixed, and another varying the generator with fixed retriever parameters. Across four datasets, of which two open-domain and two proprietary, we find that synthetic benchma...
ID: 2508.11758v1 cs.CL, cs.AI
Авторы:

Leigh Levinson, Christopher J. Agostino

## Контекст Основной вызов для современных систем искусственного интеллекта (AI) заключается в разрешении фрейм-проблемы: определение того, какие данные являются контекстуально значимыми из экспоненциально большого поискового пространства. Авторы предполагают, что биологические ритмы, особенно гормональные циклы, могут стать натуральным механизмом фильтрации контекстной релевантности. Исследование адресует эту проблему, опираясь на гипотезу о возможности использования таких ритмов для улучшения контекстной семантической фильтрации в AI-системах. Работа также исследует влияние субьективных закрепленных в текстовых моделях нормативных представлений о гендере и биологической дифференциации. ## Метод Методология основывается на модификации Large Language Models (LLM) с помощью системных промптов, которые включают симуляцию гормональных циклов. Эти циклы описываются периодическими функциями, обозначающими ключевые гормоны, такие как эстрадиол, тестостерон и кортизол. LLM обучаются на больших объемах текстовых данных, включая сценарии разговорных ситуаций и эмоциональные реакции. Формальные гипотезы о том, как эти гормоны влияют на стиль и эмоциональную интенсивность текста, формулируются и проверяются с помощью метрик, отслеживающих изменения в семантической и эмоциональной нагрузке. ## Результаты Эксперименты показывают, что включение гормональных циклов в LLM приводит к изменению стиля и эмоционального тембра текста в зависимости от симулируемого цикла. Например, эмоциональные вариации во время менструации (садность) и овуляции (радость) в текстах становятся очевидными. Бенчмаркинг на таких датасетах, как SQuAD, MMLU, Hellaswag и AI2-ARC, показал небольшие но стабильные различия в предсказаниях, соответствующие ожиданиям биологического ритма. Эти результаты подтверждают, что модели, оптимизированные в умеренных гормональных диапазонах, оказываются более эффективными. ## Значимость Полученные результаты открывают новый подход к контекстной обработке информации в AI-системах, позволяя рассматривать гормональные ритмы как средство фильтрации информации. Это может использоваться в сценариях, где необходима более естественная семантическая и эмоциональная реакция. Также исследование выявляет и демонстрирует встроенные в текстовых моделях субьективные представления о роли гендера и биологических характеристик, позволяя проанализировать их последствия для выводов моделей. ## Выводы Результаты указывают на возможность использования гормональных ри
Annotation:
Despite significant advances, AI systems struggle with the frame problem: determining what information is contextually relevant from an exponentially large possibility space. We hypothesize that biological rhythms, particularly hormonal cycles, serve as natural relevance filters that could address this fundamental challenge. We develop a framework that embeds simulated menstrual and circadian cycles into Large Language Models through system prompts generated from periodic functions modeling key ...
ID: 2508.11829v1 cs.CL, cs.AI, cs.MA
Авторы:

Julia Sammartino, Libby Barak, Jing Peng, Anna Feldman

#### Контекст Словоепемизмы (euphemisms) — слова или выражения, которые применяются для оборотного выражения чувствительных или неприятных понятий. Они широко используются в различных культурах, но их значение и применение часто зависят от контекста и культурных особенностей. Это делает их определение задачей сложную, особенно в многоязычных и малоресурсных языках, где модели языка часто сталкиваются с нехваткой данных и культурных контекстов. Целью данного исследования является изучение возможностей передачи знаний между языками (cross-lingual transfer) для улучшения понимания словоепемизмов в таких ситуациях. #### Метод Для решения этой задачи использовалась последовательная многоязычная многозадачная обучения (sequential fine-tuning). Эта методика заключается в том, что модель обучается по одному языку (L1), а затем применяется к другому языку (L2), чтобы улучшить его понимание. Использовались модели XLM-R и mBERT, которые являются предварительно обученными многоязычными моделями, для анализа словоепемизмов в 5 языках: английском, испанском, китайском, турецком и йорубском. Эксперименты проводились с различными парами языков, чтобы изучить, как различные типологические особенности и покрытие предварительного обучения влияют на уровень передачи знаний. #### Результаты Эксперименты показали, что последовательная многоязычная обучение позволяет значительно улучшить понимание словоепемизмов в языках с недостаточным количеством данных, таких как йорубский и турецкий. Модель XLM-R показала более высокий показатель повышения производительности, но она оказалась более чувствительной к проблемам, таким как катастрофическое забывание (catastrophic forgetting) и нехватка данных в моменте предварительного обучения. Модель mBERT, в свою очередь, демонстрировала более стабильные, но менее впечатляющие результаты. Эти результаты подтверждают, что последовательная многоязычная обучающая методика является эффективным способом улучшения понимания словоепемизмов в многоязычных моделях, особенно при работе с малоресурсными языками. #### Значимость Результаты имеют значимый потенциал для применения в области многоязычного моделирования естественного языка. Они демонстрируют, как модели могут избегать проблем, связанных с недостаточным количеством данных в определенных языках, благодаря передаче знаний из более ресурсообеспеченных языков. Это может быть применено в переводчиках, системах обнаружения тональности и других приложениях, где кросс-языковое понимание ключевое. Будущие исследования могут сфокусироваться на улучшении методов предотвращения катастрофи
Annotation:
Euphemisms are culturally variable and often ambiguous, posing challenges for language models, especially in low-resource settings. This paper investigates how cross-lingual transfer via sequential fine-tuning affects euphemism detection across five languages: English, Spanish, Chinese, Turkish, and Yoruba. We compare sequential fine-tuning with monolingual and simultaneous fine-tuning using XLM-R and mBERT, analyzing how performance is shaped by language pairings, typological features, and pret...
ID: 2508.11831v1 cs.CL, cs.AI
Авторы:

Andrei-Valentin Tănase, Elena Pelican

## Контекст Токенизация является основополагающим, но значительно менее изученным аспектом естественного языкового процессинга. Несмотря на то, что модели языковых моделей делают значительные прорывы, стратегии токенизации остаются статичными и неэффективными. Они часто оптимизируются для конкретных моделей или задач, что приводит к убыткам в универсальной обработке текста. Эта проблема сочетается с необходимостью лучшего понимания семантических связей в текстах, чтобы улучшить эффективность и точность моделей. Мы предлагаем SupraTok, многофазную токенизационную архитектуру, которая переосмысливает subword segmentation, предлагая новый подход к обнаружению и обработке семантических единиц. ## Метод SupraTok использует три основных инновации: 1. **Cross-Boundary Pattern Learning**: Это новый подход, оптимизирующий поиск семантических единиц, которые могут простираться за границы подблоков. Это позволяет SupraTok выделять "сверхслова" (superwords) — компактные, семантически целостные композиции, которые обладают более высокой степенью сжатия. 2. **Entropy-Driven Data Curation**: Мы вводим метод, оптимизирующий качество тестового корпуса с помощью сложности выражений. Это позволяет SupraTok более эффективно идентифицировать и сгруппировать слова, которые естественно встречаются вместе в тексте. 3. **Multi-Phase Curriculum Learning**: Мы разработали многоэтапный подход к обучению, который уменьшает возможность переобучения и обеспечивает стабильность сходимости при обучении. SupraTok расширяет Byte-Pair Encoding (BPE), предлагая "сверхслова", которые сохраняют внутреннюю семантическую целостность внутри слов и увеличивают эффективность сжатия. ## Результаты Мы провели эксперименты с SupraTok на 38 языках, оценивая его эффективность по сравнению с двумя текущими токенизаторами: OpenAI 200k и Google Gemma 3. SupraTok показал следующие результаты: - 31% улучшение в токенизации на английском языке (5,91 символов за токен против 4,51 для OpenAI и 2,63 для Gemma 3). - 30% улучшение на 256k-vocabulary Gemma 3 tokenizer. - 8,4% улучшение в HellaSWAG и 9,5% в MMLU без изменений в модели. Эти результаты показали, что SupraTok не только эффективнее в токенизации, но и может способствовать улучшению производительности моделей с широким спектром задач. ## Значимость SupraTok может быть применен в различных областях, где эффективная обработка языка является ключевой задачей, включая машинный перевод, синтез речи и генерацию произвольных текстов. Такие улучшения в токенизации могут привести к существенным повышениям скорости обработки и эффективности моделей. Это также открывает пути для
Annotation:
Tokenization remains a fundamental yet underexplored bottleneck in natural language processing, with strategies largely static despite remarkable progress in model architectures. We present SupraTok, a novel tokenization architecture that reimagines subword segmentation through three innovations: cross-boundary pattern learning that discovers multi-word semantic units, entropy-driven data curation that optimizes training corpus quality, and multi-phase curriculum learning for stable convergence....
ID: 2508.11857v1 cs.CL, cs.AI, cs.LG
Показано 1821 - 1830 из 2042 записей