📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Zucheng Liang, Wenxin Wei, Kaijie Zhang, Hongyi Chen

#################### ## Контекст #################### Общий контекст работы связан с проблематикой точного ответа на комплексные вопросы с использованием Large Language Models (LLMs). Несмотря на развитие технологий обработки естественного языка, ответ на вопросы, требующие нескольких этапов логического рассуждения, до сих пор остается сложной задачей. Эта проблема мотивирует разработку эффективных методов для разбиения комплексных вопросов на более простые подзадачи. Эта инициатива в рамках MQUAKE-фреймворка становится решением проблемы не только для декомпозиции вопросов, но и для улучшения LLM-моделей в области логического мышления. Задача такого разделения включает в себя не только оптимизацию процесса ответа, но и повышение точности моделей при работе с различными типами данных. #################### ## Метод #################### В этой работе используется методология MQUAKE, которая предлагает разделение вопросов на несколько логических шагов (многохопное декомпозирование). Для оценки эффективности этого подхода используется модель LLAMA3. Для экспериментов применяется датасет MQUAKE-T, который разделяется на две части: одна для декомпозиционного подхода, другая — для прямого ответа на вопросы. Модель LLAMA3 дообучается (fine-tuning) с использованием метода LoRA (Low-Rank Adaptation) на этих датасетах. Это позволяет изучить влияние многохопного декомпозирования как до, так и после обучения модели. Таким образом, метод гарантирует понимание сложных вопросов и повышает точность ответа, обеспечивая структуру рассуждения. #################### ## Результаты #################### В экспериментах был проведен сравнительный анализ точности ответов на основе двух подходов: прямого ответа на комплексные вопросы и многохопного декомпозирования. Результаты показали, что перед дообучением модели LLAMA3, подход многохопного декомпозирования показывал значительное превосходство в предсказаниях. Однако, после дообучения с помощью метода LoRA, оба подхода показали улучшение, но многохопное декомпозирование сохранило свою выгоду. Эти результаты демонстрируют, что многохопное декомпозирование не только повышает качество предсказаний до обучения, но и позволяет более эффективно использовать модель после ее дообучения. #################### ## Значимость #################### Этот подход имеет широкие применения в области разработки интеллектуальных систем, а именно в помощных системах для точного ответа на вопросы, в обучении моделей глубокого обучения, а также в системах семантического поиска. Многохопное декомпозирование позволяет улучшить точность моделей, обеспечивая более глубокую и адекватную обработку текстов. Кроме того, полученные результаты могут быть использованы в разработке систем для автоматического обучения, чтобы повысить уровень
Annotation:
Accurately answering complex questions has consistently been a significant challenge for Large Language Models (LLMs). To address this, this paper proposes a multi-hop question decomposition method for complex questions, building upon research within the MQUAKE framework. Utilizing the LLAMA3 model, we systematically investigate the impact of multi-hop question decomposition within knowledge graphs on model comprehension and reasoning accuracy, both before and after model training. In our experi...
ID: 2509.04770v1 cs.CL, cs.LG
Авторы:

Yogev Cohen, Dudi Ohayon, Romy Somkin, Yehudit Aperstein, Alexander Apartsin

## Контекст Современные рабочие процессы разработки программного обеспечения требуют автоматизации решений о том, какие изменения кода требуют ручного кодарьма. Эта задача критична для обеспечения качества программного обеспечения и эффективности разработки. Однако возникают сложности в обучении моделей классификации кода: новые программинные языки и фреймворки создают кратковременный барьер, так как объемы аннотированных данных для тренировки моделей остаются недостаточными. Мы признаем, что Large Language Models (LLMs) могут использоваться для генерации синтетических данных для обучения моделей в тех случаях, когда наборы данных подписанной тренировки являются недостаточными. Наша мотивация заключается в том, чтобы опробовать эффективность LLMs в создании синтетических примеров для новых языков и фреймворков, где ручное кодарьма и оценка важности изменений все еще требуют развития. ## Метод Мы используем LLMs для перевода изменений кода из языков с большим объемом данных на языки с меньшим объемом данных. Это позволяет генерировать синтетические примеры для обучения моделей. Мы асумуем, что LLMs уже научились распознавать синтаксис и семантику новых языков из неанотированных данных, но не имеют представления о том, какие изменения кода рассматриваются важными для рецензирования. Модели обучаются на синтетических данных, получаемых с помощью LLMs, и их эффективность сравнивается с моделями, обученными на реальных аннотированных данных. Мы проводим эксперименты с несколькими репозиториями GitHub и парами языков, чтобы оценить эффективность синтетического подхода в различных контекстах. ## Результаты Мы проводим эксперименты с несколькими репозиториями GitHub и парами языков, чтобы протестить синтетический подход к обучению моделей классификации. Мы сравниваем результаты моделей, обученных на синтетических данных, с моделями, обученными на реальных данных. Результаты показывают, что синтетические данные, созданные с помощью LLMs, эффективно поддерживают обучение моделей в тех случаях, когда наборы данных подписанной тренировки отсутствуют. Мы отмечаем, что хотя модели, обученные на синтетических данных, не достигают той же точности, что и модели, обученные на реальных данных, они показывают существенные улучшения в сравнении с базовыми методами. ## Значимость Полученные результаты показывают, что LLMs могут быть эффективно использованы для генерации синтетических данных в тех случаях, когда предоставляется мало аннотированных данных. Этот подход может быть применен в сферах, где новые программинные языки и фреймворки появляются быстро, и аннотированные данные для обучения моделей все еще недо
Annotation:
Automating the decision of whether a code change requires manual review is vital for maintaining software quality in modern development workflows. However, the emergence of new programming languages and frameworks creates a critical bottleneck: while large volumes of unlabelled code are readily available, there is an insufficient amount of labelled data to train supervised models for review classification. We address this challenge by leveraging Large Language Models (LLMs) to translate code cha...
ID: 2509.04810v1 cs.SE, cs.CL, cs.LG
Авторы:

Midhun Shyam, Jim Basilakis, Kieran Luken, Steven Thomas, John Crozier, Paul M. Middleton, X. Rosalind Wang

## Контекст Триаж-заметки, создаваемые в начале пациентского посещения в больнице, содержат ценные сведения, которые могут помочь медицинским персоналу и исследователям понять эпидемиологию пациентов в отделе неотложной помощи и степень временности заболевания или травмы. Однако применение современных технологий естественного языкового обработки (NLP) и машинного обучения (ML) для анализа триажных данных сталкивается с рядом проблем. Во-первых, госпитальные данные содержат чрезвычайно чувствительную информацию, которая подлежит законам о защите приватности, и поэтому должна анализироваться на месте. Во-вторых, большинство госпиталей и медицинских учреждений не обладают необходимым оборудованием для тонкой настройки больших языковых моделей (LLM), а вовсе не готовы к их обучению с нуля. Наконец, для идентификации записей, требующих внимания, требуется экспертное вовлечение в ручной пометке данных, что требует много времени и стоит дорого. Мы представляем в данной работе процесс, который позволяет классифицировать триажные данные с помощью LLM и ограниченных вычислительных ресурсов. ## Метод Мы использовали предобученную LLM, классификатор, который был быстро приведен к успешной работе на маленьком (2K) открытом наборе данных с помощью GPU. Затем, для приспособления к определенному госпитальному набору данных (1K примеров), мы продолжили обучение модели на CPU. Это позволило нам удачно классифицировать триажные данные с ограниченными вычислительными ресурсами. Мы демонстрируем, что строго выбранные наборы данных и использование уже существующих моделей и открытых данных могут обеспечить успех в классификации триажных записей даже на ограниченных мощностях. ## Результаты Мы провели эксперименты с небольшим набором открытых данных (2K примеров) и госпитальным набором данных (1K примеров), используя LLM. Для тонкой настройки использовались GPU и CPU соответственно. В результате получили высокую точность классификации, даже при ограниченных вычислительных ресурсах. Это позволило успешно идентифицировать критические триажные записи с первичной классификацией. ## Значимость Представленный подход может применяться в различных областях, таких как мониторинг здоровья, оптимизация ресурсов госпиталей и улучшение заболеваемости. Он предлагает более эффективный и экономичный способ использования LLM в здравоохранении. Мы видим возможность использования этой модели для быстрого определения критических случаев в время реального времени, что может способствовать более точному вмешательству в критических ситуациях. ## Выводы Мы успе
Annotation:
Triage notes, created at the start of a patient's hospital visit, contain a wealth of information that can help medical staff and researchers understand Emergency Department patient epidemiology and the degree of time-dependent illness or injury. Unfortunately, applying modern Natural Language Processing and Machine Learning techniques to analyse triage data faces some challenges: Firstly, hospital data contains highly sensitive information that is subject to privacy regulation thus need to be a...
ID: 2509.04969v1 cs.CL, cs.LG
Авторы:

Inbal Bolshinsky, Shani Kupiec, Almog Sasson, Yehudit Aperstein, Alexander Apartsin

## Контекст В современном мире технологий становится всё важнее предоставлять точные и контекстуально адекватные ответы на вопросы пользователей. Особенно это актуально в области сервисных помощников, где пользователи ожидают быстрых, точных и полезных ответов. Однако возникает центральный вопрос: нужно ли использовать сложные системы распознавания намерения для достижения качественных результатов, или можно без этого получить эффективные ответы? Эта проблема ключевая для развития технологий сервисных помощников и их применения в реальном мире. ## Метод Для разрешения этой проблемы были применены две группы экспериментов, основанные на двух открытых наборах данных сервисных взаимодействий. Одна группа экспериментов (Intent-First Response Generation) основывалась на предварительном распознавании намерения, а вторая (Direct Response Generation) предлагала моделям сразу генерировать ответы без предварительного распознавания намерения. Наборы данных были трансформированы для обоих подходов, и набор метрик, включая точность языка и успешность задач, был использован для сравнения эффективности. ## Результаты В результате экспериментов было установлено, что модели могут сформировать качественные ответы без предварительного распознавания намерения. Тем не менее, Intent-First Response Generation демонстрирует немного более высокие показатели точности языка. Однако Direct Response Generation показал высокую эффективность в задачах, связанных с сервисными взаимодействиями. Это демонстрирует возможность упрощения архитектур сервисных помощников без значительного снижения качества. ## Значимость Результаты имеют значительное значение для развития сервисных помощников, так как они позволяют упростить модели, уменьшив время обучения и ресурсов, необходимых для их развертывания. Это может привести к более быстрому развитию и внедрению сервисных помощников в различные области, включая торговлю, здравоохранение и сервисные системы. ## Выводы Это исследование сберегает новый взгляд на архитектуры сервисных помощников, показывая, что некоторые модели могут без изменения языка предоставлять качественные ответы. Будущие исследования будут направлены на детальное изучение баланса между эффективностью и точностью, а также на расширение области применения этих технологий в реальном мире.
Annotation:
In the era of conversational AI, generating accurate and contextually appropriate service responses remains a critical challenge. A central question remains: Is explicit intent recognition a prerequisite for generating high-quality service responses, or can models bypass this step and produce effective replies directly? This paper conducts a rigorous comparative study to address this fundamental design dilemma. Leveraging two publicly available service interaction datasets, we benchmark several ...
ID: 2509.05006v1 cs.CL, cs.LG
Авторы:

Medhasweta Sen, Zachary Gottesman, Jiaxing Qiu, C. Bayan Bruss, Nam Nguyen, Tom Hartvigsen

#### Контекст В последние годы, автоматическое описание временных рядов с помощью естественного языка получило значительное внимание в академической и практической сферах. Это отражается в развитии широкого спектра моделей и методов, нацеленных на решение задач, таких как распознавание, выявление отличий и порождение естественного текста на основе временных рядов. Однако существуют значительные проблемы, связанные с отсутствием стандартизированных бенчмарков для оценки моделей. Доступные данные часто разбросаны по отдельным работам, а многие из них не предназначены для сравнительных экспериментов. Это ограничивает возможность объективного сравнения методов и трудности в изучении, какие модели лучше справляются с конкретными задачами. Данный работу направлен на создание стандартизированного метода оценки, который позволит провести сравнительный анализ и мотивировать развитие моделей с целью улучшения их полноты, семантического понимания и гибкости. #### Метод Мы предлагаем BEDTime (Benchmark for Evaluating the Description of Time series) — бенчмарк, который объединяет 4 существующих датасетов для 3 задач: распознавание (True/False вопросы-ответы), выявление отличий (множественный выбор) и порождение естественного текста (open-ended). Эти задачи позволяют оценивать модели по составному показателю — их способности анализировать, сравнивать и генерировать естественный язык на основе временных рядов. Мы использовали 13 моделей, включая лингвистические, визуально-лингвистические и специализированные на временных рядах. Эксперименты проводились с применением различных метрик, таких как точность распознавания, F1-меры и BLEU. Это позволило протестировать гибкость моделей и их возможность работать в различных областях применения. #### Результаты Результаты экспериментов показали, что популярные модели на основе лингвистических моделей (LLM) часто приобретают низкие результаты. В то же время, визуально-лингвистические модели (VLM) показали значительные достижения, что свидетельствует о значимости визуальных моделей для решения задач временных рядов. Однако модели с предустановленными мультимодальными моделями временных рядов и языка (Multimodal Time Series-Language Models) показали лучшие результаты, но всё же имеют большой потенциал для улучшения. Мы также выявили проблемы с точностью и устойчивостью моделей, особенно в ситуациях, требующих высокой точности и генеративных задач. #### Значимость BEDTime предлагает широкие возможности для стандартизации и сравнения моделей в области автоматического описания временных рядов. Это позволяет проводить эксперименты на разных видах задач, улучшать модели и расширять их возмо
Annotation:
Many recent studies have proposed general-purpose foundation models designed for a variety of time series analysis tasks. While several established datasets already exist for evaluating these models, previous works frequently introduce their models in conjunction with new datasets, limiting opportunities for direct, independent comparisons and obscuring insights into the relative strengths of different methods. Additionally, prior evaluations often cover numerous tasks simultaneously, assessing ...
ID: 2509.05215v1 cs.CL, cs.LG
Авторы:

Matthew Ho, Chen Si, Zhaoxiang Feng, Fangxu Yu, Yichi Yang, Zhijian Liu, Zhiting Hu, Lianhui Qin

## Контекст Одна из основных проблем современных моделей глубокого обучения заключается в ограниченной способности сохранять и использовать полученные знания в течение длительного времени. Традиционные модели, такие как LLMs (Large Language Models), обладают внушительным возможностями для выполнения логических задач, однако во время выполнения они не могут сохранить знания, накопленные в ходе работы в режиме реального времени. Это приводит к тому, что каждая новая задача обрабатывается абсолютно самостоятельно, не используя результаты предыдущих работ. Это ограничивает эффективность моделей в решении задач, требующих глубокого абстрактного разума и строгой композиции. Мы предлагаем систему `ArcMemo`, которая решает эту проблему путем создания внешней памяти, построенной на абстрактных концепциях, и позволяющей модели обучаться во время выполнения заданий. ## Метод `ArcMemo` работает на основе следующих принципов: 1. **Абстрактные Рассуждения и Композиция**: Мы разрабатываем алгоритмы для абстрагирования значимости от решений в ходе выполнения задач. Эти рассуждения формируют составные части, которые могут быть повторно использованы в будущих задачах. 2. **Внешняя Память на Основе НЛП**: Внешняя память хранится в виде естественного языка и состоит из логических модулей, которые могут быть повторно использованы и расширены. 3. **Интеграция Памяти в Время Выполнения**: Мы вводим технологию "тестового непрерывного обучения", в которой модель может использовать сохраненные концепции для решения новых задач без переобучения весов модели. 4. **Стратегии Ретриева и Обновления**: Мы предлагаем способы выбора полезных концепций в зависимости от задачи, а также механизмы для их динамического обновления в процессе работы. 5. **Архитектура**: `ArcMemo` включает модуль абстракции, занимающийся формированием логических моделей задач, и модуль внешней памяти, который хранит и получает знания в естественном языке. ## Результаты Мы провели эксперименты на базе сетки обучения `ARC-AGI`, которая требует высокой степени композиции и логической гибкости. В результате: - `ArcMemo` показала **7,5% относительного выигрыша** по сравнению с моделью без внешней памяти. - Динамическое обновление памяти показало лучшие результаты, чем статический вариант, что подтверждает гипотезу о том, что чем больше модель учится, тем лучше она решает новые задачи. - Мы также обнаружили, что абстрактные концепции показали себя как самый эффективный вариант памяти в работе модели. ## Значимость `ArcMemo` может быть применена в области роботов-экспертов, человеко
Annotation:
While inference-time scaling enables LLMs to carry out increasingly long and capable reasoning traces, the patterns and insights uncovered during these traces are immediately discarded once the context window is reset for a new query. External memory is a natural way to persist these discoveries, and recent work has shown clear benefits for reasoning-intensive tasks. We see an opportunity to make such memories more broadly reusable and scalable by moving beyond instance-based memory entries (e.g...
ID: 2509.04439v2 cs.AI, cs.CL, cs.LG
Авторы:

Wenxiao Wang, Priyatham Kattakinda, Soheil Feizi

## Контекст В последние годы широко распространены подходы к созданию машинного обучения моделей с использованием трансформеров. Однако конструирование доверенных агентов, основанных на генеративных моделях естественного языка, остается сложной задачей. Эти агенты должны обеспечивать не только качественно высокие результаты, но и гарантировать надёжность при выполнении задач. Ложные срабатывания, неточности и проблемы с гибкостью остаются значительными проблемами. Одним из ключевых аспектов достижения надёжности является адекватное графовое и конфигурационное оптимизирование. Наиболее популярные подходы оптимизируют только конфигурации моделей, не учитывая оптимизации структуры графа, что приводит к значительным проблемам с надёжностью. Был предложен фреймворк Maestro, который предлагает полностью автоматизированную оптимизацию графа и конфигураций для генерации надёжных генеративных моделей. ## Метод Проект Maestro предлагает новую методологию, которая объединяет оптимизацию графа и конфигураций в единое комплексное решение. Граф определяет структуру модулей, а конфигурация каждого модуля включает гиперпараметры модели, предварительно обработанные входные данные, инструменты и другие контрольные параметры. Maestro применяет векторное управление над генеративными моделями, чтобы найти оптимальное сочетание структуры графа и конфигураций моделей. Метод использует визуализацию трассировок, которая позволяет обнаруживать системные проблемы и корректировывать их. Был предложен алгоритм для поиска оптимальных комбинаций графа и конфигураций, согласованных с целями качества и бюджетом токенов. ## Результаты В экспериментах были использованы данные, включающие IFBench и HotpotQA. Агент Maestro был сравнен с такими популярными оптимизаторами, как MIPROv2, GEPA и GEPA+Merge. Результаты показали, что Maestro превосходит все три оптимизатора по точности результатов. В бенчмарке IFBench он показал среднее улучшение в 12%, в HotpotQA - 4,9%. Даже при ограничении себя только оптимизацией промптов, Maestro превосходит MIPROv2 на 9,65%, GEPA на 2,37% и GEPA+Merge на 2,41%. Также было проверено, что Maestro эффективно обнаруживает и исправляет структурные проблемы, которые не могут быть разрешены стандартными методами поиска конфигураций. ## Значимость Maestro может быть применен в различных областях, где требуется надёжность и качество результатов для генеративных моделей. Он применим в области роботов-интервьюеров, систем генеративного вопрошания и ответов, а также в приложениях, требующих структурной надёжности
Annotation:
Building reliable LLM agents requires decisions at two levels: the graph (which modules exist and how information flows) and the configuration of each node (models, prompts, tools, control knobs). Most existing optimizers tune configurations while holding the graph fixed, leaving structural failure modes unaddressed. We introduce Maestro, a framework-agnostic holistic optimizer for LLM agents that jointly searches over graphs and configurations to maximize agent quality, subject to explicit roll...
ID: 2509.04642v1 cs.AI, cs.CL, cs.LG, cs.SE
Авторы:

Brennen Hill

## Контекст Область исследования агентных мультиагентных систем в области искусственного интеллекта является ключевым направлением развития моделей машинного обучения. Одной из основных проблем в этой области является создание моделей, которые могут эффективно совместно работать в сложных задачах, требующих хорошего понимания структуры окружающего мира. Этот вопрос наиболее актуален в таких задачах, как робототушки или робототуризм, где агенты должны выполнять коллективные задачи, но при этом имеют ограниченные возможности по изучению окружающего мира. Одной из причин этого является недостаток эффективных методов построения и использования высших уровней структуры, чтобы ориентироваться в высокомерных и нерегулярных пространствах применимости. Это ограничивает возможности агентов до реакции на мгновенные события, а не достижения долгосрочных целей. Мотивация для построения исследования заключается в том, чтобы развить методы, позволяющие агентам оперировать с более высоким уровнем структуры, чтобы они могли более эффективно решать задачи, требующие долгосрочного планирования и сложного совместного взаимодействия. ## Метод Для решения этой проблемы предлагается использовать систему, которая строит используя языковые модели, систему "областей" и "признаков", которые взаимодействуют с многоагентной средой. Эта система построит объектно-ориентированную иерархию, где основные задачи делятся на меньшие, более управляемые подзадачи. Для этого используется технология высокого уровня, которая может динамически изменять контекст и структуру задач на основе языковых команд. Например, если агенту требуется выполнить задачу, связанную с созданием структуры в системе, модель языка может сформировать иерархию задач, разбив их на подзадачи, которые могут быть выполнены в зависимости от контекста и целей. Эта структура позволит агентам научиться выполнять более сложные задачи, такие как динамическое планирование и выполнение коллективных задач в совместных задачах. ## Результаты На основе экспериментов, проведенных на основе 2024-го года, было проанализировано многоагентное обучение в средах, где использовались технологии марковских решений и многоагентного машинного обучения. Был оценен эффект использования языковых моделей для построения иерархической структуры задач. Результаты показали, что использование языковых моделей для построения иерархической структуры задач дает значительные выгоды по сравнению с более традиционными методами. Система позволяла агентам эффективней ориентироваться в пространстве
Annotation:
The convergence of Language models, Agent models, and World models represents a critical frontier for artificial intelligence. While recent progress has focused on scaling Language and Agent models, the development of sophisticated, explicit World Models remains a key bottleneck, particularly for complex, long-horizon multi-agent tasks. In domains such as robotic soccer, agents trained via standard reinforcement learning in high-fidelity but structurally-flat simulators often fail due to intract...
ID: 2509.04731v1 cs.AI, cs.CL, cs.LG, cs.MA, cs.RO, 68T05, 90C40, 91A26, 68T42, 93E35, I.2.11; I.2.6; I.2.8; I.2.9; I.2.7
Авторы:

Barbara Gendron, Gaël Guibon, Mathieu D'aquin

## Контекст Построение контролируемых конверсаций с помощью Бо LLM (Large Language Models) является важной проблемой в области развития интеллектуальных систем. Особенно актуальной является задача контроля уровня профициентности в обучающихся моделях, чтобы обеспечить предсказуемые и пользовательски персонализированные ответы. Несмотря на прогресс в области контролируемого генерирования текста, существуют ключевые проблемы в обеспечении точности, согласованности и удовлетворения потребностей пользователей. Одним из основных рисков является невозможность формальной определенности концепций, относящихся к качественным аспектам коммуникации, таких как профициентность. Данная работа ориентируется на развитие архитектуры, позволяющей выразить такие концепции в четко определенной форме, чтобы включить их в процесс рассуждения и системы контроля. ## Метод Предложенный подход включает в себя разработку онтологии, основанной на формальных определениях квалитиативных понятий, часто применяемых в контексте конверсации. Методология основывается на использовании лингвистических дескрипторов для преобразования качественных определений в количественные, обеспечивая их интеграцию в онтологию для выполнения логических рассуждений и проверки консистентности. Для реализации этого фреймворка применялись методы описательной логики, а также техники генерирования текста с помощью Бо LLM, подвергнутого перенусу для контроля уровня профициентности. ## Результаты Основным результатом является создание системы, позволяющей формально определить профициентность на базе лингвистических дескрипторов. Эти определения были включены в онтологию, которая использовалась для настройки модели Бо LLM. Эксперименты проводились с использованием данных, соответствующих уровням профициентности CEFR (Common European Framework of Reference for Languages). Результаты показали, что полученная модель обеспечивает консистентные и обоснованные определения уровней профициентности, что улучшает транспарентность и управляемость процесса генерирования текста в контексте конверсации. ## Значимость Предложенная модель может быть применена в различных сферах, где необходимо контролировать содержание и качество коммуникаций, в том числе в образовательных системах, системах поддержки клиентов и мобильных приложениях. Одним из преимуществ является улучшение транспарентности и стабильности взаимодействия с Бо LLM, что может повысить доверие пользователей к интеллектуальным системам. Более того, данная работа открывает новые перспективы для развития контролируемого текстового генерирования, основываясь
Annotation:
The controllability of Large Language Models (LLMs) when used as conversational agents is a key challenge, particularly to ensure predictable and user-personalized responses. This work proposes an ontology-based approach to formally define conversational features that are typically qualitative in nature. By leveraging a set of linguistic descriptors, we derive quantitative definitions for qualitatively-defined concepts, enabling their integration into an ontology for reasoning and consistency ch...
ID: 2509.04926v1 cs.AI, cs.CL, cs.LG
Авторы:

Debangan Mishra, Arihant Rastogi, Agyeya Negi, Shashwat Goel, Ponnurangam Kumaraguru

## Контекст В последние годы модели глубокого обучения, особенно модели естественного языкового обработки (НЛО), достигли выдающихся результатов в области понимания и генерирования текста. Однако большая часть исследований ориентирована на английский язык, тем самым ограничивая понимание многоязычных систем. Несмотря на улучшение моделей, вопросы о том, насколько они одинаково работают в разных языках, остаются откровенными. Эти несоответствия могут быть причиной неточностей и локализованных ошибок, особенно в контексте многоязычных приложений. Целью нашей исследовательской работы является изучение функциональной схожести моделей НЛО в 20 языках, используя метрику $\kappa_p$, чтобы оценить их надежность и понять, как они взаимодействуют в разных языковых окружениях. ## Метод Мы применяем метрику $\kappa_p$ для измерения функциональной схожести моделей НЛО в 20 языках с помощью 47 подмножеств тестов из коллекции GlobalMMLU. Метрика $\kappa_p$ определяет уровень согласия между моделями, поочередно просматривая их выходы на одинаковых входных данных. Для обеспечения представительности используются модели разных размеров, от небольших до крупных. Для каждого языка проводится анализ среднего значения $\kappa_p$, позволяющий оценить согласованность внутри модели и между моделями разных языков. ## Результаты Наши эксперименты показали, что более мощные модели глубокого обучения демонстрируют более высокую функциональную схожесть языков. Это выявляется как в сравнении выводов моделей внутри одного языка, так и в сравнении выводов моделей разных языков. Однако модели встречаются чаще всего в согласии с самими собой, чем с другими моделями в том же языке. Это открытое несоответствие может быть причиной потенциальных ошибок в многоязычных системах. Эти результаты также подтверждают значимость $\kappa_p$ как инструмента для оценки надежности моделей в разных языках. ## Значимость Наши результаты имеют практическое значение для развития многоязычных моделей глубокого обучения. Они показывают, что модели могут быть неоднородны в своих реакциях на языках, что может привести к несогласованности в результатах. Таким образом, $\kappa_p$ может быть использован для точного контроля надежности и согласованности моделей. Будущие исследования будут сфокусированы на изучении типов ошибок, которые возникают в сценариях многоязычной моделирования, и на разработке методов для уменьшения этих несоответствий. ## Выводы Мы исследовали функциональную схожесть моделей естественного языкового обработки в 20 языках с помощью метрики $\kappa_p$.
Annotation:
How similar are model outputs across languages? In this work, we study this question using a recently proposed model similarity metric $\kappa_p$ applied to 20 languages and 47 subjects in GlobalMMLU. Our analysis reveals that a model's responses become increasingly consistent across languages as its size and capability grow. Interestingly, models exhibit greater cross-lingual consistency within themselves than agreement with other models prompted in the same language. These results highlight no...
ID: 2509.04032v1 cs.CL, cs.LG
Показано 421 - 430 из 573 записей