📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Post-training for Efficient Communication via Convention Formation

2025-08-12

Авторы:

Yilun Hua, Evan Wang, Yoav Artzi

Далее приводится подробное резюме научной статьи под названием "Post-training for Efficient Communication via Convention Formation", написанной Yilun Hua, Evan Wang, Yoav Artzi. ## Контекст В современных текстовых генерирующих моделях, включая Large Language Models (LLMs), возникают сложности с адаптацией языка в процессе многократных взаимодействий. Хотя человеческие коммуникации становятся более эффективными в многократных интеракциях, LLMs не способны естественно показывать схожий подход. Наиболее заметным отличием является нехватка возможности участников взаимодействия договориться о ад-хок-конвенциях, которые помогают улучшить эффективность общения. Данный эффект часто наблюдается при работе с текстовыми моделями, которые выделяются нестандартным поведением в многотоновых ситуациях. Изучение этой проблемы может помочь в развитии моделей, которые лучше адаптируются к естественным коммуникационным ситуациям. ## Метод Авторы предлагают метод воспитания моделей, который использует эвристики, чтобы идентифицировать примеры конвенционального поведения в тексте. Метод включает в себя следующие этапы: 1. **Идентификация примеров**: Авторы используют инструменты для автоматической идентификации примеров конвенционального поведения в тексте. 2. **Изменение поведения моделей**: Для изменения поведения моделей во время выполнения, авторы применяют техники на основе обучения на примере (few-shot learning). 3. **Оценка поведения**: Результаты поведения модели оцениваются с помощью базового теста, который измеряет эффективность в текстовых взаимодействиях. Таким образом, авторы предлагают метод, который может быть применен к различным моделям, чтобы улучшить их способность договариваться о конвенциях в текстовых взаимодействиях. ## Результаты Авторы проводят эксперименты на двух новых бенчмарках для оценки способности моделей к конвенциональному поведению. Они используют две эвристически определенные методики: 1. **Набор тестов по интеракциям**: Авторы создали набор тестов, который позволяет исследовать способность моделей к конвенциональному поведению в текстовых интеракциях. Этот набор тестов включает в себя взаимодействия с различными уровнями сложности, чтобы протестировать способность моделей создавать и применять конвенции. 2. **Набор тестов по документ-ориентированному выводу**: Для оценки способности моделей применять конвенциональные подходы в реальных условиях, авторы проводят эксперименты на базе документ-ориентированного вывода, где модели должны делать выводы на основе документов. Эксперименты показали, что в последствии воспитания модели становятся более эффективными в создании и примен

Annotation:

Humans communicate with increasing efficiency in multi-turn interactions, by adapting their language and forming ad-hoc conventions. In contrast, prior work shows that LLMs do not naturally show this behavior. We develop a post-training process to develop this ability through targeted fine-tuning on heuristically identified demonstrations of convention formation. We evaluate with two new benchmarks focused on this capability. First, we design a focused, cognitively-motivated interaction benchmar...

ID: 2508.06482v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Evaluation of LLMs in AMR Parsing

2025-08-11

Авторы:

Shu Han Ho

## Контекст Абстрактная Модель Значений (AMR) — семантический формализм, который кодирует значение предложения в виде графов, ориентированных на рут-узел, с рутированными нодами, представляющими концепты, и ребрами, обозначающими семантические отношения. Развитие Легких Языковых Моделей (LLM) привносит новые возможности в область АМР-парсинга. В частности, оптимизация специализированных декодеров для парсинга АМР требует значительных вычислительных ресурсов и сложности в управлении. Файнтюнинг декодер-только LLM представляет более простой и эффективный подход. Несмотря на то, что LLM показывают успех в широком спектре задач, их применение к АМР-парсингу еще не тщательно изучено. Мы рассмотрим значимость файнтюнинга LLM для АМР-парсинга, а также проанализируем результаты по сравнению с имеющимися в науке решениями. ## Метод Мы использовали четыре декодер-только LLM: Phi 3.5, Gemma 2, LLaMA 3.2 и DeepSeek R1 LLaMA Distilled. Эти модели были файнтюнированы на LDC2020T02 Gold AMR3.0 тестовом наборе данных. Мы установили определенные гиперпараметры для каждой модели и тренировали их в тестовой среде. Эксперименты проводились с использованием различных метрик, включая SMATCH F1, для оценки производительности. Мы также провели анализ различных аспектов, таких как семантическая и структурная точность, чтобы понять, какие модели более эффективны в каких областях. ## Результаты Наша оценка показала, что файнтюнинг декодер-только LLM может достигать иногда значительной производительности в АМР-парсинге, которая сопоставима с текущими лучшими решениями. Модель LLaMA 3.2 показала самые высокие результаты в семантической точности, достигнув SMATCH F1: 0.804, что совпадает с результатами APT + Silver (IBM) и приближается к Graphene Smatch (MBSE). С другой стороны, Phi 3.5 демонстрировала наилучшие результаты в структурной точности. Это свидетельствует о том, что различные модели предлагают разные уровни эффективности в разных аспектах АМР-парсинга. ## Значимость Наше исследование показывает, что файнтюнинг LLM может стать эффективным инструментом для АМР-парсинга, даже не требуя такой сложной инфраструктуры, как в существующих комплексных решениях. Это может упростить развитие инструментов для семантического анализа текста. Результаты также указывают на то, что различные модели LLM предлагают разные преимущества в разных областях, что может помочь в выборе лучшей модели для определенных сценариев применения. ## Выводы Мы доказали, что файнтюнинг LLM может представлять собой достаточ

Annotation:

AMR (Abstract Meaning Representation) is a semantic formalism that encodes sentence meaning as rooted, directed, acyclic graphs, where nodes represent concepts and edges denote semantic relations. Finetuning decoder only Large Language Models (LLMs) represent a promising novel straightfoward direction for AMR parsing. This paper presents a comprehensive evaluation of finetuning four distinct LLM architectures, Phi 3.5, Gemma 2, LLaMA 3.2, and DeepSeek R1 LLaMA Distilled using the LDC2020T02 Gold...

ID: 2508.05028v2 cs.CL, cs.AI

arXiv PDF

📄 MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints

2025-08-11

Авторы:

Zhong Ken Hew, Jia Xin Low, Sze Jue Yang, Chee Seng Chan

## Контекст В статье "MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints" рассматривается проблема того, что Large Language Models (LLMs) часто имеют культурные базисы, полученные из тренировочных данных, где преобладают высокоресурсные языки, такие как английский и китайский. Это приводит к ограниченной точности при оценке языков с низким ресурсом и к нечесальному представлению культурных контекстов, особенно в контексте низкоресурсных языков. Для решения этой проблемы авторы предлагают MyCulture, новый бенчмарк, предназначенный для оценки LLMs на восприятии малайской культуры в шести областях: искусства, одежды, обычаи, развлечения, пища и религия, представленные на языке Бахаса Мелаю. Этот бенчмарк использует несколько новых подходов, включая открытые ответы в формате нескольких выборок без предварительно определенных вариантов ответов, чтобы избежать биаса, связанного с таким форматом. ## Метод Авторы разработали MyCulture, включающий шесть категорий культурных аспектов, каждая из которых содержит открытые вопросы с ответами в формате нескольких выборок. Методология включает описание подробной архитектуры, включающей не только технические решения, но и структуру вопросов, которая должна снизить влияние биаса формата. Метод также включает теоретическое обоснование, которое поддерживает эффективность открытого формата в повышении честности и отличительности моделей. Эталон охватывает как региональные, так и международные LLMs, чтобы проявить различия в понимании культуры. ## Результаты Результаты опробованы на различных региональных и международных LLMs. Было проанализировано, как эти модели справляются с оценкой шести различных культурных аспектов, которые были представлены в языке Бахаса Мелаю. Эксперименты показали, что существуют значительные различия в точности и честности моделей при обработке открытых ответов в сравнении с форматированными выходами. Также была проверена структурная биаса, сравнивая выводы моделей в структурированной форме и без структуры. ## Значимость Полученные результаты показывают, что MyCulture может быть применен в различных областях, включая культурные исследования, локализацию LLMs и развитие интеллектуальных систем, которые могут правильно оценивать индивидуальные культурные контексты. Этот исследовательский подход предоставляет более точное и честное представление культурных явлений и демонстрирует важность языковой и культурной включенности при развитии новых моделей языка. ## Выводы Выводы постоянной статьи могут сводяться

Annotation:

Large Language Models (LLMs) often exhibit cultural biases due to training data dominated by high-resource languages like English and Chinese. This poses challenges for accurately representing and evaluating diverse cultural contexts, particularly in low-resource language settings. To address this, we introduce MyCulture, a benchmark designed to comprehensively evaluate LLMs on Malaysian culture across six pillars: arts, attire, customs, entertainment, food, and religion presented in Bahasa Mela...

ID: 2508.05429v2 cs.CL, cs.AI

arXiv PDF

📄 TIBSTC-CoT: A Multi-Domain Instruction Dataset for Chain-of-Thought Reasoning in Language Models

2025-08-09

Авторы:

Fan Gao, Cheng Huang, Nyima Tashi, Yutong Liu, Xiangxiang Wang, Thupten Tsering, Ban Ma-bao, Renzeg Duojie, Gadeng Luosang, Rinchen Dongrub, Dorje Tashi, Xiao Feng, Hao Wang, Yongbin Yu

Текущая доступность данных в низкоресурсных языках, таких как тибетский, ограничивает развитие моделей естественного языка в этих регионах. В статье представлен TIBSTC-CoT, разработанный как крупномасштабный, многодоменный тибетский датасет, строительство которого основывается на цепных мыслей (chain-of-thought prompting) с использованием больших лингвистических моделей. Этот датасет позволяет создавать репрезентативные ресурсы для тибетского языка, открывая возможности для развития моделей с цепной мыслью. На основе этого датасета разработана серия моделей Sunshine-thinking, которые способны выполнять цепные мысли в тибетском языке и демонстрируют стойкий результат в решении задач, близкий к лучшим многоязыковым моделям. Этот проект является важной шагу к повышению доступности AI в недостаточно изученных языках.

Annotation:

To address the severe data scarcity in Tibetan, a low-resource language spoken by over six million people, we introduce TIBSTC-CoT, the large-scale, multi-domain Tibetan dataset automatically constructed via chain-of-thought prompting with large language models (LLMs). TIBSTC-CoT establishes a scalable and reproducible framework for dataset creation in low-resource settings, covering diverse domains and reasoning patterns essential for language understanding and generation. Building on this data...

ID: 2508.01977v1 cs.CL, cs.AI

arXiv PDF

📄 SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models

2025-08-09

Авторы:

Wanqi Yang, Yanda Li, Yunchao Wei, Meng Fang, Ling Chen

Большие модели звука и языка (LALMs) достигли примерно человеческого уровня точности в задачах типа транскрипции и распознавания эмоций. Однако существующие оценки сконцентрированы на поверхностном восприятии, не содержат тестирования на контекстуальное и выводимое мышление при работе с речи. SpeechR — это новый бенчмарк для оценки реакции моделей на разговорную речь. Он охватывает три ключевых направления: фактическое восстановление, процедурный вывод и нормативное суждение. Тестирование проводится в трех форматах: выбор ответов, рассуждение по цепочке и анализ акцента и эмоций. Эксперименты с 11 моделями показали, что высокая точность транскрипции не означает сильных умений в выводе. SpeechR станет основой для более точного исследования моделей при разговорных и диалоговых задачах.

Annotation:

Large audio-language models (LALMs) have achieved near-human performance in sentence-level transcription and emotion recognition. However, existing evaluations focus mainly on surface-level perception, leaving the capacity of models for contextual and inference-driven reasoning in speech-based scenarios insufficiently examined. To address this gap, we introduce SpeechR, a unified benchmark for evaluating reasoning over speech in large audio-language models. SpeechR evaluates models along three k...

ID: 2508.02018v1 cs.CL, cs.AI

arXiv PDF

📄 Diagnosing Memorization in Chain-of-Thought Reasoning, One Token at a Time

2025-08-09

Авторы:

Huihan Li, You Chen, Siyuan Wang, Yixin He, Ninareh Mehrabi, Rahul Gupta, Xiang Ren

Большие языковые модели (LLMs) проявляют высокую эффективность в решении рассуждений, но часто страдают от падения качества при небольших изменениях входа. Это особенно заметно в Chain-of-Thought (CoT) решении, где спуражийные запоминания могут привести к ошибкам на промежуточных шагах, приводящим к неверному ответу. Для диагностики этой проблемы предлагается фреймворк STIM (Source-aware Token-level Identification of Memorization), который анализирует каждый токен рассуждения и присваивает его одной из трех категорий запоминания: локальное, среднестепенное или дальностепенное, определяясь по частоте встречаемости в корпусе предварительного тренирования. Исследования показали, что модели в трудных и редких случаях часто полагаются на локальные запоминания, что приводит к ошибкам в 67% токенов. Метрики STIM могут эффективно предсказывать неверные токены на неверных шагах. Таким образом, STIM предоставляет мощный инструмент для диагностики и улучшения логики моделей, применимость которого распространяется на другие задачи структурированного пошагового генерирования.

Annotation:

Large Language Models (LLMs) perform well on reasoning benchmarks but often fail when inputs alter slightly, raising concerns about the extent to which their success relies on memorization. This issue is especially acute in Chain-of-Thought (CoT) reasoning, where spurious memorized patterns can trigger intermediate errors that cascade into incorrect final answers. We introduce STIM, a novel framework for Source-aware Token-level Identification of Memorization, which attributes each token in a re...

ID: 2508.02037v1 cs.CL, cs.AI

arXiv PDF

📄 Learning Dynamics of Meta-Learning in Small Model Pretraining

2025-08-09

Авторы:

David Demitri Africa, Yuval Weiss, Paula Buttery, Richard Diehl Martinez

Многопараметрические языковые модели показали свою мощь в адаптации к различным задачах, но их обучение требует больших ресурсов. Работа рассматривает возможность использования методов мета-обучения для улучшения обучения небольших языковых моделей, делая этот процесс эффективнее и интерпретируемым. Авторы интегрировали первый порядок Метода Моментов Фибоначчи (MAML) с маскированным подмножеством обучения на основе сабсета (subset-masked LM pretraining), создав четыре модели стиля LLama с 11–570 млн параметров. Они проверили эти модели на задаче многоязычного распознавания названий сущностей (NER). Результаты показали, что модели не только достигают одинаковой точности за меньшее время, но и показывают лучший результат в многоязычной NER. Обучение моделей проходит в два этапа: распространение (размазывание) представлений, за которым следует сжатие (компрессия) в более узкое пространство, что отражается в изменении кривых эффективного ранга и энтропии внимания. Эти динамики дают компактный и легко читаемый обзор мета-адаптации модели.

Annotation:

Large language models are powerful but costly. We ask whether meta-learning can make the pretraining of small language models not only better but also more interpretable. We integrate first-order MAML with subset-masked LM pretraining, producing four LLama-style decoder-only models (11M-570M params), and evaluate it on a fundamental NLP task with many settings and real-world applications. Compared with vanilla training, our model (i) reaches the same loss up to 1.6x sooner, (ii) improves F1 on m...

ID: 2508.02189v1 cs.CL, cs.AI

arXiv PDF

📄 Proof2Hybrid: Automatic Mathematical Benchmark Synthesis for Proof-Centric Problems

2025-08-09

Авторы:

Yebo Peng, Zixiang Liu, Yaoming Li, Zhizhuo Yang, Xinye Xu, Bowen Ye, Weijun Yuan, Zihan Wang, Tong Yang

Оценка математических способностей бо LLM-систем является ключевым, но сложным заданием, усложненным недостатком релевантных бенчмарков, особенно для задач с центральной ролью доказательств. Традиционное ручное создание таких бенчмарков несравненно трудоемко и дорогостояще. В статье предлагается Proof2Hybrid — первый автоматизированный фреймворк, конвертирующий натурные тексты в математические доказательства в высококачественные проблемы, легко проверяемые. Основа фреймворка — Proof2X, который предлагает перевод доказательств в новый вид вопросов — “$m$-из-$n$ множественных судьи”, улучшающий точность и устойчивость к тривиальным ответам. Авторы представили AlgGeoTest — бенчмарк в сложной области алгебраической геометрии с 456 вопросами. Исследования на новейших LLM-системах показали значительные пробелы в их математическом понимании. Этот подход открывает путь к развитию исследований в области AI-математического здравомыслия.

Annotation:

Evaluating the mathematical capability of Large Language Models (LLMs) is a critical yet challenging frontier. Existing benchmarks fall short, particularly for proof-centric problems, as manual creation is unscalable and costly, leaving the true mathematical abilities of LLMs largely unassessed. To overcome these barriers, we propose Proof2Hybrid, the first fully automated framework that synthesizes high-quality, proof-centric benchmarks from natural language mathematical corpora. The key novelt...

ID: 2508.02208v2 cs.CL, cs.AI

arXiv PDF

📄 Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning

2025-08-09

Авторы:

Jia Deng, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Ji-Rong Wen

**Резюме** В современной искусственном интеллекте, reinforcement learning with verifiable rewards (RLVR) широко применяется для улучшения разума и реакции на какие-либо действия (данные) бо LLM. Однако, главную проблему системы RLVR заключается в том, что требуется сбалансировать взаимосвязанность системы между вероятностью получения результатов и качеством принятых решений (подробностей в тексте). В данной работе мы проводим систематический анализ работы этого механизма на разных уровнях гранулярности: со стадиями обучения (возрастания и плато), типами данных (примерами, сегментами и токенами), а также различными техниками вывода (регулирования сигнала). Основываясь на полученных результатах, мы предлагаем два новых метода, которые динамически корректируют вознаграждение, ориентируясь на только на те токены, которые могут сделать систему более эффективной. В результате, наши методы улучшают показатели на различных моделях языковых моделей, повышая их разумность и надежность.

Annotation:

Recently, reinforcement learning with verifiable rewards (RLVR) has been widely used for enhancing the reasoning abilities of large language models (LLMs). A core challenge in RLVR involves managing the exchange between entropy and performance of policies. Despite the importance of this exchange, a fine-grained understanding of when and how this exchange operates most effectively remains limited. To bridge this gap, we conduct a systematic empirical analysis of the entropy-performance exchange m...

ID: 2508.02260v1 cs.CL, cs.AI

arXiv PDF

📄 Dynaword: From One-shot to Continuously Developed Datasets

2025-08-09

Авторы:

Kenneth Enevoldsen, Kristian Nørgaard Jensen, Jan Kostkan, Balázs Szabó, Márton Kardos, Kirten Vad, Johan Heinsen, Andrea Blasi Núñez, Gianluca Barmina, Jacob Nielsen, Rasmus Larsen, Peter Vahlstrup, Per Møldrup Dalum, Desmond Elliott, Lukas Galke, Peter Schneider-Kamp, Kristoffer Nielbo

**Резюме** В статье предлагается архитектура Dynaword, разработанная для создания больших, открытых языковых данных, которые могут быть постоянно обновляемыми благодаря участию сообщества. Основной проблемой, которую адресуется данный подход, является неэффективность и нестандартизация существующих методов создания и обновления данных. Эти проблемы включают зависимость от неясно указанных лицензий, статичность данных, которая мешает участию сообщества, и ограниченную возможность проверки качества данных. Dynaword предлагает создавать данные, основанные на открытой лицензии, с постоянным обновлением и способностью включать вклады сторонних участников. Таким образом, данные становятся более качественными, востребованными и сохраняются в динамичном виде. Проверена эффективность этого подхода на примере Danish Dynaword, который превзошёл по объёму и качеству других аналогичных ресурсов и подтвердил силу динамического подхода в создании и поддержании языковых данных.

Annotation:

Large-scale datasets are foundational for research and development in natural language processing. However, current approaches face three key challenges: (1) reliance on ambiguously licensed sources restricting use, sharing, and derivative works; (2) static dataset releases that prevent community contributions and diminish longevity; and (3) quality assurance processes restricted to publishing teams rather than leveraging community expertise. To address these limitations, we introduce two cont...

ID: 2508.02271v2 cs.CL, cs.AI

arXiv PDF

Показано 1961 - 1970 из 2042 записей