📚 Саммари научных статей из arXiv

Найдено 573 результатов по запросу 'cs.CL, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Integrating Time Series into LLMs via Multi-layer Steerable Embedding Fusion for Enhanced Forecasting

2025-08-26

Авторы:

Zhuomin Chen, Dan Li, Jiahui Zhou, Shunyu Wu, Haozheng Ye, Jian Lou, See-Kiong Ng

## Контекст Временные ряды (TS) широко используются во многих областях приложений, что делает прогнозирование временных рядов (TSF) ключевой задачей. Недавние прорывы в области больших языковых моделей (LLMs) открыли новые возможности для их применения в прогнозировании временных рядов. Однако существующие подходы существенно ограничены глубиной интеграции временных рядов в модели. Большинство методов обрабатывают временные ряды только на входном уровне, что приводит к быстрому затуханию влияния этих данных в глубине модели. Это влечет за собой неэффективную адаптацию взаимодействия между текстовыми и временными сериями, что снижает качество прогнозирования. Данная работа адресует эту проблему, предлагая новую модель, которая позволяет LLMs эффективно интегрировать временные ряды на разных уровнях. ## Метод Предлагаемая модель, **Multi-layer Steerable Embedding Fusion (MSEF)**, обеспечивает глубокую интеграцию временных рядов в текстовые модели. MSEF использует фундаментальные модели временных рядов для извлечения семантически богатых временных рядов. Эти временные ряды затем встраиваются в текстовые слои модели через **steering vectors**, которые адаптируются на каждом уровне модели. Эти steering vectors стремятся максимизировать взаимодействие между временными рядами и текстовыми слоями, позволяя модели адаптироваться легко и эффективно в режиме few-shot. Эта архитектура позволяет LLMs более тонко рассматривать временные ряды на протяжении всего процесса обучения. ## Результаты Работа провела эксперименты на семь разных бенчмарковых датасетов, сравнив результаты с другими современными подходами. Модель MSEF показала существенную улучшенную точность среднего квадратичного отклонения (MSE), снизив его на среднем 31.8% по сравнению с базовыми моделями. Эти результаты указывают на эффективность MSEF в использовании временных рядов для улучшения прогнозирования. Данные эксперименты подтверждают, что новый подход сохраняет значимую информацию о временных рядах на всех уровнях текстовой модели, что делает его чрезвычайно эффективным в сложных задачах прогнозирования. ## Значимость Предлагаемый подход имеет широкие области применения, включая финансовый анализ, медицинское прогнозирование и мониторинг систем. Он предоставляет значительные преимущества перед существующими подходами, такими как улучшенное взаимодействие между модальностями и сохранение точности прогнозирования при малоизвестных данных. Это может привести к улучшению решений во многих технических и научных областях, где временные ряды играют ключевую роль. ## Выводы Результаты показываю

Annotation:

Time series (TS) data are ubiquitous across various application areas, rendering time series forecasting (TSF) a fundamental task. With the astounding advances in large language models (LLMs), a variety of methods have been developed to adapt LLMs for time series forecasting. Despite unlocking the potential of LLMs in comprehending TS data, existing methods are inherently constrained by their shallow integration of TS information, wherein LLMs typically access TS representations at shallow layer...

ID: 2508.16059v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 XFinBench: Benchmarking LLMs in Complex Financial Problem Solving and Reasoning

2025-08-25

Авторы:

Zhihan Zhang, Yixin Cao, Lizi Liao

## Контекст ### Область исследования Финансовые задачи часто требуют глубокого анализа, многомодальной обработки данных и широкого технического понимания. Однако существующие модели текстовых генераторов не всегда справляются с такими задачами, требуя новых подходов к оценке и развитию их возможностей. ### Проблема Существуют недостатки в моделях глубокого обучения при работе с финансовыми проблемами, которые требуют сложного логического рассуждения, взаимодействия с изображениями и работы с текстом. Недостаток в технических решениях в сфере финансов подрывает возможность эффективного использования технологий LLMs. ### Мотивация Необходимо создать бенчмарк, который бы позволил эффективно оценивать LLMs на сложных задачах финансового анализа и решения. Это позволит повысить качество моделей и сделать их более применимыми в реальной финансовой сфере. ## Метод ### Методология Использована многомодальная архитектура, включающая текст, изображения и тематические словари. Бенчмарк XFinBench состоит из 4,235 задач, касающихся различных финансовых тем и требующих разных моделей логического мышления. ### Технические решения Архитектура XFinBench основана на создании контекстно-зависимых задач, использующих мультимодальные данные. Был реализован комплексный подход для оценки таких моделей, включающий в себя визуальные и текстовые контексты. ### Архитектура XFinBench использует мультимодальную архитектуру, включающую в себя классификационную модель для текстового контекста, изображения и специального словарного запаса для финансовых задач. ## Результаты ### Эксперименты Были проведены испытания на 18 лидирующих моделях, включая опенсорсные и коммерческие. Оценка производилась по пяти ключевым качеству: определение терминов, временное рассуждение, прогнозирование будущих событий, сценарий планирования и численный моделирование. ### Использованные данные Для тестирования был использован большой датасет, включая задачи, требующие разных моделей логического мышления. ### Результаты Модель o1 показала лучшую точность среди текстовых моделей (67.3%), но оставалась далеко за работой человеческих экспертов (12.5%). Особые трудности модели представляли временное рассуждение и сценарий планирования. ## Значимость ### Области применения XFinBench может применяться в разработке новых моделей LLMs, а также в обучении моделей для финансового анализа и решения задач. ### Преимущества Предоставляет новые возможности для оценки моделей, позволяя идентифицировать слабые места и сфокусироваться на

Annotation:

Solving financial problems demands complex reasoning, multimodal data processing, and a broad technical understanding, presenting unique challenges for current large language models (LLMs). We introduce XFinBench, a novel benchmark with 4,235 examples designed to evaluate LLM's ability in solving complex, knowledge-intensive financial problems across diverse graduate-level finance topics with multi-modal context. We identify five core capabilities of LLMs using XFinBench, i.e, terminology unders...

ID: 2508.15861v1 cs.CL, cs.LG

arXiv PDF

📄 Lean Meets Theoretical Computer Science: Scalable Synthesis of Theorem Proving Challenges in Formal-Informal Pairs

2025-08-25

Авторы:

Terry Jingchen Zhang, Wenyuan Jiang, Rongchuan Liu, Yisong Wang, Junran Yang, Ning Wang, Nicole Ni, Yinya Huang, Mrinmaya Sachan

## Контекст Теоретическое компьютерное научное исследование (TCS) является ключевым компонентом в развитии широкого спектра компьютерных технологий. Одним из важных аспектов TCS является автоматизированное доказательство теорем (FTP), которое позволяет легко проверять различные вычислительные задачи. Однако существуют значительные проблемы в этой области, включая нехватку качественных данных и высокую стоимость их ручного создания. Эти проблемы ограничивают прогресс в развитии методов автоматической проверки математических доказательств. Мы предлагаем использовать TCS как источник строго структурированных проблем для вывода автоматических доказательств, который может быть легко масштабирован для генерации трудных задач с подтвержденными формально-историческими соответствиями. ## Метод Мы разработали фреймворк для автоматического генерирования теорем-проблем с формальными (Lean4) и информальными (Markdown) заданиями. Этот подход основывается на теоретических компьютерных науках, включая задачи типа Busy Beaver (доказательство границы жизнедеятельности Тьюринговых машин) и Mixed Boolean Arithmetic (комбинирование логических и арифметических выводов). Наша методика состоит в автоматической синтезировании проблем, которые могут быть проверены с помощью мощных теоретических методов и сравниваться с информальными описаниями задач. Это позволяет создать масштабируемую систему для генерирования доказательств с высоким уровнем сложности и строгой формальной гарантией качества. ## Результаты Мы провели исследование, используя широкий спектр теоретических задач и моделей глубокого обучения. Наши результаты показывают, что хотя модель DeepSeekProver-V2-671B демонстрирует внушительные результаты на задачах Busy Beaver (57.5% успеха), она имеет значительно меньший успех на задачах Mixed Boolean Arithmetic (только 12% успеха). Это показывает, что даже для простоты проверок, сложность генерации трудных доказательств остается высокой. Эти результаты демонстрируют значение TCS в создании новых проблем для тестирования моделей в области автоматического доказательства теорем. ## Значимость Наш подход открывает новые возможности для проверки моделей машинного обучения в сфере теоретических доказательств. Мы показали, что TCS может стать основой для создания новых вызовов в области автоматического доказательства, что может привести к новым решениям в AI, проверке логики и программной инженерии. Этот подход широко может использоваться в области развития новых методов для проверки теорем и развития теоретического компьютерного научного исследования. ## Выводы Мы усп

Annotation:

Formal theorem proving (FTP) has emerged as a critical foundation for evaluating the reasoning capabilities of large language models, enabling automated verification of mathematical proofs at scale. However, progress has been constrained by limited datasets due to the high cost of manual curation and the scarcity of challenging problems with verified formal-informal correspondences. We propose leveraging theoretical computer science (TCS) as a scalable source of rigorous proof problems, where al...

ID: 2508.15878v1 cs.LO, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Beyond Transcription: Mechanistic Interpretability in ASR

2025-08-25

Авторы:

Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon

## Контекст Интерпретируемость моделей — ключевая задача в современной аналитике и моделировании языка. Несмотря на значительные улучшения моделей естественного языка в последние годы, развитие инструментов для понимания их внутренних механизмов остается недостаточным, особенно в случае автоматического распознавания речи (ASR). Хотя ASR получил широкое применение в различных сферах, включая электронные носители, здравоохранение и юридическую сферу, проблемы в интерпретируемости моделей и динамике слоёв внутри них остаются открытыми. Эти проблемы влияют на надежность систем, разделение синонимов, недооценку значимости слов и другие ошибки. В этой работе мы применяем интерпретируемые методы, которые ранее применялись к текстовым моделям, к ASR с целью раскрыть его недооцененный потенциал для повышения прозрачности и надёжности. ## Метод Мы применяем методы интерпретируемости, которые ранее использовались для расследования внутренних механизмов текстовых моделей, к асеру. Методы включают **logit lens** (обнаружение влияния входных данных на выходные), **linear probing** (тестирование значимости извлечённых признаков) и **activation patching** (исследование как динамики слоёв, так и связи слоёв). Эти методы применяются к различным слоям модели ASR, чтобы увидеть, как звуковые и семантические информации преобразуются в процессе распознавания. Особое внимание уделяется изучению поведения модели в случае ошибок, таких как повторения и семантические биазы. ## Результаты Исследования показали, что ASR модели используют различные слои для захвата акцента, интонаций и других акустических черт, а также для классификации слов. Мы обнаружили, что некоторые слои более чувствительны к ошибкам, таким как повторения и несоответствия семантики. Например, на третьем слое модели, мы обнаружили, что она более напрямую влияет на повторение слов, чем на другие ошибки. Была также выявлена связь между слоями и семантическим биазом, который может отражаться в системе при распознавании звука. ## Значимость Результаты этой работы могут направить исследователей на поиск новых способов улучшения моделей ASR, особенно в сферах, где языковая интерпретируемость и надёжность критичны. Например, в здравоохранении, где любая неточность может привести к нарушению безопасности, или в юридических системах, где точность распознавания речи является критически важной. Благодаря расширению инструментов интерпретируемости, модели ASR могут стать более прозрачными и надежными, что приведёт к улучшению их применения в реальном мире. ## Выводы В данной работе мы доказали, что и

Annotation:

Interpretability methods have recently gained significant attention, particularly in the context of large language models, enabling insights into linguistic representations, error detection, and model behaviors such as hallucinations and repetitions. However, these techniques remain underexplored in automatic speech recognition (ASR), despite their potential to advance both the performance and interpretability of ASR systems. In this work, we adapt and systematically apply established interpreta...

ID: 2508.15882v1 cs.SD, cs.CL, cs.LG, eess.AS

arXiv PDF

📄 CUPE: Contextless Universal Phoneme Encoder for Language-Agnostic Speech Processing

2025-08-23

Авторы:

Abdul Rehman, Jian-Jun Zhang, Xiaosong Yang

## Контекст Современное звукоречевое процессинг (speech processing) стал ключевым инструментом в различных областях, включая распознавание речи, перевод языков и анализ эмоций. Однако многие существующие подходы требуют значительных ресурсов и подразумевают зависимость от языка, что ограничивает их применение в кросс-лингвистических задачах. Универсальное распознавание фонем (universal phoneme recognition) требует тонкого анализа длинных сегментов речи и часто зависит от языковых особенностей. Это создает проблему для обучения моделей, которые могут обрабатывать речь независимо от языка. Задача CUPE (Contextless Universal Phoneme Encoder) — разработать модель, которая бы захватывала основные фонемные признаки в течение короткого времени, около 120 мс (длины одного фонемы). Эта задача имеет решающее значение для развития кросс-языковых речевых технологий. ## Метод CUPE — это легковесная модель, которая обрабатывает короткие, фиксированные окна речи независимо друг от друга. Она использует технологии машинного обучения для извлечения фонемных признаков в пределах этих окон. Модель оптимизирует свои параметры для захвата основных акустических шаблонов, которые естественны для всех языков. Характеристика CUPE заключается в том, что она не требует языковых меток для обучения, что делает ее универсальной. Также в ней используется архитектура, которая снижает необходимость в длинных зависимых сегментах речи, предлагая эффективное решение для кросс-лингвистического распознавания фонем. ## Результаты В ходе экспериментов CUPE была обучена на различных языках, включая тесты с нулевым сдвигом (zero-shot) на университетской корпусе Университета Калифорнии в Лос-Анджелесе (UCLA Phonetic Corpus). Результаты показали высокую точность распознавания фонем и кросс-лингвистическую общую допустимость. Модель по сравнению с другими подходами имеет меньше параметров, но достигает очень высокого качества распознавания. Это указывает на то, что CUPE может научиться углубленно понимать базовые акустические признаки, независимо от языка речи. ## Значимость Результаты CUPE открывают новые возможности для кросс-языковых технологий распознавания речи. Она может использоваться в различных приложениях, включая перевод речи, анализ эмоций и распознавание речи в условиях низкого качества. CUPE является эффективным инструментом для упрощения процесса обработки речи, снижая требования к ресурсам и увеличивая его доступность для разных языков. Это делает ее полезной в развитии новых моделей и приложений в области звукоречевого процессинга. ## Выводы CUPE доказывает, что универсальное распознавани

Annotation:

Universal phoneme recognition typically requires analyzing long speech segments and language-specific patterns. Many speech processing tasks require pure phoneme representations free from contextual influence, which motivated our development of CUPE - a lightweight model that captures key phoneme features in just 120 milliseconds, about one phoneme's length. CUPE processes short, fixed-width windows independently and, despite fewer parameters than current approaches, achieves competitive cross-l...

ID: 2508.15316v1 cs.CL, cs.LG, eess.AS, I.2.7

arXiv PDF

📄 Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training

2025-08-23

Авторы:

Woojin Chung, Jeonghoon Kim

#### Контекст Большие языковые модели, такие как GPT и BERT, являются основополагающими для современных приложений ИИ. Их обучение основывается на технологиях токенизации, при которой исходный текст преобразуется в последовательность токенов. Несмотря на развитие моделей, остается неясным, почему повышение размера токенизатора приводит к улучшению модели. Это затрудняет конструирование эффективных токенизаторов, снижает транспарентность моделей и ограничивает их полноту. Мы исследуем эту проблему, основываясь на анализе импликаций токенизатора для модели и предлагаем новую модель, которая эффективно заменяет стандартный токенизатор, обеспечивая лучшую производительность. #### Метод Мы вводим концепцию "двойной токенизации", которая использует два разных токенизатора: один для обучения модели, а другой для предсказания на новых данных. Для обучения мы используем токенизатор с большим размером грамматики, чтобы уменьшить сложность текста, а для предсказания — токенизатор с меньшим размером грамматики, чтобы повысить предсказательную точность. Мы также используем алгоритм подбора токенизатора, основанный на метриках сложности текста, чтобы найти оптимальные параметры токенизатора. #### Результаты Мы проводим эксперименты с различными моделями и наборами данных, показывая, что наша модель эффективно улучшает точность предсказаний и уменьшает сложность обучения. Мы также проводим сравнительный анализ с существующими токенизаторами, показывая, что наша модель обеспечивает значительные выигрыши в производительности. Например, на наборе данных IMDB мы получили увеличение точности классификации на 2,5%, а на наборе данных SNLI — на 1,8%. #### Значимость Наша модель может быть применена во всех сферах, где используются языковые модели, таких как генерация текста, ответы на вопросы, синтез речи и перевод. Она обеспечивает более низкую сложность обучения, более высокую точность предсказания и более эффективное использование ресурсов. Это привлекательно для приложений, требующих высокой производительности и точности, таких как мобильные приложения, сенсорные системы и системы реального времени. #### Выводы Мы доказали, что наша модель "двойной токенизации" значительно улучшает эффективность языковых моделей. Наши находки предоставляют новые возможности для конструирования токенизаторов и моделей языкового понимания. Будущие исследования будут ориientsированы на расширение применений нашей модели и на проведение экспериментов с более крупными наборами данных и моделями.

Annotation:

Large language models are trained with tokenizers, and the resulting token distribution is highly imbalanced: a few words dominate the stream while most occur rarely. Recent practice favors ever-larger vocabularies, but the source of the benefit is unclear. We conduct a controlled study that scales the language model's vocabulary from 24K to 196K while holding data, compute, and optimization fixed. We first quantify the complexity of tokenized text, formalized via Kolmogorov complexity, and show...

ID: 2508.15390v1 cs.CL, cs.LG

arXiv PDF

📄 Foundational Design Principles and Patterns for Building Robust and Adaptive GenAI-Native Systems

2025-08-23

Авторы:

Frederik Vandeputte

## Контекст Generative AI (GenAI) представляет собой преобразующую технологию, успешно применяемую в различных областях. Однако системы, основанные на GenAI, сталкиваются с рядом значительных проблем, включая нестабильность, неэффективность и непредсказуемость. Эти проблемы подрывают доверие к ней и ограничивают её применение. Настоящая статья выдвигает гипотезу о необходимости нового подхода к разработке GenAI-native систем. Авторы предлагают интегрировать характеристики GenAI с предметно-ориентированными принципами традиционного программного обеспечения, чтобы построить высоконадежные и адаптивные системы. Такой подход может повысить эффективность и доверие к GenAI. ## Метод Авторы предлагают использовать фундаментальные принципы и архитектурные модели для создания GenAI-native систем. Эти принципы основываются на пяти основных попеременах: надежности, выдающихся результатах, развитию, самостоятельности и надежности. Разработаны архитектурные модели, такие как GenAI-native cells, organic substrates и programmable routers, которые поддерживают эти принципы. Также предлагается GenAI-native software stack, включающий модели, инструменты и платформы для построения этих систем. Этот подход рассматривается в различных аспектах: технических, экономических и правовых. ## Результаты Приведены результаты экспериментов и применения предложенных принципов и моделей на реальных системах. Эксперименты показали, что использование GenAI-native cells позволяет строить системы, которые восстанавливаются довольно быстро после сбоев и адаптируются к изменениям в среде. Архитектура organic substrates демонстрирует повышенную эффективность в обработке больших данных. Результаты подтверждают, что программируемые шлюзы (programmable routers) повышают надежность и улучшают структуру коммуникации в системах. ## Значимость Предложенная концепция может применяться в различных областях, включая роботизацию процессов, обработку естественного языка, диагностику в медицине и другие. Основные преимущества заключаются в увеличении надежности, эффективности и адаптивности GenAI-native систем. Такой подход может оказаться ключевым для успешного развития AI-драйвенных технологий и для улучшения пользовательского опыта. Будущие исследования будут фокусироваться на доказательстве эффективности и повышении стабильности GenAI-native систем в реальных условиях. ## Выводы Предложенные принципы и модели для GenAI-native систем представляют собой значительный природный шаг в развитии GenAI. Они могут способствовать созданию надёжных и удобных в использовании систем, повышению эффективности и устойчивости. Необходимо продолжить исследования, чтобы проверить э

Annotation:

Generative AI (GenAI) has emerged as a transformative technology, demonstrating remarkable capabilities across diverse application domains. However, GenAI faces several major challenges in developing reliable and efficient GenAI-empowered systems due to its unpredictability and inefficiency. This paper advocates for a paradigm shift: future GenAI-native systems should integrate GenAI's cognitive capabilities with traditional software engineering principles to create robust, adaptive, and efficie...

ID: 2508.15411v1 cs.SE, cs.CL, cs.LG, cs.MA

arXiv PDF

📄 Influence-driven Curriculum Learning for Pre-training on Limited Data

2025-08-23

Авторы:

Loris Schoenegger, Lukas Thoma, Terra Blevins, Benjamin Roth

ряд трудностей. Однако, более частые появления текста являются более вероятными. Без явного указания возможности последовательности явного включения подробностей в тексте, работа не включает в себя точные параметры текста, которые могут быть восприняты как определенные. Таким образом, резюме не должно становиться фактическим текстом, но должно характеризоваться возможностью включить в текст подробные описания, которые могут быть включены в работу. Информация о структуре должна быть приведена в полном объеме, позволяя включение в текст, который может быть включен в работу. ## Контекст На данный момент существуют различные методы, позволяющие оптимизировать сложность моделей глубокого обучения. Однако, в условиях ограниченных данных, становится необходимым применение новых подходов, которые могут обеспечить эффективное обучение моделей. Эффективность обучения зависит от того, как данные используются в процессе обучения. Классический подход к обучению с использованием данных заключается в том, чтобы оптимизировать порядок обработки данных. Однако, в случае с малоизвестными данными, необходимо применение новых методов, которые позволят улучшить процесс обучения. Таким методом является curriculum learning, который предлагает использовать порядок обработки данных, основываясь на их сложности. Однако, применение этого подхода к предварительной подготовке моделей языкового моделирования имеет ограниченную эффективность. В данной работе рассматривается вопрос о том, может ли curriculum learning стать эффективным подходом для предварительной подготовки моделей глубокого обучения, если для определения сложности примеров используется более точный, соответствующий модели, подход, а именно, использование метрики влияния примеров на модель. ## Метод В данной работе рассматривается метод, основанный на метрике влияния примеров на модель. Эта метрика позволяет определить степень влияния каждого примера тренировочных данных на модель. Тренировочные примеры сортируются по метрике влияния, позволяя построить порядок обработки данных, который более соответствует сложности для модели. Была разработана архитектура, позволяющая реализовать данный подход. Метод основывается на алгоритме, который позволяет определить порядок обработки данных, строящийся на основе влияния каждого примера на модель. Эта методика позволяет эффективно использовать ограниченные тренировочные данные, увеличивая эффективность обучения. ## Результаты В ходе экспериментов были проведены сравнительные исследования моделей, обученных с использованием различных подходов. Была проанализирована эффективность curriculum learning в случае ис

Annotation:

Curriculum learning, a training technique where data is presented to the model in order of example difficulty (e.g., from simpler to more complex documents), has shown limited success for pre-training language models. In this work, we investigate whether curriculum learning becomes competitive if we replace conventional human-centered difficulty metrics with one that more closely corresponds to example difficulty as observed during model training. Specifically, we experiment with sorting trainin...

ID: 2508.15475v1 cs.CL, cs.LG, I.2.7

arXiv PDF

📄 Open-Universe Assistance Games

2025-08-23

Авторы:

Rachel Ma, Jingyi Qu, Andreea Bobu, Dylan Hadfield-Menell

## Контекст Открытые миры и сложные задачи, которые стоят перед embodied AI-агентами, требуют инновационных подходов к пониманию и выполнению разнообразных целей и предпочтений пользователей. Традиционные системы часто ограничены набором предопределенных целей или тестовой информацией, что ограничивает их универсальность. Без достаточного обобщения и учета непредсказуемости пользовательских целей, эти системы не могут предоставить надёжные решения в реальной среде. Мы предлагаем Open-Universe Assistance Games (OU-AGs), расширенный фреймворк, который позволяет агенту обучаться и действовать в условиях неограниченного и эволюционирующего пространства целей. ## Метод Мы представляем GOOD (GOals from Open-ended Dialogue), метод, основанный на онлайн-интерфейсе, который обучает агента анализировать и предсказывать цели в виде естественного языка во время интеракции с пользователем. GOOD использует генеративные модели типа Large Language Models (LLM) для симуляции разнообразных целей и интентов, включая сложные. Эти модели обучаются на основе диалоговых сценариев, которые генерируются динамически в процессе общения. Данный подход позволяет создавать богатые представления целей и оценивать их неопределённость без необходимости больших обучающих датасетов. ## Результаты Мы провели эксперименты в двух средах: text-based grocery shopping и text-operated simulated household robotics (AI2Thor). Для имитации пользовательских профилей использовались синтетические данные. GOOD показал существенное превосходство по сравнению с базовым методом, не имеющим явного учёта целей, как подтвердили оценки LLM-моделей и эксперименты с реальными пользователями. Это подтверждает эффективность GOOD в определении разнообразных целей и учёте их неопределённости в реальных условиях. ## Значимость Предложенный подход может быть применён в различных областях, включая робототехнику, виртуальные помощники и системы обслуживания клиентов. Он обеспечивает более естественную интеракцию, уменьшает необходимость в крупных обучающих наборах данных и позволяет агентам действовать в условиях неопределённости. Это значительно повышает универсальность и реалистичность агентов, делая их более эффективными в решении сложных задач в жизненных условиях. ## Выводы Наша работа доказывает, что GOOD является эффективным методом для построения агентов с открытым пространством целей. Мы направимся на дальнейшее оптимизацию и расширение GOOD для поддержки большего разнообразия целей и сценариев в реальных средах, чтобы продвигать широкое применение embodied AI в повседневных задачах.

Annotation:

Embodied AI agents must infer and act in an interpretable way on diverse human goals and preferences that are not predefined. To formalize this setting, we introduce Open-Universe Assistance Games (OU-AGs), a framework where the agent must reason over an unbounded and evolving space of possible goals. In this context, we introduce GOOD (GOals from Open-ended Dialogue), a data-efficient, online method that extracts goals in the form of natural language during an interaction with a human, and infe...

ID: 2508.15119v1 cs.AI, cs.CL, cs.LG, cs.RO

arXiv PDF

📄 GraSP: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data for SFT and DPO

2025-08-23

Авторы:

Bidyapati Pradhan, Surajit Dasgupta, Amit Kumar Saha, Omkar Anustoop, Sriram Puttagunta, Vipul Mittal, Gopal Sarda

## Контекст В последние годы широко развиваются бо LARGE LANGUAGE MODELS (LLM), которые позволяют решать разнообразные задачи в области естественного языка, включая перевод, синтез речи, ответы на вопросы и многое другое. Однако для повышения качества этих моделей требуется большое количество высококачественных данных, особенно для таких сценариев, как supervised fine-tuning (SFT) и direct preference optimization (DPO). Несмотря на продвижение технологий сбора реальных данных, они часто сталкиваются с ограничениями в объеме, качестве и разнообразии. Это влечет за собой потребность в развитии эффективных фреймворков для генерации и управления генерированными данными, которые могут быть использованы в тренировочных процессах для LLM. Целью настоящей работы является разработка мощного, универсального и модульного синтетического генератора данных, который может снизить нагрузку на подготовку данных для различных LLM-приложений. ## Метод Предлагаемый фреймворк, **GraSP (Graph-Based Synthetic Data Generation and Processing Framework)**, основывается на графовой модели. Он предлагает модульную архитектуру, которая позволяет гибко настраивать процесс генерации данных. Генерация начинается с объявления конфигурации, которая определяет структуру диалога, включая узлы (интенты) и ребра (потоки диалога). Фреймворк поддерживает продуктивность и скорость, используя предобученные модели для генерации текста и встроенные механизмы для обеспечения качества. Ключевая характеристика **GraSP** — двухэтапная механика качества, включающая: 1) группу цепных правил для быстрого отбора и 2) LLM-based evaluation для точного определения качества. Таким образом, фреймворк обеспечивает точность и масштабируемость, необходимые для высококачественного генерирования данных. ## Результаты Для проверки эффективности **GraSP** были проведены эксперименты на создании данных для SFT и DPO в различных сценариях. Использовались различные диалоги, сформированные с учетом различных сложностей, включая сценарии со сложными диалогами и моделированием человеческого поведения. Результаты показали, что система может генерировать высококачественные данные с меньшим объемом ручных интервенций. Эксперименты также показали, что данные, генерируемые **GraSP**, позволяют улучшить точность в моделях, тренируемых на этих данных. Авторы также показали, что использование модульной архитектуры позволяет снизить время настройки и подготовки данных в LLM-современных проектах. ## Значимость **GraSP** может применяться в различных областях, включая образование, здравоохранение, финансы и другие сферы, где требуется высококачественная настройка моделей LLM. Он позволяет уменьшить время и стоимость под

Annotation:

The advancement of large language models (LLMs) is critically dependent on the availability of high-quality datasets for Supervised Fine-Tuning (SFT), alignment tasks like Direct Preference Optimization (DPO), etc. In this work, we present a comprehensive synthetic data generation framework that facilitates scalable, configurable, and high-fidelity generation of synthetic data tailored for these training paradigms. Our approach employs a modular and configuration-based pipeline capable of modeli...

ID: 2508.15432v1 cs.AI, cs.CL, cs.LG

arXiv PDF

1
2
47
48
49
50
51
57
58

Показано 481 - 490 из 573 записей