📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 ZPD-SCA: Unveiling the Blind Spots of LLMs in Assessing Students' Cognitive Abilities

2025-08-22

Авторы:

Wenhan Dong, Zhen Sun, Yuemeng Zhao, Zifan Peng, Jun Wu, Jingyi Zheng, Yule Liu, Xinlei He, Yu Wang, Ruiming Wang, Xinyi Huang, Lei Mo

## Контекст Хотя большие языковые модели (LLMs) продемонстрировали свою эффективность в области образовательных приложений, их способность точно оценивать уровень схожести между материалом для чтения и способностями учащихся остается недостаточно изученной. Эта проблема является критической, так как основательным принципом образовательного процесса является Зона Ближайшего Развития (ZPD), которая предполагает соответствие материалов для обучения развитию каждого учащегося. Однако существует ограниченное количество исследований, которые были бы посвящены рассмотрению способности LLMs оценивать сложность чтения в зависимости от возраста учащихся. Эта проблема особенно актуальна в контексте китайского языка, где естественные характеристики языка и культурные особенности могут существенно сказываться на развитии учащихся. В нашем исследовании мы предлагаем ZPD-SCA, подробный бенчмарк для оценки сложности текста для китайского языка, разработанный с учетом ZPD. ## Метод ZPD-SCA был создан с помощью 60 особых учителей высшей квалификации, которые ранжировали тексты в соответствии с развитием учащихся. Мы использовали данные, собранные из стандартных классов, чтобы создать базу для оценки. Для сравнения использованы модели LLMs, включая Qwen-max и GLM, которые прошли тестирование в задачах нулевого выстрела и с контекстными примерами. Мы точно измерили разницу в производительности с целью выявить уязвимости и преимущества моделей в области образовательных приложений. ## Результаты Наши результаты показали, что LLMs сталкиваются с ограничениями при нулевом выстреле, так как Qwen-max и GLM даже не достигли случайного угадывания. Однако при использовании контекстных примеров, производительность моделей значительно повысилась. Наиболее продвинутые модели LLMs достигли почти двойного увеличения точности по сравнению с нулевым выстрелом. Тем не менее, мы обнаружили систематические направленные ошибки, что указывает на трудности моделей в точной оценке сложности текста в соответствии с развитием учеников. Эти ошибки были особенно заметны при работе с разными жанрами текстов. ## Значимость ZPD-SCA может служить основополагающим инструментом для повышения точности оценки сложности чтения в LLMs. Мы видим возможность для развития более точных моделей, которые будут учитывать развитие учащихся в образовательных приложениях. Это может привести к созданию более эффективных инструментов для оценки и развития студентов, особенно в китайской области образования. ## Выводы Мы демонстрируем, что ZPD-SCA может стать ключевым инструментом для изучения и улучшения LLMs в области образовате

Annotation:

Large language models (LLMs) have demonstrated potential in educational applications, yet their capacity to accurately assess the cognitive alignment of reading materials with students' developmental stages remains insufficiently explored. This gap is particularly critical given the foundational educational principle of the Zone of Proximal Development (ZPD), which emphasizes the need to match learning resources with Students' Cognitive Abilities (SCA). Despite the importance of this alignment, ...

ID: 2508.14377v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Credence Calibration Game? Calibrating Large Language Models through Structured Play

2025-08-22

Авторы:

Ke Fang, Tianyi Zhao, Lu Cheng

#### Контекст Large Language Models (LLMs) широко применяются в решении задач, требующих высокой надёжности и точности, таких как юридические системы, здравоохранение и финансы. Однако, несмотря на высокую точность, LLMs часто страдают от проблемы недооценки или переоценки уверенности в своих ответах. Такое поведение может привести к серьёзным последствиям, особенно в критичных для принятия решений сферах. Несмотря на существующие методы повышения калибровки моделей, многие из них требуют дополнительной супервайзированной информации или дополнительных параметров, что усложняет их применение в реальных ситуациях. Наша мотивация заключается в разработке эффективного, простого в использовании и повсеместно применимого метода калибровки, который не требует дополнительных ресурсов. #### Метод Мы предлагаем Credence Calibration Game (CCG) — интерактивную игру с заданными правилами, в косвенном образе напоминающую игру "где-то здесь". Игра представляет собой систему обучения с подкреплением, в которой LLM выступает в роли игрока, получая награду за правильные ответы и наказание за неверные. Основная идея заключается в том, чтобы LLM предсказывала уверенность в своих ответах и получала обратную связь в виде значения, либо совпадения, либо отличия от истинного ответа. Этот подход позволяет модели многократно улучшать свои предсказания, обучаясь на ответах. Игра состоит из серии задач, структурированных таким образом, чтобы модель могла запоминать уровень своей уверенности и корректировать её в ходе игры. #### Результаты Мы проверили нашу модель на нескольких LLMs, включая GPT-3 и RoBERTa, применяя различные наборы данных, в том числе прикладные задачи, такие как классификация и генерация текста. Мы доказали, что наш метод повышает калибровку моделей, снижая ошибки в прогнозах и улучшая уровень уверенности. В экспериментах мы использовали несколько игровых конфигураций, в том числе различные виды заданий и сложности. Результаты показали, что наша модель превосходит существующие методы калибровки в тестах на доверительность и правильности ответов. #### Значимость Наши результаты демонстрируют, что игровой подход может быть применён для калибровки больших языковых моделей, не требуя дополнительных ресурсов или супервайзированных данных. Метод может быть применён в критичных для принятия решений сферах, таких как здравоохранение, финансы и юриспруденция, где надёжные и калиброванные предсказания ключевые. Мы также отмечаем, что наш подход может быть расширен для калибровки других типов моделей искусственного интеллекта, таких как регрессионные модели или нейросети. #### Выво

Annotation:

As Large Language Models (LLMs) are increasingly deployed in decision-critical domains, it becomes essential to ensure that their confidence estimates faithfully correspond to their actual correctness. Existing calibration methods have primarily focused on post-hoc adjustments or auxiliary model training; however, many of these approaches necessitate additional supervision or parameter updates. In this work, we propose a novel prompt-based calibration framework inspired by the Credence Calibrati...

ID: 2508.14390v1 cs.CL, cs.AI

arXiv PDF

📄 DEPTH: Hallucination-Free Relation Extraction via Dependency-Aware Sentence Simplification and Two-tiered Hierarchical Refinement

2025-08-22

Авторы:

Yupei Yang, Fan Feng, Lin Yang, Wanxi Deng, Lin Qu, Biwei Huang, Shikui Tu, Lei Xu

## Контекст Современные большие языковые модели (LLM) доказали свою эффективность в решении задач реляционного выделения. Однако, несмотря на высокую точность в классификации семантических отношений, эти модели часто страдают от проблемы **"hallucination"** (выдуманности) — сущности, которые не существуют в данных, но все же упоминаются в результатах. Это происходит в ситуациях с синтаксически сложными предложениями или неоднозначными семантическими контекстами. Такие ошибки приводят к предсказанию сущностных связей, которые могут существенно замедлить процесс построения информационных графов и разрушить надежность системы. В этой работе мы сосредоточились на решении этих проблем, предлагая фреймворк DEPTH, который способен уменьшить ошибки и добиться более точных результатов. ## Метод Фреймворк DEPTH основывается на двух главных компонентах: 1) **Dependency-aware Sentence Simplification (DEP)** и 2) **Two-tiered Hierarchical Refinement (THR)**. 1. **DEP** — это модуль, ориентированный на упрощение предложений, призванный свести сложные синтаксические структуры к более простой форме, сохраняя важные семантические отношения. Для этого он использует концепции **Dependency Paths**, которые позволяют выделить важные сущности и отношения. Это позволяет уменьшить шум и улучшить устойчивость предсказаний. 2. **THR** — это двухуровневый подход, который включает локальное и глобальное рефинейммент. В **локальном рефинеймменте**, каждый парный контекст между сущностями оценивается отдельно, чтобы выявить искажения в предыдущем этапе. Затем, в **глобальном этапе**, все предсказания агрегируются, и система пересматривает все отношения в целостном контексте, устраняя случайные ошибки и добавляя контекстные коррекции. В дополнение, мы предлагаем **Causality-driven Reward Model**, который уменьшает влияние "spurious correlations" (случайных соотношений), например, когда модель "запоминает" некорректные сопоставления в процессе fine-tuning. Это позволяет добиться более качественной обучения с помощью reinforcement learning (RL) и human feedback (HF). ## Результаты Мы провели эксперименты на 6 различных бенчмарках (датасетах), включая **TACRED**, **NYT**, **ReVerb45K**, и др. Наша модель DEPTH показала следующие результаты: - **Accuracy**: DEPTH повысила F1-меру в среднем на 17.2% по сравнению с современными стандартными моделями. - **Hallucination Rate**: Мы существенно уменьшили халлуцинационный фактор до 7.0%, что значительно превышает исследовательские модели. - **Robustness**: Модель показала себя устойчивой к недостаткам в данных и синтаксическим сложностям, что было доказано в анализе на загрязнённых и нерегулярных данных. Эти результаты подтверждают, что DEPTH эффективно справля

Annotation:

Relation extraction enables the construction of structured knowledge for many downstream applications. While large language models (LLMs) have shown great promise in this domain, most existing methods concentrate on relation classification, which predicts the semantic relation type between a related entity pair. However, we observe that LLMs often struggle to reliably determine whether a relation exists, especially in cases involving complex sentence structures or intricate semantics, which lead...

ID: 2508.14391v1 cs.CL, cs.AI

arXiv PDF

📄 Cognitive Surgery: The Awakening of Implicit Territorial Awareness in LLMs

2025-08-22

Авторы:

Yinghan Zhou, Weifeng Zhu, Juan Wen, Wanli Peng, Zhengxian Wu, Yiming Xue

## Контекст Large Language Models (LLMs) — высокоскоростные и мощные инструменты для обработки текстов, но их работа всё еще остается неизящной, особенно в задачах, требующих осознания собственного текста. Одной из таких задач является определение того, является ли заданный текст самостоятельно сгенерированным моделью. Несмотря на то, что LLMs показали успех в этой задаче при использовании Pair Presentation Paradigm (PPP), в ситуации Individual Presentation Paradigm (IPP) их показатели снижаются довольно существенно. Эта проблема может быть связана с недостаточной развитостью внутреннего восприятия текстов, которое в научной литературе обозначено как Implicit Territorial Awareness (ITA). Наша работа направлена на исследование этой проблемы и поиск способа исправить этот недостаток, чтобы улучшить возможности LLMs в IPP. ## Метод Мы предлагаем метод, названный Cognitive Surgery (CoSur), который включает в себя следующие модули: **representation extraction**, **territory construction**, **authorship discrimination** и **cognitive editing**. Модуль **representation extraction** отвечает за извлечение характеристик текстов, а **territory construction** — за создание специфического пространства, в котором можно отличить тексты, сгенерированные моделью и тексты, сгенерированные другими источниками. Используя **authorship discrimination**, мы проводим авторское определение, а **cognitive editing** позволяет модели самоулучшаться в процессе работы. Наша архитектура поддерживает эффективное повышение точности в IPP-сценарии. ## Результаты Мы провели эксперименты, используя три разных модели LLM, и сравнили их результаты с использованием нашего метода CoSur. Результаты показали, что наша методика улучшает производительность LLMs в IPP-сценарии, достигнув следующих результатов: модель 1 — 83.25%, модель 2 — 66.19%, модель 3 — 88.01%. Эти результаты показывают, что CoSur повышает точность определения, что делает решение более надежным и эффективным. ## Значимость Наша работа имеет значительное значение в области применения моделей текстового понимания. Улучшенная возможность определения авторства может пригодиться в различных приложениях, таких как детекция поддельности текстов, анализ авторских стилей, автоматизированные системы обработки текстов и другие. CoSur не только улучшает выполнение конкретной задачи но и демонстрирует потенциал для дальнейшего исследования творческого поведения моделей текстового понимания. ## Выводы Выводы нашей работы заключаются в следующем: мы успешно показали, что Implicit Territorial Awareness может быть "пробуждена" в LLMs с помощью CoSur. Это не только улучшает производительность моделей в IPP, но и открывает пути для дальнейшего исследования возможностей LLMs в задачах текстового понимания. Мы планируем продолжить работу над улучшением нашей методики и её при

Annotation:

Large language models (LLMs) have been shown to possess a degree of self-recognition capability-the ability to identify whether a given text was generated by themselves. Prior work has demonstrated that this capability is reliably expressed under the Pair Presentation Paradigm (PPP), where the model is presented with two texts and asked to choose which one it authored. However, performance deteriorates sharply under the Individual Presentation Paradigm (IPP), where the model is given a single te...

ID: 2508.14408v1 cs.CL, cs.AI

arXiv PDF

📄 NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

2025-08-22

Авторы:

NVIDIA, :, Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adithya Renduchintala, Aditya Malte, Akhiad Bercovich, Akshay Hazare, Alejandra Rico, Aleksander Ficek, Alex Kondratenko, Alex Shaposhnikov, Alexander Bukharin, Ali Taghibakhshi, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amy Shen, Andrew Tao, Ann Guan, Anna Shors, Anubhav Mandarwal, Arham Mehta, Arun Venkatesan, Ashton Sharabiani, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Banghua Zhu, Barnaby Simkin, Bilal Kartal, Bita Darvish Rouhani, Bobby Chen, Boris Ginsburg, Brandon Norick, Brian Yu, Bryan Catanzaro, Charles Wang, Charlie Truong, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christian Munley, Christopher Parisien, Dan Su, Daniel Afrimi, Daniel Korzekwa, Daniel Rohrer, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Dima Rekesh, Dina Yared, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Eileen Long, Elliott Ning, Eric Chung, Erick Galinkin, Evelina Bakhturina, Gargi Prasad, Gerald Shen, Haifeng Qian, Haim Elisha, Harsh Sharma, Hayley Ross, Helen Ngo, Herman Sahota, Hexin Wang, Hoo Chang Shin, Hua Huang, Iain Cunningham, Igor Gitman, Ivan Moshkov, Jaehun Jung, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jian Zhang, Jiaqi Zeng, Jimmy Zhang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jonathan Cohen, Joseph Jennings, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kezhi Kong, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Kushan Ahmadian, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Luis Vega, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Mark Cai, Markus Kliegl, Marta Stepniewska-Dziubinska, Matvei Novikov, Mehrzad Samadi, Meredith Price, Meriem Boubdir, Michael Boone, Michael Evans, Michal Bien, Michal Zawalski, Miguel Martinez, Mike Chrzanowski, Mohammad Shoeybi, Mostofa Patwary, Namit Dhameja, Nave Assaf, Negar Habibi, Nidhi Bhatia, Nikki Pope, Nima Tajbakhsh, Nirmal Kumar Juluru, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Oluwatobi Olabiyi, Pablo Ribalta, Padmavathy Subramanian, Parth Chadha, Pavlo Molchanov, Peter Dykas, Peter Jin, Piotr Bialecki, Piotr Januszewski, Pradeep Thalasta, Prashant Gaikwad, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi Mahabadi, Rajen Patel, Ran El-Yaniv, Ranjit Rajan, Ria Cheruvu, Rima Shahbazyan, Ritika Borkar, Ritu Gala, Roger Waleffe, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Sahil Jain, Samuel Kriman, Sanjeev Satheesh, Saori Kaji, Sarah Yurick, Saurav Muralidharan, Sean Narenthiran, Seonmyeong Bak, Sepehr Sameni, Seungju Han, Shanmugam Ramasamy, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shizhe Diao, Shreya Gopal, Shrimai Prabhumoye, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Siddhartha Jain, Somshubra Majumdar, Soumye Singhal, Stefania Alborghetti, Syeda Nahida Akter, Terry Kong, Tim Moon, Tomasz Hliwiak, Tomer Asida, Tony Wang, Tugrul Konuk, Twinkle Vashishth, Tyler Poon, Udi Karpas, Vahid Noroozi, Venkat Srinivasan, Vijay Korthikanti, Vikram Fugro, Vineeth Kalluru, Vitaly Kurin, Vitaly Lavrukhin, Wasi Uddin Ahmad, Wei Du, Wonmin Byeon, Ximing Lu, Xin Dong, Yashaswi Karnati, Yejin Choi, Yian Zhang, Ying Lin, Yonggan Fu, Yoshi Suhara, Zhen Dong, Zhiyu Li, Zhongbo Zhu, Zijia Chen

## Контекст Область исследования фокусируется на развитии моделей языка, которые обеспечивают высокую точность и быструю обработку задач рассуждения. Несмотря на прогрессы в области трансформеров, существуют проблемы, связанные с высокими затратами ресурсов и ограниченной скоростью обработки больших объемов данных. Эти ограничения становятся критичными при работе с задачами, требующими длинных итераций размышления (long-thinking traces). Направление исследования заключается в разработке моделей, которые сочетают высокую эффективность с максимальной точностью, особенно для устройств с ограниченными ресурсами. ## Метод Разработка Nemotron-Nano-9B-v2 основывается на Nemotron-H архитектуре, где большая часть слоёв самоп paжения (self-attention) трансформера заменена на Mamba-2 слои. Это позволило значительно улучшить скорость выполнения модели при работе с длинными цепями рассуждений. Модель была предварительно обучена на 20 триллионов токенов с использованием FP8 технологии. Далее, с помощью мини-трансформерского подхода (Minitron), модель была сжата и дистиллирована до 9 миллиардов параметров. Это разрешило её эффективное применение на устройствах с ограниченной памятью, таких как NVIDIA A10G GPU. ## Результаты В экспериментах Nemotron-Nano-9B-v2 показала значительное улучшение пропускной способности при работе с задачами рассуждения (reasoning workloads). На проверяющих наборах данных, таких как Reasoning Bench, она достигла точности, сравнимой или лучшей, чем модели размера 9 миллиардов параметров, такие как Qwen3-8B. На задачах, требующих длинных входных и выходных последовательностей (8k входа, 16k выхода), модель достигла до 6 раз вышей производительности по сравнению с аналогами. Эти результаты достигнуты благодаря стратегии сжатия и дистилляции, которая позволила сохранить точность при минимизации затрат ресурсов. ## Значимость Модель Nemotron-Nano-9B-v2 может использоваться в различных областях, где эффективность вычислений и высокая точность критичны, например, в робототехнике, медицине, интеллектуальных системах рекомендаций. Особым преимуществом является возможность работы на мобильных устройствах и на устройствах с ограниченными ресурсами без потери качества. Эта модель подсказывает возможность значительного улучшения широкого спектра приложений, где сейчас применяются более ресурсоёмкие модели трансформеров. ## Выводы Результаты показывают, что Nemotron-Nano-9B-v2 сочетает высокую точность и производительность в области рассуждения. Будущие исследования будут направлены на дальнейшее улучшение модели, в том чис

Annotation:

We introduce Nemotron-Nano-9B-v2, a hybrid Mamba-Transformer language model designed to increase throughput for reasoning workloads while achieving state-of-the-art accuracy compared to similarly-sized models. Nemotron-Nano-9B-v2 builds on the Nemotron-H architecture, in which the majority of the self-attention layers in the common Transformer architecture are replaced with Mamba-2 layers, to achieve improved inference speed when generating the long thinking traces needed for reasoning. We creat...

ID: 2508.14444v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 In2x at WMT25 Translation Task

2025-08-22

Авторы:

Lei Pang, Hanyi Mao, Quanjia Xiao, HaiXiao Liu, Xiangyi Li

#### Контекст В современном машинном переводе (MT) отличаются два основных подхода: монолингвальный и билингвальный. Монолингвальный подход, особенно с использованием нейросетевых технологий, позволяет достичь высокой точности перевода. Однако для менее ресурсоориентированных языков, таких как японский, английский и русский, эта методика может быть недостаточно эффективной. Билингвальный подход, напротив, использует пару языков для обучения модели, позволяя достичь лучших результатов в ситуациях, когда специальные данные для менее ресурсоориентированных языков отсутствуют. Однако он часто страдает от дистилляционного эффекта, когда знания, полученные от более ресурсоориентированных языков, плохо передаются на менее ресурсоориентированные. Эти проблемы мешают достижению высокой точности в переводе на менее ресурсоориентированные языки. В статье рассматривается новый подход, призванный расширить широко используемые технологии машинного перевода, ориентированные на языки с большим ресурсом, такие как японский и английский, на менее ресурсоориентированные языки. Целью является разработка общей парадигмы, которая позволит большим лингвистическим моделям работать эффективно в широком спектре языков, включая менее ресурсоориентированные. #### Метод Статья представляет собой открытую систему, представленную командой In2x на WMT25 General Machine Translation Shared Task. Суть метода заключается в расширении универсального подхода для обучения языковых моделей, ориентированных на японский язык, на другие языки с меньшим ресурсом. Разработанная методология включает в себя следующие этапы: 1. **Подготовка данных** – использование разнообразных источников данных, включая тексты, транскрипции, метки-рекомендации и другие, для подготовки обучающих данных. 2. **Обучение модели** – использование лингвистических признаков и моделей распределенных представлений для обучения языковой модели. 3. **Оценка модели** – применение различных метрик для оценки качества перевода, включая BLEU, METEOR и другие. 4. **Корректировка модели** – использование технологий глубокого обучения для корректировки модели на основе результатов экспериментов. #### Результаты На WMT25 General Machine Translation Shared Task команда In2x показала потрясающие результаты в переводе японского языка. Использование расширенной парадигмы привело к значительному улучшению точности перевода по сравнению с конкурентными моделями. Одним из ключевых результатов является увеличение BLEU-матрицы на 2,5% в сравнении с основным подходом. Также было показано, что модель показывает высокую с

Annotation:

This paper presents the open-system submission by the In2x research team for the WMT25 General Machine Translation Shared Task. Our submission focuses on Japanese-related translation tasks, aiming to explore a generalizable paradigm for extending large language models (LLMs) to other languages. This paradigm encompasses aspects such as data construction methods and reward model design. The ultimate goal is to enable large language model systems to achieve exceptional performance in low-resource ...

ID: 2508.14472v1 cs.CL, cs.AI

arXiv PDF

📄 ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine

2025-08-22

Авторы:

Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang

#### Контекст Классические знания о традиционной китайской медицине (TCM), основанные на глубокой теоретической базе, весьма ценны для понимания и корректного применения этого направления в лечении. Однако существуют две основные проблемы: отсутствие достаточного количества высококачественных данных для обучения и высокая многомодальность TCM, включающей в себя такие сенсорные модели, как видение, слух, осязание и даже сенсорное восприятие пульса. Традиционные трансформации текста не могут успешно решить эти задачи. Из-за этого LLMs (large language models), несмотря на их успех в других областях, пока не применимы для решения проблем в области TCM. Мы предлагаем ShizhenGPT - первый мультимодальный LLM, разработанный специально для решения проблем в области Традиционной китайской медицины. #### Метод ShizhenGPT разрабатывается на основе предварительной обученной модели LLMs, которая получила многомодальные данные, включая текстовые данные, изображения, аудио и даже физиологические сигналы. Мы сформировали одну из крупнейших коллекций данных в сфере Традиционной китайской медицины, состоящую из 100 ГБ текстовых данных и 200 ГБ мультимодальных данных. Данные включают 1,2 миллиона изображений, 200 часов аудио и физиологические сигналы. Модель ShizhenGPT была обучена на этих данных с использованием предварительной обученной модели LLMs и инструментами обучения с помощью инструкций. Это позволило модели не только получать глубокие знания о Традиционной китайской медицине, но также производить мультимодальный анализ. #### Результаты Мы проверили ShizhenGPT на крупнейших национальных экзаменах по квалификации в области Традиционной китайской медицины. Также был создан визуальный бенчмарк для оценки визуального распознавания и диагностики лекарственных средств. Эксперименты показали, что ShizhenGPT оказалась выигрышной в сравнении с соревнующимися моделями различных масштабов и даже с более крупными моделями, которые имеют доступ к большим ресурсам. Особенно важно отметить, что ShizhenGPT проявила лучшую способность к визуальному распознаванию в TCM, включая распознавание медикаментов по их визуальным свойствам, и демонстрирует гармоничное восприятие данных в разных модальностях, таких как звук, пульс, запах и визуальные сигналы. #### Значимость Мы видим широкие возможности применения ShizhenGPT в области Традиционной китайской медицины. Эта модель может использоваться в области диагностики, лечения, учебных программ и проектах по изучению Традиционной китайской медицины. Широкий спектр модальностей, которые модель может об

Annotation:

Despite the success of large language models (LLMs) in various domains, their potential in Traditional Chinese Medicine (TCM) remains largely underexplored due to two critical barriers: (1) the scarcity of high-quality TCM data and (2) the inherently multimodal nature of TCM diagnostics, which involve looking, listening, smelling, and pulse-taking. These sensory-rich modalities are beyond the scope of conventional LLMs. To address these challenges, we present ShizhenGPT, the first multimodal LLM...

ID: 2508.14706v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Transplant Then Regenerate: A New Paradigm for Text Data Augmentation

2025-08-22

Авторы:

Guangzhan Wang, Hongyu Zhang, Beijun Shen, Xiaodong Gu

## Контекст Область глубокого обучения становится все более важной в современных технологиях, и существующие методы данных выгрузки используются для улучшения моделей. Одна из ключевых проблем в этой области — текстовая аугментация, которая требует создания разнообразных и качественных вариантов текста. Традиционные методы, такие как Back-translation, ограничены преобразованиями на уровне лексем и создают версии с одной семантикой. Улучшение этого подхода требует новых подходов для создания контролируемых и стилизованных вариантов текста. Мотивация заключается в развитии новой методологии, которая могла бы оптимально использовать знания, полученные из больших языковых моделей (LLMs), для эффективной аугментации текста. ## Метод Метод LMTransplant, предложенный в данной работе, основывается на двух этапах: "пересадка" и "регенерация". На первом этапе LLM расширяет контекст информации из семианточных логов, а затем, на втором этапе, генерирует новый вариант текста, основываясь на расширенном контексте. Этот подход позволяет обеспечить более высокий уровень разнообразия и творчества в создании текста. Архитектура LMTransplant построена на LLM, которая использует эти этапы для наиболее эффективного применения знаний модели. ## Результаты Эксперименты проводились на различных текстовых задачах, включая различные домены и типы текстов. Данные для экспериментов были получены из различных источников, включая общественные базы данных и синтетические данные. Результаты показали, что LMTransplant превосходит существующие методы по метрикам качества, таким как BLEU и ROUGE. Было продемонстрировано, что метод не только создает более разнообразные варианты, но и сохраняет главные атрибуты исходного текста. Также были проведены эксперименты с большими объемами генерируемых данных, подтвердив высокую масштабируемость LMTransplant. ## Значимость Предложенный подход имеет широкие применения в задачах глубокого обучения, таких как синтез текста, оценка качества текста, трансляция и другие. Главные преимущества LMTransplant заключаются в своей способности создавать более разнообразные и стилизованные варианты текста с меньшим трудоемкостным контролем процесса. Благодаря своей масштабируемости, LMTransplant может быть применен в сложных задачах, где требуется большой объем генерируемого текста. Это может иметь потенциал для улучшения моделей в области NLP, включая вопросы роботов и другие сложные задачи. ## Выводы В ходе данного исследования был предложен новый подход к текстовой аугментации — LMTransplant. Он доказал свою эффективность, превосходя существующ

Annotation:

Data augmentation is a critical technique in deep learning. Traditional methods like Back-translation typically focus on lexical-level rephrasing, which primarily produces variations with the same semantics. While large language models (LLMs) have enhanced text augmentation by their "knowledge emergence" capability, controlling the style and structure of these outputs remains challenging and requires meticulous prompt engineering. In this paper, we propose LMTransplant, a novel text augmentation...

ID: 2508.14723v1 cs.CL, cs.AI

arXiv PDF

📄 Evaluating Multilingual and Code-Switched Alignment in LLMs via Synthetic Natural Language Inference

2025-08-22

Авторы:

Samir Abdaljalil, Erchin Serpedin, Khalid Qaraqe, Hasan Kurban

## Контекст Large language models (LLMs) широко применяются в многоязычных контекстах, но их возможность обеспечивать надежные и логически обоснованные выводы в разных языках остается недостаточно изученной. Одной из главных проблем для многоязычных моделей является сбалансированное представление и логическая консистентность в выводах на разных языках. Для улучшения этой области необходимо разработать эффективные методы экспериментов и синтетических данных, которые позволят протестировать модели на различных языках и в комбинации нескольких языков в одном запросе (code-switching). ## Метод Мы предлагаем контролируемую систему для оценки многоязычной и код-свичентой (code-switched) NLI-моделей. Мы сгенерируем синтетические предложения, состоящие из предложений (premises) и выводов (hypotheses), которые будут логически связаны. Эти пары будут переведены на различные языки с широким типажным разнообразием. Это позволит проверить модели на логической консистентности в разных языках, в том числе в контексте код-свитчинга. Такой подход дает возможность экспериментов с разными уровнями семантического взаимодействия и анализом потенциальных недостатков моделей в многоязычных условиях. ## Результаты Мы проверили несколько моделей LLMs на наших синтетических данных, включая переводы на несколько типажных языков. Мы обнаружили, что код-свитчинг не только не мешает, но и в некоторых случаях улучшает производительность моделей. Это может быть объяснено тем, что трансляция вводит дополнительные вариации в языковой форме, которые могут служить регуляризирующим сигналом. Мы также провели анализ семантической консистентности с помощью семантических векторов и визуализаций, подтвердив логическую и семантическую консистентность переведенных предложений. ## Значимость Наши результаты имеют большое значение для улучшения многоязычных моделей NLI. Мы выявили, что код-свитчинг может быть использован как метод для повышения разнообразия и улучшения общей модели. Наша система может быть применена в сценариях многоязычного анализа, научных исследованиях в области NLP, и в поиске решений для улучшения моделей в условиях многоязычности. Это также открывает новые возможности для исследования контекстной передачи и кодовых свитчингов в NLP. ## Выводы Мы установили, что модели LLMs могут быть эффективно оценены с помощью синтетических данных и контролируемых экспериментов. Мы показали, что код-свитчинг может улучшить производительность моделей в многоязычных условиях, но требуется больше исследований для уточнения этого эффекта. Наше исследование подкреп

Annotation:

Large language models (LLMs) are increasingly applied in multilingual contexts, yet their capacity for consistent, logically grounded alignment across languages remains underexplored. We present a controlled evaluation framework for multilingual natural language inference (NLI) that generates synthetic, logic-based premise-hypothesis pairs and translates them into a typologically diverse set of languages. This design enables precise control over semantic relations and allows testing in both mono...

ID: 2508.14735v1 cs.CL, cs.AI

arXiv PDF

📄 TransLLM: A Unified Multi-Task Foundation Framework for Urban Transportation via Learnable Prompting

2025-08-22

Авторы:

Jiaming Leng, Yunying Bi, Chuan Qin, Bing Yin, Yanyong Zhang, Chao Wang

## Контекст Urban transportation systems сталкиваются с разнообразными проблемами, такими как прогнозирование трафика, предсказание спроса на зарядку электрических автомобилей (EV) и управление такси. На сегодняшний день, существующие подходы страдают от двух главных ограничений: малые модели глубокого обучения специфичны для конкретных задач и требуют больших объемов данных, что ограничивает их универсальность. Другая сторона медали — большие модели языка (LLMs), которые, несмотря на свою гибкость и способность обрабатывать естественный язык, сталкиваются с трудностями при работе с структурированными пространственно-временными данными и численным рассуждением. Для решения этих проблем предлагается новый подход, в рамках которого используется TransLLM — креативный фреймворк, который объединяет способности глубокого обучения и LLMs, способствуя эффективному решению таких задач. ## Метод TransLLM предлагает инновационный подход к решению задач, связанных с городским транспортом. Основным элементом фреймворка является лёгкая модель пространственно-временного моделирования, которая использует дилацированные свертки времени и двухуровневые сети внимания на основе графа смежности. Эта модель эффективно моделирует зависимости времени и пространства. Для улучшения гибкости и контекстной точности, TransLLM внедряет механизм под названием "Instance-Level Prompt Routing", который использует учёт ситуаций для динамического построения специализированных спротонизированных запросов. Эти спротонизированные запросы помогают LLMs более эффективно рассуждать над задачами. Фреймворк также включает проектирование задач в контекст специализированных выходных слоев, которые улучшают точность прогнозирования. Этот подход гармонично объединяет мощь LLMs и специфичные задачи, обеспечивая универсальный подход для решения проблем городского транспорта. ## Результаты Проведенные эксперименты охватывают семь датасетов и три задачи: прогнозирование трафика, предсказание спроса на зарядку EV и таксопарковки. Модель TransLLM демонстрирует выдающиеся результаты, даже в случае нулевого признака, когда модель не имеет предварительного обучения на конкретной задаче. Результаты были сравнены с десятью основными базовыми моделями, и TransLLM показала себя как мощная альтернатива с значительным преимуществом в ситуациях, когда необходимо гибко решать задачи с большой многообразием. Она показала свою гибкость, эффективность и способность к обучению с подкреплением, чтобы персонифицировать свой подход в зависимости от конкретных задач. ## Значимость TransLLM может бы

Annotation:

Urban transportation systems encounter diverse challenges across multiple tasks, such as traffic forecasting, electric vehicle (EV) charging demand prediction, and taxi dispatch. Existing approaches suffer from two key limitations: small-scale deep learning models are task-specific and data-hungry, limiting their generalizability across diverse scenarios, while large language models (LLMs), despite offering flexibility through natural language interfaces, struggle with structured spatiotemporal ...

ID: 2508.14782v1 cs.CL, cs.AI

arXiv PDF

1
2
177
178
179
180
181
204
205

Показано 1781 - 1790 из 2042 записей