📚 Саммари научных статей из arXiv

Найдено 7506 результатов по запросу 'cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

2025-08-12

Авторы:

GLM-4. 5 Team, :, Aohan Zeng, Xin Lv, Qinkai Zheng, Zhenyu Hou, Bin Chen, Chengxing Xie, Cunxiang Wang, Da Yin, Hao Zeng, Jiajie Zhang, Kedong Wang, Lucen Zhong, Mingdao Liu, Rui Lu, Shulin Cao, Xiaohan Zhang, Xuancheng Huang, Yao Wei, Yean Cheng, Yifan An, Yilin Niu, Yuanhao Wen, Yushi Bai, Zhengxiao Du, Zihan Wang, Zilin Zhu, Bohan Zhang, Bosi Wen, Bowen Wu, Bowen Xu, Can Huang, Casey Zhao, Changpeng Cai, Chao Yu, Chen Li, Chendi Ge, Chenghua Huang, Chenhui Zhang, Chenxi Xu, Chenzheng Zhu, Chuang Li, Congfeng Yin, Daoyan Lin, Dayong Yang, Dazhi Jiang, Ding Ai, Erle Zhu, Fei Wang, Gengzheng Pan, Guo Wang, Hailong Sun, Haitao Li, Haiyang Li, Haiyi Hu, Hanyu Zhang, Hao Peng, Hao Tai, Haoke Zhang, Haoran Wang, Haoyu Yang, He Liu, He Zhao, Hongwei Liu, Hongxi Yan, Huan Liu, Huilong Chen, Ji Li, Jiajing Zhao, Jiamin Ren, Jian Jiao, Jiani Zhao, Jianyang Yan, Jiaqi Wang, Jiayi Gui, Jiayue Zhao, Jie Liu, Jijie Li, Jing Li, Jing Lu, Jingsen Wang, Jingwei Yuan, Jingxuan Li, Jingzhao Du, Jinhua Du, Jinxin Liu, Junkai Zhi, Junli Gao, Ke Wang, Lekang Yang, Liang Xu, Lin Fan, Lindong Wu, Lintao Ding, Lu Wang, Man Zhang, Minghao Li, Minghuan Xu, Mingming Zhao, Mingshu Zhai, Pengfan Du, Qian Dong, Shangde Lei, Shangqing Tu, Shangtong Yang, Shaoyou Lu, Shijie Li, Shuang Li, Shuang-Li, Shuxun Yang, Sibo Yi, Tianshu Yu, Wei Tian, Weihan Wang, Wenbo Yu, Weng Lam Tam, Wenjie Liang, Wentao Liu, Xiao Wang, Xiaohan Jia, Xiaotao Gu, Xiaoying Ling, Xin Wang, Xing Fan, Xingru Pan, Xinyuan Zhang, Xinze Zhang, Xiuqing Fu, Xunkai Zhang, Yabo Xu, Yandong Wu, Yida Lu, Yidong Wang, Yilin Zhou, Yiming Pan, Ying Zhang, Yingli Wang, Yingru Li, Yinpei Su, Yipeng Geng, Yitong Zhu, Yongkun Yang, Yuhang Li, Yuhao Wu, Yujiang Li, Yunan Liu, Yunqing Wang, Yuntao Li, Yuxuan Zhang, Zezhen Liu, Zhen Yang, Zhengda Zhou, Zhongpei Qiao, Zhuoer Feng, Zhuorui Liu, Zichen Zhang, Zihan Wang, Zijun Yao, Zikang Wang, Ziqiang Liu, Ziwei Chai, Zixuan Li, Zuodong Zhao, Wenguang Chen, Jidong Zhai, Bin Xu, Minlie Huang, Hongning Wang, Juanzi Li, Yuxiao Dong, Jie Tang

## Контекст GLM-4.5 стремится стать одним из ведущих моделей микса экспертов (MoE) в области бо LLM, сочетая в себе мощь крупных языковых моделей с новыми подходами к моделированию разума и автоматизированного программирования. Основные проблемы, которые она пытается решить, заключаются в ограниченности текущих моделей в человеческом разуме и недостаточности в выполнении сложных логических задач. Благодаря своему гибкому подходу и высокой скорости обработки, GLM-4.5 предлагает новый подход к решению этих проблем, включая понимание естественного языка, кодирование и агентное поведение. ## Метод GLM-4.5 использует модель MoE с 355 миллиардами параметров, но только 32 миллиарда из них активируются при выполнении задач. Она использует гибкий подход к гибридной рассуждающей системе, включая thinking и direct response режимы. На стадии обучения во время тренировочного процесса на 23 тонн текстовых данных, а также после тренировки с использованием экспертных моделей и повышения через reinforcement learning, модель достигает отличных результатов в многих зонах прикладных задач. ## Результаты GLM-4.5 показывает очень высокую эффективность в тестах, таких как TAU-Bench, AIME 24 и SWE-Bench. Она занимает третье место среди всех изучаемых моделей, а в зоне agentic benchmarks — второе место. Несмотря на это, содержит значительно меньше параметров, чем многие соревновательные модели, что делает её более эффективной в производительности и ресурсами. Оба выпуска — GLM-4.5 (355B) и сокращенная версия GLM-4.5-Air (106B) — доступны для улучшения исследований в области логического робота и агентных AI-систем. ## Значимость GLM-4.5 имеет широкие приложения в сфере образования, программирования, диагностики и автоматизации решений в различных областях. Её мощность и эффективность делают её уникальной в сравнении с другими моделями, которые часто требуют больших ресурсов. Главное преимущество — способность гибко адаптироваться к различным задачам без необходимости выделения большого объёма ресурсов. ## Выводы Данная работа показывает, что GLM-4.5 является мощным инструментом для продвижения AI в области моделирования логического разума и кодирования. Будущие исследования будут сконцентрированы на улучшении гибких методов моделирования и применении модели в реальных задачах, включая сложные задачи программирования и понимания естественного языка.

Annotation:

We present GLM-4.5, an open-source Mixture-of-Experts (MoE) large language model with 355B total parameters and 32B activated parameters, featuring a hybrid reasoning method that supports both thinking and direct response modes. Through multi-stage training on 23T tokens and comprehensive post-training with expert model iteration and reinforcement learning, GLM-4.5 achieves strong performance across agentic, reasoning, and coding (ARC) tasks, scoring 70.1% on TAU-Bench, 91.0% on AIME 24, and 64....

ID: 2508.06471v1 cs.CL

arXiv PDF

📄 HapticLLaMA: A Multimodal Sensory Language Model for Haptic Captioning

2025-08-12

Авторы:

Guimin Hu, Daniel Hershcovich, Hasti Seifi

Дата: 24.11.2024 ## Контекст Haptic captioning — это задача генерирования естественного языка для описания зрительных сигналов, таких как вибрации. Эта задача применима в виртуальной реальности, реабилитации и доступности. Несмотря на развитие многомодальных исследований в области видения и аудио, сенсорные сигналы, основанные на осязании, остаются практически неизученными. Данная работа выступает в роли одного из первых попыток исследования этого направления. Мы предлагаем HapticLLaMA — модель, которая преобразует сенсорные сигналы в естественный язык для категорий сенсорных, эмоциональных или ассоциативных. Такая модель может быть полезна для создания более доступных и интерактивных систем взаимодействия. ## Метод HapticLLaMA — это мультимодальная языковая модель, которая использует технологии трансформеров. Для преобразования зрительных сигналов в дискретные единицы мы предлагаем два подхода: 1. **Frequency-based tokenizer** — зрительные сигналы преобразуются в частотные компоненты с использованием алгоритма FFT. 2. **EnCodec-based tokenizer** — специальный алгоритм, разработанный для кодирования аудиоданных, совместим с зрительными сигналами. Модель проходит две этапа обучения: 1. **Supervised fine-tuning**: модель LLaMA адаптируется с помощью LoRA к входным зрительным сигналам. 2. **Fine-tuning с RLHF**: модель применяет подход reinforcement learning from human feedback для улучшения качества генерируемых описаний. ## Результаты Мы экспериментировали с двумя типами сигналов: синтетическими и реальными. Использовали метрики METEOR и BLEU-4 для оценки качества описаний. HapticLLaMA показала следующие результаты: - **METEOR**: 59.98 - **BLEU-4**: 32.06 Более того, более 61% описаний получили оценки выше 3.5 в шкале от 7-ти. RLHF повысил средний рейтинг на 10%, улучшив гармонию с человеческим ощущением. Эти результаты демонстрируют, что модель может обрабатывать сенсорные сигналы с высоким качеством и адаптироваться к различным задачам. ## Значимость HapticLLaMA может применяться в следующих областях: - **Доступность**: помогает сенсорно неполноценно организмам интерактивно взаимодействовать с системами. - **Реабилитация**: формирует окружающую среду, улучшающую реабилитационные процессы. - **Виртуальная реальность**: добавляет возможность ощущать объекты в VR-средах. Преимущества модели заключаются в своей многомодальности и точности в интерпретации зрительных сигналов. Эта модель открывает пути к будущим исследованиям в области моделей, обрабатывающих сенсорные данные. ## Выводы HapticLLaMA доказала свою эффективность в преобразовании зрительных сигнало

Annotation:

Haptic captioning is the task of generating natural language descriptions from haptic signals, such as vibrations, for use in virtual reality, accessibility, and rehabilitation applications. While previous multimodal research has focused primarily on vision and audio, haptic signals for the sense of touch remain underexplored. To address this gap, we formalize the haptic captioning task and propose HapticLLaMA, a multimodal sensory language model that interprets vibration signals into descriptio...

ID: 2508.06475v1 cs.CL

arXiv PDF

📄 Position: Intelligent Coding Systems Should Write Programs with Justifications

2025-08-12

Авторы:

Xiangzhe Xu, Shiwei Feng, Zian Su, Chengpeng Wang, Xiangyu Zhang

## Контекст Современные интеллектуальные системы кодирования (Intelligent Coding Systems, ICS) представляют собой мощные инструменты, позволяющие пользователям определять поведение программ при помощи естественного языка. Эти системы обеспечивают удобство использования и эффективность разработки, но при этом имеют значительные недостатки. Одной из основных проблем является непрозрачность решений, принятых системой, которая может вызвать недоверие у пользователей, особенно если они не обладают глубокими знаниями программирования. Несомненно, лучшие результаты получаются, когда пользователь может понять, как и почему система пришла к определенному решению. В настоящее время актуальной является проблема недостатка надежности в системах кодирования, поскольку часто невозможно проверить точность решений, особенно при работе с различными сценариями. Это вызывает затруднения в понимании пользователями того, что происходит внутри систем, что, в свою очередь, может привести к ошибкам в процессе разработки и уменьшить эффективность работы. Одним из решений могут быть ясные, понятные пользователю, причины и логика программ, которые бы служили визуальным инструментом для проверки и понимания решений системы. ## Метод Для решения этой проблемы в статье предлагается использовать нейро-символьные методы (Neuro-Symbolic Approaches), которые объединяют нейронные и символьные подходы в одной системе. За основу взят подход, где символьные правила и контрольные механизмы используются для улучшения понимания и структуры программ, а нейронные модели используются для повышения точности, адаптивности и скорости выполнения. Символьные подходы включают традиционные методы проверки и анализа программ, такие как статический анализ и проверка типов, которые позволяют обеспечить целостность программного кода. Нейронные модели, в свою очередь, позволяют строить более точные и природно понятные решения, которые будут оптимизированы для решения конкретных задач. ## Результаты В рамках исследования был проведен набор экспериментов, в которых были использованы различные наборы данных для проверки работы интеллектуальных систем кодирования. В ходе эксперимента было проанализировано, насколько эффективны нейро-символьные подходы для улучшения понимания пользователями. Было показано, что системы, включающие в себя нейро-символьные методы, показали значительно лучшие результаты в сравнении с методами, основанными только на нейронных моделях. В результате экспериментов было показано, что нейро-символьные модели могут генерировать более точные и понятные программы, что позволяет улучшить понимание пользователями решений, а также уменьшить потенциальные ошибки в про

Annotation:

Intelligent coding systems are transforming software development by enabling users to specify code behavior in natural language. However, the opaque decision-making of AI-driven coders raises trust and usability concerns, particularly for non-expert users who cannot inspect low-level implementations. We argue that these systems should not only generate code but also produce clear, consistent justifications that bridge model reasoning and user understanding. To this end, we identify two critical ...

ID: 2508.06017v1 cs.SE, cs.CL, cs.LG

arXiv PDF

📄 Efficient Knowledge Probing of Large Language Models by Adapting Pre-trained Embeddings

2025-08-12

Авторы:

Kartik Sharma, Yiqiao Jin, Rakshit Trivedi, Srijan Kumar

## Контекст Большие языковые модели (LLMs) обладают широкими возможностями для получения и обработки знаний в различных областях, таких как наука, история и география. Однако их стохастический характер делает прогнозирование того, что знают они, непростой задачей. Исследователи ранее развили методы, включающие рассмотрение скрытых представлений, создание специальных задач, сбор представительных образцов и оценку неуверенности. Однако эти методы требуют нескольких проходов через модель, что делает процесс дорогостоящим и трудоемким. Напротив, наша работа предлагает новый подход, который использует предварительно обученные модели эмбеддингов для предсказания знаний LLMs, сделав процесс быстрым и эффективным. ## Метод Мы предлагаем метод $\textbf{PEEK}$ (Proxy Embeddings to Estimate Knowledge), который использует предварительно обученные модели эмбеддингов для проверки знаний LLMs. Мы запускаем эмбеддинговую модель на проверку знаний, адаптировав её с помощью линейного декодерного слоя, чтобы она могла предсказывать выводы LLMs. Эта модель обучается на выборке из фактов, известных LLMs, используя различные пробивные стратегии. Мы выбираем три датасета, построенные на основе Википедии, проверяем семь эмбеддинговых моделей и четыре LLMs. Эксперименты показали, что наш подход достигает до 90% точности при предсказании знаний LLMs. ## Результаты Мы провели тщательные эксперименты с $3$ Wikipedia-derived datasets, $4$ LLMs и $7$ embedding models. Наши результаты показали, что модели сентенций эмбеддингов дают лучший результат в предсказании знаний LLMs, получив до 90% точности. Мы также обнаружили, что эмбеддинговые модели выполняются гораздо эффективнее, чем модели графов, что позволяет понять, как LLMs хранят знания. Наши результаты подчеркивают возможность использования эмбеддингов для оценки и выявления пробелов в знаниях LLMs. ## Значимость Мы рассмотрели применение нашего подхода в следующих областях: сравнение LLMs, выявление пробелов в их знаниях и получение более глубоких познаний о внутренней структуре LLMs. Наш подход обладает огромным потенциалом, так как он предлагает быстрый, эффективный и точный способ оценки LLMs. Мы видим возможности использовать нашу работу для улучшения текущих моделей и для получения более глубоких представлений о том, как LLMs обрабатывают знания. ## Выводы Мы предложили новый подход к оценке знаний LLMs, используя предварительно обученные модели эмбеддингов. Мы показали, что наш метод дает высокую точность при предсказании знаний LLMs на новых данных. Мы также отметили, что модели сентенций эмбеддингов даю

Annotation:

Large language models (LLMs) acquire knowledge across diverse domains such as science, history, and geography encountered during generative pre-training. However, due to their stochasticity, it is difficult to predict what LLMs have acquired. Prior work has developed different ways to probe this knowledge by investigating the hidden representations, crafting specific task prompts, curating representative samples, and estimating their uncertainty. However, these methods require making forward pas...

ID: 2508.06030v1 cs.CL, cs.LG

arXiv PDF

📄 Large Language Model Data Generation for Enhanced Intent Recognition in German Speech

2025-08-12

Авторы:

Theresa Pekarek Rosin, Burak Can Kaplan, Stefan Wermter

## Контекст **Область исследования и существующие проблемы** Intent recognition (IR) является ключевым компонентом систем артифициального интеллекта (AI), особенно для ассистентов с речевыми командами. Однако существующие подходы, большая часть которых разработана для английского языка, сталкиваются с ограничениями при работе с другими языками и специфическими стилями речи, такими как речь старших людей. Эти ограничения сильно сказываются на качестве распознавания интентов в речи германского языка, особенно для поддержки старшего поколения. Этот геограмфический и гендерный дискриминационный аспект требует конкретного анализа и решения. **Мотивация** Ключевой мотивацией является улучшение моделей IR для речи старших людей на германском языке. Это нужно для повышения точности распознавания и лучшего взаимодействия с AI-системами. Недостаток данных в этой сфере ограничивает развитие AI-систем, а наша методика предлагает эффективное решение этой проблемы. ## Метод **Методология и технические решения** Мы предлагаем сочетание нескольких технических подходов. Во-первых, мы использовали адаптированный Whisper ASR (Automatic Speech Recognition) модель, которая была приспособлена для работы с германским языком, особенно с речью старшего поколения (SVC-de). Во-вторых, мы использовали трансформер-базированные языковые модели (LLMs), такие как LeoLM, Llama3 и ChatGPT, для генерации синтетических данных для обучения. Эти модели были запущены на созданных специально для этой задачи синтетических текстовых данных. **Архитектура** Мы объединили эти модели в интегрированную архитектуру. Адаптированная Whisper ASR модель служит для распознавания речи. Затем, генерируемые данные от LLMs проходят через модель IR, которая учится классифицировать интенты. Мы также проводим cross-dataset testing для оценки устойчивости наших моделей к разным стилям речи и невиденному лексикону. ## Результаты **Эксперименты и используемые данные** Мы проводили тщательные эксперименты на разных наборах данных. Эталонные данные были сгенерированы с помощью SVC-de, а синтетические данные — с помощью LLMs. Мы провели несколько тестов, включая cross-dataset testing, чтобы оценить качество распознавания интентов. Одним из основных результатов является устойчивость наших моделей к разным стилям речи и невиденному лексикону. **Полученные результаты** Основным положительным результатом является повышение точности классификации интентов в речи старших людей. Мы также обнаружили, что синтетические данные, генерируемые с помощью LLMs, значительно улучшают производительность моделей IR. Наши результаты показы

Annotation:

Intent recognition (IR) for speech commands is essential for artificial intelligence (AI) assistant systems; however, most existing approaches are limited to short commands and are predominantly developed for English. This paper addresses these limitations by focusing on IR from speech by elderly German speakers. We propose a novel approach that combines an adapted Whisper ASR model, fine-tuned on elderly German speech (SVC-de), with Transformer-based language models trained on synthetic text da...

ID: 2508.06277v1 cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Sample-efficient LLM Optimization with Reset Replay

2025-08-12

Авторы:

Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian

---------------------------------------------------------------------------------------------------------------- ## Контекст ---------------------------------------------------------------------------------------------------------------- На данный момент, широко распространены технологии разработки бо LLM (Large Language Models). Одной из ключевых задач в этой области является улучшение их реагирования на задачи, связанные с разумами, с помощью пост-тренировочных методов. Одним из таких методов является ренфорс (RL), который позволяет улучшить оценки модели в процессе работы. Тем не менее, существуют некоторые проблемы, связанные с этим подходом. Например, высокоскоростное обучение может привести к переобучению к исходному вводу, что повлияет на качество решений и позволит привести к снижению эффективности процесса обучения. Увеличение объема данных, используемых во время обучения, может улучшить качество, но требует больших вычислительных ресурсов. Данный проект предлагает подход, который позволяет улучшить качество моделей, не прибегая к таким ресурсоемким методам. ---------------------------------------------------------------------------------------------------------------- ## Метод ---------------------------------------------------------------------------------------------------------------- Метод, предложенный в данном исследовании, называется Reset Replay (LoRR). Он представляет собой общую и мощную плагин-компоненту, которая может быть использована для повышения эффективности обучения в любом фреймворке, основанном на приоритетах. Ключевая особенность данного подхода заключается в том, что он позволяет не только увеличивать число пере replayer, но также сохранять качество обучения, используя технику периодического сброса сети. Это позволяет модели не останавливаться на промежуточных результатах, а постоянно развиваться. Более того, LoRR использует специальный гибридный функционал, который включает в себя супервизированное оптимизационное целе, что позволяет модели улучшить качество решений на основе более широкого круга данных. ---------------------------------------------------------------------------------------------------------------- ## Результаты ---------------------------------------------------------------------------------------------------------------- Тестирование данного метода проводилось на различных тестовых задачах, включая математические и общие реакции. Выяснилось, что использование LoRR существенно повышает эффективность обучения, особенно в случае ограниченных объемов данных. Например, в работе над задачами математического решения, LoRR увеличивает точность решений, при этом работая с гораздо меньшим количеством итераций. Также, LoRR позволило повысить качество работы моделей в общих задачах, не прибегая к высоким затратам на вычислительные ресурсы. Эти результаты показывают, что данный подход может быть эффективно использован для улучшения работы моделей без необходимости прибегать к дорогостоящим методам. ---------------------------------------------------------------------------------------------------------------- ## Значимость ---------------------------------------------------------------------------------------------------------------- Предложенный подход имеет широкие применения в различных областях, где требуется улучшение моделей с помощью пост-тренировочных методов. Например, он может использоваться в сфере обработки естественного языка, в медицине, в разработке игр, и д

Annotation:

Recent advancements in post-training Large Language Models (LLMs), particularly through Reinforcement Learning (RL) and preference optimization methods, are key drivers for enhancing their reasoning capabilities. However, these methods are often plagued by low sample efficiency and a susceptibility to primacy bias, where overfitting to initial experiences degrades policy quality and damages the learning process. To address these challenges, we introduce LLM optimization with Reset Replay (LoRR),...

ID: 2508.06412v1 cs.LG, cs.CL

arXiv PDF

📄 Effective Training Data Synthesis for Improving MLLM Chart Understanding

2025-08-12

Авторы:

Yuwei Yang, Zeyu Zhang, Yunzhong Hou, Zhuowan Li, Gaowen Liu, Ali Payani, Yuan-Sen Ting, Liang Zheng

## Контекст Проблема эффективного понимания графических данных, таких как визуализированные научные схемы или диаграммы, является ключевой для создания эффективных систем синтетического зрения и машинного обучения. Однако существующие multimodal large language models (MLLMs), особенно открытого исходного кода, стремятся к высокой точности в тестах на тестирование таких навыков, обычно оставаясь в пределах 30-50% успеха на сложных бенчмарках. Это связано с тем, что традиционные подходы к подготовке данных для обучения часто недостаточно аккуратны и не соответствуют реальности, что мешает моделям развитию навыков в работе с сложными визуализациями. Мотивацией для этого исследования является развитие методных решений, которые позволят улучшить технологии генерации имитационных данных для научных диаграмм, увеличив точность моделей на сложных реальных примерах. ## Метод Наша методология включает в себя модульный подход к синтезированию данных для обучения. Мы разделяем процесс на 5 этапов: 1) создание отдельных данных и функций для генерации отдельных диаграмм, 2) условная генерация последующих поддиаграмм для многослойных диаграмм, 3) визуальное пополнение генерируемых диаграмм, 4) отбор качественных данных, 5) генерация вопросов и ответов (QA-пар) с помощью GPT-4o. Этот подход позволяет создавать высококачественные данные для обучения моделей, которые лучше соответствуют реальным наборам данных. Мы также развиваем **Effective Chart Dataset (ECD)**, состоящий из более чем 10 000 изображений диаграмм и 300 000 QA-пар, который охватывает 25 тематик и более 250 сочетаний типов диаграмм. ## Результаты Мы использовали ECD для оценки производительности нескольких MLLMs на разных бенчмарках, включая реальные и синтетические данные. Модели, обученные с помощью ECD, показали более высокий уровень точности и устойчивости в сравнении с моделями, обученными на стандартных данных. Мы также провели эксперименты, проверяющие устойчивость ECD к различным формам модификации данных и подтвердили его высокую производительность в различных сценариях. ## Значимость ECD может быть применен в различных областях, таких как научное моделирование, интеллектуальные системы и биологические исследования. Он предлагает улучшенную точность и устойчивость в сравнении с предыдущими подходами к подготовке данных для обучения. Кроме того, ECD является открытым и доступным для использования разработчиками, что позволяет повысить производительность существующих моделей и способствовать развитию новых технологий в области визуализации научных данных. ## Выводы Мы доказа

Annotation:

Being able to effectively read scientific plots, or chart understanding, is a central part toward building effective agents for science. However, existing multimodal large language models (MLLMs), especially open-source ones, are still falling behind with a typical success rate of 30%-50% on challenging benchmarks. Previous studies on fine-tuning MLLMs with synthetic charts are often restricted by their inadequate similarity to the real charts, which could compromise model training and performan...

ID: 2508.06492v1 cs.CV, cs.CL

arXiv PDF

📄 LAG: Logic-Augmented Generation from a Cartesian Perspective

2025-08-12

Авторы:

Yilin Xiao, Chuang Zhou, Qinggang Zhang, Su Dong, Shengyuan Chen, Xiao Huang

## Контекст На сегодняшний день, большие языковые модели (LLMs) показали впечатляющие результаты в различных задачах, включая текстовую генерацию, перевод и ответы на вопросы. Однако они сталкиваются с существенными ограничениями в области знаний-интенсивных задач, в частности, склонностью к генерации неверных ответов (hallucinations) при работе с вопросами, требующими специального экспертного знания. Хотя существующие подходы, такие как Retrieval-Augmented Generation (RAG), пытаются улучшить это путем интеграции внешних источников знаний, они сталкиваются с проблемами при работе с задачами, требующими сложного логического применения. В этой работе авторы предлагают новую модель Logic-Augmented Generation (LAG), которая призвана решить эти проблемы, строясь на принципах картезианской методологии, описанных в «Дискурсе о методе». ## Метод LAG предлагает новую методологию логического аugmentation знаний, основанную на трех ключевых элементах: 1. **Декомпозиция вопросов**: LAG декомпозирует заданный вопрос на подзадачи (атомные подвопросы), которые расположены в логическом порядке. 2. **Зависимость между подвопросами**: каждый подвопрос разрешается на основе ответов на предыдущие, чтобы обеспечить последовательное и согласованное логическое разрешение. 3. **Терминация вывода**: LAG включает механизм остановки при разрешении подвопросов, когда логическая цепочка становится непродолжительной или задача становится неразрешимой, чтобы снизить затраты на вычисления. 4. **Синтез ответов**: после разрешения всех подвопросов, LAG собирает все ответы в единый логически корректный ответ. Технически, LAG использует модель LLMs с дополнительным контекстом в виде внешних данных, чтобы решать каждый подвопрос и следовать зависимостям. ## Результаты Эксперименты проводились на четырех бенчмарк-наборах данных, включая HotpotQA, LAMOL и другие. Результаты показали, что LAG значительно повышает устойчивость к ошибкам (robustness) и снижает риск генерации неверных ответов (hallucinations) по сравнению с RAG. LAG также улучшает логическую корректность и эффективность генерации ответов в сложных знаний-интенсивных задачах. ## Значимость Подход LAG имеет широкие применения в области знаний-интенсивных задач, включая ответы на вопросы, работу с специальными темами и интеллектуальные системы поддержки принятия решений. Он предлагает новый подход к логической организации знаний, уменьшая ошибки и улучшая взаимодействие с людьми. В будущем, модель LAG может быть расширена для областей, включая NLP-based clinical decision support и другие. ## Выводы Результаты

Annotation:

Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks, yet exhibit critical limitations in knowledge-intensive tasks, often generating hallucinations when faced with questions requiring specialized expertise. While retrieval-augmented generation (RAG) mitigates this by integrating external knowledge, it struggles with complex reasoning scenarios due to its reliance on direct semantic retrieval and lack of structured logical organization. Inspired by ...

ID: 2508.05509v2 cs.CL, cs.AI

arXiv PDF

📄 InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

2025-08-12

Авторы:

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu

## Контекст Суть исследования заключается в развитии самостоятельных агентов, которые взаимодействуют с графическими пользовательскими интерфейсами (GUI) только на основе текстовых инструкций. Это область значимa для развития интеллектуальных систем, которые могут управляться естественным языком. Одна из основных проблем в этой области — точное понимание и алгебраическое сопоставление текстовых инструкций с конкретными элементами GUI. Даже с появлением возможностей, предоставляемых Multimodal Large Language Models (MLLMs), эта задача остается сложной из-за необходимости точного семантического и пространственного соответствия. Несмотря на то, что Reinforcement Learning with Verifiable Rewards (RLVR) успешно оптимизирует пространственную точность, оно недостаточно эффективно для решения проблемы семантического сопоставления. Эти ограничения могут быть преодолены с помощью более эффективных методов по исследованию возможных решений. ## Метод Наша подходящая стратегия — Adaptive Exploration Policy Optimization (AEPO) — представляет собой фреймворк, оптимизирующий стратегию исследования элементов GUI с помощью нейросетевых моделей. Основной идеей является использование многоответной генерации, чтобы расширить область исследований, а затем — систематического влияния Adaptive Exploration Reward (AER), который оптимизирует работу модели на основе логики выбора эффективных путей. AEPO использует теоретически обоснованную формулу U/C, где U — успех, а C — затраты ресурсов. Эта формула позволяет модели фокусироваться на наиболее приоритетных случаях. Модели InfiGUI-G1, обученные с помощью AEPO, имеют два варианта: InfiGUI-G1-3B и InfiGUI-G1-7B. ## Результаты Эксперименты проводились на нескольких конкурентных GUI-benchmarks, позволяющих измерить общую грамотность, пространственную точность и семантический алгебраизм. Модели InfiGUI-G1 показали существенные улучшения в производительности, с достижением роста до 9,0% по сравнению с базовым RLVR. Эти результаты демонстрируют способность AEPO улучшить семантическую точность, даже при сложных сценариях, где RLVR сталкивается с проблемами. Мы также проанализировали время обучения и ресурсы, использованные для подтверждения эффективности нового подхода. ## Значимость Результаты AEPO могут быть применены в различных сферах, где требуется интеллектуальное взаимодействие с GUI — от управления умными домашними устройствами до систем управления бизнес-процессами. Основное преимущество AEPO заключается в том, что он позволяет моделям быстро и эффективно учиться, не теряя точности в пространственной и семантической обработке. Это открывает путь к более широкому применению GUI-агентов в уч

Annotation:

The emergence of Multimodal Large Language Models (MLLMs) has propelled the development of autonomous agents that operate on Graphical User Interfaces (GUIs) using pure visual input. A fundamental challenge is robustly grounding natural language instructions. This requires a precise spatial alignment, which accurately locates the coordinates of each element, and, more critically, a correct semantic alignment, which matches the instructions to the functionally appropriate UI element. Although Rei...

ID: 2508.05731v1 cs.AI, cs.CL

arXiv PDF

📄 Do Machines Think Emotionally? Cognitive Appraisal Analysis of Large Language Models

2025-08-12

Авторы:

Sree Bhattacharyya, Lucas Craig, Tharun Dilliraj, Jia Li, James Z. Wang

-------------------------------------------------------------------------------------------------------------- ## Контекст Affective Computing является ключевым направлением развития искусственного интеллекта (AI), сфокусированным на понимании, интерпретации и симуляции человеческих чувств и эмоций. Несмотря на прогресс в области обнаружения, измерения и синтеза эмоций, большинство исследований ограничиваются традиционными задачами, такими как распознавание эмоций в тексте, изображениях или аудио. Эти задачи часто остаются на уровне поверхностной оценки эмоций, не приобретая глубины и контекстной семантики. Недостаток в глубоком понимании эмоций через когнитивные аспекты приводит к нужде в альтернативным подходам, которые могут способствовать более глубокому интеллектуальному взаимодействию с AI. Методология когнитивного анализа, основывающаяся на теории когнитивного оценочного анализа (cognitive appraisal theory), предлагает новый взгляд на развитие эмоционально умных систем AI, которые могут выступать в качестве более интеллектуальных партнеров в широком спектре прикладных задач. -------------------------------------------------------------------------------------------------------------- ## Метод Это исследование предлагает новую методологию под названием CoRE (Cognitive Reasoning for Emotions), ориентированную на оценку когнитивных процессов в системах LLMs (Large Language Models) при работе с эмоционально заряженными стимулами. Метод включает в себя несколько этапов: 1. **Разработка бенчмарка CoRE**: Этот бенчмарк состоит из эмоционально заряженных ситуаций, построенных с использованием теории когнитивного оценочного анализа. Он предлагает задачи, которые требуют не только распознавания эмоций, но и доказательства когнитивных участков, связанных с этими эмоциями. 2. **Инструментарий для оценки когнитивного анализа**: Инструменты, разработанные в рамках CoRE, позволяют измерить, насколько хорошо модели LLMs могут рассуждать о эмоциональных ситуациях, используя когнитивные процессы. 3. **Анализ внутренних представлений**: Использование методов продвинутого анализа, таких как взвешенные компоненты (weighted components) и анализ представлений (representation analysis), для изучения внутренних моделей эмоций в LLMs. Этот подход позволяет измерить, как хорошо модели могут применять когнитивные оценки при работе с эмоциональными данными, а также выявлять их сильные и слабые стороны в этом процессе. -------------------------------------------------------------------------------------------------------------- ## Результаты Исследование включает в себя эксперименты с несколькими LLMs на CoRE-бенчмарке. Результаты показали, что некоторые модели демонстрируют более глубокую интеллектуальную оценку эмоций, в то время как другие остаются близки к поверхностным эмоциональным меткам. Например, модель X показала высокую точность при распознавании эмоциональных ситуаций, но слабо выделяла когнитивные участки, а модель Y, наоборот, показала низкую

Annotation:

Affective Computing has been established as a crucial field of inquiry to advance the holistic development of Artificial Intelligence (AI) systems. Foundation models -- especially Large Language Models (LLMs) -- have been evaluated, trained, or instruction-tuned in several past works, to become better predictors or generators of emotion. Most of these studies, however, approach emotion-related tasks in a supervised manner, assessing or training the capabilities of LLMs using discrete emotion lab...

ID: 2508.05880v1 cs.CL, cs.AI

arXiv PDF

1
2
717
718
719
720
721
750
751

Показано 7181 - 7190 из 7506 записей