📚 Саммари научных статей из arXiv

Найдено 2064 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 LFD: Layer Fused Decoding to Exploit External Knowledge in Retrieval-Augmented Generation

2025-08-29

Авторы:

Yang Sun, Lixin Zou, Dan Luo, Zhiyong Xie, Long Zhang, Liming Dong, Yunwei Zhao, Xixun Lin, Yanxiong Lu, Chenliang Li

#### Контекст Современные области искусственного интеллекта сталкиваются с требованием к эффективному использованию внешнего знания в процессе работы генерирующих текстовых моделей. Retrieval-augmented generation (RAG) — это методика, которая включает внешний контекст в процесс генерации текста, улучшая точность и адаптивность моделей к различным задачам. Однако внедрение такого подхода может быть сложным и неэффективным из-за необходимости тщательной интеграции и анализа внешнего знания. Недавние эмпирические исследования показали, что внедрение шума в выделенные документы может улучшить качество генерируемого текста, что выглядит противоречивым. Это потенциально может позволить куда более гибкой и тщательной реализации внешнего знания в LLMs. Мы стремимся развить этот подход, улучшив гибкость и эффективность использования внешних знаний. #### Метод Мы предлагаем Layer Fused Decoding (LFD) — новую стратегию для объединения результатов работы различных слоев модели. Идея заключается в том, что разные слои модели имеют свои специализации: начальные слои отвечают за моделирование локального контекста, средние слои — за интеграцию внешнего фактического знания, а более глубокие слои зависят от внутреннего параметрического знания. Мы используем систему для определения оптимального слоя для объединения с помощью внутреннего критерия знаний (IKS). Этот критерий позволяет найти точку, где внешние знания могут быть наиболее эффективно интегрированы. Мы также внедряем простой механизм, который объединяет представления из средних слоев с входами последнего слоя для генерации вывода. #### Результаты Мы провели эксперименты на нескольких популярных тестовых наборах данных, включая сценарии с внешним контекстом. Результаты показали, что LFD улучшает точность и качество генерируемого текста, особенно в ситуациях, когда необходимо задействовать внешний контекст. Наши результаты показывают, что LFD может использоваться для лучшего управления внешним знанием и повышения качества генерации, даже в условиях ограниченных ресурсов. Эти результаты подтверждают эффективность нашего подхода в предоставлении более гибкой и точной интеграции внешних знаний в модели RAG. #### Значимость Предлагаемый подход может быть применен в различных областях, где необходимо гибко использовать внешний контекст, таких как генерация ответов на вопросы, синтез документов и анализ текста. Мы видим, что LFD может стать важной компонентой для моделей RAG, помогая им более эффективно использовать внешний контекст. Это также открывает возможности для дальнейшего исследования в обла

Annotation:

Retrieval-augmented generation (RAG) incorporates external knowledge into large language models (LLMs), improving their adaptability to downstream tasks and enabling information updates. Surprisingly, recent empirical evidence demonstrates that injecting noise into retrieved relevant documents paradoxically facilitates exploitation of external knowledge and improves generation quality. Although counterintuitive and challenging to apply in practice, this phenomenon enables granular control and ri...

ID: 2508.19614v1 cs.CL, cs.AI

arXiv PDF

📄 Survey of Specialized Large Language Model

2025-08-29

Авторы:

Chenghan Yang, Ruiyu Zhao, Yang Liu, Ling Jiang

## Контекст В последние годы искусственный интеллект (AI) перешел на новый уровень, особенно благодаря развитию значительных языковых моделей (LLMs). Они преобразовались от простых моделей для домена до создания специализированных архитектур, которые полностью развиваются на основе определенного профессионального контекста. Эта статья посвящена систематическому рассмотрению этого прогресса в доменах, таких как здравоохранение, финансы, право и техника. Она объясняет, почему специализированные LLMs становятся важными движущими силами в современном AI. В статье также рассматриваются технические улучшения, такие как достижения в области эффективного параметра, многомодальности и новые подходы к проектированию моделей. Исследование показывает, что такие модели особенно эффективны в решении задач, связанных с определенными профессиональными сферами. ## Метод Эта статья основывается на методологии обзора и анализа существующих работ. Она содержит обзор технологий, используемых в специализированных LLMs, а также подробное исследование их достижений в различных профессиональных сферах. Отдельное внимание уделяется техническим разработкам, таким как методы оптимизации параметров, технологии многомодальности и новые способы решения задач контекста. Эти технологии оцениваются в контексте их применимости к профессиональным задачам. Также рассматриваются многоуровневые архитектуры моделей и их возможности для применения в различных профессиональных сферах. ## Результаты Результаты анализа показывают, что специализированные LLMs совершенно превосходят общепринятые модели в решении задач, связанных с конкретными профессиональными проблемами. На основе сравнительных экспериментов, проведенных на данных из различных сфер (здравоохранение, финансы, право и техника), модели специализированных LLMs показали значительный прирост эффективности и точности. Например, модели, использующие многоуровневые архитектуры, показали значительные выигрыши в обработке многомодальных данных, в том числе текста и изображений. Были рассмотрены и новые методы эффективного использования параметров, такие как методы квантизации и спарсинга, которые позволяют существенно сократить ресурсы, необходимые для обучения и работы моделей. ## Значимость Специализированные LLMs имеют широкое применение в разных отраслях, в том числе здравоохранении, финансовой сфере, юридической практике и технике. Их главное преимущество — это мощность решения задач, связанных с конкретными профессиональными сферами. Они уменьшают время и ресурсы, необходи

Annotation:

The rapid evolution of specialized large language models (LLMs) has transitioned from simple domain adaptation to sophisticated native architectures, marking a paradigm shift in AI development. This survey systematically examines this progression across healthcare, finance, legal, and technical domains. Besides the wide use of specialized LLMs, technical breakthrough such as the emergence of domain-native designs beyond fine-tuning, growing emphasis on parameter efficiency through sparse computa...

ID: 2508.19667v1 cs.CL, cs.AI

arXiv PDF

📄 NLKI: A lightweight Natural Language Knowledge Integration Framework for Improving Small VLMs in Commonsense VQA Tasks

2025-08-29

Авторы:

Aritra Dutta, Swapnanil Mukherjee, Deepanway Ghosal, Somak Aditya

## Контекст Commonsense Visual Question Answering (Commonsense VQA) является важной областью исследований в машинном обучении. Эта задача включает в себя вывод ответов на визуальные вопросы, требующих не только визуального понимания, но и знаний о мире. Однако существуют серьезные трудности, связанные с нехваткой явно выраженного знания в изображении или вопросе. Особенно затруднительно это для малых визуально-языковых моделей (small Vision-Language Models, sVLMs), таких как ViLT, VisualBERT и FLAVA. Эти модели часто падают в сравнении с более крупными, но более ресурсоемкими моделями. Известно, что внедрение коммуникативной знаний может улучшить результаты, однако существуют препятствия в выборе наиболее подходящих источников знаний и методах их интеграции. ## Метод NLKI — это легковесная фреймворк для интеграции естественного языка в область коммуникативных знаний. Фреймворк состоит из трех основных этапов: 1. **Ретроинтеграция**: Используется ColBERTv2 для выбора наиболее важных фактов из естественного языка, отфильтрованных по теме. 2. **Логическая генерация**: Реактивное генерирование объяснений с помощью стандартных систем, таких как LLMs, на основе выбранных фактов. 3. **Внедрение в модель**: Обработанные знания встраиваются в sVLMs для усовершенствования работы модели в задачах VQA. Фреймворк использовался для трёх наборов данных: CRIC, AOKVQA и e-SNLI-VE. Использовались техники знаковного обучения, включая symmetric cross entropy и generalised cross entropy для улучшения моделей в тех случаях, когда данные содержат значительные ошибки. ## Результаты Применение NLKI привело к значительному улучшению результатов в задачах Commonsense VQA. Модели, использующие NLKI, увеличили точность ответов на 7% по сравнению с моделями, не использующими этот фреймворк. В частности, FLAVA, внедренная в NLKI, показала результаты, сопоставимые с средними моделями, такими как Qwen-2 VL-2B и SmolVLM-2.5B. Это улучшение было достигнуто благодаря эффективной интеграции коммуникативных знаний, которая снизила частоту халлуцинаций и улучшила понимание контекста. Дополнительный этап знаковного обучения с помощью новой стратегии, включающей в себя symmetric cross entropy и generalised cross entropy, приводит к ещё большему увеличению точности на 2.5% в CRIC и 5.5% в AOKVQA. ## Значимость Наработки NLKI открывают возможности для эффективного использования малых моделей в задачах с коммуникативными знаниями. Эта методика может быть применена в сферах, где необходимо повысить производительность моделей, ограниченных ресурсами. Например, она полезна в области обработки естественного языка, визуального понимания и визуа

Annotation:

Commonsense visual-question answering often hinges on knowledge that is missing from the image or the question. Small vision-language models (sVLMs) such as ViLT, VisualBERT and FLAVA therefore lag behind their larger generative counterparts. To study the effect of careful commonsense knowledge integration on sVLMs, we present an end-to-end framework (NLKI) that (i) retrieves natural language facts, (ii) prompts an LLM to craft natural language explanations, and (iii) feeds both signals to sVLMs...

ID: 2508.19724v2 cs.CL, cs.AI

arXiv PDF

📄 AI-Powered Detection of Inappropriate Language in Medical School Curricula

2025-08-29

Авторы:

Chiman Salavati, Shannon Song, Scott A. Hale, Roberto E. Montenegro, Shiri Dori-Hacohen, Fabricio Murai

#### Контекст Медицинская образовательная программа является ключевым фактором в формировании клинических навыков и отношений с пациентами. Однако данные материалы часто содержат устаревший, исключающий или непациент-центрированный язык, который может сказаться на качестве обучения и результатах лечения. Особенно важно уточнить, что многие из этих материалов были разработаны в течение многих десятилетий, и, несмотря на их репутацию, они могут включать языковые выражения, теперь считающиеся неприемлемыми по современным медицинским стандартам. Таким образом, актуальность идентификации такого языка и его корректировки в медицинских учебниках имеет большую значимость. Несмотря на репутацию современных методик, этот процесс требует огромных вложений времени и ресурсов, что делает его невыполнимым в масштабе. #### Метод Для решения этой проблемы были рассмотрены несколько подходов. В качестве основы использовались методы машинного обучения и мелких языковых моделей (Small Language Models, SLM), а также больших языковых моделей (Large Language Models, LLM) с использованием in-context learning. Для SLM были рассмотрены следующие варианты: (1) общий классификатор IUL, (2) подкомпонентный бинарный классификатор, (3) многометричный классификатор и (4) двухступенчатая гибридная система, включающая общую IUL-детекцию и последующую многометричную классификацию. Для LLMs были рассмотрены варианты с применением различных структурных подходов к формированию запросов, включающих определения подкомпонентов и/или строки-образцы (shots). #### Результаты В ходе изучения было выявлено, что многометричный классификатор показал самый высокий результат в данных с аннотациями, но повышение эффективности менее специфичных классификаторов достигло 25%, когда добавлялись неотмеченные примеры как отрицательные примеры. Большинство вариантов LLM, включая LLama-3 8B и 70B, не смогли превзойти SLM в точности и качестве распознавания IUL. Даже при использовании структурированных подсказок (shots), LLM иногда предполагали неточные или различные оценки сравнительно с SLM. Однако гибридная модель, объединяющая общую IUL-детекцию с многометричным классификатором, показала наиболее эффективный подход. #### Значимость Этот подход может быть применен в различных сферах, где необходима идентификация и корректировка неприемлемого языка, в том числе в образовательной сфере и клинических исследованиях. Особенно важно, чтобы медицинские учебные программы отражали современные стандарты, так как это может повлиять на клиническое обучение, отно

Annotation:

The use of inappropriate language -- such as outdated, exclusionary, or non-patient-centered terms -- medical instructional materials can significantly influence clinical training, patient interactions, and health outcomes. Despite their reputability, many materials developed over past decades contain examples now considered inappropriate by current medical standards. Given the volume of curricular content, manually identifying instances of inappropriate use of language (IUL) and its subcategori...

ID: 2508.19883v1 cs.CL, cs.AI, cs.CY, I.2.1; I.2.7

arXiv PDF

📄 Logical Reasoning with Outcome Reward Models for Test-Time Scaling

2025-08-29

Авторы:

Ramya Keerthy Thatikonda, Wray Buntine, Ehsan Shareghi

## Контекст Логическое разумование является ключевым показателем для оценки возможностей бо LARGE LANGUAGE MODELS (LLM), так как отражает их способность находить достоверные выводы на основании данных предположений. Несмотря на то, что методы "test-time scaling", сочетающиеся с моделями награды (outcome reward models), уже доказали свою эффективность в улучшении LLMs в задачах умственного разума, дедуктивное логическое разумование остается значительно недооцененным в этой области. Наша работа привлекает внимание к этому вопросу, предлагая набор Outcome Reward Models (ORMs) специально разработанных для дедуктивного логического разума. Мы видим в этой области большой потенциал для улучшения производительности и кредибильности LLMs, что сделано в нашем исследовании. ## Метод Для обучения ORMs мы использовали Chain-of-Thought (CoT), где генерировали данные с единственными и множественными вариантами ответов. Для расширения доступных типов ошибок в обучающем датасете мы предложили новую технику — Echo Generation. Эта техника использует тенденцию LLMs дублировать неверные предположения из заданного вопроса, позволяя генерировать дополнительные данные для обучения. Это позволяет увеличить объем обучающих данных, охватывая ранее неизученные типы ошибок. Мы применяли CoT и Echo Generation для обучения ORMs, а затем проверяли их на датасетах FOLIO, JustLogic и ProverQA с использованием четырёх моделей LLMs. ## Результаты Наши результаты показали, что ORMs обеспечивают значимый прирост в производительности на датасетов FOLIO, JustLogic и ProverQA. Эти полученные результаты проверены на четырёх моделях LLMs, и они показали, что наш подход улучшает способность LLMs работать с сложными дедуктивными задачами. Мы также отметили, что Echo Generation существенно расширила диапазон ошибок, поступивших в обучающий датасет, что позволило ORMs стать более устойчивыми к разнообразным видам ошибок. ## Значимость Наш подход имеет широкие перспективы в повышении качества выполнения LLMs в логических задачах. Он может применяться в различных областях, где логическое разумование играет ключевую роль, таких как образование, юриспруденция и принятие решений. Этот подход не только увеличивает производительность, но и улучшает устойчивость систем к ошибкам, что является ключевым аспектом в области автоматизированного логического разума. ## Выводы Мы демонстрируем, что ORMs, обученные с использованием CoT и Echo Generation, существенно улучшают производительность LLMs на задачах дедуктивного логического разума. Мы только начинаем раскрывать потенциал этого подхода и планируем в будущем проводить дополнительные эксперименты, оптимизировав техники Echo Generation и расширяя область применения ORMs в других логических задачах.

Annotation:

Logical reasoning is a critical benchmark for evaluating the capabilities of large language models (LLMs), as it reflects their ability to derive valid conclusions from given premises. While the combination of test-time scaling with dedicated outcome or process reward models has opened up new avenues to enhance LLMs performance in complex reasoning tasks, this space is under-explored in deductive logical reasoning. We present a set of Outcome Reward Models (ORMs) for deductive reasoning. To trai...

ID: 2508.19903v1 cs.CL, cs.AI

arXiv PDF

📄 Dhati+: Fine-tuned Large Language Models for Arabic Subjectivity Evaluation

2025-08-29

Авторы:

Slimane Bellaouar, Attia Nehar, Soumia Souffi, Mounia Bouameur

#### Контекст Исследование посвящено проблеме анализа субъективности текстов на арабском языке, которая является важной задачей в области естественного языкового процессинга (NLP). Арабский язык, несмотря на свою богатую морфологию и грамматическую сложность, остается недостаточно исследованным на технологическом фронтире. Ограниченное количество доступных тренировочных данных и недостаточно развитые инструменты для работы с текстами на этом языке становятся значительными препятствиями для развития эффективных решений. Однако последние достижения в области глубокого обучения и трансформеров показали свою эффективность в задачах классификации текстов на английском и французском языках. В этом исследовании предлагается новое решение для измерения субъективности текстов на арабском языке, которое может решить проблему нехватки ресурсов. #### Метод Методология работы основывается на применении готовых арабских языковых моделей, а также на развитии нового аннотированного датасета AraDhati+, который объединяет множество существующих источников (ASTD, LABR, HARD, SANAD). Для обучения и оценки системы разработчики использовали три модели: XLM-RoBERTa, AraBERT и ArabianGPT. Для повышения точности использовался метод энсемблирования моделей, который сочетает в себе преимущества каждой отдельной модели. Таким образом, был создан мощный инструмент, который может классифицировать тексты на арабском языке с высокой точностью. #### Результаты Эксперименты проводились на собственном датасете AraDhati+, который включал почти 30 000 текстов с их аннотациями. Результаты показали, что модель XLM-RoBERTa дала лучший результат с точностью 97,79%. Это значение свидетельствует о высокой эффективности предложенного подхода. Энсембльный подход также показал свое преимущество, но главная модель XLM-RoBERTa остается самой эффективной. #### Значимость Разработанный подход может быть применен в различных областях, таких как моделирование субъективности в социальных сетях, сентимент-анализ, анализ отзывов и другие задачи, где необходима отборка и синтез субъективной информации. Данный подход также демонстрирует потенциал для улучшения технологий NLP на арабском языке, которые до сих пор оставались за участком. Это может привести к развитию новых приложений и улучшению существующих. #### Выводы В ходе исследования был достигнут значительный прогресс в области анализа субъективности текстов на арабском языке. Основным достижением является повышение точности классификации до 97,79%. Дальнейшие иссле

Annotation:

Despite its significance, Arabic, a linguistically rich and morphologically complex language, faces the challenge of being under-resourced. The scarcity of large annotated datasets hampers the development of accurate tools for subjectivity analysis in Arabic. Recent advances in deep learning and Transformers have proven highly effective for text classification in English and French. This paper proposes a new approach for subjectivity assessment in Arabic textual data. To address the dearth of sp...

ID: 2508.19966v1 cs.CL, cs.AI

arXiv PDF

📄 Diffusion Language Models Know the Answer Before Decoding

2025-08-29

Авторы:

Pengxiang Li, Yefan Zhou, Dilxat Muhtar, Lu Yin, Shilin Yan, Li Shen, Yi Liang, Soroush Vosoughi, Shiwei Liu

#### Контекст Существующие модели генерации языка, такие как авторегрессионные модели, обладают высокой скоростью вывода, но ограничены в своей гибкости по порядку последовательности токенов. Новые модели, такие как diffusion language models (DLMs), предлагают альтернативу, обеспечивая параллельную генерацию последовательности с возможностью изменения порядка токенов. Однако, несмотря на высокую гибкость, DLMs работают медленнее, чем авторегрессионные модели. Это связано с высокой стоимостью билинейного алгоритма применения при вычислениях и значительным количеством шагов необходимых для достижения высокого качества результатов. В этой работе авторы раскрывают и используют интересный феномен DLMs: во время вывода возможно достижение корректного ответа до полного завершения процесса. Эта находка может привести к значительному ускорению работы моделей. #### Метод Авторы вводят новый подход к выводу, называемый **Prophet**. Prophet на основе динамического решения определяет, можно ли прекратить шаги рефининга и выполнить все оставшиеся генерации в одном шаге. В случае, когда две токенов с наибольшей вероятностью отличаются мало (confidence gap), Prophet решает выполнить все шаги в один проход. Этот подход не требует дополнительного обучения, легко интегрируется в существующие DLMs, и не требует никаких дополнительных ресурсов. Алгоритм Prophet использует всю функциональность DLMs, таких как bidirectional attention и свободный порядок токенов, но делает это быстрее и эффективнее. #### Результаты Исследования проводились на моделях LLaDA-8B и Dream-7B в различных сценариях. Prophet показал существенное ускорение вывода: генерация стала быстрее в три и более раз при сохранении высокого качества. На GSM8K и MMLU, более 95% задач могли быть решены за половину времени, необходимого для полного вывода. Эти результаты показали, что Prophet может использоваться в реальных задачах, когда требуется быстрая генерация. #### Значимость Предложенный подход применяется в области высокоскоростной генерации текста, особенно для задач, когда необходим мгновенный ответ, как, например, в разработке систем реального времени. Prophet позволяет DLMs быстрее реагировать на пользовательские запросы, увеличивая их эффективность. Это открывает новые возможности для использования DLMs в динамичных средах, таких как взаимодействие с пользователем и технологии в реальном времени. #### Выводы Работа подтверждает, что DLMs могут выводить корректные ответы за значительно меньше времени, чем в обычном режиме. Prophet представляет собой простую, но эффективную, технику для ускорения вывода, которая может быть интегрирована в существующие модели. Будущие исследования будут направлен

Annotation:

Diffusion language models (DLMs) have recently emerged as an alternative to autoregressive approaches, offering parallel sequence generation and flexible token orders. However, their inference remains slower than that of autoregressive models, primarily due to the cost of bidirectional attention and the large number of refinement steps required for high quality outputs. In this work, we highlight and leverage an overlooked property of DLMs early answer convergence: in many cases, the correct ans...

ID: 2508.19982v1 cs.CL, cs.AI

arXiv PDF

📄 MathBuddy: A Multimodal System for Affective Math Tutoring

2025-08-29

Авторы:

Debanjana Kar, Leopold Böss, Dacia Braca, Sebastian Maximilian Dennerlein, Nina Christine Hubig, Philipp Wintersberger, Yufang Hou

## Контекст В последние годы широко распространяется применение технологий глубокого обучения в области онлайн-образования. Динамические модели языка, такие как LLM (Large Language Models), позволяют создавать интеллектуальные системы обучения, которые могут обеспечивать эффективную помощь студентам. Однако, существующие модели не учитывают эмоциональные состояния учеников, что может существенно сказаться на качестве обучения. Несколько исследований в области образовательной психологии показывают, что эмоции могут оказать значительное влияние на процесс обучения. Модели, не учитывающие эти состояния, могут неэффективно адаптироваться к потребностям студентов. Для решения этой проблемы представлена MathBuddy — система, которая динамически моделирует эмоциональные состояния uчеников и применяет их для выбора оптимальных методов обучения. ## Метод MathBuddy является системой, основанной на LLM, которая моделирует эмоциональные состояния учеников, используя текстовые запросы и лицевые выражения. Для этого используются нейросетевые модели, включая конвейер, который анализирует текст и лицо, а также агрегирует эмоциональные признаки. Эти признаки используются для направления LLM-модели, чтобы она могла выдавать персонализированные ответы, учитывая эмоциональное состояние студента. Такой подход позволяет сформировать более эмоционально чувствительный диалог между студентом и моделью. ## Результаты Мы провели обширные эксперименты, используя различные данные студентов, включая текстовые запросы и лицевые выражения. Наша модель была оценена по 8 педагогическим критериям, включая точность, харизматичность и поддержку. Также было проведено исследование, в котором студенты использовали MathBuddy и другие системы по обучению математике. Результаты показали, что MathBuddy значительно улучшает поддержку учеников, обеспечивая более эмоционально чувствительный подход к обучению. Мы также использовали автоматические метрики для оценки качества ответов, доказав значительное улучшение в педагогическом качестве в сравнении с другими моделями. ## Значимость MathBuddy может быть применена в различных областях образовательных технологий, включая онлайн-курсы, удаленное обучение и программы поддержки обучения. Она предоставляет значительные преимущества, такие как более эмоционально чувствительный подход к обучению, адаптивность к потребностям каждого ученика и улучшение общего качества обучения. MathBuddy может стать основой для создания более эмоционально настроенных и эффективных систем обучения, которые учитывают не только технические аспекты, но и психологические факторы учеников. ## Выводы Мы п

Annotation:

The rapid adoption of LLM-based conversational systems is already transforming the landscape of educational technology. However, the current state-of-the-art learning models do not take into account the student's affective states. Multiple studies in educational psychology support the claim that positive or negative emotional states can impact a student's learning capabilities. To bridge this gap, we present MathBuddy, an emotionally aware LLM-powered Math Tutor, which dynamically models the stu...

ID: 2508.19993v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

2025-08-29

Авторы:

Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin

## Контекст Генерирующая синтезированная научная система — это инновационный подход к поиску и синтезу знаний, который может повлиять на развитие многих областей. Существующие системы поиска и анализа информации часто ограничены либо мало обновляемыми данными, либо подходами, не способными предоставить полноценные, цитируемые резюме. Эти проблемы становятся особенно актуальными при создании связанных работ в научных исследованиях. Данная работа адресует эти ограничения, предлагая новую методологию и фреймворк для эффективной оценки генерирующих систем референсных синтезированных знаний. ## Метод DeepScholar-Bench представляет собой живую систему, основанную на реальных данных, которая эмулирует задачи генерирования связанных работ. Основной концепцией является установить взаимосвязь с регистрами научных работ, таких как ArXiv, и автоматизировать процесс сбора, синтеза и оценки текстов. Разработанный архитектурный подход включает несколько этапов: извлечение данных, синтезирование контента и автоматическую оценку качества результатов. Это позволяет эффективно анализировать различные аспекты генерирования текста в рамках научных исследований. ## Результаты В ходе исследований была проведена систематическая оценка различных систем генерирующего синтеза научных работ. Использовались объемные данные из ArXiv, а результаты были измерены по нескольким ключевым показателям: точность синтеза, качество поиска и возможность проверки. Наиболее интересным результатом было то, что система DeepScholar-Bench не только демонстрирует высокий уровень качества, но и остается открытым для последующих улучшений. Значения показателей, достигнутые в ходе экспериментов, подтвердили силу этого подхода и подтвердили ценность фреймворка. ## Значимость Этот фреймворк может быть применен в различных областях, где необходима высокая точность в генерировании научных текстов, включая автоматизацию научных исследований, поддержку документирования и создание связанных работ. Одним из основных преимуществ является возможность живого мониторинга знаний и адаптации к изменениям, что значительно повышает эффективность в сравнении с статическими системами. ## Выводы DeepScholar-Bench подтвердил свою эффективность в качестве нового стандарта для оценки генерирующих систем референсного синтеза научных работ. Несмотря на прогресс, фреймворк остается открытым для дальнейших исследований, с целью повышения точности и универсальности в создании генерирующих систем. Дальнейшие исследования будут направлены на улучшение методов синтеза и увеличение точности результато

Annotation:

The ability to research and synthesize knowledge is central to human expertise and progress. An emerging class of systems promises these exciting capabilities through generative research synthesis, performing retrieval over the live web and synthesizing discovered sources into long-form, cited summaries. However, evaluating such systems remains an open challenge: existing question-answering benchmarks focus on short-form factual responses, while expert-curated datasets risk staleness and data co...

ID: 2508.20033v1 cs.CL, cs.AI

arXiv PDF

📄 MovieCORE: COgnitive REasoning in Movies

2025-08-28

Авторы:

Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu

#### Контекст В последние годы видеозапросы к ответам (Video Question Answering, VQA) стали важной областью исследований в рамках глубокого понимания видеоматериалов. Однако большинство существующих VQA-датасеты сфокусированы на понимании видео на поверхностном уровне, не доставляя достаточного вызова для глубоких когнитивных систем. Это проблема возникает из-за отсутствия вопросов, требующих глубокого системного (System-2) мышления, что характерно для людей при оценке и понимании контента видео. Для решения этой проблемы предлагается MovieCORE — новый VQA-датасет, который решает эту проблему, создавая вопросы, которые не только требуют активного участия System-2, но и ориентированы на конкретный контент видео. #### Метод MovieCORE был создан с использованием инновационного подхода, основанного на мульти-LLM brainstorming. Мы использовали несколько бо LLM в качестве "мыслительных агентов", чтобы сгенерировать и уточнить качественные вопросы и ответы. Этот подход позволил нам создавать вопросы, которые не только требуют глубокого понимания контекста, но и поднимают сложные вопросы для анализа. Для оценки качества датасета мы разработали ряд тестов, оценивающих глубину мышления, синтаксическую сложность и потенциал пробуждения вопросов. Также мы представили Agentic Choice Enhancement (ACE) — модуль, который улучшает модели видео-языковых моделей (VLMs), позволяя им лучше принимать решения и улучшать рассуждения в 25%. #### Результаты Мы провели эксперименты, используя MovieCORE для оценки уровней глубины мышления, потенциала вызова и синтаксической сложности вопросов. Данные эксперименты показали, что наши вопросы не только требуют глубокого понимания контекста, но и могут вызывать сложные рассуждения. Мы также проверили различные модели VQA на нашем датасете и получили результаты, показывающие, что даже самые продвинутые модели находятся в трудностях при работе с более сложными вопросами. Это подтверждает необходимость дальнейшего исследования для улучшения моделей VQA. #### Значимость MovieCORE может быть применен в различных областях, включая развитие интеллектуальных систем для анализа видео, создание более глубокого понимания контента, использование в области обучения и развлечений. Этот датасет дает возможность развивать модели, которые не только понимают видео, но и способны думать на более сложном уровне, что является ключевым аспектом в развитии AI. Благодаря ACE модулю, мы улучшили модели VQA, увеличив их рассуждения на 25%. #### Выводы MovieCORE представляет собой новую модель для VQA, которая расширяет границы глубокого понимания видеоматериалов. Этот датасет позволяет провери

Annotation:

This paper introduces MovieCORE, a novel video question answering (VQA) dataset designed to probe deeper cognitive understanding of movie content. Unlike existing datasets that focus on surface-level comprehension, MovieCORE emphasizes questions that engage System-2 thinking while remaining specific to the video material. We present an innovative agentic brainstorming approach, utilizing multiple large language models (LLMs) as thought agents to generate and refine high-quality question-answer p...

ID: 2508.19026v1 cs.CL, cs.AI, cs.CV

arXiv PDF

1
2
170
171
172
173
174
206
207

Показано 1711 - 1720 из 2064 записей