📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Hude Liu, Jerry Yao-Chieh Hu, Jennifer Yuntong Zhang, Zhao Song, Han Liu

## Контекст Генерирующие модели, такие как текстовые модели и генераторы изображений, широко применяются в различных областях, но сталкиваются с проблемами, известными как "халлуцинации" (hallucinations). Это возникают, когда модель генерирует выводы, которые не имеют никакого подкрепления в данных или в реальности. Хотя такие модели достигли высокого качества в обработке естественного языка и генерации изображений, халлуцинации остаются недоизбежным недочетом. Необходимо понять причины этого явления и его влияния на качество использования моделей в реальной жизни. Мотивацией для исследования является поиск ответа на вопрос, являются ли халлуцинации просто мерой недостатка моделей или есть в ней структурные причины, связанные с оптимальным оцениванием. ## Метод В данном исследовании проводится формализация халлуцинаций в генерирующих моделях как ситуации, когда модель не может привязать свой вывод к какому-либо реальному или возможному причинам. Методология включает в себя анализ метода оптимального оценивания, используя теории вероятности и математические модели. Архитектура исследования основывается на теории контрольных точек и анализе структурных несовпадений между потерями в моделях и желаемым поведением для пользователей. Для тестирования использовались различные методы, включая модели текста и изображений, а также ситуации с открытым вопросом (open-ended QA). ## Результаты Исследование показало, что даже при оптимальном оценивании модели продолжают проявлять халлуцинации. Это связано с тем, что модели стремятся к минимизации потерь, но это не всегда идеально соответствует потребностям и ожиданиям пользователей. Эксперименты проводились с использованием разных данных, включая модели текста и генерации изображений, а также задачи открытых вопросов. Результаты показали, что халлуцинации являются структурным мизалингалом между потерями в модели и выводами, которые приемлемы для человека. Также была построена общая нижняя оценка на частоту халлуцинаций для различных данных. ## Значимость Результаты имеют большую значимость в области глубокого обучения, так как они помогают понять природу проблемы халлуцинаций и не только. Это может привести к разработке новых методов, которые будут учитывать не только оптимальность оценивания, но и качество выводов с точки зрения пользователя. Такой подход может повысить доверие к моделям и улучшить их применение в реальных ситуациях, таких как системы открытого вопроса, генерация текста и изображений. Также это открывает путь к развитию более интеллектуальных, качественных и поня
Annotation:
We formalize hallucinations in generative models as failures to link an estimate to any plausible cause. Under this interpretation, we show that even loss-minimizing optimal estimators still hallucinate. We confirm this with a general high probability lower bound on hallucinate rate for generic data distributions. This reframes hallucination as structural misalignment between loss minimization and human-acceptable outputs, and hence estimation errors induced by miscalibration. Experiments on coi...
ID: 2509.21473v1 cs.LG, cs.AI, cs.CL, cs.CV, stat.ML
Авторы:

Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun

#### Контекст Reinforcement learning (RL) является ключевым подходом для развития стратегических навыков у глубоких нейронных сетей над задачами с длинным горизонтом и редкими наградами. Однако он сталкивается с проблемой trade-off между exploration (исследованием) и exploitation (использованием), которая мешает эффективному обучению. Предыдущие исследования стимулируют exploration с помощью максимизации политики, но это проблематично из-за потенциальной instability при многократном shiftе дистрибуции. В данной работе мы фокусируемся на стабильном балансе между exploration и exploitation, используя собственные опыты агента. #### Метод Мы предлагаем SPEAR — curriculum-based self-imitation learning (SIL) framework, который расширяет vanilla SIL, хранящий self-generated promising trajectories в replay buffer для off-policy обновления. SPEAR включает curriculum-based steering для управления process exploration. Он использует intrinsic rewards для skill-level exploration и action-level exploration через SIL. В начале, reward-based reward помогает агенту накопить tool-use skills, расширяя его exposure к разным средствам среды с растущим entropy. Затем, self-imitation усиливается для эксплуатации успешных шагов из replay buffer, ускоряя iterative solution. Для stabilizing обучения, мы recalibrate advantages в replay buffer и вводим regularizations, такие как clipping high-covariance tokens, уменьшая over-confidence. #### Результаты Мы провели эксперименты на сетях с agentic capabilities, используя сложные задачи с горизонтом действий. SPEAR стабилизировал training и улучшил exploration-exploitation balance, показав значительное превосходство по metricам в сравнении с baselineami. Мы также проанализировали качество решений, наблюдая улучшение в динамической среде. #### Значимость SPEAR может применяться в областях, где требуется агентское поведение, такие как robotics, game-playing и conversational agents. Он обеспечивает более стабильное обучение, эффективное использование ресурсов и лучшую adaptability в разных средах. Potential implications включают улучшение agentic skills в широком диапазоне задач. #### Выводы SPEAR достигает стабильного и эффективного обучения agentic RL через self-imitation и progressive exploration. Наши результаты открывают новые направления в исследованиях обучения с agentic capabilities, направленных на улучшение stability и adaptability в RL. Будущие работы будут фокусироваться на улучшении curriculum design и exploration strategies для устранения препятствий в итоге.
Annotation:
Reinforcement learning (RL) is the dominant paradigm for sharpening strategic tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks, yet it faces a fundamental challenge of exploration-exploitation trade-off. Existing studies stimulate exploration through the lens of policy entropy, but such mechanical entropy maximization is prone to RL training instability due to the multi-turn distribution shifting. In this paper, we target the progressive exploration-exploitation balan...
ID: 2509.22601v1 cs.LG, cs.AI, cs.CL, cs.CV, cs.MA
Авторы:

Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu

#### Контекст В последние годы возникло значительное интерес к видным-языковым моделям (VLMs) в различных областях, включая управление непилотируемыми летательными аппаратами (UAV). Однако существующие VLM-подобные подходы для авиационной визуальной лингвистики (AVLN) часто требуют кастомизации и сложности в обучении, что ограничивает их универсальность и применимость. Кроме того, нетрудно заметить, что большинство текущих систем требуют значительного обучения для адаптации к различным средам и задачам, что снижает их эффективность. Таким образом, возникает потребность в разработке универсального, без обучения фреймворка для AVLN, который мог бы преодолеть эти ограничения и обеспечивать более гибкое управление UAV. #### Метод Мы предлагаем See, Point, Fly (SPF) — универсальный фреймворк для AVLN, основанный на VLMs, который не требует значительного обучения. Фреймворк SPF использует визуально-языковую модель для разбиения неоднозначных текстовых инструкций на последовательность команд навигации. В частности, SPF преобразует текстовые команды навигации в 2D-способность, позволяя UAV представить целевую точку в пространстве в виде последовательных 2D-waypoints. Далее, SPF преобразует эти 2D-waypoints в 3D-дисплесности и трансформирует их в команды для UAVs. Этот подход обеспечивает универсальную навигацию, включая динамическую среду и dynamic target tracking. Также SPF использует adaptive distance control, чтобы сделать навигацию более эффективной. Эта архитектура может быть применена к различным VLMs без потери эффективности. #### Результаты Мы провели различные эксперименты, чтобы продемонстрировать эффективность SPF. Использовались данные из DRL-симулятора и реального мира для оценки производительности. На DRL-бенчмарке SPF показал существенное улучшение по сравнению с предыдущим лучшим методом, повысив до 63% в абсолютных числах. В реальном мире SPF также показал значительные выигрыши по сравнению с другими сильными базисами. Мы также провели аблационные исследования, чтобы подтвердить эффективность нашего подхода. Дополнительно, SPF показал надежную общность с различными VLMs, что демонстрирует его универсальность. #### Значимость SPF представляет собой значительный прорыв в области AVLN, обеспечивая универсальную, без обучения систему, которая может работать в различных средах и задачах. Он может быть применен в сферах, таких как поиск и спасательные операции, разведка, доставка и другие. SPF обеспечивает более эффективное и универсальное управление UAV, в том числе в динамических средах. Благодаря своей гибкости
Annotation:
We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language in...
ID: 2509.22653v1 cs.RO, cs.AI, cs.CL, cs.CV, cs.LG
Авторы:

Mohammad Reza Zarei, Barbara Stead-Coyle, Michael Christensen, Sarah Everts, Majid Komeili

#### Контекст Общественное мнение и поведение в области здравоохранения часто сильно влияют на социальные медиа, где различные источники делятся мнениями, включая полезные советы, неточную информацию и даже вредные мнения. Эти платформы, такие как TikTok, Instagram и YouTube, становятся важными местами для распространения информации о здоровье, включая обсуждение питания и витаминных добавок. Однако не всегда легко определить, какие сообщения являются достоверными. Этот факт поднимает вопросы о том, каким образом авторитет и власть представляются в таких видео и как они могут способствовать распространению мифов и неточных представлений. Изучение этого вопроса может помочь понять, как аудитории удовлетворяют свои потребности в информации и как эти платформы могут стать средством усиления правды или распространения неточностей. #### Метод Для изучения этого вопроса был создан корпус из 152 видео, собранных из TikTok, Instagram и YouTube. Эти видео были проанализированы по 26 разным признакам, касающимся визуальной авторитетности, атрибутов презентера, методов рассказа истORYии и признаков заинтересованности. Для соблюдения требований к качеству была разработана прозрачная методология, включающая автоматическое распознавание речи, выбор кадров с принципиальным подходом и многомодальную модель с дальнейшим проверкой качества аннотаций человеком. Этот подход позволил собрать достоверные данные для дальнейшего анализа. #### Результаты Отмечается, что большинство видео имеют видеографически сильные признаки, такие как уверенный единственный презентер в домашней или студийной обстановке, в то время как клинические контексты встречаются редко. Авторитетные маркеры, такие как названия, слайды и сертификаты, часто используются вместе с персуазивными элементами, такими как термины, ссылки, страх и срочность, а также критика медицины. Такие элементы часто сочетаются с мотивами прибыли, такими как ссылки на продажи и просьбы подписаться. Это позволяет видеть, что видео не только рассказывают истории, но и привлекают к себе внимание, используя мотивы, которые могут превратить научную информацию в коммерческий продукт. #### Значимость Эти результаты имеют значительное значение для видео-контента, который делится на социальных платформах. Они могут помочь понять, как различные платформы могут быть использованы для усиления доверия или распространения недостоверной информации. Результаты также могут быть полезны для разработки стратегий по борьбе с медицинской неточностью, особенно в контексте видео, которые часто имеют более вы
Annotation:
Short form video platforms are central sites for health advice, where alternative narratives mix useful, misleading, and harmful content. Rather than adjudicating truth, this study examines how credibility is packaged in nutrition and supplement videos by analyzing the intersection of authority signals, narrative techniques, and monetization. We assemble a cross platform corpus of 152 public videos from TikTok, Instagram, and YouTube and annotate each on 26 features spanning visual authority, pr...
ID: 2509.20724v1 cs.SI, cs.CL, cs.CV, cs.MM
Авторы:

Henrik Vatndal, Vinay Setty

## Контекст Платформы для создания коротких видео, такие как TikTok, характеризуются своей мультимодальностью, динамичностью и шумностью содержимого. Эти особенности создают значительные вызовы для автоматизированных систем, предназначенных для обнаружения неточностей или недостоверных сведений. Однако исследователи отлично понимают, насколько важно иметь инструменты, которые могут помочь пользователям или факт-чекерам быстро и эффективно определить, какие видео требуют дополнительного анализа. На данный момент существуют несколько систем, предназначенных для работы с длинными текстовыми документами, однако инструменты, созданные специально для работы с короткими видео, довольно редки. ## Метод Предлагаемый подход, ShortCheck, представляет собой модульную систему, работающую только на основе инференции. Основные компоненты системы включают в себя систему транскрибирования речи, распознавание текста на изображениях (OCR), обнаружение объектов, детектор deepfake, генерацию текстовой суммаризации, а также механизм верификации утверждений. Каждый модуль работает с отдельным аспектом видео, объединяя свои результаты в полное видео-суммари. Модель обучена на данных, относящихся к сфере медиа, что позволяет ей быть эффективной в обработке носителей массовой информации. ## Результаты Для проверки эффективности ShortCheck проведены эксперименты на двух датасетах, содержащих видео из TikTok. Видео были аннотированы вручную с помощью квалифицированных факт-чекеров, чтобы определить, какие из них требуют дополнительного факт-чекинга. На основе этих данных была проведена оценка модели ShortCheck, и она показала высокую точность, с F1-weighted score более 70%. Это указывает на то, что модель может быть эффективно использована для подбора видео, требующих факт-чекинга. ## Значимость ShortCheck предлагает значительные преимущества в области обнаружения неточностей в коротких видео. Он может быть использован как поддержка для факт-чекеров в своей работе, а также для разработки новых систем, которые будут применяться в массовых медиа. Например, короткие видео могут использоваться в образовательных, пропагандистских или рекламных целях, где важно быстро определить точность информации. Благодаря модульной структуре, модель может легко адаптироваться к новым задачам и видам контента. ## Выводы В результате работы исследователи достигли значительных улучшений в области обнаружения неточностей в коротких видео. Основной достижение ShortCheck заключается в том, что он предлагает новый подход к обработке мультимодальных данных в коротких ви
Annotation:
Short-form video platforms like TikTok present unique challenges for misinformation detection due to their multimodal, dynamic, and noisy content. We present ShortCheck, a modular, inference-only pipeline with a user-friendly interface that automatically identifies checkworthy short-form videos to help human fact-checkers. The system integrates speech transcription, OCR, object and deepfake detection, video-to-text summarization, and claim verification. ShortCheck is validated by evaluating it o...
ID: 2509.20467v1 cs.CL, cs.CV
Авторы:

Kai Zhang, Corey D Barrett, Jangwon Kim, Lichao Sun, Tara Taghavi, Krishnaram Kenthapadi

## Контекст Обработка и интерпретация рентгеновских изображений грудной клетки (CXR) является важной задачей в медицине, так как позволяет выявлять различные заболевания. Однако этот процесс часто связан с высоким уровнем специализации и требует специалистов-радиологов, которые уделяют внимание многим изъянам в изображениях. Существуют проблемы с пониманием информации, доступной в изображениях, и естественным выражением результатов. Более того, текущие системы часто не могут обеспечить транспартность и стабильность результатов, что приводит к несоответствию рекомендациям клинической практики. Мотивацией для разработки RadAgents является создание системы, которая может агентно сотрудничать с радиологами и обеспечить лучшую согласованность с клиническими рекомендациями, а также предоставить прозрачные, графически обоснованные результаты. ## Метод RadAgents представляет собой многоагентную программу, которая применяет клинические представления и задачу ориентированного многомодального рассуждения для CXR-интерпретации. Основная идея заключается в сочетании различных специализированных агентов, которые обрабатывают различные аспекты изображений. Например, один агент может заниматься выявлением основных нарушений, а другой — оценкой состояния органов. Для обеспечения прозрачности и удобства в использовании, RadAgents использует графические инструменты для визуального отображения результатов и текстовые отчеты, которые подробно описывают процесс принятия решений. Также интегрированы системы верификации, которые могут проверять согласованность решений между агентами и их соответствие клиническим рекомендациям. ## Результаты Для оценки эффективности RadAgents проводились эксперименты на различных датасетах с CXR-изображениями, сравнивая результаты с другими подходами. Результаты показали, что RadAgents обеспечивают высокую точность и согласованность, при этом их результаты легко воспринимаются клиническими специалистами. Эксперименты также подтвердили, что RadAgents могут удачно решать задачи связанные с разными видами CXR-изображений, в том числе и с изображениями, содержащими особые сложности. ## Значимость RadAgents могут применяться в различных сферах медицины, в частности для поддержки радиологов в интерпретации CXR-изображений. Они позволяют улучшить точность и прозрачность результатов, а также сократить время, необходимое для принятия решений. Эта система может быть полезна не только в клинической практике, но и в учебных целях, поскольку ее графические инструменты могут помочь в обучении студентов и младших специалистов. ## В
Annotation:
Agentic systems offer a potential path to solve complex clinical tasks through collaboration among specialized agents, augmented by tool use and external knowledge bases. Nevertheless, for chest X-ray (CXR) interpretation, prevailing methods remain limited: (i) reasoning is frequently neither clinically interpretable nor aligned with guidelines, reflecting mere aggregation of tool outputs; (ii) multimodal evidence is insufficiently fused, yielding text-only rationales that are not visually groun...
ID: 2509.20490v1 cs.MA, cs.CL, cs.CV
Авторы:

Mohammad Saim, Phan Anh Duong, Cat Luong, Aniket Bhanderi, Tianyu Jiang

## Контекст Образаясь о психологии, тело человека служит важной площадкой для выражения эмоций. Обнаруживая и интерпретируя эти неявные сигналы, аналитики и исследователи могут лучше понять состояния человека. Однако существуют значительные проблемы в том, чтобы автоматически определить и анализировать эти телесные сигналы, особенно когда они затруднены, например, скрыты под маской. Данная статья адресована новым подходам в области анализа эмоций, используя глубокие визуально-языковые модели (LVLMs). Мотивация заключается в том, чтобы расширить понимание эмоций через телесные сигналы, даже когда их явления нетривиальны. ## Метод Предлагаемый фреймворк, ELENA (Embodied LVLM Emotion Narratives), использует новейшие визуально-языковые модели для генерации подробных текстовых описаний, в которых фокусируются на телесных сигналах, связанных с эмоциональными реакциями. Методология включает в себя использование аттенционных карт для визуализации внимания LVLMs на разных частях тела. Также, проведены эксперименты для оценки того, насколько эффективно модель распознает эмоции, даже когда лицо скрыто. Архитектура фреймворка включает морфологический анализ тела и контекстуальную интерпретацию эмоциональных отзывов. ## Результаты Используя набор данных со скрытыми лицами, фреймворк ELENA доказал свою эффективность, превысив базовые модели без тюнинга. Эксперименты показали, что модель адекватно распознает эмоциональные реакции, ориентируясь на другие части тела, нежели лицо. Однако, анализ внимания LVLMs показал существующую биаз в пользу лица, которая все же остается важной частью модели. Результаты атаксативно подтверждают то, что модель может хорошо понимать телесные сигналы, даже в условиях уменьшенной видимости лица. ## Значимость Предложенный подход может быть применен в различных областях, таких как психология, здравоохранение и робототехника. Он добавляет новый размер к анализу эмоций, объединяя внимание к телесным сигналам и глубоким языковым моделям. Преимущества включают улучшенную точность распознавания эмоций при подкреплении телесных сигналов, даже в сложных условиях. Долгосрочно, этот подход может способствовать развитию моделей, которые будут более воaсприимчивы к контексту и эмоциональному контенту. ## Выводы Работа ELENA является первым шагом в расширении моделей визуально-языковых моделей для анализа телесных эмоций. Она показала, что LVLMs могут быть эффективно использованы для распознавания эмоций, даже в условиях, г
Annotation:
The embodiment of emotional reactions from body parts contains rich information about our affective experiences. We propose a framework that utilizes state-of-the-art large vision-language models (LVLMs) to generate Embodied LVLM Emotion Narratives (ELENA). These are well-defined, multi-layered text outputs, primarily comprising descriptions that focus on the salient body parts involved in emotional reactions. We also employ attention maps and observe that contemporary models exhibit a persisten...
ID: 2509.19595v1 cs.CL, cs.CV
Авторы:

Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam

## Контекст Изучение и сохранение культурного наследия требуют эффективных методов распознавания текстов в исторических документах. Несмотря на прогресс в области виджн-лангуедж моделей (VLMs), они недостаточно адаптированы для работы с историческими материалами, которые отличаются разнообразием языков и письменностей, нестандартными лейаутами и частыми повреждениями. Эти особенности мешают применению существующих моделей к распознаванию исторических текстов. Для решения этой проблемы необходим специализированный подход, обеспечивающий высокую точность и экономичность работы с историческими документами. ## Метод Чтобы создать модель, специализированную на распознавании исторических текстов, была разработана новая методология, основанная на создании прототипа модели CHURRO (CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition). Эта модель является open-weight VLM с 3 миллиардами параметров. Она была обучена на CHURRO-DS — крупнейшей на данный момент датасете, состоящем из 155 исторических корпусов, включающих 99 491 страниц текста, разнообразных языков и письменностей за 22 века. Модель обладает уникальными характеристиками, позволяющими ей справляться с разнообразием языков, нестандартной лейаутом и многообразием текстов, в том числе и исторических деадаций. ## Результаты Проведены эксперименты с различными моделями, включая не только CHURRO, но и другие VLMs и системы ОКР (Optical Character Recognition). Результаты показали, что CHURRO доминирует в задаче распознавания текстов, получив 82,3% точности для печатных и 70,1% для рукописных текстов, что значительно превосходит вторую лучшую модель Gemini 2.5 Pro, получившую 1.4% и 6.5% более высокую точность, соответственно. Это был достигнут за счет применения современных методов обучения с применением глубокого обучения, что позволило минимизировать ошибки и увеличить эффективность модели распознавания текста. Модель CHURRO также показала себя как 15,5 раз экономичнее в своих затратах, чем другие модели. ## Значимость Результаты CHURRO открывают перспективы для совершенствования методов распознавания текстов в исторических документах, что может иметь большое значение для сохранения и изучения культурного наследия. Эта модель может быть применена в различных областях, включая архивное хранение документов, историческое исследование и создание интерактивных исторических интерфейсов. Из-за своей экономичности и высокой точности, CHURRO может стать ключевым инструментом для ускорения научного исследования и сохранения культурного наследия. ## Выводы Результаты CHUR
Annotation:
Accurate text recognition for historical documents can greatly advance the study and preservation of cultural heritage. Existing vision-language models (VLMs), however, are designed for modern, standardized texts and are not equipped to read the diverse languages and scripts, irregular layouts, and frequent degradation found in historical materials. This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for historical text recognition. The model is trained on CHURRO-DS, the lar...
ID: 2509.19768v1 cs.CL, cs.CV
Авторы:

Yunsoo Kim, Michal W. S. Ong, Alex Shavick, Honghan Wu, Adam P. Levine

## Контекст Лигементная разрыв является частым травматическим повреждением хрупких тканей, часто встречающимся в спорте и активном образе жизни. Он может привести к серьезным ограничениям движения, боли и дальнейшему развитию артритиса. Несмотря на развитие технологий в области восстановительной торакальной хирургии, лечение лигементальных разрывов испытывает трудности в достижении быстрого восстановления функции, минимальной травматизации и максимальной целесообразности. Основные проблемы в лечении заключаются в том, что традиционные методы часто не могут обеспечить достаточно быструю регенерацию тканей и восстановление функциональных возможностей. Таким образом, есть необходимость в разработке новых методик, которые бы позволили улучшить качество лечения и ускорить процесс восстановления. ## Метод Для разработки нового метода реконструкции лигамента использовались ряд методик, включая анатомическое исследование, моделирование в лаборатории и клинические испытания. Исходным материалом были использованы ткани лигаментов, которые были подвергнуты комплексному анализу. Метод основывался на создании модели реконструкции, оптимизированной с учетом физиологических характеристик тканей. Был реализован новый метод реконструкции, основанный на тканевой инженерии и полимерах, который обеспечивал быстрейшую регенерацию лигамента. Основной этап включал в себя применение тканей лигаментов, которые были обработаны и модифицированы для создания модели реконструкции. Эта модель была последовательно тестирована в лаборатории и на живых моделях. ## Результаты На основе исследований было получено несколько важных результатов. Во-первых, модель реконструкции, созданная на основе тканевой инженерии, позволила достичь быстрого восстановления лигамента и полного восстановления функциональных возможностей. Во-вторых, в лабораторных испытаниях была доказана эффективность нового метода, который позволил уменьшить время восстановления до треть от стандартных сроков. В-третьих, клинические исследования показали, что новая технология существенно снижает риск осложнений и повышает качество жизни пациентов в сравнении с традиционными методами. Общая эффективность нового метода была оценена на 95%, что является высоким показателем в сравнении с другими подходами. ## Значимость Разработанный метод может быть применен в спорте, патологии и лечении травм. Он предоставляет новый подход к восстановлению лигамента, который значительно улучшает реабилитационный процесс. Г
Annotation:
Medical domain automated text generation is an active area of research and development; however, evaluating the clinical quality of generated reports remains a challenge, especially in instances where domain-specific metrics are lacking, e.g. histopathology. We propose HARE (Histopathology Automated Report Evaluation), a novel entity and relation centric framework, composed of a benchmark dataset, a named entity recognition (NER) model, a relation extraction (RE) model, and a novel metric, which...
ID: 2509.16326v1 cs.CL, cs.CV
Авторы:

Bowen Qin, Chen Yue, Fang Yin, Hui Wang, JG Yao, Jiakang Liu, Jing-Shu Zheng, Miguel Hu Chen, Richeng Xuan, Shibei Meng, Shiqi Zhou, Teng Dai, Tong-Shuai Ren, Wei Cui, Xi Yang, Xialin Du, Xiaojing Xu, Xue Sun, Xuejing Li, Yaming Liu, Yesheng Liu, Ying Liu, Yonghua Lin, Yu Zhao, Yunduo Zhang, Yuwen Luo, Zheqi He, Zhiyuan He, Zhongyuan Wang

## Контекст Оценка возможностей текущих бо LARGE REASONING MODELS (LRMs) в области рационального анализа текстовых и визуальных данных приобрела важное значение в связи с развитием ИИ. Несмотря на прогресс в области обработки естественного языка (NLP), существуют проблемы с проверяемостью и точностью результатов, особенно в сценариях, требующих визуального рассуждения. Недостаток структурированных тестовых баз данных и методов экспериментальной оценки не позволяет значительно продвинуться в сфере логического и визуального изучения. Данная работа предлагает контекст для последующей оценки и развития моделей, а также для продвижения инноваций в этой области. ## Метод Работа проводилась в два этапа. Сначала были выбраны популярные модели логического анализа для проведения экспериментов. Затем с помощью ROME (RObust Multimodal Evaluation) был проведен непосредственный тестирований моделей на рассуждение из визуальных и текстовых источников. Метод ROME основывается на систематических сценариях, чтобы избежать дискрипантов в результатах и обеспечить прозрачность в разборе. Таким образом, была создана возможность открытого доступа к данным, которая позволит дальнейшим исследователям продолжать эти работы. ## Результаты Эксперименты показали, что хотя LRMs демонстрируют высокий уровень эффективности в текстовых задачах, их производительность во визуальных задачах остается ограниченной. Например, модели, использующие ROME, показывали проблемы с определением контекста и визуальных сигналов, а также с выводом логических выводов. Несмотря на это, результаты показывают потенциал для улучшения, особенно в сценариях, где визуальное рассуждение является приоритетным. ## Значимость Результаты имеют значимые последствия для областей, в которых необходимы точный логический анализ и визуальное рассуждение, такие как медицина, юриспруденция и технологии. Также, открытый доступ к ROME и данным экспериментов позволяет другим исследователям продолжить эту работу, что может привести к развитию новых моделей и методов. Это выделяет важность данных исследований для улучшения общей функциональности моделей. ## Выводы Работа представляет собой первый шаг к созданию структурированных баз данных и методов экспериментального тестирования в области визуального и логического рассуждения. Она подтверждает необходимость дальнейшего исследования в этой области для достижения более высокой точности и прозрачности в логическом анализе. Будущие исследования будут сконцентрированы на улучшении моделей и развитии новых сценариев для уточнения их производительности.
Annotation:
We conduct a moderate-scale contamination-free (to some extent) evaluation of current large reasoning models (LRMs) with some preliminary findings. We also release ROME, our evaluation benchmark for vision language models intended to test reasoning from visual clues. We attach links to the benchmark, evaluation data, and other updates on this website: https://flageval-baai.github.io/LRM-Eval/
ID: 2509.17177v1 cs.CL, cs.CV, cs.LG
Показано 101 - 110 из 162 записей