📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Mohsen Nayebi Kerdabadi, Arya Hadizadeh Moghaddam, Dongjie Wang, Zijun Yao

## Контекст Medical ontology graphs являются важной компонентой систем обработки информации в медицине. Они связывают внешний доменный знаний с медицинскими кодами в электронных записках обо всех видах деятельности (Electronic Health Records, EHR) с помощью структурированных отношений. Используя доменно-апробированные связи (например, родитель-потомок), модели с предсказательной моделью могут генерировать более глубокие медицинские представления понятий, включая контекстные сведения от связанных понятий. Несмотря на это, существующие исследования ограничиваются использованием знаний из одной онтологии или изолированным использованием нескольких онтологий без интеграции их в единое обучающее решение. Таким образом, обучение представления понятий остается в пределах внутрионтологических связей, не обращая внимания на перекрестные связи между онтологиями. В настоящем исследовании предлагается LINKO — [подробнее о названии] — чтобы решить эту проблему и обогатить представления понятий в медицинской сфере. ## Метод LINKO представляет собой инновационную методологию для обучения представлений понятий, основывающуюся на большой модели языка (LLM) и расширенной архитектуре двойной аксиальной пропагации. Метод предлагает следующие шаги: 1. **Инициализация с помощью LLM:** Использует граф-ориентированное восстановление для инициализации очистки информации о понятиях в онтологиях. Для этого используется особенное предложение, включающее описание понятий и контекст онтологии. 2. **Двойная аксиальная пропагация:** Обучение производится через две основные оси: - **Вертикальная пропагация внутри-онтологии:** Обучение понятий в каждой онтологии по отношению к своим родительским и дочерним понятиям. - **Горизонтальная пропагация меж-онтологии:** Заполнение одного понятия в одной онтологии с помощью похожих понятий в других онтологиях. 3. **Подключение моделей EHR:** LINKO является полностью совместимой с текущими медицинскими моделями взаимодействия с электронными записками обо всех видах деятельности. ## Результаты Эксперименты проводились на двух открытых датасетах, сравнивая LINKO с состоянием технологий. Результаты показали, что LINKO превосходит базовые модели по метрикам качества, таким как F1-меру и AUC-ROC. Была проведена также эмпирическая оценка устойчивости LINKO в ситуациях с ограниченным количеством данных и на редких заболеваниях. Эти результаты демонстрируют, что LINKO предлагает существенные улучшения в представлении понятий в стохастических задачах. ## Значимость LINKO имеет широкое применение в следу
Annotation:
Medical ontology graphs map external knowledge to medical codes in electronic health records via structured relationships. By leveraging domain-approved connections (e.g., parent-child), predictive models can generate richer medical concept representations by incorporating contextual information from related concepts. However, existing literature primarily focuses on incorporating domain knowledge from a single ontology system, or from multiple ontology systems (e.g., diseases, drugs, and proced...
ID: 2508.21320v1 cs.AI, cs.LG
Авторы:

Shubham Sharma, Sneha Tuli, Narendra Badam

#################### ## Контекст #################### Large Language Models (LLMs) являются ключевым инструментом в развитии искусственного интеллекта и находят применение в различных областях, включая чатботы, кодирование, здравоохранение, образование и проектирование. Однако их разработка и развертывание связаны с значительными вызовами, такими как трудности с обучением, эффективностью использования ресурсов, адаптацией к конкретным задачам и адресацией этических вопросов. Несмотря на эти сложности, LLMs показывают огромный потенциал для улучшения текущих процессов и создания новых возможностей в различных сферах. Эта статья сосредоточена на основных вызовах развития и применения LLMs, а также на сравнении двух современных моделей: GPT-4o от OpenAI и DeepSeek-V3-0324 от DeepSeek, которые проявляют различные подходы к решению этих вызовов. #################### ## Метод #################### Для изучения проблем и применений LLMs, а также сравнения GPT-4o и DeepSeek-V3-0324, проводится обширный обзор литературы, анализ конкретных технических решений и экспериментальные исследования. GPT-4o представляет собой закрытую модель, характеризующуюся высокой надежностью и гибкостью в файн-тюнинге. С другой стороны, DeepSeek-V3-0324 является открытой моделью, основанной на архитектуре Mixture-of-Experts (MoE), которая обеспечивает эффективность и гибкость в адаптации к различным задачам. Методология сравнения включает в себя оценку производительности, эффективности ресурсов, качества результатов и адаптации к различным сценариям применения. #################### ## Результаты #################### Проведенные эксперименты показали, что GPT-4o превосходит в области точности и надежности, особенно при файн-тюнинге для конкретных задач. В то же время, DeepSeek-V3-0324 демонстрирует высокую эффективность и гибкость в адаптации к различным сценариям, благодаря своей архитектуре MoE. Данные эксперименты были проведены на широком спектре данных, включая тексты, коды, медицинские данные и другие. Результаты показали, что GPT-4o отличается более высоким качеством выдачи для задач, требующих высокой точности, в то время как DeepSeek-V3-0324 показал лучший результат при работе с большими наборами данных и необходимости быстрой адаптации. #################### ## Значимость #################### Полученные результаты имеют большое значение для разных областей применения LLMs. GPT-4o лучше подходит для задач, требующих высокой точности и надежности, таких как государственные сервисы, финансовые услуги и здравоохранение. Другой стороны, DeepSeek-V3-0324 является предпочтительным выбором для эффективных задач, таких как разработка систем чатботов, систем поддержки принятия решений и образовательные
Annotation:
Large Language Models (LLMs) are transforming AI across industries, but their development and deployment remain complex. This survey reviews 16 key challenges in building and using LLMs and examines how these challenges are addressed by two state-of-the-art models with unique approaches: OpenAI's closed source GPT-4o (May 2024 update) and DeepSeek-V3-0324 (March 2025), a large open source Mixture-of-Experts model. Through this comparison, we showcase the trade-offs between closed source models (...
ID: 2508.21377v1 cs.CL, cs.AI, cs.LG, 68T50, 68T07, I.2.7; I.2.6; H.3.3
Авторы:

Sara B. Coutinho, Rafael M. O. Cruz, Francimaria R. S. Nascimento, George D. C. Cavalcanti

#### Контекст Fake news, особенно на платформах социальных медиа, становится все более важной проблемой в связи со своим потенциалом для воздействия на общественное мнение, в том числе в сферах опасности, таких как здравоохранение и политика. Человеческие биазы, такие как проверенный биаз (confirmation bias), делают людей уязвимыми к верификации и распространению ложной информации. Машинное обучение используется для автоматизации процессов факт-чеккинга, чтобы сделать их эффективнее. Одним из эффективных подходов являются методы пакетного классификатора (ensemble methods), которые объединяют несколько моделей классификации для улучшения точности и устойчивости результатов. Однако проблема в том, что подобные системы часто страдают от недостатка разнообразия (diversity) между классификаторами, что приводит к повторению шаблонов и ухудшению их общей точности. Наша работа стремится решить эту проблему, создав метод, оптимизирующий разнообразие в ensemble-классификаторах. #### Метод В нашей работе предлагается новая методика для выбора классификаторов, основанная на принципе разнообразия (diversity) и производительности (performance). Метод начинает с вычисления парных разнообразий (pairwise diversity) между классификаторами, затем применяет группировку в иерархическом кластеринге (hierarchical clustering) для разделения классификаторов на группы на разных уровнях детализации. Отдельная группа классификаторов, каждая из которых представляет собой максимальное разнообразие внутри группы (intra-pool diversity), выбирается на каждом уровне иерархии. Данный процесс повторяется до тех пор, пока не будет выбрана одна группа классификаторов на всей иерархии. Таким образом, метод формирует пул классификаторов, который обеспечивает максимальное разнообразие. Для того, чтобы гарантировать хорошую общую точность ensemble, к каждому классификатору применяется метрика, отражающая его производительность (performance). #### Результаты Мы провести эксперименты с 40 различными классификаторами, работающими на шести разных наборах данных из различных областей применения и с разным количеством классов. Наша методика сравнивалась с двумя основными подходами: геометрическим георгиевым алгоритмом (Elbow heuristic) и современными стандартными методами (state-of-the-art baselines). Результаты показали, что наш подход достиг лучшей точности на двух из шести наборов данных, что демонстрирует его эффективность в создании ensemble-классификаторов с высоким разнообразием и производительностью. Исходный код и подробности имплементации доступны на GitHub: [https://github.com/SaraBCoutinho/HSFN](https://github.com/SaraBCoutinho/HSFN). #### Значимость Наш подхо
Annotation:
Psychological biases, such as confirmation bias, make individuals particularly vulnerable to believing and spreading fake news on social media, leading to significant consequences in domains such as public health and politics. Machine learning-based fact-checking systems have been widely studied to mitigate this problem. Among them, ensemble methods are particularly effective in combining multiple classifiers to improve robustness. However, their performance heavily depends on the diversity of t...
ID: 2508.21482v1 cs.CL, cs.AI, cs.LG
Авторы:

Nattapong Kurpukdee, Adrian G. Bors

## Контекст Нейронные сети по-прежнему сталкиваются с проблемами, связанными с нехваткой методик для непрерывного обучения в условиях слишком большого объема данных. Особенно актуален вопрос непрерывного обучения в контексте видеоданных, где необходимо учитывать как пространственные, так и временные аспекты. Традиционные методы непрерывного обучения не могут справиться с данными видео, так как не принимают во внимание специфику видеоданных. Более того, многие алгоритмы непрерывного обучения требуют знания границ задач и классов, что не всегда доступно. Мы предлагаем метод, который может справиться с этими вызовами, обеспечивая непрерывное обучение видеоданных в условиях сокрытых границ задач и недоступности классовых меток. ## Метод Мы предлагаем решение, основанное на непараметричном кластеризационном подходе, основанном на Kernel Density Estimation (KDE). Данный подход использует глубокие базисы трансформеров для извлечения видеофичей. Мы также расширяем память для запоминания новых классов динамически во время обучения. Метод также использует передачу знаний из множества предыдущих задач, чтобы облегчить обучение новой задачи. Это развитие включает в себя использование непараметрического кластеризационного метода, который позволяет учитывать характеристики трансформеров для выделения видеофичей. ## Результаты Мы проводили эксперименты на трех видеоданныхсетях: UCF101, HMDB51 и Something-to-Something V2. Мы показали, что наш подход изменяет память в зависимости от объема данных и позволяет многоклассовый классификатор обучаться в условиях нестационарных классов. Наш результат показывает, что алгоритм превосходит другие подходы к непрерывному обучению видеоданных. Мы также провели оценку того, насколько эффективно алгоритм запоминает предыдущие задачи и учитывает новые. ## Значимость Наш подход может быть применен в сценариях, где необходимо обучение модели к новым классам без предварительного знания о классах или границах задач. Он может быть применен в различных областях, таких как распознавание действий, мониторинг задач и анализ видеоданных для различных приложений. Наши результаты показывают, что данный подход может значительно повысить эффективность обучения в условиях сокрытых границ задач и неконтролируемости классов. ## Выводы Мы предлагаем новый подход к непрерывному обучению видеоданных, который не требует знания о классах или границах задач. Наш алгоритм динамически расширяет память, чтобы учитывать новые классы в процессе обучения. Мы показали, что наш подход показывает высокую эффе
Annotation:
We propose a realistic scenario for the unsupervised video learning where neither task boundaries nor labels are provided when learning a succession of tasks. We also provide a non-parametric learning solution for the under-explored problem of unsupervised video continual learning. Videos represent a complex and rich spatio-temporal media information, widely used in many applications, but which have not been sufficiently explored in unsupervised continual learning. Prior studies have only focuse...
ID: 2508.21773v1 cs.CV, cs.AI, cs.LG
Авторы:

Ugur Dinc, Jibak Sarkar, Philipp Schubert, Sabine Semrau, Thomas Weissmann, Andre Karius, Johann Brand, Bernd-Niklas Axer, Ahmed Gomaa, Pluvio Stephan, Ishita Sheth, Sogand Beirami, Annette Schwarz, Udo Gaipl, Benjamin Frey, Christoph Bert, Stefanie Corradini, Rainer Fietkau, Florian Putz

## Контекст Область радиологии широко применяется в медицине, особенно в радиологии онкологии, где точность и качество лечения играют ключевую роль в результатах лечения. Использование глубокого обучения и гра LLM (large language models) продвинуло границы клинической поддержки решений. GPT-5, новый LLM-система, была специально разработана для применения в онкологии. Несмотря на свои возможности, существуют вопросы относительно точности и достоверности его рекомендаций. Эта статья описывает эксперимент по оценке GPT-5 в радиологии онкологии, с целью оценить точность и качество рекомендаций. ## Метод Для оценки GPT-5 были использованы два основных подхода. В первом подходе GPT-5 прошёл тест ACR Radiation Oncology In-Training Examination (TXIT, 2021), состоящий из 300 многовариантных вопросов. На втором этапе GPT-5 был запрограммирован для генерации лечебных планов по 60 реальным задачам в области радиологии онкологии. Эксперты, основываясь на уровне точности, полноту и наличие нереальных рекомендаций (hallucinations), оценивали рекомендации. Для измерения согласия между экспертами использовался метод Fleiss' \k{appa}. ## Результаты GPT-5 показал высокую точность на TXIT, достигнув среднего результата 92.8%. Это значительно превышает результаты GPT-4 (78.8%) и GPT-3.5 (62.1%). Особенно выдающиеся результаты были показаны в областях Dose и Diagnosis. В реальных задачах лечебные рекомендации GPT-5 были оценены высоко на точности (средний балл 3.24 из 4) и полноту (3.59 из 4). Халлуцинации были редкими, и ни один случай не достиг согласия в оценке экспертов. Наблюдались ошибки в сложных случаях, требующих точного понимания протоколов или четкой клинической настройки. ## Значимость Полученные результаты указывают на значительный потенциал GPT-5 в области радиологии онкологии. Его можно использовать для поддержки клинических решений, но только при подробном клиническом контроле. Его может применяться как инструмент для повышения эффективности и точности лечения. Однако есть необходимость в дальнейших исследованиях для уменьшения ошибок и улучшения стабильности рекомендаций. ## Выводы GPT-5 демонстрирует значительные улучшения по сравнению с предыдущими версиями GPT в области радиологии онкологии. Он показывает высокую точность и полноту в лечебных рекомендациях. Однако необходимость в клиническом контроле и устранении ошибок, особенно в сложных случаях, остается приоритетной. Будущие исследования должны сфокусироваться на уменьшении ошибок и повышении стабильности рекомендаций в реальных клинических условиях.
Annotation:
Introduction: Large language models (LLM) have shown great potential in clinical decision support. GPT-5 is a novel LLM system that has been specifically marketed towards oncology use. Methods: Performance was assessed using two complementary benchmarks: (i) the ACR Radiation Oncology In-Training Examination (TXIT, 2021), comprising 300 multiple-choice items, and (ii) a curated set of 60 authentic radiation oncologic vignettes representing diverse disease sites and treatment indications. For t...
ID: 2508.21777v1 cs.CV, cs.AI, cs.LG
Авторы:

Alireza Abbaszadeh, Armita Shahlai

################################# ## Контекст ################################# Система CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats) представляет собой необходимый инструмент для геномного редактирования, позволяя выполнять точное модификации генов. Одной из ключевых задач в этой области является оптимизация дизайна guide RNA (gRNA), который руководит Cas-энзимом к целевой последовательности. Оптимальный дизайн gRNA должен обеспечивать эффективность редактирования и минимизировать off-target эффекты, которые могут привести к нежелательным модификациям генома. Несмотря на прогресс в этой области, оценка on-target activity и off-target потенциала gRNA остается сложной и часто неточной задачей. Появление искусственного интеллекта (AI), особенно глубокого обучения, дало новые возможности для точной предсказания поведения gRNA. AI модели могут анализировать большие наборы данных и выявлять сложные зависимости между геномными последовательностями и производительностью Cas-энзима. Тем не менее, многие из этих моделей остаются "черными ящиками", что ограничивает их практическое применение в клинических и научных задачах. Недавние развития в области explainable AI (XAI) начали разглядеть эти черные ящики, предоставляя понятные для человека обоснования для предсказаний. Это решает не только проблему эффективности gRNA, но и обеспечивает новые возможности для расширения применения CRISPR в клиническую практику, включая лечение генетических заболеваний и разработку новых терапевтических агентов. ################################# ## Метод ################################# Для повышения точности и понятности дизайна gRNA в статье предлагается использование современных AI-моделей, включая глубокое обучение (deep learning), и explainable AI (XAI) техники. Модели разрабатываются на основе больших наборов данных, включающих последовательности gRNA и связанных с ними производительностей Cas-энзимов. Основной методологией является следующая: 1. Предварительная обработка данных: геномные последовательности gRNA и целевые гены обрабатываются для удаления шумов и выделения признаков, относящихся к производительности и off-target эффектам. 2. Обучение моделей: учитывается использование различных глубоких нейронных сетей, таких как рекуррентные сети (RNN), конволюционные сети (CNN) и трансформеры, для предсказания on-target activity и off-target risk. 3. Хорошая поддержка XAI-техниками, которые предоставляют понятные для человека объяснения для каждого предсказания, выявляя ключевые факторы, влияющие на производительность gRNA. Архитектура моделей включает слои для фичи-экстракции, attention-механизмы для выявления важных подпоследовательностей в gRNA, и оптимизационные слои для совместимости с ограничениями клинических применений. ################################# ## Результаты ################################# Оп
Annotation:
CRISPR-based genome editing has revolutionized biotechnology, yet optimizing guide RNA (gRNA) design for efficiency and safety remains a critical challenge. Recent advances (2020--2025, updated to reflect current year if needed) demonstrate that artificial intelligence (AI), especially deep learning, can markedly improve the prediction of gRNA on-target activity and identify off-target risks. In parallel, emerging explainable AI (XAI) techniques are beginning to illuminate the black-box nature o...
ID: 2508.20130v1 q-bio.QM, cs.AI, cs.LG
Авторы:

Yuqicheng Zhu, Nico Potyka, Daniel Hernández, Yuan He, Zifeng Ding, Bo Xiong, Dongzhuoran Zhou, Evgeny Kharlamov, Steffen Staab

#### Контекст Стоят вызовы, связанные с неудовлетворительной точностью и непрозрачностью существующих архитектур Retrieval-Augmented Generation (RAG) в высокорисковых областях. Такие проблемы могут привести к ошибкам в решениях серьезного характера. Из-за того, что RAG часто полагается на неявные или шумные субъективные выводы, она становится чувствительной к шуму в вводимых данных и не умеет полноценно объяснять свои решения. Это создает серьезные ограничения для применения в сферах, таких как медицина, закон и финансы. Мотивация для ArgRAG — преодолеть эти проблемы, обеспечив создание более прозрачной и обоснованной системы генерирования, позволяющей пользователю полностью понять и подвергнуть субъективным тестам выводы, которые она сделает. #### Метод ArgRAG основывается на Quantitative Bipolar Argumentation Framework (QBAF), который представляет собой структурированный подход к обработке аргументов. На вход ArgRAG подается набор документов, полученных в результате поиска по запросу. Он строит QBAF в виде графа, где узлы представляют аргументы, а ребра — степень влияния одного аргумента на другой. Для вывода ArgRAG использует правила Gradual Semantics, которые формализуют понятие степени убедительности аргументов. Таким образом, ArgRAG предлагает полностью детерминированный подход, который допускает подробный анализ результатов и их проверку в условиях субъективности входных данных. #### Результаты В ходе экспериментов ArgRAG был оценен на двух наборах данных: PubHealth и RAGuard, посвященных классификации фактовых утверждений. Он показал сравнительную высокую точность в задаче fact verification, при этом значительно превосходя другие методы по уровню прозрачности решений. В ходе экспериментов установлено, что ArgRAG не только выдает более точные выводы, но и предоставляет понятные и подтвердимые экспертом объяснения, позволяя тестировать их на ценность и правильность. Это позволяет ArgRAG быть удовлетворительным инструментом для сценариев, где необходима интеллектуальная прозрачность. #### Значимость ArgRAG может быть применен в множестве сфер, где требуется высокая точность и прозрачность решений. Например, в медицинской диагностике, в судебных запросах, в финансовой аналитике, где любая ошибка может быть критична. Он предоставляет не только более полные ответы, но и позволяет пользователю понять, что именно стало основой для вывода, а также подвергнуть этой основе критический анализ. Помимо этого, ArgRAG может стать основой для развития других методов, которые будут использовать структурированную аргументацию в целях повышения прозрачности и уменьшения влияния шума. #### Выводы ArgRAG полность
Annotation:
Retrieval-Augmented Generation (RAG) enhances large language models by incorporating external knowledge, yet suffers from critical limitations in high-stakes domains -- namely, sensitivity to noisy or contradictory evidence and opaque, stochastic decision-making. We propose ArgRAG, an explainable, and contestable alternative that replaces black-box reasoning with structured inference using a Quantitative Bipolar Argumentation Framework (QBAF). ArgRAG constructs a QBAF from retrieved documents an...
ID: 2508.20131v1 cs.AI, cs.LG
Авторы:

Sopam Dasgupta, Sadaf MD Halim, Joaquín Arias, Elmer Salazar, Gopal Gupta

## Контекст Машинное обучение вступает важное значение в решении решений в высокорисковых сферах, таких как финансы, право и трудоустройство. Такие модели, однако, часто оказываются непрозрачными, что создает необходимость в разъяснении их решений. Однако транспарентность часто конфликтует с возможностью развития: появлением действий для изменения результата. Counterfactual explanations позволяют понять, почему результат нежелателен, и какими целевыми изменениями возможно изменить этот результат. Существующие классические подходы к counterfactuals игнорируют зависимости между фичами и предполагают, что все изменения могут произойти одновременно, что невозможно в реальной жизни. Это затрудняет применение этих подходов в практических ситуациях. ## Метод P2C (Path-to-Counterfactuals) предлагает модель-независимый подход для генерации качественных counterfactual explanations. Он акцентирует внимание на моделировании как структурной зависимости между фичами, так и последовательности их изменения. P2C использует систему Answer Set Programming (ASP) для вывода плана изменений, который берет в расчет динамические изменения, вызванные причинными связями. Эта система также перерабатывает стоимость изменений, рассчитывая только те изменения, которые пользователь действительно произвел, что делает результат более реалистичным. ## Результаты P2C проверено на задачах из различных областей, таких как финансы и борьба со спамом. Эксперименты показали, что P2C генерирует counterfactual explanations, которые соблюдают причинные связи и являются реалистичными для реального применения. Эти результаты показали, что P2C превосходит существующие подходы в том, что он учитывает как структурные зависимости, так и порядок изменений в плане. ## Значимость P2C может быть применен в любой сфере, где требуется сбалансированный подход к транспарентности и действительным решениям, таких как финансы, право и искусственный интеллект. Наиболее значительным преимуществом является то, что P2C выделяет логический порядок изменений, что делает его решения более реалистичными и применимыми. Это может положительно влиять на развитие методологий в области безопасного и честного использования AI. ## Выводы P2C представляет собой мощный подход для генерации качественных counterfactual explanations, учитывающий логические зависимости и практические ограничения. Будущие исследования будут стремиться расширить применение P2C на более сложные задачи и более разнообразные сети причинных связей, чтобы повысить его универсальность и эффективность.
Annotation:
Machine-learning models are increasingly driving decisions in high-stakes settings, such as finance, law, and hiring, thus, highlighting the need for transparency. However, the key challenge is to balance transparency -- clarifying `why' a decision was made -- with recourse: providing actionable steps on `how' to achieve a favourable outcome from an unfavourable outcome. Counterfactual explanations reveal `why' an undesired outcome occurred and `how' to reverse it through targeted feature change...
ID: 2508.20371v1 cs.AI, cs.LG, cs.LO
Авторы:

Yuyao Wang, Bowen Liu, Jianheng Tang, Nuo Chen, Yuhan Li, Qifan Zhang, Jia Li

## Контекст В последние годы технологии Больших Лингвистических Моделей (LLMs) показали потрясающий прогресс в различных областях, в том числе в области логического и технического рассуждения. Однако, несмотря на эти успехи, развитие Long Chain-of-Thought (Long CoT) в LLMs остается сложным и затратным, в основном из-за необходимости использовать высококачественные, но дорогие и часто масштабно-ограниченные данные, такие как математические задачи и кодирование. Эти ограничения вводят значительные барьеры для более широкого использования LLMs в различных прикладных областях, где требуются действительно мощные и эффективные модели. Мы предлагаем новую подходящую технику, которая может решить эту проблему. ## Метод В центре нашего подхода лежит использование NP-hard (NPH) graph problems как новых искусственных тренировочных данных, которые требуют глубокого и продолжительного рассуждения. Мы разработали двухэтапную фреймворк для пост-тренировки: (i) дополнительное тренирование с помощью традиционной техники Long CoT Supervised Fine-Tuning (SFT), где вводится новый подход с rejection-sampling для NPH graph problems, улучшая глубину и структуру рассуждений; (ii) использование Reinforcement Learning (RL) с применением новинки в системах вознаграждений для улучшения эффективности рассуждений. Модель Graph-R1-7B, разработанная нами, показала сильную общую универсальность в математике, программировании, STEM и логике, обгоняя QwQ-32B в области NPH graph problems. ## Результаты Наши эксперименты показали, что модель Graph-R1-7B достигла выдающихся результатов в рассуждении, особенно в сложных задачах, требующих глубокого рассуждения. Она существенно выигрывает над QwQ-32B в точности и эффективности рассуждения в задачах NPH graph problems, показывая надежный подход к улучшению глубокого мышления в LLMs. ## Значимость Наш подход может быть применен в широких областях, таких как математическое моделирование, логическое программирование, STEM, и даже задачи в повседневной жизни, где требуется высококлассный рассуждительный подход. Мы показали, что NPH graph problems могут служить эффективным и масштабируемым источником тренировочных данных для повышения глубины и эффективности рассуждений в LLMs. ## Выводы Наша работа представляет собой новую технику для улучшения Long Chain-of-Thought reasoning в LLMs, определяя NPH graph problems как новый и эффективный источник данных для пост-тренировки моделей. В будущем, мы планируем расширить наш фреймворк на другие типы задач и области, повысив способность LLMs работать в сложных и нетривиальных задачах.
Annotation:
Reasoning Large Language Models (RLLMs) have recently achieved remarkable progress on complex reasoning tasks, largely enabled by their long chain-of-thought (Long CoT) capabilities. However, developing these Long CoT behaviors relies heavily on post-training with high-quality datasets, which are typically costly and human-curated (e.g., mathematics and code), leaving scalable alternatives unexplored. In this work, we introduce NP-hard (NPH) graph problems as a novel synthetic training corpus, a...
ID: 2508.20373v1 cs.CL, cs.AI, cs.LG
Авторы:

Ayaka Tsutsumi, Guang Li, Ren Togo, Takahiro Ogawa, Satoshi Kondo, Miki Haseyama

## Контекст В области медицинских изображений, автоматическая классификация заболеваний на основе изображений является ключевым вопросом, поскольку она позволяет улучшить точность диагноза и эффективность диагностики. Однако существуют две значительные проблемы: нехватка вычислительных ресурсов для развертывания объемных моделей и необходимость сохранения высокой точности даже при использовании компактных моделей. Эти ограничения влекут за собой значительные трудности в практической реализации. Легковесные модели, которые могут сохранять высокую точность и глубину анализа, являются критически важными для решения этих задач. ## Метод Метод, предложенный в работе, основывается на двух основных компонентах: стратегии двойного выбора весов моделей и самостоятельной вставке знаний (Self-Knowledge Distillation, SKD). Для начала используется большая предобученная модель, из которой извлекаются веса для инициализации двух легковесных моделей. Это позволяет эффективно передавать знания из большой модели в меньшие. Далее, применяется SKD, что позволяет эффективно обучать модели с разными начальными весами без дополнительных вычислительных затрат. Наконец, эти модели проходят фине-тюнинг для конкретных задач классификации медицинских изображений. Эта комбинация двух техник позволяет сохранять критическую информацию в легковесных моделях и повышает их точность и устойчивость. ## Результаты Исследования проводились на трех различных наборах данных: снимках рентгеновских изображений грудной клетки, компьютерных томограммах лёгких и магнитных резонансных сканнах мозга. Метод эффективно классифицировал различные заболевания, включая тяжелые, такие как Covid-19, туберкулёз и рак лёгких. Эксперименты показали, что наша модель показывает высокую точность и устойчивость по сравнению с другими текущими подходами. Особенно выгодно отличается наш подход в легковесных моделях, которые показывают почти одинаковую точность, но требуют меньших вычислительных ресурсов. ## Значимость Предложенный подход может быть распространен в различных медицинских задачах, таких как диагностика респираторных заболеваний, мозговых травм и других критически важных заболеваний. Он предлагает выгоды, такие как эффективность вычислений, уменьшение требований к ресурсам и сохранение высокой точности. Это может способствовать улучшению доступности медицинского анализа и диагностики в различных регионах, в том числе тех, где доступ к высокопроизводительным вычислительным системам ограничен. ## Выводы Мы указали, что наш метод, комбинирующий двойной выбор весов и
Annotation:
We propose a novel medical image classification method that integrates dual-model weight selection with self-knowledge distillation (SKD). In real-world medical settings, deploying large-scale models is often limited by computational resource constraints, which pose significant challenges for their practical implementation. Thus, developing lightweight models that achieve comparable performance to large-scale models while maintaining computational efficiency is crucial. To address this, we emplo...
ID: 2508.20461v1 cs.CV, cs.AI, cs.LG
Показано 1381 - 1390 из 1687 записей