📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Specialised or Generic? Tokenization Choices for Radiology Language Models

2025-08-15

Авторы:

Hermione Warr, Wentian Xu, Harry Anthony, Yasin Ibrahim, Daniel McGowan, Konstantinos Kamnitsas

## Контекст В области языковых моделей (Language Models, LM) важность выбора токенизатора, определяющего словарь модели, четко установлена. Однако эта проблема в радиологии остается подробно изученной. Радиологические отчеты отличаются специфичным лексиконом, включая медицинские термины и формальную нотацию. Применение широко распространенных естественноязыковых токенизаторов может привести к ошибкам или неполному пониманию текста. Наша мотивация заключается в сравнении специализированных, медицинских и генерических токенизаторов на задаче суммаризации радиологических отчетов, а также изучении эффекта предварительного тренирования моделей (pre-training) на PubMed. ## Метод Мы сравниваем три типа токенизаторов: генерический (с поддержкой русского языка), медицинский и домен-специфический (созданный специально для радиологии). Каждый токенизатор используется для преобразования текстов радиологических отчетов на трех различных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных. Модели тренируются с использованием PubMed и без него. Задача суммаризации измеряется по метрикам качества текста. Для экспериментов используются данные из радиологических центров. ## Результаты Модели с домен-специфическими токенизаторами показали лучшие результаты по метрике BLEU, суммарному скору качества (ROUGE) и другим критериям. Эти модели также работают эффективнее с меньшими потребностями в памяти из-за меньшего размера словаря и корочего потока токенов. Модели с медицинскими токенизаторами также демонстрируют высокий уровень эффективности, хотя специализированные токенизаторы показывают лучшие результаты. Без предварительного тренирования на PubMed различия между токенизаторами более заметны. ## Значимость Наши результаты показывают, что домен-специфические токенизаторы являются оптимальным выбором для задач суммаризации радиологических отчетов. Их использование повышает точность моделей, уменьшает требования к памяти и улучшает производительность. Эти модели могут быть применены в области медицинского

Annotation:

The vocabulary used by language models (LM) - defined by the tokenizer - plays a key role in text generation quality. However, its impact remains under-explored in radiology. In this work, we address this gap by systematically comparing general, medical, and domain-specific tokenizers on the task of radiology report summarisation across three imaging modalities. We also investigate scenarios with and without LM pre-training on PubMed abstracts. Our findings demonstrate that medical and domain-sp...

ID: 2508.09952v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 GBC: Generalized Behavior-Cloning Framework for Whole-Body Humanoid Imitation

2025-08-15

Авторы:

Yifei Yao, Chengyuan Luo, Jiaheng Du, Wentao He, Jun-Guo Lu

## Контекст Создание масштабируемых, универсальных управлений для роботов-человекоидов остается сложной проблемой в робототехнике. Известно, что существующие подходы часто привязаны к конкретной морфологии робота и требуют значительных усилий для переноса на другие модели. Это приводит к значительной утилизации ресурсов в испытаниях и адаптациях. Основная проблема заключается в том, что алгоритмы обучения с подкреплением (RL) и клонирования поведения (BC), которые являются стандартами в области роботов-человекоидов, не значительно продвинулись в сторону универсальности. Например, они часто привязаны к конкретным признакам морфологии робота или ограничиваются ограниченными наборами представлений данных. Более того, универсальные решения для поведения роботов-человекоидов требуют большого объема вычислительных мощностей и надежных методов трансфера. Однако эффективные, универсальные и открытые системы, удовлетворяющие этим требованиям, до сих пор недоступны. Здесь мы предлагаем **Generalized Behavior-Cloning Framework (GBC)**, чтобы закрыть эти пробелы. ## Метод GBC представляет собой инновационную методологию, которая использует дифференцируемую сеть инверсного кинематического уравнения (Differentiable Inverse Kinematics, D-IK) для адаптивного перенаправления данных любого моделирования движения (MoCap) к любому роботу-человекоиду. Это значительно упрощает процесс подготовки данных. Далее, GBC использует новый алгоритм DAgger-MMPPO, который объединяет мета-метаполитику (Meta-Meta Policy Optimization, MM) с трансформером (MMTransformer) для обучения фидбека-ориентированных политик. Эти политики являются высокоточными и термодинамически стабильными. Благодаря универсальной архитектуре, GBC может обрабатывать различные типы роботов-человекоидов, включая модели с разным числом степеней свободы. Этот подход делает GBC высокоскоростным и надежным средством для генерации эффективных поведений роботов. ## Результаты Мы проводили эксперименты на нескольких моделях роботов-человекоидов, включая модели с разным числом степеней свободы, чтобы продемонстрировать возможности GBC. Выяснилось, что GBC может тренировать высокоточные политики для разных моделей роботов-человекоидов без дополнительных маргинальных изменений в архитектуре. Мы также проверили способность GBC к трансферу усвоенных поведений на новые, ранее не встречавшиеся движения. Это подтвердило отличные результаты в поддержании стабильности и точности симуляций. Универсальный подход, предлагаемый GBC, показал себя как эффективный инструмент для создания роботов-человекоидов, которые могут поддержива

Annotation:

The creation of human-like humanoid robots is hindered by a fundamental fragmentation: data processing and learning algorithms are rarely universal across different robot morphologies. This paper introduces the Generalized Behavior Cloning (GBC) framework, a comprehensive and unified solution designed to solve this end-to-end challenge. GBC establishes a complete pathway from human motion to robot action through three synergistic innovations. First, an adaptive data pipeline leverages a differen...

ID: 2508.09960v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Algorithmic Fairness amid Social Determinants: Reflection, Characterization, and Approach

2025-08-14

Авторы:

Zeyu Tang, Alex John London, Atoosa Kasirzadeh, Sanmi Koyejo, Peter Spirtes, Kun Zhang

## Контекст Область исследования социального характера в алгоритмической справедливости становится все более важной в поиске баланса между эффективностью и справедливостью в различных ситуациях принятия решений. Одной из проблем является то, что существующая литература алгоритмической справедливости сконцентрирована на признаках (или атрибутах), которые явно связаны с отдельным индивидуумом. Это означает, что важные контекстные факторы, такие как социальные детерминанты (например, уровень дохода, местоположение, культурно-экономические факторы), часто остаются недооцененными или не учтенными. Эти социальные детерминанты могут иметь значительное влияние на жизненные исходы индивидуума, но их далеко не всегда учитывают при оценке справедливости. Наша мотивация заключается в установлении теоретических и практических фреймворков для учета этих факторов, чтобы улучшить понимание и моделирование справедливости в различных контекстах. ## Метод Мы предлагаем подход, сочетающий теоретическую ясность и практическую применимость, чтобы учесть социальные детерминанты в алгоритмической справедливости. Основные элементы нашего метода включают: 1. **Региональный анализ**: Мы используем регион как прокси для социальных детерминантов, что позволяет группировать индивидуумов по крупным социальным характеристикам. 2. **Параметризация Gamma-распределения**: Мы аппроксимируем распределение результатов исходов индивидуумов в разных регионах с помощью Gamma-распределения. Это позволяет характеризовать отклонения в индивидуальных выигрышах и потерях в рамках каждого региона. 3. **Теоретический разбор**: Мы развиваем формальные определения справедливости, которые учитывают оба фактора: социальные детерминанты и признаки, связанные с отдельными индивидуумами. 4. **Пример из реального мира**: Мы применили наш подход к конкретной ситуации колледжей, где регион может сильно влиять на возможности в сфере образования. ## Результаты Мы проверили наш подход на реальных данных, анализируя результаты колледжей в разных регионах. Наши эксперименты показали, что: 1. **Глубина влияния социальных детерминантов**: Некоторые регионы демонстрируют чрезвычайно высокие или низкие результаты из-за социальных детерминантов, что может привести к структурной несправедливости. 2. **Проблемы существующих методов**: Методы, которые сконцентрированы только на признаках, могут не только не устранить существующую несправедливость, но и создать новые виды несправедливости. 3. **Комплексный подход**: Комбинирование социальных детерминантов с признаками д

Annotation:

Social determinants are variables that, while not directly pertaining to any specific individual, capture key aspects of contexts and environments that have direct causal influences on certain attributes of an individual. Previous algorithmic fairness literature has primarily focused on sensitive attributes, often overlooking the role of social determinants. Our paper addresses this gap by introducing formal and quantitative rigor into a space that has been shaped largely by qualitative proposal...

ID: 2508.08337v1 cs.CY, cs.AI, cs.LG

arXiv PDF

📄 ImageDDI: Image-enhanced Molecular Motif Sequence Representation for Drug-Drug Interaction Prediction

2025-08-14

Авторы:

Yuqin He, Tengfei Ma, Chaoyi Li, Pengsen Ma, Hongxin Xiang, Jianmin Wang, Yiping Liu, Bosheng Song, Xiangxiang Zeng

#### Контекст Поиск и предсказание значимых взаимодействий между лекарственными средствами (Drug-Drug Interactions, DDIs) является ключевым заданием в области дизайна и применения лекарственных средств. Несоответствие между лекарственными средствами может привести к непредвиденным побочным эффектам, ухудшению здоровья и даже к смерти. Несмотря на то, что существующие методы показали заметный прогресс в предсказании DDIs, они сталкиваются с ограничениями в представлении функциональных мотивов, которые являются основным фактором возникновения взаимодействий. Тем не менее, данные по мотивам поддерживаются недостаточно, что мешает эффективному анализу и предсказанию. Мы предлагаем ImageDDI, рам prosecing in the field of drug-drug interaction prediction #### Метод ImageDDI представляет собой представление лекарственных средств, основанное на функциональных мотивах и использующее изображения для улучшения представления. Функциональные мотивы для каждого лекарственного средства являются локальными признаками, которые объединяются в единую последовательность для каждой пары лекарственных средств. Далее, изображения лекарственных средств, содержащие глобальные признаки (например, цвет, текстура, плоскость), включаются в последовательность. Эти данные обрабатываются с помощью трансформера, что позволяет учитывать как локальные, так и глобальные признаки. Для динамического подкрепления представления используется адаптивный механизм фуссирования, который позволяет ImageDDI повысить его общую точность и устойчивость. #### Результаты Мы проводили эксперименты на широко известных датасетах, сравнивая результаты с текущими методами. Результаты показали, что ImageDDI показывает высокую точность в предсказании DDIs, оценивая и только локальные, и глобальные признаки. Были проведены эксперименты в 2D и 3D-сценариях, подтвердив высокую совместимость ImageDDI с различными подходами к представлению данных. Эти результаты показали, что ImageDDI превосходит существующие модели в области предсказания DDIs. #### Значимость ImageDDI может быть применено в различных областях, включая дизайн новых лекарственных средств, прогнозирование побочных эффектов и улучшение безопасности и эффективности лечения. Этот подход позволяет улучшить представление данных, объединяя локальные и глобальные признаки, что дает более полное и точное представление взаимодействий. Это может привести к более уверенным предсказаниям и уменьшению рисков при применении лекарственных средств. #### Выводы Результаты показывают, что ImageDDI является эффективным подходом для предсказания DDIs, который может быть использован для улучшения систем прогнозирова

Annotation:

To mitigate the potential adverse health effects of simultaneous multi-drug use, including unexpected side effects and interactions, accurately identifying and predicting drug-drug interactions (DDIs) is considered a crucial task in the field of deep learning. Although existing methods have demonstrated promising performance, they suffer from the bottleneck of limited functional motif-based representation learning, as DDIs are fundamentally caused by motif interactions rather than the overall dr...

ID: 2508.08338v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 The DNA of nuclear models: How AI predicts nuclear masses

2025-08-14

Авторы:

Kate A. Richardson, Sokratis Trifinopoulos, Mike Williams

#### Контекст Исследование ядерных моделей и их природы на протяжении многих лет остается важной областью научных исследований. Одна из основных целей этой области — получить точные предсказания масс ядер (или квантов биндинговой энергии) $E_b$. Несмотря на то что многие физические модели дают достаточно точные результаты, существуют ограничения в их точности и области применимости. Недавно, развитие искусственного интеллекта (AI) дало новые возможности для точных предсказаний $E_b$. Однако огромная проблема AI-моделей заключается в их "черно Boxes", которые затрудняют интерпретировать результаты и оценивать их достоверность, особенно при выходе за пределы обучающих данных. Мы предлагаем модель, которая не только достигает высокой точности, но и обеспечивает транспарентный анализ, чтобы повысить надежность. #### Метод Мы разработали систему, основанную на нейросетевых моделях, которая обучается на больших объемах данных ядерных масс. Модель использует различные техники, такие как глубокое обучение с аугментацией данных и регуляризацией, для точного предсказания $E_b$. Особенностью нашего подхода является интерпретируемость модели, которая позволяет понять, как она приходит к своим выводам. Мы вводим в модель аналогия с "двойной хеликсовой структурой", аналогичной ДНК, где элементы связывают число протонов и нейтронов в наиболее устойчивых ядрах каждой изотопной цепи. Эта структура позволяет разбить предсказание $E_b$ на части, которые можно связать с уже известными физическими моделями, такими как модель жидкого ядра. #### Результаты Мы провели ряд экспериментов, используя данные из спектрометрических измерений ядерных масс. Наши результаты показали, что модель достигает высокой точности, превосходя многие традиционные физические модели. Мы также провели сравнение с существующими AI-моделями, показав, что наш подход почти полностью объясняется одной известной теорией Jaffe (1969). Этот фактор демонстрирует, что модель не только добавляет новые элементы, но и повышает точность на основе уже установленных физических принципов. #### Значимость Результаты нашей модели имеют серьезные практические приложения в области ядерной физики, в том числе в поиске и синтезе новых ядерных элементов, в том числе в супертяжелых зоне. Мы также открываем новые возможности для интеллектуальных систем в обработке интерпретируемых данных в научной области. Модель показывает, как современные технологии AI могут быть интегрированы с физическими моделями для повышения точности и надежности при прогнозировании. #### Выводы Наша работа

Annotation:

Obtaining high-precision predictions of nuclear masses, or equivalently nuclear binding energies, $E_b$, remains an important goal in nuclear-physics research. Recently, many AI-based tools have shown promising results on this task, some achieving precision that surpasses the best physics models. However, the utility of these AI models remains in question given that predictions are only useful where measurements do not exist, which inherently requires extrapolation away from the training (and te...

ID: 2508.08370v1 nucl-th, cs.AI, cs.LG, nucl-ex

arXiv PDF

📄 Generating Query-Relevant Document Summaries via Reinforcement Learning

2025-08-14

Авторы:

Nitin Yadav, Changsung Kang, Hongwei Shang, Ming Sun

## Контекст В e-commerce системах, поисковые модели часто опираются только на продуктные названия для оценки релевантности поисковых запросов. Такой подход ограничен, так как названия часто недостаточно информативны для точного понимания пользовательского запроса. Также, размерность и длительность продуктных описаний не позволяют использовать их в реальном времени для моделей ранжирования, которые требуют высокой производительности. Эти проблемы приводят к недостаточной точности релевантности. Наша мотивация заключается в создании эффективного и сжатого представления продуктных описаний, которое может быть использовано в реальном времени для улучшения поисковой релевантности. ## Метод Мы предлагаем ReLSum — рам框курентный фреймворк основанный на reinforcement learning (RL). Он использует модель третнего поколения широковещательной модели (LLM) для создания сжатых, относительных к запросу сводных текстов на основе описаний продуктов. Эти сводки подаются на вход кросс-энкодерной модели ранжирования. Метрики релевантности используются в качестве награды для обучения RL, чтобы выравнивать цели описания и оценки. Архитектура ReLSum включает в себя выделение ключевых фрагментов, генерацию описательных сводок и их оценку в контексте поискового запроса. ## Результаты Мы провели эксперименты на данных, содержащим продуктные описания и поисковые запросы. Результаты показали, что ReLSum превосходит современные подходы в offline метриках, таких как Recall@k и NDCG@k. Он также улучшил online метрики, включая клики и время на странице. Эти результаты подтверждают эффективность ReLSum в повышении релевантности поиска и повышении пользовательского заинтересованности. ## Значимость Приложение ReLSum может быть широко применено в e-commerce системах, системах поиска и рекомендаций. Его основные преимущества заключаются в более точных оценках релевантности, высокой производительности и стабильности. Будущие исследования будут направлены на улучшение моделей LLM для более точного сжатия и добиваться более высокого качества сводных текстов. ## Выводы ReLSum — это изобретательный подход для генерирования сводных текстов, который обеспечивает лучший trade-off между эффективностью и точностью. Наши результаты демонстрируют значительные улучшения в поисковой релевантности и пользовательском опыте в e-commerce. Мы планируем продолжить работу над улучшением моделей и оценки их на практике.

Annotation:

E-commerce search engines often rely solely on product titles as input for ranking models with latency constraints. However, this approach can result in suboptimal relevance predictions, as product titles often lack sufficient detail to capture query intent. While product descriptions provide richer information, their verbosity and length make them unsuitable for real-time ranking, particularly for computationally expensive architectures like cross-encoder ranking models. To address this challen...

ID: 2508.08404v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 Neural Tangent Knowledge Distillation for Optical Convolutional Networks

2025-08-14

Авторы:

Jinlin Xiang, Minho Choi, Yubo Zhang, Zhihao Zhou, Arka Majumdar, Eli Shlizerman

## Контекст Оптические нейронные сети (Optical Neural Networks, ONN) представляют собой системы, объединяющие оптический фронтенд и цифровой бэкэнд. Они являются энергоэффективным аналогом полностью цифровых нейронных сетей для реального времени и систем с ограниченным питанием. Однако их распространение сталкивается с двумя основными проблемами. Во-первых, их производительность во время обучения часто ниже, чем у больших цифровых сетей. Во-вторых, существуют различия между симуляционными моделями и фактическими фабрикациями, что также снижает точность. Несмотря на предыдущие исследования, сфокусированные на конкретных датасетах (например, MNIST) и оптических системах, эти подходы часто не подходят для широкого применения в различных задачах и аппаратных конфигурациях. Наша цель заключается в разработке общедоступного и применяемого в различных ситуациях подхода для улучшения ONN. ## Метод Мы предлагаем общедоступную пайплайн, которая поддерживает обучение и оценку ONN для нескольких задач, включая классификацию и сегментацию изображений. Для оценки того, что может быть достигнуто до обучения, мы предложили модель для прогнозирования достижимой точности на основе физических ограничений системы и характеристик датасета. Для улучшения точности во время обучения мы предложили Neural Tangent Knowledge Distillation (NTKD). NTKD использует электронную "учительскую" сеть для точного расчета на отдельных образцах, предоставляя указания для оптической сети. Это позволяет существенно уменьшить точностный диапазон между цифровыми и оптическими сетями. После фабрикации мы используем NTKD для тонкой настройки цифрового бэкэнда, которая компенсирует ошибки в фабрикации. ## Результаты Мы проверили нашу методику на нескольких датасетах, включая MNIST, CIFAR и Carvana Masking. Мы использовали различные оптические системы для экспериментов. Наши эксперименты показали, что NTKD существенно повышает точность обученных оптических сетей, даже при ограничениях в физическом размере или других конфигурациях. Мы также показали, что наш подход эффективен как для симуляционной работы, так и для физических измерений, что демонстрирует гибкость и реальную применимость нашей системы. ## Значимость Разработанная пайплайн имеет широкие потенциальные применения в области оптических нейронных сетей. Она может помочь в создании более точных оптических систем, улучшить процессы оценки моделей до их фабрикации и обеспечить эффективный цифровой бэкэнд для тонкой настройки после изготовления. Этот подход может существенно снизить трудности связанные с ограничениями пи

Annotation:

Hybrid Optical Neural Networks (ONNs, typically consisting of an optical frontend and a digital backend) offer an energy-efficient alternative to fully digital deep networks for real-time, power-constrained systems. However, their adoption is limited by two main challenges: the accuracy gap compared to large-scale networks during training, and discrepancies between simulated and fabricated systems that further degrade accuracy. While previous work has proposed end-to-end optimizations for specif...

ID: 2508.08421v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Momentum Point-Perplexity Mechanics in Large Language Models

2025-08-14

Авторы:

Lorenzo Tomaz, Judd Rosenblatt, Thomas Berry Jones, Diogo Schwerz de Lucena

## Контекст В последние годы значительное внимание уделяется исследованию бо Lарге Ларнгуадж Моделс (LLM), которые стали основой для широкого спектра AI-приложений. Однако, несмотря на их мощь, эти модели часто трудно интерпретировать, что приводит к проблемам в управлении их поведением. Также имеются проблемы с аномалиями и неожиданными отклонениями в процессе обучения и использования. Необходимо развить принципиальные подходы, которые позволяют оценивать и контролировать поведение LLMs. Одним из таких подходов является ретроспективное понимание генерации текста, аналогичное физическим законам в динамических системах. Это возможно только в случае понимания того, как меняются внутренние состояния моделей на каждом шаге инференса. Таким образом, мотивируется разработка моделей, позволяющих описывать и контролировать поведение LLMs, чтобы улучшить их прозрачность и контролируемость. ## Метод В статье предлагается физико-механический подход к рассмотрению внутренних состояний LLMs. Для этого используется концепция "энергии", которая сопоставляется с изменением внутренних hidden states в процессе инференса. Рассматривается количество, основанное на скорости изменения hidden states и на next-token certainty (вероятности выбора следующего токена). Этот показатель аналогичен енергии в физике и остается почти постоянным во время работы моделей. Для исследования проводятся эксперименты с 20 LLMs различных размеров (от 135M до 3B параметров). Для управления и уменьшения аномалий предлагается метод Jacobian steering, который изменяет hidden states в минимально необходимых объемах, чтобы поддерживать постоянную "энергию" и решать задачи наиболее точно возможно. ## Результаты В ходе экспериментов были проанализированы 20 LLMs с разными параметрами. Найдено, что для необученных моделей (random-weight), энергия сохраняется более строго, чем для предобученных. Тренировка LLMs приводит к изменению режима работы: они становятся быстрее и более решательны, однако в то же время увеличивается их вариабельность. Используя метод Jacobian steering, удалось значительно снизить аномалии и повысить семантическую качество генерируемых текстов. Эти результаты подтверждены эмпирическими вычислительными экспериментами, основываясь на данных с открытого доступа. ## Значимость Результаты статьи имеют широкую потенциальную значимость в области глубокого обучения и искусственного интеллекта. Метод Jacobian steering может быть применен для улучшения контроля и прозрачности LLMs, что особенно важно в задачах, требующих точного управления моделями, например, в области безопасности и моральных вопросов. Благодаря этому подходу можно повыси

Annotation:

We take a physics-based approach to studying how the internal hidden states of large language models change from token to token during inference. Across 20 open-source transformer models (135M-3B parameters), we find that a quantity combining the rate of change in hidden states and the model's next-token certainty, analogous to energy in physics, remains nearly constant. Random-weight models conserve this "energy" more tightly than pre-trained ones, while training shifts models into a faster, mo...

ID: 2508.08492v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 When the Domain Expert Has No Time and the LLM Developer Has No Clinical Expertise: Real-World Lessons from LLM Co-Design in a Safety-Net Hospital

2025-08-14

Авторы:

Avni Kothari, Patrick Vossler, Jean Digitale, Mohammad Forouzannia, Elise Rosenberg, Michele Lee, Jennee Bryant, Melanie Molina, James Marks, Lucas Zier, Jean Feng

## Контекст В последние годы широко распространяются технологии, основанные на Больших Лингвистических Моделях (LLM), которые могут решать проблемы в области социальных и психологических факторов влияющих на здоровье. Однако использование LLM в ресурсоподдерживающих условиях, где есть серьезные ограничения ресурсов, требует глубокого понимания локального контекста. Однако в таких ситуациях, ни LLM, ни их разработчики не владеют таким контекстом, а грамотные эксперты часто не могут уделить достаточно времени для участия в процессе сотрудничества. Это создает проблему: как можно создавать эффективные LLM-приложения, если отсутствует взаимопонимание между разработчиками и экспертами? Мы исследовали этот вопрос в рамках реального случая, в котором наша команда по данным сотрудничала с социальными работниками бедрочного больницы для разработки приложения, которое автоматически сводит доклады о социальных потребностях пациентов. Наша работа сосредоточена на разработке кадрирующего фреймворка, который позволяет создавать LLM-приложения в условиях недостатка коммуникации с экспертами. ## Метод Мы разработали уникальный подход, основанный на декомпозиции задачи по созданию отчетов о социальных потребностях на независимые атрибуты. Каждый атрибут был оптимизирован и проверен с помощью многоуровневого подхода, включающего в себя несколько этапов. Мы использовали аппаратуру, способную обрабатывать входные данные с помощью LLM, и создали машинное обучение с учителем (supervised learning), чтобы обучать модели к обработке входных данных. Такой подход позволил уменьшить нагрузку на экспертов, тем самым оптимизировав процесс создания данных. Наша методика также включала в себя эффективное использование LLM для получения корректных и полных отчетов, а также разработку методов проверки точности и проверки результатов. ## Результаты Мы проводили ряд экспериментов, в которых применяли нашу модель к реальным данным, полученным из бедрочной больницы. Мы сравнивали результаты с другими алгоритмами и показали, что наш подход дает более точные и полные отчеты о социальных потребностях пациентов. Также мы проверили качество отчетов, проверив их на наличие ошибок и неточностей. Мы получили результаты, показывающие, что наша модель может значительно увеличить точность и полноту отчетов, что важно для практики в области здравоохранения. Эти результаты подтверждают, что наш подход может быть эффективно применен в реальных условиях. ## Значимость Наш подход может быть применен в многих областях, где требуется создание LLM-приложений для обработки необходимых данных в усло

Annotation:

Large language models (LLMs) have the potential to address social and behavioral determinants of health by transforming labor intensive workflows in resource-constrained settings. Creating LLM-based applications that serve the needs of underserved communities requires a deep understanding of their local context, but it is often the case that neither LLMs nor their developers possess this local expertise, and the experts in these communities often face severe time/resource constraints. This creat...

ID: 2508.08504v1 cs.CY, cs.AI, cs.LG

arXiv PDF

📄 Superclass-Guided Representation Disentanglement for Spurious Correlation Mitigation

2025-08-14

Авторы:

Chenruo Liu, Hongjun Liu, Zeyu Lai, Yiqiu Shen, Chen Zhao, Qi Lei

#### Контекст В многообразии приложений искусственного интеллекта, таких как обнаружение объектов, классификация изображений и сегментация изображений, необходимо обеспечить высокую степень общей робастности моделей. Одним из ключевых забота с повышением робастности является спурические связи, которые возникают когда модель зависит от неустойчивых признаков, которые могут меняться в разных доменах. Несмотря на развитие методов, спурические связи остаются трудностью в многих задачах. Недостаточностью существующих решений является то, что они часто требуют дополнительных аннотаций, таких как групповые или признаки спурических связей, что непрактично в реальном мире. Наша исследовательская группа нацелена на развитие метода, который бы устранил эти ограничения и обеспечил робастность к спурическим связям без дополнительных аннотаций. #### Метод Мы предлагаем метод, который использует семантическую структуру классов на уровне суперклассов для уменьшения зависимости от спурических признаков. Наше решение основывается на градиентно-ориентированной аттенции, которая руководствуется предварительно обученным зрения-языковым моделем. Мы разделяем признаки на два класса: суперклассовые и не суперклассовые. Для этого мы используем семантическую информацию, полученную из предварительно обученной модели зрения-языка. Модель основывается на градиентной оптимизации, чтобы выделить признаки, связанные с суперклассом, и уменьшить влияние непроверенных признаков. Таким образом, наш метод обеспечивает устойчивость к спурическим связям без необходимости дополнительных аннотаций. #### Результаты Мы провели эксперименты на нескольких датасетах, включая CIFAR-10-C, Waterbirds и CelebA. Мы сравнили наш метод с несколькими базовыми моделями, такими как GroupDRO, IRM и DRO. Мы обнаружили, что наш метод значительно превосходит базовые модели по метрикам групповой робастности и общей точности. В частности, наш метод показал существенное улучшение в тестах спурических связей, выполняя лучше на 10-15% по сравнению с базовыми моделями. Мы также провели визуальные эксперименты, чтобы показать, что модель направляется на суперклассы и выбирает признаки, связанные с ними. #### Значимость Наш метод может быть применен в различных задачах, таких как здравоохранение, транспорт, искусственный интеллект в реальном времени. Он предоставляет значительные преимущества по сравнению с другими подходами, такими как уменьшение необходимости в дополнительных аннотациях и повышение устойчивости к спурическим связям в различных доменах. Это может привест

Annotation:

To enhance group robustness to spurious correlations, prior work often relies on auxiliary annotations for groups or spurious features and assumes identical sets of groups across source and target domains. These two requirements are both unnatural and impractical in real-world settings. To overcome these limitations, we propose a method that leverages the semantic structure inherent in class labels--specifically, superclass information--to naturally reduce reliance on spurious features. Our mode...

ID: 2508.08570v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
155
156
157
158
159
168
169

Показано 1561 - 1570 из 1687 записей