📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Faramarz Farhangian, Leandro A. Ensina, George D. C. Cavalcanti, Rafael M. O. Cruz

#### Контекст В настоящее время текстовая фейковая новость представляет собой критическую проблему из-за ее сильного влияния на общество. Особенно важной стала динамика распространения таких новостей в социальных сетях, где повышенная скорость распространения и множественные источники способствуют их эффективной спределения. Распознавание таких новостей требует новых, более эффективных методов, которые могут динамически адаптироваться к специфике каждого конкретного случая. #### Метод Для решения этой проблемы предложен метод **Dynamic Representation and Ensemble Selection (DRES)**. Он использует меру трудности классификации (instance hardness) для каждого текста, чтобы определить уровень сложности классификации для каждой новости. Далее, он динамически выбирает текстовую представление, которая лучше всего подходит для данного случая, и строит наиболее эффективный выбор из набора классификаторов. Это позволяет настраивать систему на каждый конкретный текст и, таким образом, повышает точность прогнозирования. #### Результаты В ходе экспериментов, проведенных на различных данных, показано, что DRES показал значительные улучшения по сравнению с другими методами. Использовались различные текстовые представления, такие как TF-IDF, word2vec и BERT, и сравнивались результаты с другими современными методами. Данные эксперименты подтвердили, что применение DRES приводит к увеличению точности распознавания фейковых новостей. #### Значимость Метод DRES может быть применен в различных областях, включая мониторинг социальных сетей, обеспечение безопасности информации и обеспечение достоверности новостных статьей. Он обеспечивает более точное распознавание новостей за счет выбора оптимальной текстовой представления и выбора наиболее эффективных классификаторов. Это приобретает важность в условиях быстрого распространения новостей в современном мире. #### Выводы В результате наиболее эффективных результатов, полученных в рамках DRES, становится ясно, что динамический выбор текстовой представления и выбор наиболее эффективных классификаторов является эффективным подходом к распознаванию фейковых новостей. В дальнейшем будет интересно исследовать возможность применения этого метода к другим типам текстовых данных и его расширение для улучшения его общей точности и скорости работы.
Annotation:
The rapid spread of information via social media has made text-based fake news detection critically important due to its societal impact. This paper presents a novel detection method called Dynamic Representation and Ensemble Selection (DRES) for identifying fake news based solely on text. DRES leverages instance hardness measures to estimate the classification difficulty for each news article across multiple textual feature representations. By dynamically selecting the textual representation an...
ID: 2509.16893v2 cs.LG, cs.CL
Авторы:

Om Naphade, Saksham Bansal, Parikshit Pareek

## Контекст Hyper-parameter Tuning (HPT) является важной стадией в процессе разработки машинного обучения (ML), поскольку оптимальный выбор параметров может существенно повлиять на точность и эффективность модели. Однако, с ростом размера моделей, HPT становится все более вычислительно трудоемким и непрозрачным. Недавно, Large Language Models (LLMs) были использованы для автоматизации HPT, но большинство таких подходов требуют моделей с параметрами, превышающими 100 миллиардов. Данная работа предлагает альтернативный подход, основанный на Small LLMs с специализированными модулями, чтобы улучшить производительность и транспарентность в процессе HPT. ## Метод Методология, предлагаемая в данной работе, основывается на Expert Block Framework, который включает в себя Trajectory Context Summarizer (TCS). TCS преобразует сырые траектории обучения в структурированную контекстную информацию, позволяя Small LLMs точно анализировать прогресс оптимизации. Этот подход использует два Small LLMs с разными возможностями (phi4:reasoning14B и qwen2.5-coder:32B) и ограничения по бюджету в 10 трейлов. Эти модели обеспечивают высокую точность и надежность во время HPT, подходящую даже для сложных задач. ## Результаты Эксперименты проводились с двумя Small LLMs, работающими в локальной среде, и сравнивались с результатами GPT-4. Для выполнения HPT использовались шесть различных задач, при этом TCS-ориентированная HPT-процедура показала себя эффективной, измеряясь посредством метрик, полученных с помощью GPT-4. Общая погрешность результатов не превышала ~0.9 процентных пунктов по сравнению с GPT-4, что подтверждает эффективность процедуры и подхода к использованию Small LLMs в HPT. ## Значимость Предложенный подход имеет широкую область применения в различных ML-процессах, от простого кросс-валидационного тюнинга до оптимизации сложных архитектур. Этот подход предлагает существенное улучшение в производительности и уменьшает вычислительные затраты по сравнению с традиционными LLM-based HPT подходами. Кроме того, он предоставляет транспарентный и управляемый подход к анализу прогресса оптимизации. ## Выводы Результаты экспериментов показывают, что Small LLMs с Expert Blocks могут эффективно заменить большие модели в задачах HPT, давая почти одинаковую точность с значительными вычислительными экономиями. Будущие исследования будут сосредоточены на расширении возможностей TCS для других типов моделей и задач, а также на дополнительной оптимизации процесса HPT с использованием Small LLMs.
Annotation:
Hyper-parameter Tuning (HPT) is a necessary step in machine learning (ML) pipelines but becomes computationally expensive and opaque with larger models. Recently, Large Language Models (LLMs) have been explored for HPT, yet most rely on models exceeding 100 billion parameters. We propose an Expert Block Framework for HPT using Small LLMs. At its core is the Trajectory Context Summarizer (TCS), a deterministic block that transforms raw training trajectories into structured context, enabling small...
ID: 2509.15561v2 cs.LG, cs.CL
Авторы:

Tianchun Li, Tianci Liu, Xingchen Wang, Rongzhe Wei, Pan Li, Lu Su, Jing Gao

#### Контекст Large language models (LLMs) достигли заметных успехов в генерации табличных данных. Однако, встроенные в табличные данные исторические биасы часто приводят к усилению федеральных проблем, особенно при взаимодействии нескольких преимущественных и защищенных атрибутов. Это может привести к неравенству в выводах моделей, что не приемлемо в приложениях высокого риска, таких как финансовая индустрия или здравоохранение. Мотивация для этого исследования заключается в создании универсальной системы борьбы с биасами, которая уменьшит зависимости между преимущественными и защищенными атрибутами, сохранив при этом качество выводов. #### Метод Наша стратегия основывается на авторегрессионной структуре и аналитических распределениях выборок, собственных для LLM-based табличных генераторов. Мы оцениваем мультиплеменное взаимодействие (mutual information, MI) между преимущественными и защищенными атрибутами непосредственно из выводов модели, используя её архитектуру. Это позволяет избежать трудоемких численных оценок. Далее, мы предлагаем два метода: UDF-DPO, который интегрируется с существующими моделями LLM, и UDF-MIX, который достигает дебиасинга без изменения параметров моделей. Для эффективности мы реализовали представление MI как часть архитектуры моделей, чтобы оценивать его в реальном времени. #### Результаты Мы провели эксперименты на нескольких табличных данных с преимущественными и защищенными атрибутами. Наши результаты показали, что UDF-DPO значительно улучшает справедливость выводов, уменьшая зависимости между атрибутами без существенного снижения качества. Также, UDF-MIX достигает похожих результатов без изменения моделей LLM. В сравнении с другими алгоритмами, вставляющими уровень биаса, наши решения показали лучшую гибкость и эффективность. #### Значимость Наша работа имеет широкие приложения в сферах, где необходима справедливость выводов, такие как финансовые услуги, здравоохранение и социальные сети. Она эффективно решает проблемы биаса, снижает риски неоправданных суждений и обеспечивает более справедливую интерпретацию данных. Высокая скорость и гибкость нашего подхода делают его привлекательным для реального времени применения. #### Выводы Мы представили универсальный фреймворк для дебиасинга LLM-based табличных моделей, который эффективно решает проблемы несправедливости в выводах. Мы продемонстрировали, что наш подход оказывается эффективным в различных сценариях и может быть расширен для других моделей и приложений. Будущие исследования будут сосредоточены на расширении этого фреймворка для более сложных структур данных и при
Annotation:
Large language models (LLMs) have achieved promising results in tabular data generation. However, inherent historical biases in tabular datasets often cause LLMs to exacerbate fairness issues, particularly when multiple advantaged and protected features are involved. In this work, we introduce a universal debiasing framework that minimizes group-level dependencies by simultaneously reducing the mutual information between advantaged and protected attributes. By leveraging the autoregressive struc...
ID: 2509.16475v1 cs.LG, cs.CL
Авторы:

Yuyang Ding, Xinyu Shi, Juntao Li, Xiaobo Liang, Zhaopeng Tu, Min Zhang

#### **Контекст** Process reward models (PRMs) представляют собой мощный инструмент для тонкой оценки результатов подкрепления в процессах, обеспечивая глубокий рассужденческий подход в обучении бо LLM. Однако их развитие сталкивается с тем, что получение высококачественных данных для обучения требует больших вложений и времени. Обычные методы, основанные на Monte Carlo (MC), хотя и позволяют генерировать синтетические данные, имеют высокий уровень шума, что приводит к переобучению и снижению эффективности обучения. Наша мотивация заключается в разработке метода, способного обрабатывать помехи в синтетических данных и масштабироваться для эффективного обучения PRMs. #### **Метод** Мы предлагаем Self-Denoising Monte Carlo Annotation (SCAN) — рамку для синтеза данных и устойчивого обучения, которая адресует проблемы шума в синтетических данных MC. Мы определили, что модели аннотации часто искажают правильность шагов, порождая шум. SCAN использует самонадлежащую стратегию самокоррекции, позволяющую более точно оценивать корректность шагов. Мы архитектурно оптимизировали модель, достигнув эффективности и высокого качества, даже при использовании небольших моделей (например, 1.5B параметров). #### **Результаты** Наши эксперименты показали, что SCAN достигает выдающихся результатов. Когда применяется 1.5B-параметровая модель, она показывает сравнимое качество с моделями, обученными на больших объемах человеческих данных, но с 6% затрат на инференс по сравнению с ванильным MC. На ProcessBench мы получили F1-результат 59.1, что является значительным ростом по сравнению с базовым результатом 19.9. Благодаря мощности SCAN, PRMs смогут обучаться с меньшими затратами и более высоким качеством, даже при масштабировании. #### **Значимость** Проработанная стратегия позволяет применять SCAN в различных областях, где требуются точные оценки процессов, такие как математическое моделирование, программирование и диагностика. Наш подход обеспечивает значительные преимущества, включая экономию ресурсов и увеличение точности. Мы видим будущее развитие SCAN в плане увеличения масштаба и улучшения моделей PRM, что будет влиять на развитие широкого спектра задач. #### **Выводы** Мы успешно разработали SCAN, эффективный метод для синтеза данных и обучения устойчивых PRMs. Наши результаты указывают на высокую эффективность и масштабируемость SCAN, даже при ограниченных ресурсах. Мы планируем дальнейшие исследования по улучшению точности моделей PRM и их применению в новых, требующих точности задачах.
Annotation:
Process reward models (PRMs) offer fine-grained, step-level evaluations that facilitate deeper reasoning processes in large language models (LLMs), proving effective in complex tasks like mathematical reasoning. However, developing PRMs is challenging due to the high cost and limited scalability of human-annotated data. Synthetic data from Monte Carlo (MC) estimation is a promising alternative but suffers from a high noise ratio, which can cause overfitting and hinder large-scale training. In th...
ID: 2509.16548v1 cs.LG, cs.CL
Авторы:

Faramarz Farhangian, Leandro A. Ensina, George D. C. Cavalcanti, Rafael M. O. Cruz

#### Контекст Современное общество сталкивается с угрозами, связанными с распространением фейковых новостей в социальных сетях. Эти новости могут нарушать социальное порядочность, повлиять на политические решения и сформировать дискредитацию информационных источников. Определение фейковых новостей стало критически важной задачей, требующей эффективных методов, которые могут анализировать тексты и выделять истинность статей с помощью машинного обучения. #### Метод Метод DRES (Dynamic Representation and Ensemble Selection) предлагает динамическую оценку трудности классификации новостей на основе текстовых особенностей. Он использует характеристики трудности классификации, чтобы выбирать лучшую текстовую особенность для работы со статьей. Выбирая оптимальные классификаторы из партии, DRES затем выбирает лучший набор классификаторов для каждой конкретной новостной статьи. Этот динамический подход позволяет улучшить точность классификации, особенно в сложных случаях. #### Результаты Для проверки метода DRES были проведены исследования, используя стандартные датасеты в области фейковых новостей. Оценка показала, что DRES демонстрирует высокую точность в определении фейковых новостей по сравнению с другими существующими методами. Эксперименты показали, что использование выбора текстовых особенностей и выбора классификаторов позволяет повысить точность и уменьшить ошибки. #### Значимость Метод DRES может быть применен в различных сферах, включая мониторинг социальных сетей, поиск информации и анализ поведения на социальных платформах. Он предлагает более точные и результативные способы для раннего выявления фейковых новостей, что может положительно влиять на общественное сознание и политические решения. #### Выводы Метод DRES доказал свою эффективность в предсказании и отделение фейковых новостей от реальных. Будущие исследования могут уделять внимание улучшению выбора текстовых особенностей и оптимизации выбора классификаторов для более обширных задач, включая мультимодальный анализ новостей.
Annotation:
The rapid spread of information via social media has made text-based fake news detection critically important due to its societal impact. This paper presents a novel detection method called Dynamic Representation and Ensemble Selection (DRES) for identifying fake news based solely on text. DRES leverages instance hardness measures to estimate the classification difficulty for each news article across multiple textual feature representations. By dynamically selecting the textual representation an...
ID: 2509.16893v1 cs.LG, cs.CL
Авторы:

Zihan Liang, Ziwen Pan, Ruoxuan Xiong

## Контекст Клинические заметки содержат богатый набор информации о пациентах, включая диагнозы, медикаментозное лечение и другие ключевые данные. Эти данные являются ценными для создания точных представлений о состоянии пациента. Несмотря на то, что новейшие модели языка позволяют эффективно извлекать смысловую информацию из текстовых клинических заметок, их несовершенством является неполнота. Например, в данных MIMIC-IV отсутствуют диспансерные протоколы у 24,5% пациентов. Другие модели, такие как изображения рентгена или результаты рентгеновских исследований, также могут применяться для извлечения представлений, однако их наличие зависит от клинических решений, что приводит к модельной непредсказуемости и многомодальной непредвиденной недостаточности (MMNAR). Наша мотивация заключается в разработке метода, который не только бы справился с этими проблемами, но и мог быть применен в различных областях медицины для повышения точности результатов. ## Метод Мы предлагаем многомодальный фреймворк, основанный на принципах причинности и информативности недостаточности моделей. Основными компонентами фреймворка являются: 1. **MMNAR-Aware Modality Fusion**: Этот модуль объединяет различные модели, включая текстовые данные, изображения и структурированные данные. Он учитывает паттерны недостаточности моделей, чтобы лучше понять состояние пациента и клинические решения. 2. **Modality Reconstruction with Contrastive Learning**: Этот модуль гарантирует, что представление будет достаточно полным и семантически наглядным, даже при отсутствии некоторых моделей. 3. **Multitask Outcome Prediction with Rectifier**: Модель предсказания результатов предназначена для корректировки остатков неточности, вызванных отложенным воздействием отсутствующих моделей. ## Результаты Мы провёряли наш метод на двух крупных датасетах: MIMIC-IV и eICU. Выполнялись эксперименты по прогнозированию двух ключевых клинических результатов: повторного возврата в госпиталь и прохождения пациента в интенсивной терапии. Наши результаты показали улучшение до 13,8% AUC в прогнозировании повторного возврата в госпиталь и 13,1% в прогнозировании прохождения в интенсивной терапии. Эти результаты показывают, что наш фреймворк превосходит существующие базовые модели, демонстрируя высокую точность и устойчивость в условиях непредсказуемой недостаточности моделей. ## Значимость Метод предлагается для применения в различных клинических сценариях, включая предсказание повторных возвратов в госпиталь и выбор лучшей стратегии лечения. Он позволяет улучшить точность медицинских решений, учитывая отсутству
Annotation:
Clinical notes contain rich patient information, such as diagnoses or medications, making them valuable for patient representation learning. Recent advances in large language models have further improved the ability to extract meaningful representations from clinical texts. However, clinical notes are often missing. For example, in our analysis of the MIMIC-IV dataset, 24.5% of patients have no available discharge summaries. In such cases, representations can be learned from other modalities suc...
ID: 2509.17228v1 cs.LG, cs.CL, stat.ME
Авторы:

Bonan Zhang, Zhongqi Chen, Bowen Song, Qinya Li, Fan Wu, Guihai Chen

#### Контекст Рейнфорсмент-лирнинг (RL) является стандартным подходом для усовершенствования бо LLM (больших языковых моделей), которые превышают предварительное обучение и инструктивное учитывание. Один из наиболее значимых подходов — RL с верифицируемыми наградами (RLVR), который использует автоматически верифицируемую результативность (например, корректность или исполнительность) для формирования сигналов наград. Хотя этот подход эффективен, он имеет две ключевые ограничения: в первую очередь, бинарная обратная связь слишком скудна, чтобы отразить качество логического процесса, и во вторую очередь, грубое вознаграждение может привести к ванишинг-градиентам. Для решения этих проблем, были вдохновлены наблюдениями о здравом детстве. Мы предлагаем новую RL-технику, которая объединяет верифицируемые результаты с оценками уверенности модели. Это сочетание предоставляет более тонкую обратную связь и направляет логический процесс. #### Метод Мы предлагаем ConfClip, метод RL, который включает в себя две основные компоненты: **Confidence-Weighted Reward (CWR)** и **Confidence-Clipped Reward (CCR)**. CWR учитывает уверенность модели в своих ответах, чтобы усилить награды для верных ответов и уменьшить их для неверных. CCR вводит политику обрезки, чтобы предотвратить слишком большие награды или наказания, которые могут привести к драмматическим изменениям во время обучения. Мы используем автоматически верифицируемую выходную разметку для подачи награды и используем ту же структуру для улучшения инференса. Этот подход может быть интегрирован с другими текущими RL-методами в качестве дополнительного модуля. #### Результаты Мы проверили ConfClip на нескольких датасетах, включая COPA, HellaSWAG и ARC. Наши эксперименты показали, что метод повышает производительность RL, снижает потребление токенов во время инференса и обеспечивает более тонкую оценку логического процесса. Например, на датасете COPA, ConfClip повысил точность до 4% по сравнению с базовым RLVR. Также, мы обнаружили, что использование CCR снижает потребление токенов на 15% в среднем, что делает ConfClip более эффективным в задачах обучения с подкреплением. #### Значимость ConfClip может быть применен в различных областях, где требуется точное управление навыками логического мышления и работы с моделями языка. Например, он может быть применен в области робототехники, где модель должна принять решение на основе достоверных данных. Этот подход может снизить затраты на токены и улучшить качество решений, что делает его привлекательным для реальных приложений. #### Выводы В нашем исследовании мы представили ConfClip, новый подход к RL для LLM, ко
Annotation:
Reinforcement learning (RL) has become a standard paradigm for refining large language models (LLMs) beyond pre-training and instruction tuning. A prominent line of work is RL with verifiable rewards (RLVR), which leverages automatically verifiable outcomes (e.g., correctness or executability) to generate reward signals. While efficient, this framework faces two key limitations: First, its binary feedback is too sparse to capture the quality of the reasoning process. Second, its coarse-grained r...
ID: 2509.17730v1 cs.LG, cs.CL
Авторы:

Chi Liu, Derek Li, Yan Shu, Robin Chen, Derek Duan, Teng Fang, Bryan Dai

#### Контекст Область применения ИИ в медицине набирает обороты, но достижение экспертного уровня клинического разума остается вызовом. Обычно, л LLM могут обеспечить точные ответы, но часто не предоставляют транспарентных выводов, необходимых для проверки и надежности. Это недостаток становится критическим в высокорисковых сферах, где необходимо не только правильность ответов, но и прозрачность логики. Fleming-R1 разработан как решение этой проблемы, стремясь к экспертному клиническому разуму с помощью трех основных инноваций. #### Метод Fleming-R1 использует три основных техники. **Reasoning-Oriented Data Strategy (RODS)** проводит синтез данных с использованием знаний из графов и куратируемых медицинских обучающих данных, чтобы улучшить покрытие на проблемы, относящиеся к редким болезням, лекарству и многоходовым выводам. **Chain-of-Thought (CoT) cold start** делает использование готовых выводов методом Knowledge Distillation от моделей-учителей, чтобы установить нормы для разума. **Two-stage Reinforcement Learning from Verifiable Rewards (RLVR)**, включая Group Relative Policy Optimization, нацелен на поддержание основных клинических логических умений и устранение постоянных недостатков через адаптивное добавление сложных примеров. #### Результаты Эксперименты показали, что Fleming-R1 демонстрирует выдающиеся результаты по сравнению с базовыми моделями. Версия 7B Fleming-R1 превзошла модели большего размера на нескольких медицинских задачах, в то время как 32B модель достигла сопоставимого уровня с GPT-4o и постоянно превосходила открытые аналоги. Эти результаты показывают, что структурированные подходы к данным, начальная инициализация для разума и учетная логика могут быть послужить основой для получения экспертного клинического разума, превосходящего простую точность. #### Значимость Fleming-R1 может применяться в различных областях, в том числе диагностике, клинической терапии и медицинском анализе. Он предоставляет повышенную прозрачность и надежность, что может повысить безопасность при использовании в клинических средах. Это демонстрирует перспективу ИИ в медицине, где надежность и прозрачность критически важны. #### Выводы Результаты Fleming-R1 свидетельствуют о значимости структурированных подходов к обучению, начальной инициализации для разума и логических методов доказательства. Будущие исследования будут направлены на улучшение моделей клинического разума, увеличение прозрачности и эффективности, а также расширение применения в реальных клинических ситуациях.
Annotation:
While large language models show promise in medical applications, achieving expert-level clinical reasoning remains challenging due to the need for both accurate answers and transparent reasoning processes. To address this challenge, we introduce Fleming-R1, a model designed for verifiable medical reasoning through three complementary innovations. First, our Reasoning-Oriented Data Strategy (RODS) combines curated medical QA datasets with knowledge-graph-guided synthesis to improve coverage of u...
ID: 2509.15279v1 cs.LG, cs.CL
Авторы:

Om Naphade, Saksham Bansal, Parikshit Pareek

#### Контекст Hyper-parameter Tuning (HPT) является важной стадией в машинном обучении, но становится все более отдаленной и вычислительно трудоемкой при использовании больших моделей. Модели типа Large Language Models (LLMs) показали свои преимущества в этой области, однако большинство из них требуют моделей с параметрами, превышающими 100 миллиардов. Это приводит к сложностям в реализации и ограничениям в применении. Мы предлагаем новую модель, основанную на Small LLMs, которая обеспечивает эффективность и доступность для Hyper-parameter Tuning. #### Метод Мы предлагаем Expert Block Framework для HPT с Small LLMs, в котором используется Trajectory Context Summarizer (TCS). TCS детерминированно преобразует необработанные траектории обучения в структурированные контексты, позволяя Small LLMs анализировать прогресс оптимизации с точностью, близкой к большим моделям. В нашем эксперименте использовались два внутренних моделирования с 14 и 32 миллиардами параметров. Мы проверили нашу модель на шести различных задачах и протестировали ее с бюджетом 10 запусков. #### Результаты Наши эксперименты показали, что модель TCS-enabled HPT достигла среднего результата, отличающегося от GPT-4 не более чем на ~0.9 процентных единиц по всем задачам. Это указывает на очень высокую точность и надежность нашего подхода, даже при использовании моделей с меньшим числом параметров. Мы протестировали нашу модель на различных задачах ML, включая задачи классификации и регрессии, и получили последовательные успехи. #### Значимость Наш подход открывает новые возможности для эффективного HPT, особенно в ситуациях, где невозможно использовать большие модели из-за ресурсов или времени. Например, он может применяться в edge computing, IoT и облачных сервисах, где производительность и экономия ресурсов критичны. Мы также отмечаем, что наши результаты могут быть применены для гибридных моделей и многоуровневой оптимизации. #### Выводы Мы показали, что Small LLMs с Expert Blocks могут эффективно использоваться для HPT, даже при ограниченных ресурсах. Наша модель показала себя как эффективная альтернатива для крупных моделей в HPT. Мы будем продолжать исследовать возможности TCS для других задач машинного обучения и рассмотреть возможность расширения фреймворка для более сложных задач.
Annotation:
Hyper-parameter Tuning (HPT) is a necessary step in machine learning (ML) pipelines but becomes computationally expensive and opaque with larger models. Recently, Large Language Models (LLMs) have been explored for HPT, yet most rely on models exceeding 100 billion parameters. We propose an Expert Block Framework for HPT using Small LLMs. At its core is the Trajectory Context Summarizer (TCS), a deterministic block that transforms raw training trajectories into structured context, enabling small...
ID: 2509.15561v1 cs.LG, cs.CL
Авторы:

Maithili Joshi, Palash Nandi, Tanmoy Chakraborty

## Контекст Область глубокого обучения становится все более важной в современном мире, в том числе в области развития безопасных языковых моделей (LLMs). Эти модели используются для решения различных задач, от понимания естественного языка до генерации текстов. Однако наиболее безопасные языковые модели требуют тщательного выравнивания, чтобы обеспечить корректное поведение в отношении безопасных запросов, в то же время отвергая потенциально опасные или вредоносные вводы. Несмотря на эти усилия, такие модели остаются подверженными атакам-затуплению (jailbreak attacks), когда злоумышленники манипулируют моделью, чтобы вывести вредоносные или нежелательные ответы. Эти атаки представляют собой серьезную проблему, так как они могут повлиять на доверие к моделям и их применение в критических областях. В этом исследовании уделяется внимание ослаблению безопасности моделей через методы, направленные на выявление и использование проблем в их структуре. ## Метод Методология SABER (Safety Alignment Bypass via Extra Residuals) основывается на использовании резидуальных связей между слоями модели для изучения и выявления уязвимостей. Она построена на предположении, что основная часть безопасной алгоритмики находится в средних и поздних слоях модели. Метод SABER подключает две средние слои $s$ и $e$ с $s < e$ через резидуальную связь, что позволяет изучить трансформации в промежуточных слоях. Эта архитектура разработана для эффективного исследования того, как безопасная алгоритмика может быть обойдена с помощью целенаправленного манипулирования входными данными. Этот подход позволяет выявить слабые места в безопасности модели и повысить понимание способов их обойти. ## Результаты Экспериментальные исследования проводились на наборе данных HarmBench, который содержит запросы, специально созданные для проверки безопасности моделей. Использование SABER позволило повысить производительность на 51% в сравнении с лучшим базовым методом. Несмотря на повышение эффективности, SABER имеет малый вклад в увеличение perplexity (меры неопределенности модели при предсказании текста), что указывает на то, что он не сильно меняет принципиальное поведение модели в обычных условиях. Эти результаты подтверждают то, что SABER может эффективно выявлять уязвимости в безопасности моделей без существенного изменения их основного функционирования. ## Значимость Описанный подход имеет широкие перспективы применения в области безопасности языковых моделей. Он позволяет выявить проблемы в алгоритмах безопасного вывода, которые могут быть использованы для улучшения моделей. Также SABER может быть применен для тестировани
Annotation:
Large Language Models (LLMs) with safe-alignment training are powerful instruments with robust language comprehension capabilities. These models typically undergo meticulous alignment procedures involving human feedback to ensure the acceptance of safe inputs while rejecting harmful or unsafe ones. However, despite their massive scale and alignment efforts, LLMs remain vulnerable to jailbreak attacks, where malicious users manipulate the model to produce harmful outputs that it was explicitly tr...
ID: 2509.16060v1 cs.LG, cs.CL
Показано 161 - 170 из 233 записей