📚 Саммари научных статей из arXiv

Найдено 1292 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Diversity First, Quality Later: A Two-Stage Assumption for Language Model Alignment

2025-08-16

Авторы:

Zetian Sun, Dongfang Li, Baotian Hu

## Контекст Современные языковые модели (LMs) широко используются в различных приложениях, от синтеза текста до генерации кода. Однако их успешное применение зависит от того, насколько они выравнены с желаниями и приоритетами человеческого пользователя. Эта проблема, известная как "выравнивание языковых моделей со стороны человека", является ключевым заданием для создания надежных и эффективных AI-систем. Исследователи предлагают множество подходов, но основной проблемой остается оптимальный способ измерения и управления приоритетами модели. Недавно была предложена методика Директ Преференс Оптимизации (DPO), которая упорядочивает языковые модели на основе статических данных о предпочтениях. Однако до сих пор не было изучено, как различные данные о предпочтениях влияют на эффективность этого подхода. Наша мотивация заключается в том, чтобы разобраться, почему работает DPO и как можно его оптимизировать. ## Метод Мы предлагаем разделить процесс выравнивания языковых моделей на два этапа. В первом этапе, "инжекция предпочтений", языковая модель учитывает разнообразные данные о предпочтениях, чтобы улучшить общую тенденцию. Во втором этапе, "файн-тюнинг предпочтений", модель добивается высокой точности, используя высококачественные данные. Мы разработали теоретическую модель для анализа этих этапов и предложили метод Boundary Identification Algorithm (BIA), который помогает определить, в каком этапе работает лучше всего конкретный подход. Для экспериментов использовались 5 моделей с разным количеством параметров (Llama, Zephyr, Phi-2, Qwen, Pythia) и двумя методами выравнивания (DPO и SLiC-HF). ## Результаты Наши эксперименты показали, что наибольшую эффективность DPO достигает при использовании начальных статических данных о предпочтениях, но только в том случае, если они имеют достаточную разнообразность. Второй этап, "файн-тюнинг", лучше работает с высококачественными данными, но только после того, как прошел первый этап. Мы доказали, что использование только одного типа данных может снизить эффективность. Например, для Llama-3 DPO с использованием только статических данных дал трёхкратный прирост эффективности, но для Zephyr этот подход дал лишь четвертиную. Эксперименты подтвердили, что BIA эффективно определяет, когда нужно переключаться между этими этапами. ## Значимость Наша работа имеет значительное значение для практического применения языковых моделей. Мы показали, что выравнивание моделей может быть оптимизировано, если логически разделить процесс на этапы и применять соответствующие данные. Полученный подход может быть применен не только к DPO, но также к другим ме

Annotation:

The alignment of language models (LMs) with human preferences is critical for building reliable AI systems. The problem is typically framed as optimizing an LM policy to maximize the expected reward that reflects human preferences. Recently, Direct Preference Optimization (DPO) was proposed as a LM alignment method that directly optimize the policy from static preference data, and further improved by incorporating on-policy sampling (i.e., preference candidates generated during the training loop...

ID: 2508.10530v1 cs.AI, cs.CL

arXiv PDF

📄 Improving Value-based Process Verifier via Low-Cost Variance Reduction

2025-08-16

Авторы:

Zetian Sun, Dongfang Li, Baotian Hu, Min Zhang

## Контекст Large language models (LLMs) широко применяются в различных задачах, включая решение математических задач. Однако их мощь часто ограничивается сложностью процессов логического рассуждения. Это проблема становится существенной при работе с значительными объемами данных и высокой степенью сложности. Значимость этих задач возрастает в условиях роста информационных технологий и требований к высококачественной автоматизации. Одним из подходов к решению этой проблемы являются **value-based process verifiers**, которые оценивают вероятность правильности частичного процесса решения. Однако эти методы сталкиваются с высокой ошибкой оценки, вызванной недостаточной точностью аннотаций в процессе обучения, возникающей из-за ограниченности современных мощностей вычислений и необходимости ограниченного количества монте-карло (MC) значений. Эта проблема требует разработки эффективных методов с минимальными затратами. ## Метод Мы предлагаем **ComMCS (Compound Monte Carlo Sampling)**, метод уменьшения выборочной дисперсии при оценке частичных процессов решений. Метод основывается на комбинировании полученных из текущего и следующего шага монте-карло-оценок. Теоретически мы доказали, что это приводит к снижению дисперсии без увеличения затрат на вычисления. Наш подход позволяет сохранить необходимую точность оценки, не добавляя дополнительные требования к ресурсам. Основным элементом метода является разработка линейных комбинаций пар MC-значений, чтобы свести к минимуму разброс результатов, не потеряв при этом ценность оценки. ## Результаты Мы провести эксперименты на двух бенчмарках: MATH-500 и GSM8K. На MATH-500 ComMCS показал снижение дисперсии на 2.8 BLEU4-единиц по сравнению с оптимизационным методом регрессии, а на GSM8K - на 2.2 единицы. Эти результаты достигнуты без дополнительных затрат на монте-карло-значения, что делает нашу методику эффективной и применимой в реальных условиях. Данные результаты позволяют утверждать, что метод ComMCS значительно повышает точность и надежность value-based process verifiers, даже при ограниченных ресурсах. ## Значимость Наш подход может быть применен в различных областях, где необходим достоверный анализ процессов решения задач. Это включает изучение математических задач, логических систем и даже моделирование экономических процессов. Особенно выгодно применение ComMCS в области моделирования решений с низкой достоверностью и высокими затратами расчетов. Этот подход позволяет повысить точность моделирования при значительном сокращении затрат, что является ключевым преимуществом в современных вычислительных системах. ## Выводы Мы выдвигаем новый подход к улучшению value-based process verifiers, который

Annotation:

Large language models (LLMs) have achieved remarkable success in a wide range of tasks. However, their reasoning capabilities, particularly in complex domains like mathematics, remain a significant challenge. Value-based process verifiers, which estimate the probability of a partial reasoning chain leading to a correct solution, are a promising approach for improving reasoning. Nevertheless, their effectiveness is often hindered by estimation error in their training annotations, a consequence of...

ID: 2508.10539v1 cs.AI, cs.CL

arXiv PDF

📄 Stabilizing Long-term Multi-turn Reinforcement Learning with Gated Rewards

2025-08-16

Авторы:

Zetian Sun, Dongfang Li, Zhuoen Chen, Yuhuai Qin, Baotian Hu

Тема: Stabilizing Long-term Multi-turn Reinforcement Learning with Gated Rewards ## Контекст Длиннострочные задачи в reinforcement learning (RL) часто сталкиваются с проблемой разреженности вознаграждений. Такие задачи требуют многократного взаимодействия с системой, прежде чем достичь целей. Существующие методы формирования наград либо не способны определять полезные непосредственные награды, либо вводят избыточные предположения или требуют подробной декомпозиции задачи. Это приводит к несоответствию между непосредственными наградами и долгосрочными целями, что может привести к ошибкам в формировании политик. Другой подход, основанный на верификации, использует шагающие критики для формирования наград, но даже здесь могут возникнуть проблемы с гибридностью между непосредственными наградами и долгосрочными целями. Мы сосредоточились на области программного обеспечения (SWE), где многократное взаимодействие и верификация играют ключевую роль. Целью нашего исследования является стабилизация многократных задач RL через более эффективное формирование наград. ## Метод Мы предлагаем SWE-oriented RL Framework, который объединяет несколько ключевых компонентов: поддержку многократного взаимодействия, тонкую настройку ре wards, а также интеграцию с docker-based execution. Для решения проблемы разреженности наград мы предлагаем Gated Reward Accumulation (G-RA), метод, который ограничивает формирование непосредственных наград, пока долгосрочная награда не достигнет заданного порога. Это позволяет избежать быстрого изменения поведения агента и обеспечить стабильное оптимизационное поведение. Мы также предоставляем гибкую архитектуру для настройки наград, что позволяет адаптировать решение к разным задачам в SWE. ## Результаты Мы проверили G-RA на двух реалистичных SWE-задачах: Verified и kBench. Результаты показали, что метод G-RA существенно улучшил процент успешных завершений задач: с 47.6% до 93.8% для Verified и с 22.0% до 86.0% для kBench. Также обнаружено, что выполнение политик стало более стабильным, не испытывая деградации, что характерно для разреженных наград. Эти результаты свидетельствуют о том, что G-RA успешно решает проблему разреженности наград, обеспечивая более стабильное и эффективное оптимизационное поведение. ## Значимость Наш подход может быть применен в различных SWE-задачах, где требуется многократное взаимодействие и верификация. Он предоставляет значительные преимущества по сравнению с традиционными методами, такими как улучшенная стабильность политик, увеличенные успешные завершения задач и сниженная вероятность ошибок. Этот подход также открывает новые возможности для применения RL в слож

Annotation:

Reward sparsity in long-horizon reinforcement learning (RL) tasks remains a significant challenge, while existing outcome-based reward shaping struggles to define meaningful immediate rewards without introducing bias or requiring explicit task decomposition. Alternatively, verification-based reward shaping uses stepwise critics, but misalignment between immediate rewards and long-term objectives can lead to reward hacking and suboptimal policies. In this work, we address this problem in the cont...

ID: 2508.10548v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

2025-08-16

Авторы:

Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi

## Контекст Область исследования сосредоточена на Reinforcement Learning with Verifiable Rewards (RLVR), который использует Pass@1 в качестве награды. Однако это подход сталкивается с проблемой достижения баланса между эксплорированием и эксплойтингом, что приводит к затухающему интересу к поиску новых решений и схождению к локальному оптимуму. Выбор подходящей метрики награды является ключевым для решения этой проблемы. Хотя Pass@k часто используется в оценке, его взаимосвязь с возможностью эксплорирования в RLVR остается недостаточно исследована. Мотивация исследования заключается в поиске решения этой проблемы и оптимизации политик поведения моделей с помощью более эффективных наградных метрик. ## Метод Исследование основывается на использовании Pass@k в качестве награды для обучения политики модели (Pass@k Training). Методология включает в себя аналитическую модель для вывода преимуществ Pass@k Training, что позволяет эффективно настраивать поведение модели. Реализация включает использование глубоких нейронных сетей для оценки возможности эксплорения. Анализ показывает, что Pass@k Training не только улучшает эксплорнацию, но и способствует более эффективному использованию локальных оптималов. Данный подход также рассматривается как применимость проектирования функций выгоды в RLVR. ## Результаты Эксперименты проводились на различных данных с разным уровнем сложности. Использовались модели с различным числом классов и размеров. Увеличение Pass@k в качестве награды позволило улучшить показатели эксплорейтинга и получить более сбалансированные решения. Отчет о результатах включал метрики, такие как F1-score и Pass@k, что позволило показать, как улучшение Pass@k влияет на эффективность политики модели. Результаты показали, что Pass@k Training приводит к более разумному балансу между эксплорной и эксплойтинговой стратегией. ## Значимость Полученные результаты имеют широкие применения в области глубокого обучения, в частности для large language models (LLMs). Этот подход позволяет улучшить не только эксплорейтинг, но и эксплойтинг, что делает поведение модели более универсальным. Известны преимущества Pass@k Training, в том числе улучшение разрешения сложных задач и уменьшение утечки информации во время обучения. В будущем можно рассмотреть проектирование более усовершенствованных функций выгоды, которые могут дать еще более эффективные результаты в RLVR и задачах связанных с ним. ## Выводы Основной достижением является установление того, что Pass@k Training может эффективно сбалансировать exploration и exploitation в RLVR. Также было показано, что этот подход может применяться к различным моделям и задачам. Будущими направлениями исследований является развитие более сложных функций выгоды

Annotation:

Reinforcement learning with verifiable rewards (RLVR), which typically adopts Pass@1 as the reward, has faced the issues in balancing exploration and exploitation, causing policies to prefer conservative actions, converging to a local optimum. Identifying an appropriate reward metric is therefore crucial. Regarding the prior work, although Pass@k has been used in evaluation, its connection to LLM exploration ability in RLVR remains largely overlooked. To investigate this, we first use Pass@k as ...

ID: 2508.10751v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Searching for Privacy Risks in LLM Agents via Simulation

2025-08-16

Авторы:

Yanzhe Zhang, Diyi Yang

## Контекст Современная Интернет-экономика сильно полагается на широковещательное развертывание генерирующих языковых моделей (LLM) в качестве агентов для обеспечения различных сервисов. Однако возникает критическая проблема: злоумышленники могут использовать LLM-агенты для проводить атаки, нацеленные на запрос и извлечение чувствительной информации в динамическом, многоразовом диалоге. Эти атаки могут привести к серьезным нарушениям конфиденциальности, но их сложная и эволюционная природа затрудняет ручной поиск этих уязвимостей. Для раскрытия этих возможностей и защиты от них требуются автоматизированные средства, которые могут эффективно моделировать и анализировать такие сценарии. ## Метод Мы предлагаем поисковую фреймворк для анализа и отражения рисков конфиденциальности в LLM-агентах. Он основывается на симуляции взаимодействия между тремя ролями: **данные подлежащие защите**, **атакующий агент** и **защитный агент**. В каждом эксперименте данные подлежащие защите определяются, а атакующий агент пытается их извлечь, используя многотактные диалоги, в то время как защитный агент адаптируется для предотвращения этого. Мы используем генерирующие языковые модели для оптимизации этих ролей, определяя новые инструкции для каждой роли на каждом шаге. Этот подход позволяет проводить многопоточные поисковые процедуры с параллельным обслуживанием инструкций и использованием параллельной синхронизации. Это предлагается для быстрого и эффективного обнаружения рисков конфиденциальности. ## Результаты Мы проводили эксперименты, в которых виртуальные агенты проводят диалоги от имени пользователя и стараются извлечь чувствительные данные. Мы используем данные из различных сценариев, включая персональные данные, финансовую информацию и личные предпочтения. Наши эксперименты показали, что атакующие стратегии развиваются от простых запросов к более сложным многотактным сценариям, таким как имитация и подделка согласия. Защитные стратегии также развивались, перемещаясь от простых правил до более сложных механизмов, таких как взаимодействие с удостоверениями. Наши результаты показали, что атаки и защиты, обнаруженные в одной среде, могут быть перенесены в другие, что демонстрирует их практическую значимость. ## Значимость Результаты нашей работы имеют широкие применения в безопасности и конфиденциальности в Интернет-экономике. Наш подход может быть использован для тестирования безопасности в системах с LLM-агентами, для создания более безопасных диалоговых систем и для разработки но

Annotation:

The widespread deployment of LLM-based agents is likely to introduce a critical privacy threat: malicious agents that proactively engage others in multi-turn interactions to extract sensitive information. These dynamic dialogues enable adaptive attack strategies that can cause severe privacy violations, yet their evolving nature makes it difficult to anticipate and discover sophisticated vulnerabilities manually. To tackle this problem, we present a search-based framework that alternates between...

ID: 2508.10880v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 Large Language Models Show Signs of Alignment with Human Neurocognition During Abstract Reasoning

2025-08-15

Авторы:

Christopher Pinier, Sonia Acuña Vargas, Mariia Steeghs-Turchina, Dora Matzke, Claire E. Stevenson, Michael D. Nunez

## Контекст Абстрактный рассудок, характеризующийся возможностью описания и решением задач, не связанных с опытом, является ключевым признаком интеллектуальной активности. Этот процесс требует глубокой интеграции информации, синтеза новых представлений, понимания высшего порядка и прогнозирования результатов. Он присущ как человеческому мозгу, так и современным искусственным интеллектам. Однако существуют затруднения в измерении и сравнении этих процессов, особенно когда речь идет о сравнении архитектур нейронных сетей с биологическими сетями мозга. Данное исследование направлено на изучение степени аналогии между гомономной моделью человеческой нейрокогнитивной активности и текущими технологиями глубокого обучения. ## Метод Работа включала сравнительный анализ поведения людей и 8 моделей глубокого обучения с открытым исходным кодом на задаче абстрактного логического завершения. Метод основывался на сравнении типов задач и результатов, а также на измерении нейронных уровней активности с помощью электроэнцефалографии (EEG). Записи включали фиксационные потенциалы (Fixation-Related Potentials, FRPs), наблюдаемые во время выполнения задачи. Анализ проводился на основе данных взрослых участников, которые выполняли задачу в условиях электроэнцефалографического мониторинга. Исследование также использовало размерность и геометрию представлений внутри моделей, чтобы определить их соответствие людям. ## Результаты Сравнение показало, что только самые крупные модели, например Qwen-2.5-72B и DeepSeek-R1-70B, демонстрируют точность, аналогичную человеческой. Эти модели также создавали представления, которые отличались по степени группировки абстрактных категорий в слоях, соответствующих фазе решения задачи. Эти представления были близки по геометрии к нейронам человеческого мозга в лобной зоне, что свидетельствует о совместимости с биологическими процессами. Остальные модели и данные EEG не показали такой гармонии, становясь менее адекватными для сравнения. ## Значимость Найденные результаты указывают на возможность применения глубокого обучения для моделирования и понимания человеческого мозга в абстрактных задачах. Это открывает пути к новым подходам в робототехнике, синтетической когнитивной науке и теории обучения. Помимо этого, найденные аналогии могут способствовать развитию технологий понимания речи и синтеза смысла в автоматизированных системах. ## Выводы Данное исследование показало, что глубоко обученные модели могут демонстрировать поведение, похожее на человеческое в абстрактных

Annotation:

This study investigates whether large language models (LLMs) mirror human neurocognition during abstract reasoning. We compared the performance and neural representations of human participants with those of eight open-source LLMs on an abstract-pattern-completion task. We leveraged pattern type differences in task performance and in fixation-related potentials (FRPs) as recorded by electroencephalography (EEG) during the task. Our findings indicate that only the largest tested LLMs (~70 billion ...

ID: 2508.10057v1 q-bio.NC, cs.AI, cs.CL

arXiv PDF

📄 Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts

2025-08-15

Авторы:

Maxime Heuillet, Yufei Cui, Boxing Chen, Audrey Durand, Prasanna Parthasarathi

## Контекст Улучшение моделей языковых моделей (LLMs) в сложных областях, таких как математическое моделирование, требует эффективных методов обучения с подenом награды (Reinforcement Learning, RL). Одним из таких подходов является reinforced fine-tuning (ReFT), в котором модель генерирует несколько концовок для задачи, а затем эти концовки оцениваются с помощью ревард-функции. Хотя такой подход продемонстрировал выдающиеся результаты, его вычислительная стоимость возникает из-за необходимости многократного выполнения модели для каждой итерации обучения. Это становится особенно важно при обучении больших моделей. Мы предлагаем Nested-ReFT, новый подход к ReFT, который уменьшает вычислительные затраты за счет использования слоев модели в качестве "поведенческой" модели для генерации концовок в процессе обучения. ## Метод Nested-ReFT использует многоуровневую архитектуру, в которой некоторые слои модели используются для генерации концовок заданий, в то время как другие слои отвечают за оценку этих концовок. Это позволяет эффективно использовать модель, не требуя генерации концовок на каждой итерации. Мы также ввели технику "динамического пропуска слоев", которая позволяет еще больше сократить вычислительные затраты. Для обеспечения точности решения мы предлагаем три варианта устранения биаса в обучении с off-policy данными, которые позволяют сохранить высокий уровень производительности. ## Результаты Мы провели эксперименты на нескольких математических задачах и моделях различных размеров. Результаты показали, что Nested-ReFT выполняет большое количество подсчетов задач за секунду (tokens/sec) в сравнении с стандартными ReFT-методами, что демонстрирует его высокую эффективность. Также, мы проанализировали эффективность различных стратегий устранения биаса, показав, что они позволяют сохранить точность решения на уровне ReFT-методов с полной моделью. ## Значимость Nested-ReFT открывает новые возможности для эффективного обучения моделей языковых моделей в сложных областях. Его применимость распространяется на такие области, как математическое моделирование, логические задачи и другие сложные решения, для которых требуется высокая точность и эффективность. Он обеспечивает выигрыш в скорости обучения и уменьшает количество вычислительных ресурсов, что может сделать эти модели более доступными для ученых и разработчиков. ## Выводы Мы представили Nested-ReFT, новый эффективный подход к обучению моделей языковых моделей с использованием RL. Наши результаты показали, что использование слоев модели в качестве поведенческой модели не только уменьшает накладные расходы, но и позволяет достичь высокой точности решения. Наше исследова

Annotation:

Advanced reasoning in LLMs on challenging domains like mathematical reasoning can be tackled using verifiable rewards based reinforced fine-tuning (ReFT). In standard ReFT frameworks, a behavior model generates multiple completions with answers per problem, for the answer to be then scored by a reward function. While such RL post-training methods demonstrate significant performance improvements across challenging reasoning domains, the computational cost of generating completions during training...

ID: 2508.10123v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Personalized Product Search Ranking: A Multi-Task Learning Approach with Tabular and Non-Tabular Data

2025-08-15

Авторы:

Lalitesh Morishetti, Abhay Kumar, Jonathan Scott, Kaushiki Nag, Gunjan Sharma, Shanu Vashishtha, Rahul Sridhar, Rohit Chatter, Kannan Achan

## Контекст Поиск продуктов на основе персонализации является ключевым аспектом современных электронных магазинов, позволяя клиентам быстрее находить товары, соответствующие их интересам. Однако существуют значительные сложности в этой области, включая разнообразие видов данных (табличные и нетабличные), неоднородные приоритеты клиентов и нехватку качественных методов для оценки семантической схожести. Исследователи стремятся создать модели, которые могут эффективно обрабатывать такие сложные данные и оптимизировать релевантность результатов поиска. Наша модель стремится решить эти проблемы, используя новую архитектуру, которая объединяет различные типы данных и использует предварительно обученные модели для более точного понимания пользовательских запросов и продуктов. ## Метод Мы предлагаем модель, основанную на **мультизадачном обучении (MTL)**, которая объединяет данные разного типа: табличные (например, данные о продукте и пользователе) и нетабличные (текст, описание продукта). Наша модель использует **TinyBERT** для семантических эмбеддингов, что позволяет лучше понять смысл запросов и продуктов. Также мы вводим новую **технику выбора данных**, которая позволяет лучше учесть разнообразные модели поведения клиентов. Модель также оценивает релевантность результатов с помощью механизма, основанного на **семантической схожести** и **клик-тру-рейтах**, который является альтернативой традиционным лэйблам, создаваемым человеческими экспертами. ## Результаты Мы провели эксперименты сравнивая нашу модель с несколькими базовыми алгоритмами, включая XGBoost, TabNet, FT-Transformer, DCN-V2 и MMoE. Мы использовали разные типы данных для проверки того, насколько модель способна хорошо обрабатывать табличные и нетабличные данные. Результаты показали, что наша модель существенно превосходит базовые модели, особенно в ситуациях, когда нужно обрабатывать смешанные типы данных. Мы также провели абляционные исследования, показав, что как включение релевантных лэйблов, так и подготовка TinyBERT и интерактивность между TinyBERT и запросами-продуктами сильно повышают эффективность модели. ## Значимость Наша модель может быть применена в различных сферах, включая электронную коммерцию, рекомендательные системы и прогнозирование пользовательского поведения. Она предлагает значительные преимущества, такие как улучшенная точность в рекомендациях и оптимизация рейтинга продуктов. Наш подход может повлиять на область персонализации, помогая лучше понимать потребности пользователей и улучшать их опыт пользователя. ## Выводы Мы установили, что интеграция нетабличных

Annotation:

In this paper, we present a novel model architecture for optimizing personalized product search ranking using a multi-task learning (MTL) framework. Our approach uniquely integrates tabular and non-tabular data, leveraging a pre-trained TinyBERT model for semantic embeddings and a novel sampling technique to capture diverse customer behaviors. We evaluate our model against several baselines, including XGBoost, TabNet, FT-Transformer, DCN-V2, and MMoE, focusing on their ability to handle mixed da...

ID: 2508.09636v1 cs.IR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 From Hard Refusals to Safe-Completions: Toward Output-Centric Safety Training

2025-08-15

Авторы:

Yuan Yuan, Tina Sriskandarajah, Anna-Luisa Brakman, Alec Helyar, Alex Beutel, Andrea Vallone, Saachi Jain

########################## ## Контекст ########################## Лучшие в классе технологии ИИ, такие как ChatGPT, на основе бо LLM, широко используются в различных сферах, от образования до бизнеса. Однако существуют значительные проблемы, связанные с их безопасностью. Например, некоторые запросы могут быть адресованы не только для получения полезных ответов, но и для злонамеренных целей. В связи с этим, существуют трудности в обеспечении безопасности моделей, особенно при работе с запросами, имеющими двойственные значения. Традиционно, модели LLM обучаются определять порог отказа: либо выполняют запрос, либо отказываются от него. Этот подход эффективен в минимизации риска ответов, которые могут привести к вредоносным действиям. Однако он может привести к недостаткам в удобочитаемости, особенно при работе с запросами, имеющими неясную или двойственную цель. Эта слабость может привести к серьезным ошибкам в работе модели, особенно в областях, требующих высокой степени точности, таких как биология или кибербезопасность. Из этого рождается мотивация для разработки новых подходов к обучению моделей. Одним из таких подходов является safe-completion, который фокусируется на получении безопасных и полезных ответов, а не на определении порога отказа. Этот подход может сделать моделей более прочными и эффективными в работе с запросами, которые требуют более тонкого понимания цели пользователя. ########################## ## Метод ########################## Методология safe-completion основывается на том, чтобы модель при обработке запроса работала не только на основе цели пользователя, но и на основе выводимого ответа. Для этого вводятся специальные механизмы, которые позволяют модели оптимизировать ответ не только по понятию пользовательского ввода, но и по свойству ответа. Использовались различные методы обучения, включая методы градиентного спуска и методы глубокого обучения на логических задачах. Структура модели включает в себя несколько слоев нейронных сетей, которые работают вместе для процесса обучения. Модель обучалась на больших объемах данных, включающих как безопасные, так и возможно вредоносные запросы. Был разработан специальный алгоритм, который избегал традиционных подходов к определению порогов отказа и вместо этого сосредотачивался на оптимизации критериев безопасности и полезности ответа. Кроме того, для эффективного тестирования были применены различные методы эмпирической оценки, такие как метрики безопасности и метрики полезности ответа. Эти методы были использованы для оценки эффективности модели в различных сценариях, включая сценарии с двойственной целью запроса. ########################## ## Результаты ##########################

Annotation:

Large Language Models used in ChatGPT have traditionally been trained to learn a refusal boundary: depending on the user's intent, the model is taught to either fully comply or outright refuse. While this is a strong mitigation for explicitly malicious prompts, focusing safety training on refusals can lead to brittleness for prompts with obscured user intent. Binary refusal boundaries are especially ill-suited for dual-use cases (such as biology or cybersecurity), where a user request can be ans...

ID: 2508.09224v1 cs.CY, cs.AI, cs.CL

arXiv PDF

📄 NEFMind: Parameter-Efficient Fine-Tuning of Open-Source LLMs for Telecom APIs Automation

2025-08-15

Авторы:

Zainab Khan, Ahmed Hussain, Mukesh Thakur, Arto Hellas, Panos Papadimitratos

## Контекст Современная телекоммуникационная система строится на **Service-Based Architecture (SBA)**, в которой выделяются сложности в управлении **Network Functions (NFs)** и **Application Programming Interfaces (APIs)**. Эти сложности включают в себя увеличение количества NFs, необходимость быстрого обнаружения и управления API, а также увеличение объема данных, которые должны быть обнаружены и обработаны. Эти факторы становятся главными вызовами для оптимизации в телекоммуникационных сетях, особенно при развитии **5G Service-Based Architecture (SBA)**. Одной из основных проблем является **communication overhead** – высокая стоимость поддержки и обнаружения API, которая может быть повлияна на производительность и удобство использования системы. Наша мотивация заключается в разработке единого фреймворка, который будет упростить процессы обнаружения и управления API, снизив тем самым **communication overhead** и улучшив общую эффективность системы. ## Метод Мы предлагаем **NEFMind**, фреймворк, который использует **parameter-efficient fine-tuning** открытых **Large Language Models (LLMs)**. Наша методология включает в себя следующие шаги: 1. **Синтетическая генерация данных**: Мы используем **NEF API specifications** для синтетического создания данных, которые могут быть использованы в обучении модели. Это позволяет генерировать богатый набор данных для тренировки модели, чтобы увеличить ее точность и обнаружить возможные сценарии. 2. **Оптимизация модели**: Мы используем **Quantized-Low-Rank Adaptation (QLRA)** – метод оптимизации, который позволяет уменьшить размер модели без значительной потери в точности. Это позволяет модели работать в реальном времени, не требуя больших ресурсов. 3. **Performance Evaluation**: Мы оцениваем результаты модели с помощью **GPT-4 Ref Score** и **BertScore**, которые позволяют проверить качество генерируемых ответов и точность обнаружения API. ## Результаты Мы проводили эксперименты с **Phi-2 model**, который был оптимизирован с помощью нашей стратегии **NEFMind**. Результаты показали высокую точность в **98-100%** для обнаружения API-вызовов в **5G Service-Based Architecture (SBA)**. Мы также сравнили нашу модель с **GPT-4**, и наша модель показала **85%** снижения **communication overhead** в сравнении с ручным обнаружением API. Это свидетельствует о том, что модель **Phi-2** может эффективно заменить более крупные модели без потери в качестве. ## Значимость **NEFMind** может применяться в различных областях, включая **automation of telecom APIs**, **5G networks management** и **service discovery в сервисно-ориентированных архитектурах**. Наше решение обеспечивает: - **Снижение overhead communication**: Мы уменьшили затраты на обнаружение и управление API, что может повысить производительность и экономичность системы. - **Увеличение эффективности**: Использование оптимизированных моделей позволяет экономить ресурсы, что является ключевым для сетей с высоким объем

Annotation:

The use of Service-Based Architecture in modern telecommunications has exponentially increased Network Functions (NFs) and Application Programming Interfaces (APIs), creating substantial operational complexities in service discovery and management. We introduce \textit{NEFMind}, a framework leveraging parameter-efficient fine-tuning of open-source Large Language Models (LLMs) to address these challenges. It integrates three core components: synthetic dataset generation from Network Exposure Func...

ID: 2508.09240v1 cs.NI, cs.AI, cs.CL

arXiv PDF

1
2
116
117
118
119
120
129
130

Показано 1171 - 1180 из 1292 записей