📚 Саммари научных статей из arXiv

Найдено 370 результатов по запросу 'cs.CL, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Graph-R1: Unleashing LLM Reasoning with NP-Hard Graph Problems

2025-08-29

Авторы:

Yuyao Wang, Bowen Liu, Jianheng Tang, Nuo Chen, Yuhan Li, Qifan Zhang, Jia Li

## Контекст В последние годы технологии Больших Лингвистических Моделей (LLMs) показали потрясающий прогресс в различных областях, в том числе в области логического и технического рассуждения. Однако, несмотря на эти успехи, развитие Long Chain-of-Thought (Long CoT) в LLMs остается сложным и затратным, в основном из-за необходимости использовать высококачественные, но дорогие и часто масштабно-ограниченные данные, такие как математические задачи и кодирование. Эти ограничения вводят значительные барьеры для более широкого использования LLMs в различных прикладных областях, где требуются действительно мощные и эффективные модели. Мы предлагаем новую подходящую технику, которая может решить эту проблему. ## Метод В центре нашего подхода лежит использование NP-hard (NPH) graph problems как новых искусственных тренировочных данных, которые требуют глубокого и продолжительного рассуждения. Мы разработали двухэтапную фреймворк для пост-тренировки: (i) дополнительное тренирование с помощью традиционной техники Long CoT Supervised Fine-Tuning (SFT), где вводится новый подход с rejection-sampling для NPH graph problems, улучшая глубину и структуру рассуждений; (ii) использование Reinforcement Learning (RL) с применением новинки в системах вознаграждений для улучшения эффективности рассуждений. Модель Graph-R1-7B, разработанная нами, показала сильную общую универсальность в математике, программировании, STEM и логике, обгоняя QwQ-32B в области NPH graph problems. ## Результаты Наши эксперименты показали, что модель Graph-R1-7B достигла выдающихся результатов в рассуждении, особенно в сложных задачах, требующих глубокого рассуждения. Она существенно выигрывает над QwQ-32B в точности и эффективности рассуждения в задачах NPH graph problems, показывая надежный подход к улучшению глубокого мышления в LLMs. ## Значимость Наш подход может быть применен в широких областях, таких как математическое моделирование, логическое программирование, STEM, и даже задачи в повседневной жизни, где требуется высококлассный рассуждительный подход. Мы показали, что NPH graph problems могут служить эффективным и масштабируемым источником тренировочных данных для повышения глубины и эффективности рассуждений в LLMs. ## Выводы Наша работа представляет собой новую технику для улучшения Long Chain-of-Thought reasoning в LLMs, определяя NPH graph problems как новый и эффективный источник данных для пост-тренировки моделей. В будущем, мы планируем расширить наш фреймворк на другие типы задач и области, повысив способность LLMs работать в сложных и нетривиальных задачах.

Annotation:

Reasoning Large Language Models (RLLMs) have recently achieved remarkable progress on complex reasoning tasks, largely enabled by their long chain-of-thought (Long CoT) capabilities. However, developing these Long CoT behaviors relies heavily on post-training with high-quality datasets, which are typically costly and human-curated (e.g., mathematics and code), leaving scalable alternatives unexplored. In this work, we introduce NP-hard (NPH) graph problems as a novel synthetic training corpus, a...

ID: 2508.20373v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection

2025-08-29

Авторы:

Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem

#### Контекст Large Language Models (LLMs) широко используются для решения различных задач, но сталкиваются с проблемами безопасности и цензуры. Некоторые запросы могут привести к нежелательным или повредным результатам. Для устранения этой проблемы разработаны системы «безопасности ввода-вывода» (e.g., Llama Guard 3), которые отклоняют вводные запросы с потенциально неблагоприятными результатами. Однако в существующих системах обнаруживаются слабые места: некоторые вводные данные могут обходить эти механизмы, изменяя внутренние представления модели. Наша мотивация заключается в разработке эффективного, простого и недорогого метода для усиления безопасности LLMs. #### Метод Мы предлагаем Rank-One Safety Injection (ROSI), метод, основанный на тонкой настройке, который повышает безопасность LLMs. ROSI работает путем перманентного управления активациями модели, направляя их в направление, отвергающее нежелательные запросы. Это достигается за счет однорангового модификатора весов, применяемого ко всем матрицам записи резидентных потоков. Для вычисления безопасного направления требуется малая выборка синтетических инструкций, обозначающих границы безопасности. ROSI легко интегрируется в существующие модели без требуемых для тонкой настройки ресурсов. #### Результаты Мы провели эксперименты на модели Llama Guard 3, оценивая расходимость безопасности перед и после применения ROSI. Наши результаты показали, что ROSI повышает безопасность, существенно увеличивая отказы в обработке неблагоприятных запросов. Измерения показали, что улучшения безопасности не приводят к ухудшению производительности на стандартных тестовых наборах (MMLU, HellaSwag, Arc). Мы также проверили, насколько эффективен ROSI при усилении безопасности «неограниченных» моделей, результаты показали, что он может добиваться повышения безопасности, даже в таких случаях. #### Значимость ROSI может применяться в различных сферах, где требуется цензура и безопасность ввода-вывода. Он предлагает простой, недорогой и эффективный способ улучшения безопасности LLMs. Этот подход может быть использован как дополнительный метод в существующих системах безопасности, а также в качестве последнего этапа в цепочке безопасности, где потребуется минимальный ресурсный вклад. #### Выводы Мы доказали, что ROSI является эффективным инструментом для повышения безопасности LLMs, за счет управления внутренними активациями модели. Наша работа показывает, что целевое интерпретируемое управление весами может стать отличным вариантом для улучшения безопасности, даже при ограниченных ресурсах. Будущие исследования б

Annotation:

Safety alignment in Large Language Models (LLMs) often involves mediating internal representations to refuse harmful requests. Recent research has demonstrated that these safety mechanisms can be bypassed by ablating or removing specific representational directions within the model. In this paper, we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box method that amplifies a model's safety alignment by permanently steering its activations toward the refusal-mediating sub...

ID: 2508.20766v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Principled Detection of Hallucinations in Large Language Models via Multiple Testing

2025-08-28

Авторы:

Jiawei Li, Akshayaa Magesh, Venugopal V. Veeravalli

#### Контекст Large Language Models (LLMs) являются мощными инструментами, решающими множество задач, однако часто страдают от проблемы "генерации сведений", или "халлуцинаций", — когда модель выдает ответы, которые выглядят убедительными, но являются неверными или даже бессмысленными. Эта проблема влияет на надежность приложений, основанных на LLMs, и требует эффективных методов для обнаружения таких недостоверных ответов. Наше исследование адресует эту проблему, поскольку точность и надежность LLMs необходимы для их распространенного применения в реальных условиях. #### Метод Мы сформулировали проблему обнаружения халлуцинаций как проблему нескольких гипотез. Для этого использовали разметку данных, где каждый ответ модели сравнивается с меткой достоверности. Метод основывается на множественных тестах, которые позволяют определять ответы, которые выходят за допустимые пределы достоверности. Мы использовали архитектуру, адаптированную для нескольких гипотез, чтобы обнаруживать потенциальные халлуцинации. Эта множественно-тестовая постановка допускает оценку вероятности того, что ответ модели является халлуцинацией, а не корректным. #### Результаты Мы провели многочисленные эксперименты, используя различные данные, включая тексты, в которых встречаются халлуцинации, и стандартные наборы данных для сравнения. Наши результаты показали, что метод оказался эффективнее, чем существующие методы, такие как только один тест или простые классификаторы. Наши модели демонстрировали высокую точность в обнаружении халлуцинаций, особенно когда ответы модели были достаточно уверенны, но неверны. Мы также проанализировали точность и скорость работы нашего метода, чтобы подтвердить его устойчивость в различных условиях. #### Значимость Метод может быть применен во многих областях, где нужна точность и надежность ответов LLMs, таких как помощь в решении задач, обработка юридических документов, медицинские приложения и другие задачи, требующие высоких стандартов достоверности. Его основное преимущество заключается в том, что он не только обнаруживает халлуцинации, но и учитывает множественные модели в процессе. Это может повысить уровень доверия к моделям, когда они применяются в критически важных задачах. #### Выводы Мы успешно разработали метод для обнаружения халлуцинаций в LLMs, основанный на множественных тестах. Наши результаты показали, что этот подход значительно превышает текущие методы по точности и устойчивости. В будущем, мы планируем расширить этот подход, чтобы улучшить точность в задачах с более сложными данными и последовательно затрагивать дополнительные области применения LLMs.

Annotation:

While Large Language Models (LLMs) have emerged as powerful foundational models to solve a variety of tasks, they have also been shown to be prone to hallucinations, i.e., generating responses that sound confident but are actually incorrect or even nonsensical. In this work, we formulate the problem of detecting hallucinations as a hypothesis testing problem and draw parallels to the problem of out-of-distribution detection in machine learning models. We propose a multiple-testing-inspired metho...

ID: 2508.18473v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Scaling Laws for Task-Stratified Knowledge in Post-Training Quantized Large Language Models

2025-08-28

Авторы:

Chenxi Zhou, Pengfei Cao, Jiang Li, Jun Zhao, Kang Liu

## Контекст Large language models (LLMs) являются сложными и большими системами, способными обрабатывать и генерировать текст с высоким качеством. Однако их развертывание сталкивается с значительными проблемами, включая высокую стоимость и ресурсоемкость, особенно при работе на устройствах с ограниченным памятью и вычислительной мощностью. Post-training quantization (PTQ), или пост-тренировочный преобразование в низкого разрядности, предлагается как эффективный метод для уменьшения размера и повышения производительности моделей без значительного потери качества. Тем не менее, существуют ограниченные знания о том, как PTQ влияет на различные аспекты знаний модели, такие как память и использование. Более того, существующие модели знаний не учитывают специфических для PTQ параметров и задач. Целью данной работы является развитие точечных знаний о том, как PTQ влияет на LLM, и разработка таблиц знаний, которые позволят создавать более эффективные стратегии квантования. ## Метод Для изучения влияния PTQ на знания LLMs была разработана методология, которая включает в себя несколько ключевых этапов. Вначале был проведен тщательный эмпирический анализ различных моделей LLMs с разным количеством параметров и уровнями PTQ. Для каждой модели были измерены различные показатели, включая меморизацию и использование знаний. Далее, для оценки того, как PTQ влияет на каждый показатель, были разработаны метрики, которые позволяют измерить степень влияния PTQ на каждый из них. Наконец, был разработан объединенный фреймворк, который интегрирует модельный размер, эффективную бит-ширину, размер калибровочного набора и размер группы, чтобы предоставить комплексное понимание PTQ-специфических характеристик в различных задачах. ## Результаты Исследования показали, что PTQ значительно влияет на различные аспекты знаний моделей. Было выявлено, что уровень меморизации знаний очень чувствителен к изменениям в эффективной бит-ширине, размеру калибровочного набора и модельному размеру. Напротив, уровень использования знаний оказался намного менее чувствительным к этим изменениям. Это позволяет сделать вывод, что PTQ оказывает большее влияние на восприятие знаний, чем на их применение. Эти результаты были подтверждены экспериментально с помощью различных моделей и задач, подтверждая достоверность определенных тенденций. ## Значимость Полученные результаты имеют высокую значимость в различных областях применения LLMs. В первую очередь, они позволяют лучше понять, как PTQ влияет на различные аспекты знаний моделей и как эти изменения могут быть учитываны при разработке стратегий кван

Annotation:

Large language models (LLMs) present significant deployment challenges due to their scale, with post-training quantization (PTQ) emerging as a practical compression solution. However, a comprehensive understanding of how PTQ precisely impacts diverse LLM knowledge capabilities remains elusive, and existing scaling laws for quantized models often overlook crucial PTQ-specific parameters and task-specific sensitivities. This paper addresses these gaps by conducting an extensive empirical investiga...

ID: 2508.18609v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 ReflectivePrompt: Reflective evolution in autoprompting algorithms

2025-08-28

Авторы:

Viktor N. Zhuravlev, Artur R. Khairullin, Ernest A. Dyagin, Alena N. Sitkina, Nikita I. Kulin

## Контекст Autoprompting, или автоматическое выборочное оптимизации подсказок для моделей языка, уже давно отталкивается от развития систем технологий языковых моделей. С появлением больших моделей языка (LLM), этот направленный подход к обучению стал играть важную роль в решении сложных задач, которые традиционные модели не могут подступиться. Однако, недостатки методов поиска лучших подсказок в зависимости от контекста заставляют искать более эффективные методы. Этот труд направлен на развитие методологии, которая расширяет возможности поиска оптимальных подсказок. Точнее, мы предлагаем ReflectivePrompt - метод, основанный на эволюционных алгоритмах, который включает в себя новую концепцию отражения (reflection) для улучшения точности и гибкости поиска. ## Метод ReflectivePrompt — это эволюционный подход, который использует элементы зеркального зеркала (reflection) в работе с подсказками. Основная идея заключается в том, чтобы работать с двумя уровнями отражения: короткосрочным (шорт-терм) и долгосрочным (лонг-терм). Это позволяет ReflectivePrompt накапливать знания о процессе расширения подсказок во время оптимизации. Кросс-овер и мутации, которые обычно используются в эволюционных методах, здесь поддерживаются новыми операциями отражения, которые улучшают модификации. Эти операции работают с каждой классификационной и генерирующей задачей по отдельности, что дает более точное управление задачами. Кроме того, в ReflectivePrompt включен раздел знаний, которым затем добавляются новые результаты при каждой эпохе. ## Результаты Мы проверили ReflectivePrompt на 33 различных датасетах, включающих задачи классификации и генерации текста. Мы тестировали наши результаты с открыто доступными LLM: t-lite-instruct-0.1 и gemma3-27b-it. На трех отдельных тестах по сравнению с EvoPrompt, наш метод показал улучшение на 28% в метриках на BBH датасете. Эти результаты указывают на то, что ReflectivePrompt — одна из самых эффективных реализаций эволюционных методов в рамках autoprompting. ## Значимость ReflectivePrompt может применяться в различных областях: от текстовой генерации до систем автоматического ответа. Он расширяет возможности эволюционных методов и интегрирует интуитивную парадигму отражения, что позволяет улучшить качество решений. Этот подход демонстрирует преимущество в точности и скорости, что делает его привлекательным для автоматизированных систем, где качество и быстродействие критичны. ## Выводы ReflectivePrompt показал свою эффективность в работе с LLM, подтвердив свое преимущество в сравнении с лучшими методами. Отражение (reflection) здесь играет ключевую роль в улучшении точности.

Annotation:

Autoprompting is the process of automatically selecting optimized prompts for language models, which has been gaining popularity with the rapid advancement of prompt engineering, driven by extensive research in the field of large language models (LLMs). This paper presents ReflectivePrompt - a novel autoprompting method based on evolutionary algorithms that employs a reflective evolution approach for more precise and comprehensive search of optimal prompts. ReflectivePrompt utilizes short-term a...

ID: 2508.18870v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Interpretable by AI Mother Tongue: Native Symbolic Reasoning in Neural Models

2025-08-28

Авторы:

Hung Ming Liu

## Контекст Одним из главных задач в области искусственного интеллекта является создание моделей, способных проводить интуитивное логическое обоснование задач. Несмотря на прогресс в нейросетевых моделях, существуют проблемы с их транспарентностью и удовлетворительным оправданием решений. Многие модели используют непонятные для людей выводы, что снижает доверие к ним. Необходимая модель должна обладать транспарентными способами обоснования, чтобы обеспечить лучшую взаимосвязь с пользователями и повысить надежность решений. ## Метод Мы предлагаем фреймворк, где нейросетевые модели развивают AI Mother Tongue — собственный символический язык, который позволяет проводить интуитивное логическое обоснование. Данный язык поддерживает не только четкость и понятность в выводах, но и способность работы с несколькими слоями значений и удобную интеграцию в нейронные модели. Метод использует подход с интегрированной тренировкой для повышения чистоты символов и спаривания решений, а также стратегию последовательной специализации, начиная с общего понимания, а затем уточняя уровень интуитивных оценок. ## Результаты В экспериментах на разных задачах, таких как логические упражнения и задачи классификации, AI Mother Tongue показала свою эффективность. Наблюдалось высокое уровне детерминированности в выводах, что позволяло легко проверить и понять их. Модель не только демонстрировала высокую точность решения задач, но также предоставляла интерпретируемые символы и пути решения, что повысило уверенность в ее моделировании. ## Значимость Фреймворк может быть применен в различных областях, таких как медицина, юриспруденция, финансы, где важно объяснять решения. Этот подход не только повышает транспарентность и интуитивность, но и обеспечивает гибкость действий моделей в сложных задачах. Основное преимущество — возможность понятного объяснения решений, что может способствовать повышению доверия к модели и лучшей принятию решений. ## Выводы Мы доказали, что AI Mother Tongue может стать ключевым элементом для создания интуитивных и транспарентных нейронных моделей. Ранее не было подобных подходов, которые были бы так же эффективны в объединении транспарентности, интуитивности и символического моделирования. Мы планируем продолжить исследования в этой области, устанавливая новые цели для улучшения моделей и их применения в реальной жизни.

Annotation:

We present a framework where neural models develop an AI Mother Tongue, a native symbolic language that simultaneously supports intuitive reasoning, compositional symbol chains, and inherent interpretability. Unlike post-hoc explanation methods, our approach embeds reasoning directly into the model's representations: symbols capture meaningful semantic patterns, chains trace decision paths, and gated induction mechanisms guide selective focus, yielding transparent yet flexible reasoning. We intr...

ID: 2508.18988v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Automatic Prompt Optimization with Prompt Distillation

2025-08-28

Авторы:

Viktor N. Zhuravlev, Artur R. Khairullin, Ernest A. Dyagin, Alena N. Sitkina, Nikita I. Kulin

## Контекст Современная информатика сталкивается с вопросами улучшения качества работы языковых моделей (LLMs), которые являются ключевым инструментом в машинном обучении и многих приложениях, таких как синтез речи, генерация текста и представление знаний. Одна из наиболее актуальных проблем является автоматическая оптимизация триггеров (prompts) для языковых моделей. Достоверные и эффективные триггеры являются критически важными для повышения точности и надежности моделей в решении задач NLP. Несмотря на развитие методов, включая градиентные подходы и методы без градиентов, существуют значительные ограничения в сфере эффективности и универсальности существующих алгоритмов. Мотивация для разработки DistillPrompt постулируется тем, что текущие решения часто либо недостаточно эффективны, либо требуют объемных вычислений, что не приемлемо для работы на больших объемах данных. ## Метод DistillPrompt представляет собой инновационный подход к автоматической оптимизации триггеров, основанный на многоэтапном интегрировании задач-специфической информации в процесс тренировки моделей. Основываясь на технологиях дистилляции, сжатия и агрегации, метод позволяет проводить более глубокую исследовательскую работу в пространстве триггеров. Используются любительские языковые модели, оснащенные слоями сжатия, которые позволяют получать более точные и оптимальные триггеры. Эта архитектура включает множество этапов обучения, при этом каждый этап производится с учетом конкретной задачи, что дает значительные выгоды в точности и универсальности решений. ## Результаты В ходе экспериментов DistillPrompt был протестирован на различных датасетах с обучением на текстах, включая задачи текстового классификации и генерации. Используемая модель — t-lite-instruct-0.1. Результаты показали существенное улучшение ключевых метрик по сравнению с существующими методами. Например, продемонстрировано 20.12% увеличение точности в целом датасете относительно Grips в задачах текстового классификации. Эти результаты подтверждают эффективность DistillPrompt в контексте неградиентных подходов к оптимизации триггеров. ## Значимость Разработанный подход имеет широкие перспективы применения в области NLP, включая текстовую генерацию, классификацию и анализ отзывов. Он предоставляет значительные преимущества по сравнению с другими методами, включая улучшенную эффективность, простоту реализации и универсальность применения. Это может способствовать развитию более точных и надежных языковых моделей, а также повлиять на развити

Annotation:

Autoprompting is the process of automatically selecting optimized prompts for language models, which is gaining popularity due to the rapid development of prompt engineering driven by extensive research in the field of large language models (LLMs). This paper presents DistillPrompt -- a novel autoprompting method based on large language models that employs a multi-stage integration of task-specific information into prompts using training data. DistillPrompt utilizes distillation, compression, an...

ID: 2508.18992v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

2025-08-27

Авторы:

Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso

#### Контекст Стоимость и повышенная частота выхода за рамки фактичности (hallucination) в системах на основе Large Language Models (LLMs) становится все более выраженной. Хотя многие подходы ориентируются на фильтрацию результатов после их получения, менее исследованы подходы, направленные на прогностическую модификацию входных запросов для предотвращения выхода LLMs из рамков фактур. Этот вопрос особенно актуален для задач, требующих высокой точности и надежности, например, в медицинских и юридических сферах. #### Метод Мы предлагаем QueryBandits, фреймворк, основанный на бандитной многоразрядной модели, который использует 17 семантических признаков запросов для оптимизации регрессионной функции наград. Эта модель принимает во внимание чувствительность запросов к языковым особенностям, которые влияют на тенденцию LLMs к выводу за рамки фактичности. QueryBandits стремится проактивно изменять запросы, чтобы увеличить точность ответов LLMs и уменьшить риск выхода за рамки фактур. #### Результаты Мы использовали 13 различных бенчмарков для оценки эффективности QueryBandits. Наша реализация с Томпсоновским выбором показала 87.5% выигрышный результат по сравнению с базовым вариантом без редактирования запросов. Также, QueryBandits превосходит другие статические подходы, такие как "парафразировать" и "расширять" запросы, на 42.6% и 60.3% соответственно. Интересно, что некоторые статические подходы к редактированию запросов демонстрируют большую суммарную отдачу (regret) по сравнению с базовым вариантом, что указывает на то, что они могут ухудшать выход за рамки фактур. #### Значимость Протоколы QueryBandits могут быть применены в сферах, где точность и надежность критичны, таких как медицина, юриспруденция и финансы. Наш подход демонстрирует преимущества перед статическими методами, показывая, что прогностическое редактирование запросов может быть более эффективным, чем простое модифицирование результатов. Это открывает пути для более широкого применения LLMs в решении задач, требующих высокой точности. #### Выводы Исследования показывают, что QueryBandits могут значительно улучшить точность LLM-моделей, проверяя и модифицируя входные запросы. Наш подход позволяет избежать последствий выхода за рамки фактур без необходимости переучивать модель. Будущие исследования будут фокусироваться на усовершенствовании моделей бандитных фреймворков и их применении в реальных ситуациях, включая задачи с высокой степенью ответственности.

Annotation:

Advanced reasoning capabilities in Large Language Models (LLMs) have caused higher hallucination prevalence; yet most mitigation work focuses on after-the-fact filtering rather than shaping the queries that trigger them. We introduce QueryBandits, a bandit framework that designs rewrite strategies to maximize a reward model, that encapsulates hallucination propensity based upon the sensitivities of 17 linguistic features of the input query-and therefore, proactively steer LLMs away from generati...

ID: 2508.16697v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Token Homogenization under Positional Bias

2025-08-27

Авторы:

Viacheslav Yusupov, Danil Maksimov, Ameliia Alaeva, Tatiana Zaitceva, Antipina Anna, Anna Vasileva, Chenlin Liu, Rayuth Chheng, Danil Sazanakov, Andrey Chetvergov, Alina Ermilova, Egor Shvetsov

## Контекст Трансформеры, являющиеся основополагающими для современных языковых моделей, обрабатывают слова (токены) с привлечением их контекста. Несмотря на эффективность этих моделей, они могут испытывать проблемы с определением контекстной семантики, в частности, при углублении обработки в нижние слои. Это происходит, в основном, из-за искажения различий между токенами в позиционной системе координат. В определенных случаях модели могут признать почти во всех слоях токены как однородные, чтобы избежать потерь в контекстной информации. Этот эффект, называемый **homogenization**, может привести к снижению точности в задачах, требующих точного понимания контекста. **Проблема** заключается в том, что нет полного понимания того, насколько глубоко вложенные слои модели могут углубить этот эффект, а также о том, как это влияет на обучение и поведение моделей. **Мотивация** заключается в изучении того, как позиционный биаз способствует этому эффекту и как это может быть использовано для оптимизации моделей. ## Метод Мы применяем подход, основанный на анализе схожести между токенами в каждом слое модели. Для этого используется метрика **cosine similarity** для измерения отклонения токенов от однородности. Мы определяем позиционный биаз с помощью **positional token embeddings**, которые добавляются в исходные токены в модели. Далее, мы проводим контролируемные эксперименты, повторно обучая модели с убиранием позиционных признаков и изучая разное поведение токенов в зависимости от их позиции в потоке входных данных. ## Результаты Мы проводили эксперименты на двух больших языковых моделях с различными размерами слоев. Наши результаты показали, что: 1. **Homogenization** существует и проявляется во всех слоях модели, но значительнее в нижних слоях. 2. **Positional bias** сильно усиливает этот эффект, особенно в случае токенов, расположенных в крайних позициях (начало и конец потока). 3. Удаление позиционных признаков приводит к уменьшению этого эффекта, но приводит к ухудшению эффективности модели в задачах, требующих контекстной информации. ## Значимость Наши результаты имеют практическую значимость для разработки более точных языковых моделей. Известие позиционной оптимизации может привести к улучшению работы моделей в задачах, где предсказание контекста требуется с высокой точностью. Эти результаты также могут быть использованы в оптимизации архитектур трансформеров, чтобы повысить их общую производительность. ## Выводы Мы показали, что **homogenization** в трансформерах является реальным проблемом, которое сильно влияет на работу моделей в задачах, требующих точного понимани

Annotation:

This paper investigates token homogenization - the convergence of token representations toward uniformity across transformer layers and its relationship to positional bias in large language models. We empirically examine whether homogenization occurs and how positional bias amplifies this effect. Through layer-wise similarity analysis and controlled experiments, we demonstrate that tokens systematically lose distinctiveness during processing, particularly when biased toward extremal positions. O...

ID: 2508.17126v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 UQ: Assessing Language Models on Unsolved Questions

2025-08-27

Авторы:

Fan Nie, Ken Ziyu Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff

#### Контекст Лидерская роль искусственного интеллекта (ИИ) в современном мире обусловлена не только способностью решать данные задачи, но и возможностью эффективно решать новые и нестандартные проблемы. Одним из ключевых аспектов ИИ является его способность решать задачи, которые не только трудны для существующих моделей, но и имеют реальную практическую ценность. Бенчмарки, используемые для оценки моделей ИИ, должны быть как сложными, так и реалистичными. Несмотря на это, существуют проблемы с тензионным отношением между сложностью и реализму: бенчмарки, основанные на экзаменовой системе, часто являются сильно усложненными и имеют ограниченную реальную ценность, в то время как бенчмарки, основанные на реальных пользовательских запросах, часто ориентированы на простые, высокочастотные проблемы. В этой работе мы предлагаем новую идею: оценивать модели ИИ на неразрешенных вопросах. Это позволяет использовать набор вопросов, которые характеризуются своей сложностью и практическим значением, так как решение их может представлять собой реальное значение для человечества. #### Метод Мы представляем UQ — новый тип бенчмарка, основанный на неразрешенных вопросах, которые не только трудны для существующих моделей, но и отражают реальные ситуации. Методология UQ включает в себя сложную систему проверки вопросов, использующую комбинацию правил, генеративных моделей и ручных проверки. Мы также разработали стратегию валидации, основывающуюся на конфликте между генеративными моделями и валидаторами, чтобы обеспечить достоверную оценку решений. Бенчмарк UQ включает 500 вопросов, сконцентрированных на различных областях, таких как теория компьютеров, математика, научная фантастика и история. Эти вопросы проверяют навыки моделей, такие как рассуждения, фактическая правильность и браузерные навыки. Мы также разработали платформу, где эксперты могут проверять вопросы и решения. #### Результаты Эксперименты показали, что лучшие модели способны решить только 15% вопросов из UQ-бенчмарка. Это значительно меньше, чем в существующих бенчмарках. Мы также привлекли экспертов для верификации решений, и уже имеется ряд верифицированных правильных ответов на вопросы, которые модели смогли решить. Это указывает на то, что решение наших вопросов действительно представляет собой реальное значение и может быть использовано в реальном мире. #### Значимость UQ-бенчмарк представляет собой новую модель для оценки моделей ИИ, ориентированную на реальные, открытые проблемы. Он отличается от статически

Annotation:

Benchmarks shape progress in AI research. A useful benchmark should be both difficult and realistic: questions should challenge frontier models while also reflecting real-world usage. Yet, current paradigms face a difficulty-realism tension: exam-style benchmarks are often made artificially difficult with limited real-world value, while benchmarks based on real user interaction often skew toward easy, high-frequency problems. In this work, we explore a radically different paradigm: assessing mod...

ID: 2508.17580v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
29
30
31
32
33
36
37

Показано 301 - 310 из 370 записей