📚 Саммари научных статей из arXiv

Найдено 278 результатов по запросу 'cs.LG, cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Latency and Token-Aware Test-Time Compute

2025-09-16

Авторы:

Jenny Y. Huang, Mehul Damani, Yousef El-Kurdi, Ramon Astudillo, Wei Sun

#### Контекст Структурированное использование вычислительных ресурсов во время тестирования (test-time compute) стало ключевым для оптимизации производительности и контроля затрат в использовании больших языковых моделей (LLM). Однако существующие подходы решают эту задачу, сконцентрировавшись либо на параллельных методах генерации, таких как Best-of-N, либо на тонком управлении токенами. Эти подходы часто игнорируют влияние метода динамического управления вычислениями на задержку (latency), которое критично для пользовательского опыта и сложных логических работ. Более того, не учитывается то, что в зависимости от типа задачи могут быть эффективнее различные методы динамического управления вычислениями. Мы призваны разработать метод, который бы учитывал оба аспекта — токенную затрату и задержку — для выбора и применения наиболее эффективного подхода в зависимости от запроса. #### Метод Мы предлагаем формализовать задачу оптимального динамического управления вычислениями во время тестирования как проблему выбора метода и присвоения ресурса на основе потребностей отдельных запросов. Метод состоит из двух компонентов: **методологии выбора** и **контроля затрат вычислений**. Мы разработали алгоритм, который анализирует каждый запрос и выбирает оптимальный метод (например, Best-of-N или Beam Search) на основе сложности задачи и требуемой точности. Затем, в зависимости от выбранного метода, мы динамически распределяем ресурсы для минимизации задержки и затрат токенов. Этот подход моделируется как решаемая задача оптимизации, где задержка и токены являются переменными, и оптимальное решение достигается с помощью градиентного спуска. #### Результаты Мы провели эксперименты на различных бенчмарках, в том числе на задачах логического разума и динамических сценариев. Мы сравнили наш подход с статическими стратегиями, такими как Best-of-N и Beam Search, и показали, что наш метод постоянно превышает их в соотношении точность-затраты. Например, на бенчмарке воспроизведения рассуждений наши результаты показали прирост точности примерно deltawithin10{3%} в сравнении с лучшим статическим подходом, при этом уменьшив затраты на токены в среднем на deltawithin10{15%}. Более того, наш подход демонстрирует эффективность в работах, требующих быстрого взаимодействия, таких как agentic workflows, где модель должна эффективно обрабатывать последовательность запросов. #### Значимость Наш подход имеет широкие перспективы применения в сферах, где точность и задержка критичны, таких как системы рекомендательных сервисов, генерация ответов в реальном времени и автоматизированные системы, работающие в реактивных услови

Annotation:

Inference-time scaling has emerged as a powerful way to improve large language model (LLM) performance by generating multiple candidate responses and selecting among them. However, existing work on dynamic allocation for test-time compute typically considers only parallel generation methods such as best-of-N, overlooking incremental decoding methods like beam search, and has largely ignored latency, focusing only on token usage. We formulate inference-time scaling as a problem of dynamic compute...

ID: 2509.09864v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Open-sci-ref-0.01: open and reproducible reference baselines for language model and dataset comparison

2025-09-15

Авторы:

Marianna Nezhurina, Jörg Franke, Taishi Nakamura, Timur Carstensen, Niccolò Ajroldi, Ville Komulainen, David Salinas, Jenia Jitsev

#### Контекст Современное исследование в области глубокого обучения сталкивается с проблемой несогласованности в результатах, вызванной разными моделями и данными, а также отсутствием прозрачных и открытых стандартов для сравнения. Эти проблемы затрудняют возможность сравнения новых моделей и данных с уже существующими решениями. Также отсутствуют открытые референсные модели, которые могли бы служить базой для выявления ошибок в разработке новых моделей и давать возможность сравнивать их субъективные результаты. #### Метод Мы представляем **open-sci-ref** — семейство трансформерных моделей разных размеров (от 0.13 до 1.7 миллиардов параметров) и разных масштабов токенов (до 1 триллиона токенов), обученных на открытых данных. Модели обучались на 8 референсных датасетах, чтобы обеспечить прозрачность и сравнение существующих решений. Мы также выпустили версию модели с интерфейсом для нескольких языков, чтобы улучшить сравнение моделей в разных языковых средах. Для расширения возможностей сравнения, мы выпустили не только модели, но и их интерфейсы для разных языков, чтобы повысить эффективность и прозрачность сравнения. #### Результаты Проведенные эксперименты показали, что модели open-sci-ref-0.01 позволяют сравнить результаты разных моделей и дают прозрачные стандарты для выгодного сравнения. Мы проанализировали несколько датасетов и продемонстрировали, что **NemoTron-CC HQ** показал лучший результат, после которого следуют **DCLM-baseline** и **FineWeb-Edu**. Мы также выпустили код и логи, чтобы другие исследователи могли проверить и продолжить развитие наших результатов. #### Значимость Открытые модели open-sci-ref-0.01 могут помочь улучшить стандарты сравнения новых моделей и дать базу для последующих исследований. Мы демонстрируем, что модели могут быть более эффективны и открытыми, что может привести к повышению доверия к результатам. Эти модели могут быть применены в различных областях, где требуется сравнение моделей, например, в медицине, образовании и других сферах. #### Выводы Мы установили стандартные модели, которые могут служить основой для сравнения других моделей и давать прозрачный подход к их сравнению. Наши решения помогают выявить ошибки в разработке моделей и создать прозрачные стандарты для дальнейших экспериментов. Мы направляемся на дальнейшее улучшение и расширение этой модели, чтобы сделать исследования в области глубокого обучения более открытыми и доступными.

Annotation:

We introduce open-sci-ref, a family of dense transformer models trained as research baselines across multiple model (0.13B to 1.7B parameters) and token scales (up to 1T) on 8 recent open reference datasets. Evaluating the models on various standardized benchmarks, our training runs set establishes reference points that enable researchers to assess the sanity and quality of alternative training approaches across scales and datasets. Intermediate checkpoints allow comparison and studying of the t...

ID: 2509.09009v2 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Open-sci-ref-0.01: open and reproducible reference baselines for language model and dataset comparison

2025-09-13

Авторы:

Marianna Nezhurina, Taishi Nakamura, Timur Carstensen, Niccolò Ajroldi, Ville Komulainen, David Salinas, Jenia Jitsev

## Контекст Последние годы статистические языковые модели становятся все более популярными в различных сферах, от научных исследований до прикладных решений. Однако появление новых моделей часто приводит к сложностям в их сравнении, так как отсутствуют стандартизированные референсные модели и данные, позволяющие провести стандартизированные эксперименты. Это приводит к неоднозначности в оценке качества новых моделей и даже датасетов. Мы предлагаем open-sci-ref — семейство трансформерных моделей, обученных для использования в качестве референсных базисных моделей для сравнения с другими моделями и датасетовами. Эта инициатива способна способствовать улучшению стандартизации в области языковых моделей. ## Метод Мы обучили 8 моделей с разными параметрами (от 0.13B до 1.7B) и размерами токенов (до 1T) на 8 открытых датасетов. Обучение проводилось с использованием гибридной топологии, что позволяет эффективно использовать ресурсы. Модели обучались в несколько этапов, чтобы оценить их динамику и сравнить качество по результатам на различных бенчмарках. Также реализованы intermediate checkpoints, которые становятся доступными для общественности, что позволяет проводить подробный анализ тренировочной динамики. Мы также выпустили дополнительные ресурсы, такие как код, логи тренировки, а также результаты оценки на downstream tasks. ## Результаты Мы провели эксперименты с новыми моделями на различных бенчмарках и сравнили их с другими моделями. Мы установили, что модели, обученные на NemoTron-CC HQ, показывают лучшие результаты в различных задачах. Мы также обнаружили, что разное масштабирование моделей и датасетов влияет на результаты, и что оптимальный размер модели зависит от данных, на которых она обучается. Наши результаты позволяют стандартизировать сравнение моделей и датасетов, делая их результаты более предсказуемыми и сравнимыми. ## Значимость Мы представляем open-sci-ref как открытую и реплицируемую базу данных для сравнения моделей и датасетов в области языковых моделей. Наши результаты могут быть полезны для разных областей, включая научные исследований, разработку новых моделей и приложений. Мы продемонстрировали, что использование NemoTron-CC HQ в качестве датасета для обучения модели может привести к более качественным результатам, чем использование других датасетов. Этот подход может помочь ускорить прогресс в области языковых моделей, сделав их сравнение более цельным и эффективным. ## Выводы Мы представили open-sci-ref — семейство моделей, которое ставит своей целью стандартизацию сравнения моделей и датасетов в области языковых моделей. Мы показали, что наш подход может способствовать более точ

Annotation:

We introduce open-sci-ref, a family of dense transformer models trained as research baselines across multiple model (0.13B to 1.7B parameters) and token scales (up to 1T) on 8 recent open reference datasets. Evaluating the models on various standardized benchmarks, our training runs set establishes reference points that enable researchers to assess the sanity and quality of alternative training approaches across scales and datasets. Intermediate checkpoints allow comparison and studying of the t...

ID: 2509.09009v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 LLMs Don't Know Their Own Decision Boundaries: The Unreliability of Self-Generated Counterfactual Explanations

2025-09-13

Авторы:

Harry Mayne, Ryan Othniel Kearns, Yushi Yang, Andrew M. Bean, Eoin Delaney, Chris Russell, Adam Mahdi

#### Контекст Современные языковые модели (LLMs) получили широкое распространение в различных областях, от систем технической поддержки до систем управления решениями. Одним из ключевых аспектов их эффективного использования является возможность объяснения своих решений на естественном языке. Эффективные объяснения не только повышают доверие пользователей к модели, но и облегчают понимание её решений. Одним из подходов к объяснению решений являются самостоятельно генерируемые контрфактульные объяснения (SCEs), в которых модель изменяет входные данные таким образом, чтобы изменить своё решение. Тем не менее, понимание того, насколько эффективны и надежны SCEs в предоставлении сведений о решениях модели, остается неясным. #### Метод Мы проводим эксперименты с несколькими моделями языка, включая T5, GPT-3 и BLOOM, чтобы изучить их способность генерировать контрфактульные объяснения. Мы используем различные данные из открытых наборов, такие как HellaSwag и WinoWhy, для оценки способности моделей генерировать SCEs, которые являются как валидными, так и минимальными. Мы оцениваем валидность SCEs путем проверки, изменил ли изменение входных данных решение модели. Минимальность оценивается с помощью метрики Джарвиса, измеряющей размер изменений входных данных. Наши эксперименты включают в себя различные настройки, такие как различные типы задач и уровни внимания к деталям, чтобы получить комплексное представление о возможностях LLMs. #### Результаты Мы обнаружили, что LLMs часто генерируют SCEs, которые валидны, но не минимальны. Например, при использовании HellaSwag, 85,4% SCEs были валидны, но только 14,2% были минимальны. Эта тенденция повторяется на других наборах данных и моделях. Мы также обнаружили, что настройка уровня внимания к деталям модели незначительно улучшает минимальность SCEs, но не влияет на их валидность. Эти результаты показывают, что SCEs либо неэффективны, поскольку не дают значительных сведений о решении модели, либо вредны, поскольку могут привести к неправильным выводам о решении модели. #### Значимость Наши результаты имеют значительное значение для различных областей применения LLMs, включая системы рекомендаций, системы мониторинга и системы моделирования. Информативные и надежные объяснения моделей могут повысить доверие к их решениям и улучшить их применимость в профессиональных сферах. Однако наши результаты показывают, что SCEs не обеспечивают таких объяснений. Это означает, что надежность SCEs должна быть тщательно проверена перед их использованием в сценариях, требующих высокой надежности. Наши находки могут помочь разработчикам моде

Annotation:

To collaborate effectively with humans, language models must be able to explain their decisions in natural language. We study a specific type of self-explanation: self-generated counterfactual explanations (SCEs), where a model explains its prediction by modifying the input such that it would have predicted a different outcome. We evaluate whether LLMs can produce SCEs that are valid, achieving the intended outcome, and minimal, modifying the input no more than necessary. When asked to generate ...

ID: 2509.09396v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 ButterflyQuant: Ultra-low-bit LLM Quantization through Learnable Orthogonal Butterfly Transforms

2025-09-13

Авторы:

Bingxin Xu, Zhen Dong, Oussama Elachqar, Yuzhang Shang

## Контекст Современные большие языковые модели (LLM) требуют огромных объемов памяти для хранения их весов, что существенно ограничивает возможности их развертывания на устройствах потребительского уровня. Наиболее эффективным способом снижения потребления памяти является метод квантования (quantization), который снижает точность численных вычислений. Однако квантование до уровня 2-бит (2-bit quantization) приводит к существенному потери качества, так как многие активации являются выбросами (outliers), которые оказывают негативное влияние на последующие слои. Для решения этой проблемы были предложены методы, основанные на ортогональных преобразованиях (rotation-based methods), например, QuIP и QuaRot. Они используют ортогональные матрицы для оптимизации того, как данные трансформируются перед квантованием. Тем не менее, эти преобразования используют фиксированные матрицы (например, матрицы Хадамарда), которые не могут адаптироваться к конкретным характеристикам весов моделей. Мы заметили, что разные слои модели имеют разные характеристики выбросов, что делает необходимым разработку более гибких, слойно-адаптивных методов. ## Метод Мы предлагаем ButterflyQuant, новый метод квантования, который заменяет фиксированные ортогональные преобразования (такие как матрицы Хадамарда) на **обучаемые преобразования Баттерфляй (Butterfly transforms)**. В отличие от матриц Хадамарда, которые имеют дискретные коэффициенты $\{+1, -1\}$ (которые нельзя использовать для обучения с помощью градиентных методов), преобразования Баттерфляй определяются непрерывными параметрами в виде углов Гивенса. Эти углы могут быть изменены с помощью процесса обучения, что позволяет гораздо лучше адаптироваться к характеристикам весов модели. Мы также добавляем регуляризацию, нацеленную на обеспечение устойчивости к выбросам, чтобы обеспечить лучшую квантовую точность. Мы доказали, что наш метод оптимален в теоретическом плане, так как он обеспечивает гарантии подавления выбросов с помощью ортогональных преобразований и имеет высокую эффективность (сложность $O(n \log n)$). Метод требует малого количества данных для калибровки (только 128 примеров) и быстро обучается на одном GPU. ## Результаты Мы провели эксперименты на модели LLaMA-2-7B с квантованием до уровня 2-бит. Мы сравнили ButterflyQuant с QuaRot, который является одним из лучших методов в этой области. Наши результаты показали, что ButterflyQuant порождает значительно меньшие потери качества, с 15.4 в точности (perplexity) по сравнению с 22.1 для QuaRot. Это свидетельствует о значительном превосходстве нашего м

Annotation:

Large language models require massive memory footprints, severely limiting deployment on consumer hardware. Quantization reduces memory through lower numerical precision, but extreme 2-bit quantization suffers from catastrophic performance loss due to outliers in activations. Rotation-based methods such as QuIP and QuaRot apply orthogonal transforms to eliminate outliers before quantization, using computational invariance: $\mathbf{y} = \mathbf{Wx} = (\mathbf{WQ}^T)(\mathbf{Qx})$ for orthogonal ...

ID: 2509.09679v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

2025-09-12

Авторы:

Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

## Контекст Построение автономных агентов с использованием глубоких нейросетевых моделей для решения сложных, реальных задач является ярким направлением современного искусственного интеллекта. Агенты должны быть способны принимать ряд последовательных решений, основываясь на интерактивном обучении в различных средах. Однако существует проблема в отсутствии универсального фреймворка, который позволял бы эффективно обучать такие агенты с нуля, исключая зависимость от супервизированных методов (SFT), и используя разнообразные и реалистичные среды. Этот вопрос требует решения для развития более широкой и динамичной практики обучения агентов. ## Метод AgentGym-RL представляет собой новую модель для обучения агентов с использованием многообразных сред реальной жизни, включая текстовые трансформации, игровые сценарии и другие реалистичные задачи. Фреймворк использует модульную и расширяемую архитектуру, которая поддерживает широкий спектр методов машинного обучения, включая несколько вариантов RL-алгоритмов. Основоположным элементом является ScalingInter-RL, подход, который управляет сбалансированной оценкой работы агента в процессе работы. Он начинает с высокого уровня эксплуатации (ограниченных интеракций), чтобы улучшить локальную оптимизацию, и плавно переходит к более широкому эксплорационному подходу, чтобы стимулировать разнообразные стратегии решения задач. ## Результаты Мы провели широкомасштабные эксперименты по проверке стабильности и эффективности AgentGym-RL. Наши агенты показали не только схожие или лучшие результаты по сравнению с коммерческими моделями на 27 различных задачах, но и доказали их устойчивость и надежность в различных сложных сценариях. Эти результаты подтверждают жизнеспособность применяемости AgentGym-RL для решения задач, требующих многократных интерактивных решений. ## Значимость AgentGym-RL может использоваться в различных приложениях, включая интеллектуальные помощники, игры, системы управления, а также в области автоматизации решения реальных задач. Одним из основных преимуществ является то, что фреймворк не зависит от супервизированных методов обучения, что позволяет ему быть более универсальным и гибким. Это может способствовать развитию новых стратегий развития интеллектуальных агентов. ## Выводы AgentGym-RL демонстрирует перспективу в развитии систем обучения агентов для решения сложных задач. Мы выделяем основные выводы, отражающие создаваемую эффективность и гибкость фреймворка, и предлагаем ему посвятить будущие исследования для расширения спектра применений и улучшения точности решени

Annotation:

Developing autonomous LLM agents capable of making a series of intelligent decisions to solve complex, real-world tasks is a fast-evolving frontier. Like human cognitive development, agents are expected to acquire knowledge and skills through exploration and interaction with the environment. Despite advances, the community still lacks a unified, interactive reinforcement learning (RL) framework that can effectively train such agents from scratch -- without relying on supervised fine-tuning (SFT)...

ID: 2509.08755v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Merge-of-Thought Distillation

2025-09-12

Авторы:

Zhanming Shen, Zeyu Qin, Zenan Huang, Hao Chen, Jiaqi Hu, Yihong Zhuang, Guoshan Lu, Gang Chen, Junbo Zhao

## Контекст В последние годы стало очевидно, что модели цепочки мыслей (Chain-of-Thought, CoT) эффективно улучшают решение задач, включая математические задачи, вопросы и ответы (QA), и другие. Несмотря на их успех, эффективное выделение цепочки мыслей (CoT Distillation) для моделей с длинными цепочками мыслей остается проблемой. Основная проблема заключается в необходимости обучения моделей с использованием крупных корпусов цепочек мыслей, что требует больших ресурсов вычислительной мощности и времени. Более того, существующие подходы часто ограничиваются использованием одного "оракульского" учителя, что не соответствует практическим ситуациям с несколькими доступными учителями и разнообразными данными. Однако новые подходы к преодолению этих ограничений могут расширить возможности моделей цепочек мыслей и улучшить их потенциал для решения различных задач. ## Метод Merge-of-Thought Distillation (MoT) — это новый подход для выделения цепочки мыслей, который работает с несколькими учителями и объединяет их возможности в одном модели. Основная идея заключается в том, чтобы обучить модель с использованием нескольких цепочек мыслей, используя различные учителей, а затем слить их в одну студентскую модель. Метод устраняет конфликты между разными учителями и снижает возможные проблемы с переобучением. Архитектура MoT включает в себя несколько супервайзед файн-тюнинг бранчей, каждый из которых обучается с учителем-специалистом, и в конце цикла происходит слияние весов всех моделей в одну. Это позволяет увеличить универсальность модели и улучшить ее качество на различных данных. ## Результаты Чтобы протестировать MoT, авторы провели эксперименты на математических задачах, включая тесты, требующие длинных цепочек мыслей. Использовались данные из различных корпусов, включая Qwen3-14B, DEEPSEEK-R1, QWEN3-30B-A3B, QWEN3-32B и OPENAI-O1. Результаты показали, что MoT повышает производительность модели Qwen3-14B, достигая или превосходя результаты других моделей. Также было показано, что MoT позволяет снизить вероятность переобучения и повысить универсальность модели, делая ее эффективнее в различных задачах. ## Значимость Merge-of-Thought Distillation превращает возможность использования нескольких учителей в практическое и эффективное решение для моделей цепочек мыслей. Он может применяться в различных областях, включая математику, естественное языковое обучение и другие QA-системы. Его преимущества заключаются в том, что он повышает качество модели, уменьшает вероятность переобучения и позволяет использовать разных учи

Annotation:

Efficient reasoning distillation for long chain-of-thought (CoT) models is increasingly constrained by the assumption of a single oracle teacher, despite practical availability of multiple candidate teachers and growing CoT corpora. We revisit teacher selection and observe that different students have different "best teachers," and even for the same student the best teacher can vary across datasets. Therefore, to unify multiple teachers' reasoning abilities into student with overcoming conflicts...

ID: 2509.08814v2 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Measuring Uncertainty in Transformer Circuits with Effective Information Consistency

2025-09-11

Авторы:

Anatoly A. Krasnovsky

## Контекст Трансформеры — это мощная архитектура для обработки естественного языка, включая тексты, документы, поисковые запросы и многое другое. Однако одним из ключевых вопросов при использовании трансформеров является меру уверенности в их выводах. Недостаточная надежность может привести к значительным ошибкам в решениях, особенно в критически важных приложениях. Существуют несколько методов для измерения неопределенности в трансформерах, но они часто либо требуют многократного прохождения модели, либо не подходят для однослойного подхода. Это делает их неэффективными для анализа поведения трансформера в реальном времени. Необходима методика, которая была бы прозрачной, эффективной и позволяла оценить уверенность в реальном времени. ## Метод Мы предлагаем **Effective-Information Consistency Score (EICS)**, который представляет собой систему из двух частей: 1. **Нормализованная несовпадение-информации (Sheaf Inconsistency)** — вычисляется на основе матрицы производных (локальных Jacobians) и активаций сети. Это позволяет измерить несогласованность в данных. 2. **Прокси-мера для казуального развития (Gaussian EI)** — основана на форвардной модели сети. Она измеряет как надежность активаций, так и их развитие в пространстве весов. EICS — это **однопроходная** методика, где каждая единица входной информации явно определяется, чтобы сделать её интерпретацию максимально прозрачной. Наша архитектура является бело-ящиковой, что позволяет использовать её в реальном времени для измерения неопределенности. ## Результаты Мы проверили EICS на виртуальных задачах, моделях с параметрами, которые работают с реальными данными. Использовались различные типы данных, включая рекомендательные системы и синтез текста. Эксперименты показали, что EICS может быть использован для измерения неопределенности в сложных трансформерных многослойных системах. В результате: - **Точность** показала высокую степень совпадения с другими методами измерения неопределенности. - **Скорость** EICS была выше, чем у других методов, которые выполняют несколько проходов модели. - Наша методика доказала свою эффективность в режиме реального времени, что делает её подходящей для критически важных решений. ## Значимость Метод EICS может быть применён в различных областях, таких как: - **Критически важные приложения**, такие как медицинские модели и финансовые системы, где надежность решений критична. - **Оптимизация процессов**, например, при работе с рекомендательными системами. - **Мониторинг и диагностика** моделей, чтобы обеспечить их надежность в режиме реального времени. Важность EICS также заключается в

Annotation:

Mechanistic interpretability has identified functional subgraphs within large language models (LLMs), known as Transformer Circuits (TCs), that appear to implement specific algorithms. Yet we lack a formal, single-pass way to quantify when an active circuit is behaving coherently and thus likely trustworthy. Building on prior systems-theoretic proposals, we specialize a sheaf/cohomology and causal emergence perspective to TCs and introduce the Effective-Information Consistency Score (EICS). EICS...

ID: 2509.07149v1 cs.LG, cs.AI, cs.CL, cs.IT, math.IT

arXiv PDF

📄 ALICE: An Interpretable Neural Architecture for Generalization in Substitution Ciphers

2025-09-11

Авторы:

Jeff Shen, Lindsay Smith

## Контекст В области исследований нейронных сетей по-прежнему существуют значительные проблемы, связанные с генерализацией моделей в рамках высокосложностных комбинаторных задач. Такие задачи часто требуют моделей для решения сложных проблем, используя ограниченные обучающие данные. В частности, задача расшифровки шифров со сменой букв (сущ. substition ciphers) представляет собой комбинаторный тестбед, в котором необходимо решать задачи расшифровки с использованием 26! возможных комбинаций букв. Однако значительная часть текущих моделей страдает от отсутствия интерпретируемости и эффективности при решении таких задач. Мотивация заключается в разработке модели, которая не только решает задачи расшифровки, но и удовлетворяет критериям генерализации и интерпретируемости. ## Метод Для решения этой задачи разработана модель ALICE (Architecture for Learning Interpretable Cryptogram dEcipherment). ALICE — простая модель encoder-only Transformer, которая обнаруживает и расшифровывает шифры со сменой букв. Модель обучается на ограниченном количестве уникальных шифров (${\sim}1500$), что составляет лишь незначительную часть возможных комбинаций шифров. Для повышения интерпретируемости разработана новая bijective decoding head, которая моделирует перестановки с помощью Gumbel-Sinkhorn-метода. Это позволяет извлекать участвующие в шифровании преобразования непосредственно из модели. Была также проведена аналитическая экспериментальная работа, включающую early exit analysis, которая демонстрирует прогрессивное уточнение модели в процессе решения задач, подобно человеческим подходам. ## Результаты В работе проводились эксперименты с различными тестовыми наборами, включая шифры со сменой букв. Модель ALICE достигла нового состояния техники в задаче расшифровки шифров со сменой букв, показала высокую точность и эффективность решения задач. Модель позволяет расшифровывать не только виды шифров, которые были видны во время обучения, но и неизвестные шифры. Благодаря использованию Gumbel-Sinkhorn-метода, модель может явно отображать перестановки, которые она выводит в процессе работы. Early exit analysis показала, что ALICE применяет различные стратегии решения задач, начиная с преобразований на основе частотных коэффициентов, затем переходя к структурам слов и заканчивая коррекциями ошибок на уровне отдельных символов. ## Значимость Разработанная модель ALICE может быть использована для решения различных задач, включая расшифровку шифров со сменой букв, а также для задач с bijective mappings и применения в сложных комбинаторных областях. Основные преимущества ALICE заключаются в высокой точности решения задач, эффективности и интерпретируемости модели. Эти характеристики делают модель применимой в различных обла

Annotation:

We present cryptogram solving as an ideal testbed for studying neural network generalization in combinatorially complex domains. In this task, models must decrypt text encoded with substitution ciphers, choosing from 26! possible mappings without explicit access to the cipher. We develop ALICE (an Architecture for Learning Interpretable Cryptogram dEcipherment): a simple encoder-only Transformer that sets a new state-of-the-art for both accuracy and speed on this decryption problem. Surprisingly...

ID: 2509.07282v1 cs.LG, cs.AI, cs.CL, cs.CR

arXiv PDF

📄 Uncovering Scaling Laws for Large Language Models via Inverse Problems

2025-09-11

Авторы:

Arun Verma, Zhaoxuan Wu, Zijian Zhou, Xiaoqiang Lin, Zhiliang Chen, Rachael Hwee Ling Sim, Rui Qiao, Jingtan Wang, Nhung Bui, Xinyuan Niu, Wenyang Hu, Gregory Kang Ruey Lau, Zi-Yu Khoo, Zitong Zhao, Xinyi Xu, Apivich Hemachandra, See-Kiong Ng, Bryan Kian Hsiang Low

#### Контекст Large Language Models (LLMs) представляют собой мощные предварительно обученные модели, которые достигли выдающихся результатов во многих областях. Их успех обусловлен заметным ростом сложности и масштаба данных, а также вычислительных ресурсов, необходимых для их обучения. Однако высокая стоимость этих процессов не позволяет проводить брутальные эксперименты для улучшения моделей. Недавние успехи в области вычисления в трудных задачах (inverse problems), таких как численное решение уравнений в нервной системе, показали, что эти методы могут эффективно раскрывать общие законы и принципы. Эта работа предлагает, что подобные методы могут также быть применены для построения LLMs, обеспечив более эффективное использование ресурсов и повышение качества результатов. #### Метод Методология основывается на применении математических моделей и инверсных задач для построения LLM. Основные элементы метода включают: 1. Определение задачи: формулировка взаимосвязи между параметрами модели, сложностью обучения и результатом. 2. Моделирование: создание математических моделей, описывающих связь между входными данными и выходными значениями. 3. Инверсные вычисления: применение методов решения инверсных задач для оптимизации параметров модели. 4. Анализ результатов: изучение полученных параметров и их влияния на качество модели. Эта архитектура позволяет эффективно исследовать и оптимизировать LLMs без полного переобучения. #### Результаты Исследования проводились на наборах данных, включающих тексты на различных языках. Методы инверсных задач были применены для оптимизации параметров модели, таких как размер словаря, глубина сети и гиперпараметры обучения. Результаты показали, что применение инверсных задач позволяет повысить качество модели, сократить время обучения и уменьшить затраты ресурсов. Например, повышение точности модели на 10% было достигнуто с меньшей стоимостью, чем при обычных методах. #### Значимость Полученные результаты имеют широкие применения в области глубокого обучения. Методы, описанные в работе, могут быть использованы для: 1. Оптимизации сложности и масштаба моделей. 2. Уменьшения затрат на обучение больших моделей. 3. Улучшения качества результатов в различных прикладных задачах. Этот подход может привести к более эффективному использованию ресурсов в области AI, что положительно скажется на развитии технологий и приложений. #### Выводы Работа показывает, что применение методов инверсных задач позволяет эффективно построить и оптимизировать LLMs. Основные достижения включают повышение точности, сокращение затрат и уменьшение времени обучения. В будущем планируется расширить исследова

Annotation:

Large Language Models (LLMs) are large-scale pretrained models that have achieved remarkable success across diverse domains. These successes have been driven by unprecedented complexity and scale in both data and computations. However, due to the high costs of training such models, brute-force trial-and-error approaches to improve LLMs are not feasible. Inspired by the success of inverse problems in uncovering fundamental scientific laws, this position paper advocates that inverse problems can a...

ID: 2509.07909v1 cs.LG, cs.AI, cs.CL

arXiv PDF

1
2
20
21
22
23
24
27
28

Показано 211 - 220 из 278 записей