📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization

2025-08-09

Авторы:

Negar Foroutan, Clara Meister, Debjit Paul, Joel Niklaus, Sina Ahmadi, Antoine Bosselut, Rico Sennrich

## КОНТЕКСТ И ПРОБЛЕМАТИКА Tokenization — это первый и, как часто случается, наименее анализируемый шаг в большинстве конвейеров обработки естественного языка (NLP). Традиционные алгоритмы для обучения токенизаторов основываются на частотном подходе, который предпочитает языки, преобладающие в обучающих данных. Это приводит к неравномерному качеству токенизации для языков с малоресурсными данными, которые часто имеют длинные, морфологически неправильные токены или содержат <UNK> (неизвестные слова). Это неравенство в токенизации усиливает существующие социально-экономические неравенства между пользователями разных языков, создавая недостаток доступности для менее распространенных языков. Например, токенизация для редких языков может быть неэффективной и требовать больше вычислительных ресурсов, что приводит к увеличению финансового бремени для пользователей этих языков. Подходы к улучшению справедливости токенизации являются критически важными, особенно в многоязычных контекстах, где необходимо обеспечить равномерное качество обработки текста на разных языках. Традиционные методы, такие как Byte Pair Encoding (BPE), не учитывают неравенство между языками в процессе обучения, что может приводить к непропорциональным результатам для менее распространенных языков. Для решения этой проблемы необходимо разработать методы, которые могут обеспечить более справедливую токенизацию для всех языков, независимо от их ресурсности. Это подход, ориентированный на справедливость (fairness-aware), становится важной составляющей для создания более инклюзивных и доступных NLP-систем. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается Parity-aware Byte Pair Encoding (BPE) — модификация широко используемого алгоритма BPE, ориентированная на улучшение справедливости токенизации в многоязычных наборах данных. Основная идея Parity-aware BPE заключается в том, чтобы максимизировать сжатие для языка, который в данный момент имеет наихудшую компрессию. На каждом шаге слияния алгоритм выбирает пару символов, которая приводит к наибольшему улучшению для языка с наименьшим коэффициентом сжатия. Таким образом, алгоритм стремится к более равномерному распределению длин токенов между языками, тем самым уменьшая неравенство в токенизации. Parity-aware BPE не требует значительных изменений в существующей архитектруре BPE, но добавляет дополнительный механизм для мониторинга и коррекции неравенства между языками. Такой подход позволяет сохранить высокую степень глобального сжатия, при этом существенно улучшая равномерность токенизации между языками. Этот метод также позволяет сохранить качество модели языка на задачах обработки естественного языка, не нанося значительных потерь в производительности модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на многоязычных данных, чтобы оценить эффективность Parity-aware BPE по сравнению со стандартным BPE. Использовались наборы данных, представляющие широкий спектр языков, включая как ресурсоемкие, так и малоресурсные языки. Результаты показали, что Parity-aware BPE значительно улучшил справедливость токенизации, сократив неравенство в длине токенов между языками. Это было достигнуто без существенного ухудшения глобального коэффициента сжатия. Кроме того, авторы протестировали модели языкового моделирования, обученные на токенизированных данных, и не обнаружили существенного ухудшения качества модели на задачах, таких как перевод и классификация текста. Это подтверждает, что Parity-aware BPE может быть эффективно использован в приложениях NLP без потери качества. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод Parity-aware BPE имеет значительное практическое применение в многоязычных NLP-системах. Он может быть использован для улучшения доступности и справедливости систем обработки естественного языка для менее распространенных языков. Это особенно важно в контексте развития инклюзивных технологий, где необходимо обеспечить равное качество обработки для всех пользователей, независимо от языка. Parity-aware BPE может быть применен в различных областях, таких как машинный перевод, анализ социальных сетей, обработка клиентских запросов и другие приложения, где необходима поддержка множества языков. Преимущество этого метода заключается в том, что он позволяет сохранить высокое качество модели языка, не увеличивая вычислительные затраты. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что Parity-aware BPE является эффективным методом для улучшения справедливости токенизации в многоязычных контекстах. Он позволяет сократить неравенство в длине токенов между языками, не нанося существенных потерь в глобальном сжатии и качестве модели. Будущие исследования могут расширить этот подход, включив дополнительные механизмы для улучшения справедливости и доступности NLP-систем для менее распространенных языков. Также может быть исследовано влияние Parity-aware BPE на другие аспекты моделей языкового обработки, таких как интерпретируемость и эффективность.

Annotation:

Tokenization is the first -- and often least scrutinized -- step of most NLP pipelines. Standard algorithms for learning tokenizers rely on frequency-based objectives, which favor languages dominant in the training data and consequently leave lower-resource languages with tokenizations that are disproportionately longer, morphologically implausible, or even riddled with <UNK> placeholders. This phenomenon ultimately amplifies computational and financial inequalities between users from different ...

ID: 2508.04796v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Optimality Principles and Neural Ordinary Differential Equations-based Process Modeling for Distributed Control

2025-08-09

Авторы:

Michael R. Wartmann, B. Erik Ydstie

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы машинное обучение и аналитика для управления процессами стали важной составляющей индустрии. Однако существует существенная проблема интеграции новых, данных-ориентированных методов с классическими моделями процессов и системами управления. Традиционные модели обычно основываются на физических законах и консервативных принципах, таких как законы сохранения массы и энергии, которые обеспечивают надежную и интерпретируемую основу для моделирования и управления процессами. Однако новые данные-ориентированные подходы, такие как нейронные сети, часто не имеют встроенных механизмов для соблюдения этих принципов, что может привести к неточным или нефизическим результатам. Проблема состоит в том, как сочетать преимущества данных-ориентированных методов с классическими физическими моделями, обеспечивая согласованность и точность. Кроме того, необходимо разработать методологию, которая позволит эффективно интегрировать эти подходы для улучшения управления распределенными процессами. Мотивация заключается в том, что современные промышленные процессы становятся все более сложными и распределенными, требуя более точных и адаптивных моделей для управления. В данной статье предлагается фреймворк для моделирования процессов, который позволяет интегрировать данные-ориентированные алгоритмы с классическими моделями процессов через согласованные топологические свойства и сохранение экстенсивных величин, таких как масса и энергия. Этот подход направлен на то, чтобы обеспечить согласованность между физическими законами и данными, полученными из реальных процессов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод основывается на использовании нейронных обычных дифференциальных уравнений (Neural Ordinary Differential Equations, Neural ODEs) для моделирования процессов. Он включает в себя представление взаимосвязей между единицами процессной сети через матрицы связей и графы сетей. Это позволяет моделировать динамику процессов с учетом топологических свойств и законов сохранения. Основная идея заключается в том, чтобы использовать дифференциальные уравнения для описания динамики системы, где нейронные сети используются для обучения динамических отношений из данных. Алгоритм Neural ODEs позволяет моделировать процессы, где состояния системы описываются дифференциальными уравнениями, а нейронные сети обучаются на основе этих уравнений, используя метод адъюнктного градиента (adjoint method). Это позволяет получить модель в пространстве состояний, которая может быть использована для моделирования и управления процессами. Для реализации этого подхода используются матрицы связей и графы, которые описывают топологию процессной сети. Эти матрицы позволяют моделировать взаимодействия между различными компонентами системы и обеспечивают согласованность между физическими законами и данными. Кроме того, в этом подходе используется метод конических условий (conic sector conditions) для описания условий потоков в системе, что обеспечивает соответствие физическим законам. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для демонстрации эффективности предлагаемого метода был проведен эксперимент на примере простой системы управления запасами. В этом эксперименте использовалась синтетическая временная ряд данных, которые были сгенерированы для моделирования динамики системы. Нейронная сеть была обучена на основе этих данных, используя алгоритм Neural ODEs в сочетании с адаптивным решителем дифференциальных уравнений. Результаты эксперимента показали, что нейронная сеть успешно обучилась моделировать динамику системы, формируя модель в пространстве состояний. Эта модель была использована в алгоритме предсказательного управления (Model Predictive Control, MPC) для управления системой. Модель показала высокую точность в предсказании состояний системы и эффективность в управлении процессом. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значение этого подхода заключается в том, что он позволяет интегрировать данные-ориентированные методы с классическими физическими моделями процессов. Это может быть использовано в различных областях, таких как производство, логистика, энергетика и другие сферы, где необходимо управление распределенными процессами. Преимущества этого подхода включают в себя улучшенную точность моделей, интеграцию физических законов с данными, а также возможность адаптивного управления процессами. Это может привести к более эффективному и надежному управлению процессами в реальных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной статьи был предложен фреймворк для моделирования процессов, который интегрирует данные-ориентированные методы с классическими физическими моделями. Этот подход показал высокую эффективность на примере управления запасами. Будущие исследования могут быть направлены на дальнейшее улучшение этого метода, включая исследование его применения в более сложных процессах и системах управления. Кроме того, можно исследовать возможности использования этого подхода в реальных промышленных условиях для улучшения эффективности и надежности управления процессами.

Annotation:

Most recent advances in machine learning and analytics for process control pose the question of how to naturally integrate new data-driven methods with classical process models and control. We propose a process modeling framework enabling integration of data-driven algorithms through consistent topological properties and conservation of extensive quantities. Interconnections among process network units are represented through connectivity matrices and network graphs. We derive the system's natur...

ID: 2508.04799v1 cs.NE, cs.AI, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 CoMAD: A Multiple-Teacher Self-Supervised Distillation Framework

2025-08-09

Авторы:

Sriram Mandalika, Lalitha V

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы самостоятельное обучение (self-supervised learning, SSL) стало ключевым подходом в области глубокого обучения, позволяющим извлекать мощные представления из неразмеченных данных. Техники такие, как контрастное обучение (contrastive learning) и маскированное моделирование изображений (masked image modeling), демонстрируют высокую эффективность в обучении моделей на больших неразмеченных датасетах. Однако эти подходы обычно применяются в изолированном режиме, что ограничивает их потенциал извлечения дополнительных семантических и контекстуальных приоритетов. Кроме того, модели, обученные в рамках таких парадигм, часто имеют большой размер и требуют значительных вычислительных ресурсов, что делает их непригодными для развертывания в условиях ограниченных ресурсов. Проблема заключается в том, что существующие методы не эффективно используют взаимодополняющие знания, которые могут быть извлечены из различных самостоятельно обученных моделей. Большинство из них фокусируются на отдельных методах, таких как MAE, MoCo v3 или iBOT, не учитывая возможности их комбинации. Также существует необходимость в разработке компактных и эффективных моделей, которые могут эффективно использовать знания из нескольких источников, не увеличивая сложность и размер модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Рассмотренный метод, Consensus-oriented Masked Distillation (CoMAD), предлагает новую парадигму для компактного и эффективного переноса знаний из нескольких самостоятельно обученных моделей в одну компактную студенческую сеть. CoMAD основывается на использовании трех предобученных Vision Transformers (ViT-Base) – MAE, MoCo v3 и iBOT – которые представляют собой модели с различными семантическими и контекстуальными приоритетами. Основная идея CoMAD заключается в использовании асимметричного маскирования (asymmetric masking). В этом подходе студенческая модель видит только 25% патчей изображения, в то время как каждая из преподавательских моделей получает уникальную, прогрессивно легкую маску. Это заставляет студенческую модель выполнять интерполяцию пропущенных функций в более богатом контексте. Для выравнивания выходных представлений преподавателей с пространством студенческой модели используются линейные адаптеры и слои нормализации. Затем, для комбинации представлений из разных преподавателей применяется метод joint consensus gating, который основывается на косинусной схожести (cosine affinity) и согласованности между преподавателями (inter-teacher agreement). Это позволяет дать большее весовое значение токенам, которые имеют высокую схожесть и согласованность между преподавателями. Студенческая модель обучается с помощью двухуровневого KL-дивергенции (dual-level KL divergence), который учитывает видимые токены и восстановленные карты признаков. Это позволяет захватить как локальную, так и глобальную структуру данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на датасете ImageNet-1K, где компактная студенческая модель ViT-Tiny, обученная с помощью CoMAD, достигла точности 75.4% Top-1, что на 0.4% выше результатов предыдущего лучшего метода. Дополнительно, CoMAD показал высокую эффективность в задачах плотного прогнозирования (dense prediction), таких как сегментация и детекция объектов. На датасете ADE20K, CoMAD достиг 47.3% mIoU, что является новым рекордом для компактных моделей в задачах сегментации. Также, на датасете MS-COCO, CoMAD показал результаты в 44.5% box average precision и 40.5% mask average precision, опять же превосходя предыдущие результаты. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CoMAD предлагает практически значимые преимущества в области компактных и эффективных моделей для реального мира. Благодаря его способности объединять знания из нескольких предобученных моделей в единую компактную модель, CoMAD может быть использован в различных приложениях, где критичны ограничения по вычислительным ресурсам, таких как мобильные устройства, IoT-устройства или автономные системы. Кроме того, CoMAD может быть использован для улучшения производительности в задачах, требующих высокой точности, таких как сегментация изображений, детекция объектов и классификация. Его эффективность в работе с небольшими моделями делает его пригодным для использования в областях, где важно сочетание высокой точности и низких вычислительных затрат. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CoMAD является перспективным подходом к компактному и эффективному переносу знаний из нескольких самостоятельно обученных моделей. Он показывает высокую эффективность в различных задачах, от классификации изображений до плотного прогнозирования. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности и компактности моделей, а также на расширении его применимости к другим доменам, таким как видеоанализ и естественный язык.

Annotation:

Numerous self-supervised learning paradigms, such as contrastive learning and masked image modeling, learn powerful representations from unlabeled data but are typically pretrained in isolation, overlooking complementary insights and yielding large models that are impractical for resource-constrained deployment. To overcome these challenges, we introduce Consensus-oriented Masked Distillation (CoMAD), a lightweight, parameter-free framework that unifies knowledge from multiple current state-of-t...

ID: 2508.04816v1 cs.CV, cs.AI

arXiv PDF

📄 Automated File-Level Logging Generation for Machine Learning Applications using LLMs: A Case Study using GPT-4o Mini

2025-08-09

Авторы:

Mayra Sofia Ruiz Rodriguez, SayedHassan Khatoonabadi, Emad Shihab

## КОНТЕКСТ И ПРОБЛЕМАТИКА Logging является важной составляющей современного программного обеспечения, позволяющей разработчикам отслеживать поведение системы и упрощающей отладку приложений. Однако создание эффективных лог-сообщений требует времени и опыта, что затрудняет обеспечение согласованности и полноты логирования, особенно в больших проектах. В последнее время исследования в области применения технологий языковых моделей (Large Language Models, LLMs) для автоматического генерирования кода получили широкое распространение. Благодаря способности LLMs к генерации естественного языка и кода, исследователи рассматривают их потенциал в создании лог-сообщений. Тем не менее, существующие исследования в этой области в основном концентрируются на лог-сообщениях, встроенных в функции кода, оставляя недостаточно изученным вопрос генерации логов на уровне файлов. Это особенно актуально для машинного обучения (ML), где комплексное логирование критически важно для обеспечения надежности и отслеживания поведения моделей. Файловое логирование в ML-проектах требует учета специфики данных, алгоритмов и структуры проекта, что делает задачу еще более сложной. Данная работа предлагает исследовать возможности GPT-4o mini, одной из LLMs, в генерации лог-сообщений для ML-проектов на уровне файлов. Изучая эту проблему, исследование помогает выявить текущие трудности и оценить перспективы применения LLMs в реальных условиях разработки. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования была выбрана модель GPT-4o mini для генерации логов в ML-проектах. Модель была запрошена для создания лог-сообщений на уровне файлов Python, основываясь на содержимом файлов без предварительных логов. Для этого были собраны данные из 171 репозиториев ML-проектов, содержащих 4073 Python-файла с логами. Оригинальные логи были удалены, чтобы создать чистые файлы для генерации. Затем, для каждого файла, модель получала запрос на генерацию логов, основываясь на его содержимом. Генерируемые логи оценивались по нескольким критериям: точность позиционирования логов, выбор уровня логирования, качество переменных и текста лог-сообщений. Для сравнения были использованы логи, написанные человеком, что позволило выявить различия и оценить эффективность генерируемых логов. Дополнительно была проведена ручная аналитика над выборкой логов, чтобы выявить типичные шаблоны и ограничения в генерируемых лог-сообщениях. Этот подход позволил оценить не только точность, но и соответствие логов конвенциям конкретных проектов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование показало, что GPT-4o mini способна вставлять логи в точках, совпадающих с рукописными логами, в 63,91% случаев. Однако при этом была зафиксирована высокая степень "overlogging" — 82,66% лог-сообщений были неправильно позиционированы или ненужны. Также было обнаружено, что модель часто генерирует логи в начале или конце функций, что может быть неэффективно в больших блоках кода. Ручной анализ выявил несколько ключевых проблем: - Чрезмерное логирование в некритичных участках кода. - Трудности в логировании внутри крупных и сложных функций. - Несоответствие логов специфичным конвенциям конкретных проектов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Несмотря на выявленные ограничения, данное исследование показывает потенциал LLMs в автоматизации логирования, особенно в ML-проектах. Автоматическое генерирование логов может значительно ускорить процесс разработки, уменьшить человеческий труд и повысить надежность систем. Однако для практического применения необходимо решить проблемы связанные с overlogging и несоответствием конвенциям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показало, что GPT-4o mini может быть полезна для генерации логов на файловом уровне, но существуют значительные проблемы, которые необходимо решить для её практического применения. Будущие исследования могут фокусироваться на улучшении точности позиционирования логов, сокращении overlogging и адаптации моделей к конкретным проектам.

Annotation:

Logging is essential in software development, helping developers monitor system behavior and aiding in debugging applications. Given the ability of large language models (LLMs) to generate natural language and code, researchers are exploring their potential to generate log statements. However, prior work focuses on evaluating logs introduced in code functions, leaving file-level log generation underexplored -- especially in machine learning (ML) applications, where comprehensive logging can enha...

ID: 2508.04820v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

2025-08-09

Авторы:

Seungyong Lee, Jeong-gi Kwak

## КОНТЕКСТ И ПРОБЛЕМАТИКА Виртуальный трай-он (virtual try-on) представляет собой технологию, позволяющую синтезировать реалистичное изображение человека в выбранной одежде, которая адаптируется к его фигуре и позе. Однако до сих пор одной из ключевых проблем в этой области остается точная моделирование соответствия между телом и одеждой, особенно при изменениях положения тела и внешнего вида. Традиционные подходы часто требуют специализированных сетей, дополнительных целей оптимизации или дополнительных меток, что увеличивает сложность и затраты вычислений. Мотивацией для исследования является необходимость разработки более универсального и эффективного решения, которое могло бы обеспечить высококачественный результат для обеих задач – виртуального трай-она и трай-оффа (удаления одежды) – в рамках единого фреймворка. Такой подход мог бы упростить процесс обучения и расширить возможности применения, обеспечивая лучшее понимание взаимодействия между одеждой и телом без необходимости дополнительных ресурсов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе авторы предлагают **Voost** – унифицированный и масштабируемый фреймворк, основанный на диффузионном трансформере, который совместно обучается на задачах виртуального трай-она и трай-оффа. Основная идея заключается в том, чтобы использовать обучение взаимно-двойному направлению (try-on и try-off) для улучшения моделирования взаимосвязи между телом и одеждой. Архитектура Voost основана на диффузионном трансформере, который позволяет эффективно обрабатывать контекстные зависимости и генерировать высококачественные изображения. Фреймворк поддерживает гибкую кондиционированию (conditioning) по направлению генерации (трай-он или трай-офф) и категории одежды. Это позволяет модели улучшить понимание взаимодействия между одеждой и телом без необходимости в специализированных сетей или дополнительных метках. Кроме того, авторы вводят два инновационных технических решения для улучшения качества генерации во время вывода (inference): 1. **Attention Temperature Scaling** – это техника, которая позволяет улучшить устойчивость модели к изменениям разрешения или масок, которые могут возникать в реальных условиях. 2. **Self-Corrective Sampling** – это метод, который использует двунаправленную консистентность между задачами трай-она и трай-оффа для самокоррекции выходных изображений, что повышает их точность и качество. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят обширные эксперименты, чтобы оценить эффективность Voost на различных датасетах и сравнить его с современными базовыми моделями. Используемые данные включают различные бенчмарки для задач трай-она и трай-оффа, которые позволяют оценить точность выравнивания, визуальную правдоподобность и общую обобщающую способность модели. Результаты показывают, что Voost достигает лучших результатов по сравнению с современными базовыми моделями. Он показывает значительное улучшение в точности выравнивания одежды относительно тела, а также визуальной фиделити (качество изображения) и общей обобщающей способности на различных датасетах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк Voost имеет широкое применение в области моды, ритейла и виртуального фитинга. Его способность выполнять оба направления – трай-он и трай-офф – в рамках одной модели делает его высоко эффективным и гибким инструментом для разработчиков и пользователей. Преимущества Voost включают в себя: - Улучшенное понимание взаимодействия между телом и одеждой. - Упрощенная модель без необходимости дополнительных сетей или меток. - Высокое качество генерации изображений с повышенной точностью и визуальной правдоподобностью. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк **Voost**, который успешно решает проблему моделирования взаимодействия между телом и одеждой в задачах виртуального трай-она и трай-оффа. Данный подход не только достигает лучших результатов по сравнению с современными базовыми моделями, но также открывает новые возможности для будущих исследований в области виртуального фитинга. Будущие исследования могут фокусироваться на дальнейшем улучшении качества генерации, в том числе на расширении диапазона категорий одежды и поддержке более сложных поз и форм тела. Также могут быть исследованы новые методы оптимизации для дальнейшего повышения эффективности и качества вывода.

Annotation:

Virtual try-on aims to synthesize a realistic image of a person wearing a target garment, but accurately modeling garment-body correspondence remains a persistent challenge, especially under pose and appearance variation. In this paper, we propose Voost - a unified and scalable framework that jointly learns virtual try-on and try-off with a single diffusion transformer. By modeling both tasks jointly, Voost enables each garment-person pair to supervise both directions and supports flexible condi...

ID: 2508.04825v1 cs.GR, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Persistent Instability in LLM's Personality Measurements: Effects of Scale, Reasoning, and Conversation History

2025-08-09

Авторы:

Tommaso Tosato, Saskia Helbling, Yorguin-Jose Mantilla-Ramos, Mahmood Hegazy, Alberto Tosato, David John Lemay, Irina Rish, Guillaume Dumas

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие больших языковых моделей (LLM) сталкивается с фундаментальной проблемой предсказуемости и стабильности поведения систем искусственного интеллекта. В контексте стремительного внедрения LLM в критически важные области - от медицинской диагностики до финансового консультирования и образовательных платформ - последовательность поведения становится не просто технической характеристикой, а фактором общественной безопасности. Однако понимание "личностных" характеристик этих моделей остаётся крайне ограниченным, что создаёт риск непредсказуемых последствий при масштабном развертывании. Существующие подходы к оценке поведения LLM фокусируются преимущественно на задачах классификации или генерации текста, упуская фундаментальный аспект стабильности личностных проявлений. Традиционные психологические инструменты, такие как Big Five Inventory (BFI-44) и Short Dark Triad (SD3), были разработаны для измерения стабильных черт личности у человека, но их применимость к искусственным системам вызывает серьёзные сомнения. Более того, предполагается, что модели большего масштаба должны демонстрировать более стабильное поведение благодаря большей "объёмности" знаний, однако эмпирическое подтверждение этой гипотезы отсутствует. Критической проблемой является отсутствие систематической методологии для оценки стабильности личностных характеристик LLM в различных условиях. Исследователи не располагают данными о том, насколько мелкие изменения в формулировках запросов, порядке вопросов или контексте взаимодействия влияют на измеряемые "личностные" характеристики моделей. Это создаёт потенциальный риск для разработчиков и пользователей, которые могут полагаться на кажущуюся стабильность поведения системы, не осознавая её чувствительности к тривиальным изменениям входных данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали комплексную оценочную рамку PERSIST (PERsonality Stability in Synthetic Text), которая представляет собой многомерный аналитический комплекс для систематического изучения стабильности личностных измерений в LLM. Рамка охватывает более 25 открытых моделей с количеством параметров от 1 до 671 миллиарда, что позволяет провести масштабный анализ зависимости стабильности от размера модели. В рамках исследования было собрано более 500,000 ответов моделей, что обеспечивает статистическую значимость полученных результатов. Методология включает два типа инструментов для измерения личностных характеристик: традиционные психологические шкалы (BFI-44 для оценки "Большой пятёрки" и SD3 для измерения "тёмной триады" личности) и специально адаптированные для LLM инструменты. Это двойное применение позволило исследовать гипотезу о том, что нестабильность может быть вызвана несоответствием человекоцентричных инструментов особенностям искусственных систем. Систематическое варьирование параметров включало четыре ключевых фактора: порядок вопросов, парафразирование формулировок, задание конкретных персон модели, и режимы рассуждений (включая chain-of-thought подход). Каждый фактор тестировался в изоляции и в комбинациях для выявления синергетических эффектов. Особое внимание уделялось влиянию истории предыдущих взаимодействий на текущие измерения, что имитирует реальные сценарии использования, где модели работают в контексте продолжительных диалогов. Аналитический аппарат включал статистические методы оценки вариативности ответов, корреляционный анализ между различными условиями тестирования, и разработку метрик для количественной оценки стабильности. Для каждой модели и условия рассчитывались стандартные отклонения показателей личности, коэффициенты корреляции между повторными измерениями, и индекс чувствительности к изменениям входных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов продемонстрировали удивительно высокий уровень вариативности в личностных измерениях даже у самых крупных моделей. Модели с 400+ миллиардами параметров показывали стандартное отклонение показателей личности более 0.4 по шкале от 0 до 1, что указывает на существенную нестабильность. Это опровергает распространённое представление о том, что увеличение размера модели автоматически приводит к более предсказу

Annotation:

Large language models require consistent behavioral patterns for safe deployment, yet their personality-like traits remain poorly understood. We present PERSIST (PERsonality Stability in Synthetic Text), a comprehensive evaluation framework testing 25+ open-source models (1B-671B parameters) across 500,000+ responses. Using traditional (BFI-44, SD3) and novel LLM-adapted personality instruments, we systematically vary question order, paraphrasing, personas, and reasoning modes. Our findings chal...

ID: 2508.04826v1 cs.CL, cs.AI

arXiv PDF

📄 Multi-Stage Knowledge-Distilled VGAE and GAT for Robust Controller-Area-Network Intrusion Detection

2025-08-09

Авторы:

Robert Frenken, Sidra Ghayour Bhatti, Hanqin Zhang, Qadeer Ahmed

## КОНТЕКСТ И ПРОБЛЕМАТИКА Контроллер Area Network (CAN) является широко используемым протоколом для взаимодействия внутри автомобилей, обеспечивая надежную передачу данных между электронными компьютерными системами. Однако, несмотря на его эффективность, CAN открыт для кибер-атак из-за отсутствия встроенных механизмов безопасности. Это делает автомобили уязвимыми к несанкционному вмешательству, что может привести к серьезным последствиям, включая потерю контроля над автомобилем. Интрусивное обнаружение (Intrusion Detection System, IDS) является ключевым решением для обеспечения безопасности CAN. Однако, существующие методы IDS для CAN-трафика сталкиваются с несколькими проблемами, включая классическую несбалансированность данных (class imbalance), высокую сложность моделей, и ограниченную эффективность в реальных условиях. Основным вызовом является разработка методологии, которая может эффективно обнаруживать аномалии и кибер-атаки в CAN-трафике, особенно когда данные характеризуются высокой несбалансированностью классов. Традиционные методы, основанные на статистических моделях или машинном обучении, часто не справляются с этими вызовами из-за недостатка мощности модели или недостаточного учета временных и структурных зависимостей в данных. Предлагаемая статья предлагает инновационный подход, который сочетает неконтролируемые методы обнаружения аномалий (unsupervised anomaly detection) и контролируемые графовые модели обучения (supervised graph learning) для улучшения точности и эффективности обнаружения атак в CAN-протоколе. Этот подход использует графовые модели для моделирования временных и структурных отношений между сообщениями CAN, что позволяет более точно определять аномалии и атаки. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемая система интрусивного обнаружения основывается на многоступенчатой архитектуре, которая интегрирует Variational Graph Autoencoder (VGAE) и Knowledge-Distilled Graph Attention Network (KD-GAT). Эта система разработана специально для обнаружения аномалий и кибер-атак в трафике CAN. Первым этапом является представление CAN-трафика в виде последовательностей графов, где узлы графа представляют отправителей и получателей сообщений, а ребра обозначают взаимодействия между ними. Это позволяет моделировать временные и структурные зависимости между сообщениями, что критически важно для обнаружения атак. Затем, VGAE используется для выявления структурных аномалий в графовой структуре. VGAE обучается на графовой представлении CAN-трафика для выявления необычных или подозрительных структур, которые могут указывать на атаку. Для решения проблемы классовой несбалансированности, VGAE также применяется для селективного undersampling, что помогает сократить количество данных без потери информации. На последующем этапе, Gra

Annotation:

The Controller Area Network (CAN) protocol is a standard for in-vehicle communication but remains susceptible to cyber-attacks due to its lack of built-in security. This paper presents a multi-stage intrusion detection framework leveraging unsupervised anomaly detection and supervised graph learning tailored for automotive CAN traffic. Our architecture combines a Variational Graph Autoencoder (VGAE) for structural anomaly detection with a Knowledge-Distilled Graph Attention Network (KD-GAT) for ...

ID: 2508.04845v1 cs.LG, cs.AI

arXiv PDF

📄 Fine-Tuning Small Language Models (SLMs) for Autonomous Web-based Geographical Information Systems (AWebGIS)

2025-08-09

Авторы:

Mahdi Nazari Ashani, Ali Asghar Alesheikh, Saba Kazemi, Kimya Kheirkhah, Yasin Mohammadi, Fatemeh Rezaie, Amir Mahdi Manafi, Hedieh Zarkesh

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные веб-ориентированные географические информационные системы (WebGIS) стремятся к максимальной автоматизации и упрощению взаимодействия с пользователем. Традиционные интерфейсы WebGIS требуют от пользователя знания специализированных инструментов и терминологии, что существенно ограничивает доступность систем для широкой аудитории. В ответ на эту проблему развивается новое направление — автономные веб-ориентированные географические информационные системы (AWebGIS), способные выполнять геопространственные операции на основе естественно-языковых запросов. Основная проблема, стоящая перед разработчиками AWebGIS, заключается в необходимости обеспечить точное понимание и исполнение сложных пространственных запросов в условиях ограниченных вычислительных ресурсов. Большинство современных решений полагаются на облачные большие языковые модели (LLM), которые, несмотря на высокую точность, имеют ряд критических недостатков. Во-первых, они требуют постоянного подключения к интернету, что делает невозможным работу в офлайн-режиме. Во-вторых, централизованная обработка на серверах создает серьезные проблемы масштабируемости при увеличении числа пользователей. В-третьих, передача персональных данных и геолокационной информации в облако вызывает обоснованные опасения относительно конфиденциальности пользователей. Существующие offline-решения, основанные на классических алгоритмах машинного обучения, демонстрируют недостаточную точность интерпретации сложных пространственных запросов и не способны адаптироваться к новым типам задач без переобучения. Это создает технологический разрыв между потребностями пользователей в интуитивном и приватном взаимодействии с геоинформационными системами и возможностями существующих технологий. Необходимость разработки эффективного решения, способного работать локально без потери функциональности и точности, стала ключевым мотиватором проведенного исследования. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают революционный подход к созданию AWebGIS, основанный на использовании мелких языковых моделей (SLM), специально обученных для обработки геопространственных запросов в браузерной среде. В качестве базовой модели выбран T5-small — компактная версия архитектуры Text-to-Text Transfer Transformer, отличающаяся оптимальным соотношением между размером модели (60 миллионов параметров) и качеством обработки естественного языка. Процесс fine-tuning включал несколько этапов. На первом этапе был создан обширный датасет из 50 тысяч примеров естественно-языковых запросов и соответствующих им пространственных операций на языке SQL-геозапросов. Датасет охватывал разнообразные типы операций: фильтрацию по местоположению, расчет расстояний, определение пересечений, буферизацию, пространственные соединения и агрегацию данных. Каждый пример прошел ручную валидацию экспертами в области ГИС для исключения ошибок и неоднозначностей. На втором этапе модель была адаптирована под специфику геопространственного домена через технику instruction tuning. Добавлены специальные токены для обозначения типов геометрий (точка, линия, полигон), координатных систем и пространственных отношений. Архитектура модели была модифицирована для работы в браузерной среде через WebAssembly и TensorFlow.js. Для оптимизации производительности применены техники квантования (8-битное целочисленное представление весов) и последовательного выполнения операций для минимизации использования оперативной памяти. Третий этап включал интеграцию скриптов пред-обработки запросов для нормализации географических названий через локальный геокодер и обработку неоднозначностей в запросах. Модель также обучена генерировать не только SQL-запросы, но и метаданные о типе ожидаемого результата (карта, таблица, график), что позволяет системе автоматически выбирать оптимальный способ визуализации данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода была разработана комплексная экспериментальная методология, включающая сравнение трех подходов к реализации AWebGIS. Первый подход представлял собой полностью автоматизированную онлайн-систему с использованием облачной LLM Cohere Command. Второй подход использовал офлайн-классификаторы на основе SVM и Random Forest для отображения естественно-языковых запросов в пространствен

Annotation:

Autonomous web-based geographical information systems (AWebGIS) aim to perform geospatial operations from natural language input, providing intuitive, intelligent, and hands-free interaction. However, most current solutions rely on cloud-based large language models (LLMs), which require continuous internet access and raise users' privacy and scalability issues due to centralized server processing. This study compares three approaches to enabling AWebGIS: (1) a fully-automated online method using...

ID: 2508.04846v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Large Language Models Reasoning Abilities Under Non-Ideal Conditions After RL-Fine-Tuning

2025-08-09

Авторы:

Chang Tian, Matthew B. Blaschko, Mingzhe Xing, Xiuxing Li, Yinliang Yue, Marie-Francine Moens

```markdown ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы крупные модели языка (Large Language Models, LLMs) стали ключевым инструментом для решения задач, связанных с естественным языком, благодаря их впечатляющим способностям к логическому мышлению и генерации текста. Регулярное файн-тюнинг с помощью алгоритмов Reinforcement Learning (RL) стало важной техникой для улучшения таких способностей. Однако, несмотря на широкое применение RL-файн-тюнинга, большинство современных бенчмарков оценивают эти модели в идеализированных условиях, где входные данные четкие и без помех. Это создает значительную проблему, так как в реальных приложениях входные данные часто содержат шум, неполную информацию или контекстуальные ограничения. Авторы статьи выявили три типичных неидеальных сценария, которые имеют практическое значение: summary inference (вывод из кратких суммирований), fine-grained noise suppression (подавление тонких шумов), и contextual filtering (контекстуальная фильтрация). Они подчеркнули, что человеческое мышление остается надежным даже при несовершенных входных данных, в то время как LLMs, подвергаясь RL-файн-тюнингу, демонстрируют существенные недостатки в таких ситуациях. Это выявляет критические ограничения в их способности к логическому мышлению в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предложили новое направление исследований, основанное на находках из науки о мозге. Они формально определили и оценили эти три сценария, используя методологию, основанную на RL-файн-тюнинге. Три LLMs и state-of-the-art large vision-language model (LVLM) были профайн-тюнированы с помощью policy-gradient алгоритма. Затем, эти модели были протестированы на восьми публичных датасетах, чтобы оценить их производительность в идеальных и неидеальных условиях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов показали, что RL-файн-тюнинг значительно улучшает базовую производительность LLMs в идеализированных условиях. Однако, когда модели были протестированы в неидеальных сценариях, их производительность резко снизилась. Это показало, что существующие методы RL-файн-тюнинга не справляются с проблемами, связанными с шумом и контекстуальными ограничениями. Хотя авторы предложили метод коррекции для каждого сценария, результаты показали, что эти методы не полностью устраняют недостатки в реальных условиях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Эта работа имеет значительное практическое значение, так как показывает, что способности LLMs к логическому мышлению часто преувеличиваются в исследованиях. Это подчеркивает важность тестирования моделей в реальных, неидеальных условиях. Результаты могут быть использованы для улучшения моделей в таких областях, как медицинская диагностика, автономные системы и другие, где надежность логического мышления критична. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, авторы подчеркнули, что хотя RL-файн-тюнинг является эффективным инструментом для улучшения LLMs, его эффективность существенно снижается в неидеальных условиях. Это открывает новые направления для исследований, направленных на улучшение способностей моделей к логическому мышлению в реальных условиях. Будущие исследования могут сосредоточиться на разработке более Adaptive RL-алгоритмов, которые могут справиться с шумом и контекстуальными ограничениями. ```

Annotation:

Reinforcement learning (RL) has become a key technique for enhancing the reasoning abilities of large language models (LLMs), with policy-gradient algorithms dominating the post-training stage because of their efficiency and effectiveness. However, most existing benchmarks evaluate large-language-model reasoning under idealized settings, overlooking performance in realistic, non-ideal scenarios. We identify three representative non-ideal scenarios with practical relevance: summary inference, fin...

ID: 2508.04848v1 cs.AI

arXiv PDF

📄 Provable Post-Training Quantization: Theoretical Analysis of OPTQ and Qronos

2025-08-09

Авторы:

Haoyu Zhang, Shihao Zhang, Ian Colbert, Rayan Saab

## КОНТЕКСТ И ПРОБЛЕМАТИКА Квантование после обучения (Post-Training Quantization, PTQ) представляет собой критически важный инструмент для снижения вычислительных и памятных затрат современных глубоких нейронных сетей, особенно крупных языковых моделей (Large Language Models, LLMs). В условиях экспоненциального роста размеров моделей, где параметры измеряются десятками и сотнями миллиардов, необходимость в эффективных методах сжатия без значительной потери качества становится первостепенной задачей. Среди существующих PTQ-алгоритмов фреймворк OPTQ (также известный как GPTQ) занял лидирующее положение благодаря своей вычислительной эффективности и сильной эмпирической производительности. Однако несмотря на широкое распространение OPTQ в практических приложениях, методология страдает от фундаментального недостатка: отсутствия строгих количественных теоретических гарантий. Это создает значительную проблему для практиков и исследователей, поскольку невозможно заранее предсказать, насколько точно квантованная модель будет приближать поведение оригинальной модели. Отсутствие теоретической базы также затрудняет обоснование практических эвристик, таких как порядок обработки признаков или выбор параметров регуляризации, что приводит к необходимости проведения дорогостоящих экспериментов для настройки гиперпараметров. Кроме того, современные PTQ-алгоритмы, включая Qronos - более современный метод, продемонстрировавший улучшенную эмпирическую производительность, также страдают от аналогичного недостатка теоретического обоснования. Это создает пробел между теорией и практикой, препятствуя систематическому улучшению методов квантования и ограничивая возможность их надежного применения в критически важных приложениях, где требуется строгий контроль над точностью. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют первый в своем роде количественный теоретический анализ OPTQ и связанных методов, предоставляя строгие гарантии ошибок для как детерминированных, так и стохастических вариантов алгоритма. Методология анализа строится на систематическом исследовании того, как итеративная процедура OPTQ накапливает квантовую ошибку на каждом шаге оптимизации. Ключевым элементом предложенного подхода является вывод неасимптотических оценок ошибки в 2-норме, которые явным образом зависят от калибровочных данных и параметра регуляризации, используемого в OPTQ. Это достигается через разложение общей ошибки квантования на отдельные компоненты, каждый из которых анализируется с использованием методов матричного анализа и теории аппроксимации. Особое внимание уделяется анализу эффекта упорядочивания признаков по убывающей норме - эвристики, широко используемой на практике, но до сих пор не имеющей теоретического обоснования. Для стохастического варианта алгоритма авторы устанавливают более сильные границы ошибки в infinity-норме, что позволяет контролировать необходимый алфавит квантования и особенно полезно для последующих слоев и нелинейностей. Анализ включает разработку новых вероятностных инструментов для оценки распределения ошибок квантования в многомерном пространстве, учитывающих корреляционную структуру весов. Расширение анализа на Qronos включает адаптацию разработанной методологии к специфическим особенностям этого алгоритма, включая его подход к обработке групп весов и использованию дополнительных оптимизационных техник. Это позволяет объяснить эмпирические преимущества Qronos через призму теоретических гарантий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть работы фокусируется на эмпирической валидации полученных теоретических границ через систематическое исследование поведения ошибок квантования на различных архитектурах нейронных сетей и наборах данных. Исследование охватывает как классические сверточные сети (ResNet, VGG), так и современные трансформерные модели, включая BERT и GPT-семейство, что обеспечивает комплексное понимание применимости теоретических результатов. Для валидации 2-норм границ используются синтетические и реальные калибровочные наборы данных различного размера, позволяющие исследовать зависимость ошибки квантования от объема калибровочных данных. Результаты дем

Annotation:

Post-training quantization (PTQ) has become a crucial tool for reducing the memory and compute costs of modern deep neural networks, including large language models (LLMs). Among PTQ algorithms, the OPTQ framework-also known as GPTQ-has emerged as a leading method due to its computational efficiency and strong empirical performance. Despite its widespread adoption, however, OPTQ lacks rigorous quantitative theoretical guarantees. This paper presents the first quantitative error bounds for both d...

ID: 2508.04853v1 cs.LG, cs.AI, cs.IT, cs.NA, math.IT, math.NA, 68T07, 68W25, 62M45, 68Q25

arXiv PDF

1
2
1417
1418
1419
1420
1421
1442
1443

Показано 14181 - 14190 из 14425 записей