📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Uncertainty-aware Predict-Then-Optimize Framework for Equitable Post-Disaster Power Restoration

2025-08-09

Авторы:

Lin Jiang, Dahai Yu, Rongchao Xu, Tian Tang, Guang Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Климатические изменения и рост частоты экстремальных погодных явлений, таких как ураганы, привели к увеличению числа сбоев в работе энергетических систем. Этот фактор подчеркивает критическую необходимость эфтизвующего и справедливого восстановления электроснабжения. Традиционно, компании-провайдеры электроэнергии определяют приоритеты восстановления на основе количества заявок на восстановление поданных из каждого региона. Однако, данные анализы показывают значительные диспаратические различия в объеме поданных заявок. Неблагоприятные сообщества часто подают меньше заявок, что приводит к несправедливости в процессе восстановления. Такая несправедливость оставляет эти сообщества без поддержки, увеличивая их уязвимость к продолжительным отключениям электроэнергии. Для решения этой проблемы, необходимо разработать стратегию восстановления электроснабжения, которая бы учитывала как эффективность, так и справедливость в отношении различных сообществ. Однако, достижение этой цели сталкивается с двумя ключевыми проблемами. Во-первых, необходимо предсказать время ремонта с учетом значительных различий в данных (dataset heteroscedasticity). Во-вторых, агенты обученные с помощью reinforcement learning (RL), имеют тенденцию предпочитать действия с низкой неопределенностью, что может подрывать справедливость решений. Для преодоления этих вызовов, авторы предлагают новый метод, который балансирует эффективность и справедливость в процессе восстановления электроснабжения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод под названием EPOPR (Equity-aware Predict-Then-Optimize Framework for Power Restoration), который состоит из двух ключевых компонентов. Первый компонент — **Equity-Conformalized Quantile Regression (ECQR)**. Этот метод используется для предсказания времени ремонта с учетом неопределенности. Он позволяет создавать прогнозы, которые не только опираются на исторические данные, но и учитывают различия в неопределенности между различными регионами. Это помогает снизить влияние неравномерности данных на качество прогнозов. Второй компонент — **Spatial-Temporal Attentional RL (STARL)**. Этот компонент предназначен для принятия решений с учетом пространственно-временных зависимостей и различий в неопределенности между регионами. STARL адаптируется к изменяющимся уровням неопределенности, что позволяет сделать процесс принимания решений более справедливым. Агент RL использует эти прогнозы для оптимизации процесса восстановления, обеспечивая баланс между эффективностью и справедливостью. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода EPOPR, авторы проводят серию экспериментов на реальных данных. Данные включают информацию о заявках на восстановление электроснабжения и времени ремонта из различных регионов. Результаты показывают, что метод EPOPR уменьшает среднее время отключения электроэнергии на 3.60% по сравнению со стандартными методами. Кроме того, EPOPR снижает несправедливость между различными сообществами на 14.19%, что является значительным улучшением по сравнению с современными подходами. В экспериментах также продемонстрировано, что EPOPR эффективно адаптируется к различиям в неопределенности между регионами, обеспечивая более справедливое распределение ресурсов. Это подтверждает, что метод не только повышает эффективность восстановления, но и создает более справедливую систему для всех сообществ. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод EPOPR имеет широкий спектр применений в области управления энергетическими системами, особенно в ситуациях экстремальных погодных условий. Он может быть использован электроснабжающими компаниями для оптимизации процесса восстановления электроснабжения после катастроф, таких как ураганы или землетрясения. Основными преимуществами EPOPR являются: - **Улучшение эффективности**: Снижение среднего времени отключения электроэнергии. - **Повышение справедливости**: Уменьшение диспаратических различий между сообществами. - **Адаптивность**: Учет пространственно-временных зависимостей и неопределенности. Такой подход может быть важен для повышения устойчивости и справедливости энергетических систем, особенно в регионах с высокой вулнерабельностью к погодным катастрофам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый метод EPOPR, который обеспечивает баланс между эффективностью и справедливостью в процессе восстановления электроснабжения. Основные достижения включают уменьшение среднего времени отключения и снижение несправедливости между сообществами. В будущем, этот метод может быть расширен для учета других факторов, таких как экономические и социальные аспекты, для еще более комплексного подхода к управлению энергетическими системами. Кроме того, дальнейшие исследования могут фокусироваться на интеграции EPOPR с другими технологиями, такими как искусственный интеллект и IoT, для создания более устойчивых и адаптивных систем энергоснабжения.

Annotation:

The increasing frequency of extreme weather events, such as hurricanes, highlights the urgent need for efficient and equitable power system restoration. Many electricity providers make restoration decisions primarily based on the volume of power restoration requests from each region. However, our data-driven analysis reveals significant disparities in request submission volume, as disadvantaged communities tend to submit fewer restoration requests. This disparity makes the current restoration so...

ID: 2508.04780v1 cs.LG, cs.AI, cs.SI

arXiv PDF

📄 Evaluating the Impact of LLM-guided Reflection on Learning Outcomes with Interactive AI-Generated Educational Podcasts

2025-08-09

Авторы:

Vishnu Menon, Andy Cherney, Elizabeth B. Cloude, Li Zhang, Tiffany D. Do

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современная образовательная сфера переживает трансформацию благодаря интеграции больших языковых моделей (LLM), которые открывают новые возможности для персонализированного обучения. Традиционные методы подачи контента ограничены статическими форматами и недостаточной адаптивностью к индивидуальным потребностям студентов. AI-генерируемые образовательные подкасты представляют собой инновационный подход, объединяющий аудиоформат с динамической генерацией контента на основе LLM. Однако ключевым вопросом остаётся эффективность рефлексии как метакогнитивной стратегии в интерактивных цифровых средах. Существующие исследования показывают противоречивые результаты: некоторые работы демонстрируют положительное влияние рефлексии на долгосрочное запоминание и понимание, в то время как другие указывают на возможное снижение вовлеченности при чрезмерном акценте на метакогнитивные процессы. Проблема усложняется тем, что большинство разработок фокусируется на текстовых интерфейсах, в то время как аудиоформат остаётся недостаточно изученным. Критическая проблема заключается в отсутствии эмпирических данных о том, как LLM-направленные рефлексивные подсказки влияют на восприятие и эффективность обучения в контексте интерактивных подкастов. Это создаёт исследовательский пробел, требующий систематического анализа взаимодействия между технологическими возможностями LLM, психологическими аспектами восприятия аудиоконтента и педагогическими принципами рефлексии. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследователи разработали экспериментальную платформу с двумя версиями интерактивного AI-подкаста по теме "Введение в машинное обучение". Контрольная версия представляла собой линейный подкаст длительностью 12 минут с адаптивной подачей контента на основе предварительного тестирования. Экспериментальная версия включала встроенные LLM-направленные рефлексивные подсказки, активируемые каждые 90-120 секунд. Подсказки формулировались как открытые вопросы типа "Как вы думаете, почему этот алгоритм работает именно так?" или "Как бы вы применили этот принцип в реальной ситуации?". Архитектура системы включала три основных компонента: 1) генеративный модуль на базе GPT-4 для создания образовательного контента и рефлексивных подсказок; 2) модуль адаптации, анализирующий реакцию пользователя (паузы, переслушивание, ответы на подсказки) для динамической настройки темпа подачи; 3) систему сбора аналитики взаимодействия. Рефлексивные подсказки категоризировались на три типа: концептуальные (проверка понимания), применимые (связь с практикой) и метакогнитивные (осознание процесса обучения). Важной особенностью было сохранение естественности аудиоформата - подсказки озвучивались тем же голосом без технических помех. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании принимали участие 36 студентов бакалавриата (средний возраст 20.3 года, 52% женщин) из курса "Основы компьютерных наук". Участники были случайным образом распределены на две группы по 18 человек. Все прошли предварительное тестирование базовых знаний, затем прослушали подкаст, после чего выполнили пост-тест и заполнили опросник пользовательского опыта. Основные метрики включали: 1) точность ответов в пост-тесте (максимум 20 баллов); 2) время, потраченное на обучение; 3) показатели вовлеченности по шкале User Engagement Scale-Short Form. Результаты показали статистически незначимую разницу в обучающих результатах: группа с рефлексивными подсказками набрала в среднем 15.2 балла (SD=2.8), контрольная группа - 14.9 балла (SD=3.1) [t(34)=0.31, p=0.76]. Однако качественные различия проявились в восприятии: экспериментальная группа оценила "привлекательность" подкаста на 3.4/5 против 4.2/5 в контрольной группе [t(34)=-2.8, p=0.008]. Временные затраты были сопоставимы (M=14.7 vs 13.9 минут), но участники с подсказками чаще делали паузы (среднее 4.2 против 1.8). А

Annotation:

This study examined whether embedding LLM-guided reflection prompts in an interactive AI-generated podcast improved learning and user experience compared to a version without prompts. Thirty-six undergraduates participated, and while learning outcomes were similar across conditions, reflection prompts reduced perceived attractiveness, highlighting a call for more research on reflective interactivity design.

ID: 2508.04787v1 cs.HC, cs.AI

arXiv PDF

📄 Enhancing Dialogue Annotation with Speaker Characteristics Leveraging a Frozen LLM

2025-08-09

Авторы:

Thomas Thebaud, Yen-Ju Lu, Matthew Wiesner, Peter Viechnicki, Najim Dehak

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных системах диалоговой транскрипции широко используются технологии обработки естественного языка, в том числе Большие Языковые Модели (Large Language Models, LLMs). Они применяются для улучшения грамматики, пунктуации и читаемости транскриптов. Однако, несмотря на высокую эффективность, существует ряд проблем, связанных с дополнительной обработкой диалоговых данных. Одной из таких проблем является нехватка контекстуальной информации о говорящих, такой как их возраст, пол, эмоциональное состояние и другие характеристики. Данные метаданные могут значительно обогатить транскрипты, облегчить анализ и улучшить понимание контекста. Однако, добавление таких метаданных обычно требует тяжелой работы по их сбору и аннотации, что требует больших вычислительных ресурсов и времени. Кроме того, многие существующие подходы требуют тщательной доработки моделей для конкретных задач, что может быть затратно и трудоемко. Это создает потребность в более эффективном и модульном подходе к добавлению метаданных о говорящих, который мог бы использовать преимущества существующих моделей без необходимости их дополнительного обучения. В данной работе авторы предлагают решение этой проблемы, используя модели, замороженные на определенном этапе (frozen models), для добавления метаданных о говорящих, таких как возраст, пол и эмоциональное состояние. Они используют модели Whisper и WavLM для обработки аудиоданных и LLAMA для обработки текстовой информации, без необходимости дополнительного обучения этих моделей. Этот подход позволяет сохранить модульность и скорость обработки, одновременно обеспечивая высокую точность в определении характеристик говорящих. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи обогащения диалоговых транскриптов метаданными о говорящих, авторы предлагают использовать модели Whisper и WavLM для обработки аудиоданных и LLAMA для обработки текста. Основная идея заключается в том, чтобы использовать эти модели в "замороженном" состоянии, т.е. без необходимости их доработки или дополнительного обучения для конкретной задачи. Аудиоданные обрабатываются с помощью Whisper или WavLM для извлечения акустических функций, а затем эти функции передаются в LLAMA для определения метаданных, таких как возраст, пол и эмоциональное состояние. Для связи аудио- и текстовых представлений используются легковесные коннекторы, которые позволяют эффективно передавать информацию между моделями. Это позволяет сохранить модульность системы, т.е. каждая модель может работать независимо, а результаты их работы собираются в единый набор метаданных. Кроме того, авторы демонстрируют, что LLAMA может быть использована для прямого сравнения x-векторов (x-vectors), что позволяет достичь низкого уровня ошибок (Equal Error Rate, EER) в некоторых сценариях. Этот подход имеет несколько преимуществ. Во-первых, он позволяет использовать предобученные модели без необходимости их дополнительного обучения, что существенно снижает вычислительные затраты. Во-вторых, модульная структура позволяет легко добавлять или изменять компоненты системы без необходимости переобучения всей модели. Наконец, этот подход обеспечивает высокую скорость обработки, что делает его пригодным для реального времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода авторы провели серию экспериментов на различных наборах данных. Они использовали данные, содержащие диалоги с различными характеристиками говорящих, для тестирования способности моделей определять возраст, пол и эмоциональное состояние. Результаты экспериментов показали, что предложенный метод достигает высокой точности в определении этих характеристик, при этом сохраняя высокую скорость обработки. В частности, авторы показали, что модель LLAMA может быть использована для прямого сравнения x-векторов, достигая Equal Error Rate (EER) в 8.8% в некоторых сценариях. Это говорит о высокой точности модели в определении характеристик говорящих. Кроме того, предложенный метод показал хорошую производительность на различных наборах данных, что подтверждает его универсальность и применимость в различных контекстах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области диалоговой транскрипции и анализа речи. Он может быть использован для обогащения транскриптов метаданными о говорящих, что может быть полезно в таких областях, как анализ эмоций, улучшение качества обслуживания клиентов, а также в области медицинского и психологического консультирования. Одним из ключевых преимуществ этого метода является его модульность и высокая скорость обработки, что делает его пригодным для использования в реальном времени. Кроме того, использование замороженных моделей снижает вычислительные затраты, что делает этот подход более доступным для более широкого круга пользователей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод для обогащения диалоговых транскриптов метаданными о говорящих, использующий замороженные модели Whisper, WavLM и LLAMA. Этот подход показал высокую точность и скорость обработки, одновременно сохраняя модульность и легковесность системы. В будущем можно рассмотреть возможность дальнейшего улучшения этого метода, в том числе путем интеграции более точных моделей для обработки аудио- и текстовых данных. Кроме того, можно исследовать возможность применения этого подхода к другим областям, таким как анализ социальных интеракций или мониторинг эмоционального состояния в реальном времени.

Annotation:

In dialogue transcription pipelines, Large Language Models (LLMs) are frequently employed in post-processing to improve grammar, punctuation, and readability. We explore a complementary post-processing step: enriching transcribed dialogues by adding metadata tags for speaker characteristics such as age, gender, and emotion. Some of the tags are global to the entire dialogue, while some are time-variant. Our approach couples frozen audio foundation models, such as Whisper or WavLM, with a frozen ...

ID: 2508.04795v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization

2025-08-09

Авторы:

Negar Foroutan, Clara Meister, Debjit Paul, Joel Niklaus, Sina Ahmadi, Antoine Bosselut, Rico Sennrich

## КОНТЕКСТ И ПРОБЛЕМАТИКА Tokenization — это первый и, как часто случается, наименее анализируемый шаг в большинстве конвейеров обработки естественного языка (NLP). Традиционные алгоритмы для обучения токенизаторов основываются на частотном подходе, который предпочитает языки, преобладающие в обучающих данных. Это приводит к неравномерному качеству токенизации для языков с малоресурсными данными, которые часто имеют длинные, морфологически неправильные токены или содержат <UNK> (неизвестные слова). Это неравенство в токенизации усиливает существующие социально-экономические неравенства между пользователями разных языков, создавая недостаток доступности для менее распространенных языков. Например, токенизация для редких языков может быть неэффективной и требовать больше вычислительных ресурсов, что приводит к увеличению финансового бремени для пользователей этих языков. Подходы к улучшению справедливости токенизации являются критически важными, особенно в многоязычных контекстах, где необходимо обеспечить равномерное качество обработки текста на разных языках. Традиционные методы, такие как Byte Pair Encoding (BPE), не учитывают неравенство между языками в процессе обучения, что может приводить к непропорциональным результатам для менее распространенных языков. Для решения этой проблемы необходимо разработать методы, которые могут обеспечить более справедливую токенизацию для всех языков, независимо от их ресурсности. Это подход, ориентированный на справедливость (fairness-aware), становится важной составляющей для создания более инклюзивных и доступных NLP-систем. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается Parity-aware Byte Pair Encoding (BPE) — модификация широко используемого алгоритма BPE, ориентированная на улучшение справедливости токенизации в многоязычных наборах данных. Основная идея Parity-aware BPE заключается в том, чтобы максимизировать сжатие для языка, который в данный момент имеет наихудшую компрессию. На каждом шаге слияния алгоритм выбирает пару символов, которая приводит к наибольшему улучшению для языка с наименьшим коэффициентом сжатия. Таким образом, алгоритм стремится к более равномерному распределению длин токенов между языками, тем самым уменьшая неравенство в токенизации. Parity-aware BPE не требует значительных изменений в существующей архитектруре BPE, но добавляет дополнительный механизм для мониторинга и коррекции неравенства между языками. Такой подход позволяет сохранить высокую степень глобального сжатия, при этом существенно улучшая равномерность токенизации между языками. Этот метод также позволяет сохранить качество модели языка на задачах обработки естественного языка, не нанося значительных потерь в производительности модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на многоязычных данных, чтобы оценить эффективность Parity-aware BPE по сравнению со стандартным BPE. Использовались наборы данных, представляющие широкий спектр языков, включая как ресурсоемкие, так и малоресурсные языки. Результаты показали, что Parity-aware BPE значительно улучшил справедливость токенизации, сократив неравенство в длине токенов между языками. Это было достигнуто без существенного ухудшения глобального коэффициента сжатия. Кроме того, авторы протестировали модели языкового моделирования, обученные на токенизированных данных, и не обнаружили существенного ухудшения качества модели на задачах, таких как перевод и классификация текста. Это подтверждает, что Parity-aware BPE может быть эффективно использован в приложениях NLP без потери качества. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод Parity-aware BPE имеет значительное практическое применение в многоязычных NLP-системах. Он может быть использован для улучшения доступности и справедливости систем обработки естественного языка для менее распространенных языков. Это особенно важно в контексте развития инклюзивных технологий, где необходимо обеспечить равное качество обработки для всех пользователей, независимо от языка. Parity-aware BPE может быть применен в различных областях, таких как машинный перевод, анализ социальных сетей, обработка клиентских запросов и другие приложения, где необходима поддержка множества языков. Преимущество этого метода заключается в том, что он позволяет сохранить высокое качество модели языка, не увеличивая вычислительные затраты. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что Parity-aware BPE является эффективным методом для улучшения справедливости токенизации в многоязычных контекстах. Он позволяет сократить неравенство в длине токенов между языками, не нанося существенных потерь в глобальном сжатии и качестве модели. Будущие исследования могут расширить этот подход, включив дополнительные механизмы для улучшения справедливости и доступности NLP-систем для менее распространенных языков. Также может быть исследовано влияние Parity-aware BPE на другие аспекты моделей языкового обработки, таких как интерпретируемость и эффективность.

Annotation:

Tokenization is the first -- and often least scrutinized -- step of most NLP pipelines. Standard algorithms for learning tokenizers rely on frequency-based objectives, which favor languages dominant in the training data and consequently leave lower-resource languages with tokenizations that are disproportionately longer, morphologically implausible, or even riddled with <UNK> placeholders. This phenomenon ultimately amplifies computational and financial inequalities between users from different ...

ID: 2508.04796v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Optimality Principles and Neural Ordinary Differential Equations-based Process Modeling for Distributed Control

2025-08-09

Авторы:

Michael R. Wartmann, B. Erik Ydstie

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы машинное обучение и аналитика для управления процессами стали важной составляющей индустрии. Однако существует существенная проблема интеграции новых, данных-ориентированных методов с классическими моделями процессов и системами управления. Традиционные модели обычно основываются на физических законах и консервативных принципах, таких как законы сохранения массы и энергии, которые обеспечивают надежную и интерпретируемую основу для моделирования и управления процессами. Однако новые данные-ориентированные подходы, такие как нейронные сети, часто не имеют встроенных механизмов для соблюдения этих принципов, что может привести к неточным или нефизическим результатам. Проблема состоит в том, как сочетать преимущества данных-ориентированных методов с классическими физическими моделями, обеспечивая согласованность и точность. Кроме того, необходимо разработать методологию, которая позволит эффективно интегрировать эти подходы для улучшения управления распределенными процессами. Мотивация заключается в том, что современные промышленные процессы становятся все более сложными и распределенными, требуя более точных и адаптивных моделей для управления. В данной статье предлагается фреймворк для моделирования процессов, который позволяет интегрировать данные-ориентированные алгоритмы с классическими моделями процессов через согласованные топологические свойства и сохранение экстенсивных величин, таких как масса и энергия. Этот подход направлен на то, чтобы обеспечить согласованность между физическими законами и данными, полученными из реальных процессов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод основывается на использовании нейронных обычных дифференциальных уравнений (Neural Ordinary Differential Equations, Neural ODEs) для моделирования процессов. Он включает в себя представление взаимосвязей между единицами процессной сети через матрицы связей и графы сетей. Это позволяет моделировать динамику процессов с учетом топологических свойств и законов сохранения. Основная идея заключается в том, чтобы использовать дифференциальные уравнения для описания динамики системы, где нейронные сети используются для обучения динамических отношений из данных. Алгоритм Neural ODEs позволяет моделировать процессы, где состояния системы описываются дифференциальными уравнениями, а нейронные сети обучаются на основе этих уравнений, используя метод адъюнктного градиента (adjoint method). Это позволяет получить модель в пространстве состояний, которая может быть использована для моделирования и управления процессами. Для реализации этого подхода используются матрицы связей и графы, которые описывают топологию процессной сети. Эти матрицы позволяют моделировать взаимодействия между различными компонентами системы и обеспечивают согласованность между физическими законами и данными. Кроме того, в этом подходе используется метод конических условий (conic sector conditions) для описания условий потоков в системе, что обеспечивает соответствие физическим законам. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для демонстрации эффективности предлагаемого метода был проведен эксперимент на примере простой системы управления запасами. В этом эксперименте использовалась синтетическая временная ряд данных, которые были сгенерированы для моделирования динамики системы. Нейронная сеть была обучена на основе этих данных, используя алгоритм Neural ODEs в сочетании с адаптивным решителем дифференциальных уравнений. Результаты эксперимента показали, что нейронная сеть успешно обучилась моделировать динамику системы, формируя модель в пространстве состояний. Эта модель была использована в алгоритме предсказательного управления (Model Predictive Control, MPC) для управления системой. Модель показала высокую точность в предсказании состояний системы и эффективность в управлении процессом. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значение этого подхода заключается в том, что он позволяет интегрировать данные-ориентированные методы с классическими физическими моделями процессов. Это может быть использовано в различных областях, таких как производство, логистика, энергетика и другие сферы, где необходимо управление распределенными процессами. Преимущества этого подхода включают в себя улучшенную точность моделей, интеграцию физических законов с данными, а также возможность адаптивного управления процессами. Это может привести к более эффективному и надежному управлению процессами в реальных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной статьи был предложен фреймворк для моделирования процессов, который интегрирует данные-ориентированные методы с классическими физическими моделями. Этот подход показал высокую эффективность на примере управления запасами. Будущие исследования могут быть направлены на дальнейшее улучшение этого метода, включая исследование его применения в более сложных процессах и системах управления. Кроме того, можно исследовать возможности использования этого подхода в реальных промышленных условиях для улучшения эффективности и надежности управления процессами.

Annotation:

Most recent advances in machine learning and analytics for process control pose the question of how to naturally integrate new data-driven methods with classical process models and control. We propose a process modeling framework enabling integration of data-driven algorithms through consistent topological properties and conservation of extensive quantities. Interconnections among process network units are represented through connectivity matrices and network graphs. We derive the system's natur...

ID: 2508.04799v1 cs.NE, cs.AI, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 CoMAD: A Multiple-Teacher Self-Supervised Distillation Framework

2025-08-09

Авторы:

Sriram Mandalika, Lalitha V

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы самостоятельное обучение (self-supervised learning, SSL) стало ключевым подходом в области глубокого обучения, позволяющим извлекать мощные представления из неразмеченных данных. Техники такие, как контрастное обучение (contrastive learning) и маскированное моделирование изображений (masked image modeling), демонстрируют высокую эффективность в обучении моделей на больших неразмеченных датасетах. Однако эти подходы обычно применяются в изолированном режиме, что ограничивает их потенциал извлечения дополнительных семантических и контекстуальных приоритетов. Кроме того, модели, обученные в рамках таких парадигм, часто имеют большой размер и требуют значительных вычислительных ресурсов, что делает их непригодными для развертывания в условиях ограниченных ресурсов. Проблема заключается в том, что существующие методы не эффективно используют взаимодополняющие знания, которые могут быть извлечены из различных самостоятельно обученных моделей. Большинство из них фокусируются на отдельных методах, таких как MAE, MoCo v3 или iBOT, не учитывая возможности их комбинации. Также существует необходимость в разработке компактных и эффективных моделей, которые могут эффективно использовать знания из нескольких источников, не увеличивая сложность и размер модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Рассмотренный метод, Consensus-oriented Masked Distillation (CoMAD), предлагает новую парадигму для компактного и эффективного переноса знаний из нескольких самостоятельно обученных моделей в одну компактную студенческую сеть. CoMAD основывается на использовании трех предобученных Vision Transformers (ViT-Base) – MAE, MoCo v3 и iBOT – которые представляют собой модели с различными семантическими и контекстуальными приоритетами. Основная идея CoMAD заключается в использовании асимметричного маскирования (asymmetric masking). В этом подходе студенческая модель видит только 25% патчей изображения, в то время как каждая из преподавательских моделей получает уникальную, прогрессивно легкую маску. Это заставляет студенческую модель выполнять интерполяцию пропущенных функций в более богатом контексте. Для выравнивания выходных представлений преподавателей с пространством студенческой модели используются линейные адаптеры и слои нормализации. Затем, для комбинации представлений из разных преподавателей применяется метод joint consensus gating, который основывается на косинусной схожести (cosine affinity) и согласованности между преподавателями (inter-teacher agreement). Это позволяет дать большее весовое значение токенам, которые имеют высокую схожесть и согласованность между преподавателями. Студенческая модель обучается с помощью двухуровневого KL-дивергенции (dual-level KL divergence), который учитывает видимые токены и восстановленные карты признаков. Это позволяет захватить как локальную, так и глобальную структуру данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на датасете ImageNet-1K, где компактная студенческая модель ViT-Tiny, обученная с помощью CoMAD, достигла точности 75.4% Top-1, что на 0.4% выше результатов предыдущего лучшего метода. Дополнительно, CoMAD показал высокую эффективность в задачах плотного прогнозирования (dense prediction), таких как сегментация и детекция объектов. На датасете ADE20K, CoMAD достиг 47.3% mIoU, что является новым рекордом для компактных моделей в задачах сегментации. Также, на датасете MS-COCO, CoMAD показал результаты в 44.5% box average precision и 40.5% mask average precision, опять же превосходя предыдущие результаты. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CoMAD предлагает практически значимые преимущества в области компактных и эффективных моделей для реального мира. Благодаря его способности объединять знания из нескольких предобученных моделей в единую компактную модель, CoMAD может быть использован в различных приложениях, где критичны ограничения по вычислительным ресурсам, таких как мобильные устройства, IoT-устройства или автономные системы. Кроме того, CoMAD может быть использован для улучшения производительности в задачах, требующих высокой точности, таких как сегментация изображений, детекция объектов и классификация. Его эффективность в работе с небольшими моделями делает его пригодным для использования в областях, где важно сочетание высокой точности и низких вычислительных затрат. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CoMAD является перспективным подходом к компактному и эффективному переносу знаний из нескольких самостоятельно обученных моделей. Он показывает высокую эффективность в различных задачах, от классификации изображений до плотного прогнозирования. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности и компактности моделей, а также на расширении его применимости к другим доменам, таким как видеоанализ и естественный язык.

Annotation:

Numerous self-supervised learning paradigms, such as contrastive learning and masked image modeling, learn powerful representations from unlabeled data but are typically pretrained in isolation, overlooking complementary insights and yielding large models that are impractical for resource-constrained deployment. To overcome these challenges, we introduce Consensus-oriented Masked Distillation (CoMAD), a lightweight, parameter-free framework that unifies knowledge from multiple current state-of-t...

ID: 2508.04816v1 cs.CV, cs.AI

arXiv PDF

📄 Automated File-Level Logging Generation for Machine Learning Applications using LLMs: A Case Study using GPT-4o Mini

2025-08-09

Авторы:

Mayra Sofia Ruiz Rodriguez, SayedHassan Khatoonabadi, Emad Shihab

## КОНТЕКСТ И ПРОБЛЕМАТИКА Logging является важной составляющей современного программного обеспечения, позволяющей разработчикам отслеживать поведение системы и упрощающей отладку приложений. Однако создание эффективных лог-сообщений требует времени и опыта, что затрудняет обеспечение согласованности и полноты логирования, особенно в больших проектах. В последнее время исследования в области применения технологий языковых моделей (Large Language Models, LLMs) для автоматического генерирования кода получили широкое распространение. Благодаря способности LLMs к генерации естественного языка и кода, исследователи рассматривают их потенциал в создании лог-сообщений. Тем не менее, существующие исследования в этой области в основном концентрируются на лог-сообщениях, встроенных в функции кода, оставляя недостаточно изученным вопрос генерации логов на уровне файлов. Это особенно актуально для машинного обучения (ML), где комплексное логирование критически важно для обеспечения надежности и отслеживания поведения моделей. Файловое логирование в ML-проектах требует учета специфики данных, алгоритмов и структуры проекта, что делает задачу еще более сложной. Данная работа предлагает исследовать возможности GPT-4o mini, одной из LLMs, в генерации лог-сообщений для ML-проектов на уровне файлов. Изучая эту проблему, исследование помогает выявить текущие трудности и оценить перспективы применения LLMs в реальных условиях разработки. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования была выбрана модель GPT-4o mini для генерации логов в ML-проектах. Модель была запрошена для создания лог-сообщений на уровне файлов Python, основываясь на содержимом файлов без предварительных логов. Для этого были собраны данные из 171 репозиториев ML-проектов, содержащих 4073 Python-файла с логами. Оригинальные логи были удалены, чтобы создать чистые файлы для генерации. Затем, для каждого файла, модель получала запрос на генерацию логов, основываясь на его содержимом. Генерируемые логи оценивались по нескольким критериям: точность позиционирования логов, выбор уровня логирования, качество переменных и текста лог-сообщений. Для сравнения были использованы логи, написанные человеком, что позволило выявить различия и оценить эффективность генерируемых логов. Дополнительно была проведена ручная аналитика над выборкой логов, чтобы выявить типичные шаблоны и ограничения в генерируемых лог-сообщениях. Этот подход позволил оценить не только точность, но и соответствие логов конвенциям конкретных проектов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование показало, что GPT-4o mini способна вставлять логи в точках, совпадающих с рукописными логами, в 63,91% случаев. Однако при этом была зафиксирована высокая степень "overlogging" — 82,66% лог-сообщений были неправильно позиционированы или ненужны. Также было обнаружено, что модель часто генерирует логи в начале или конце функций, что может быть неэффективно в больших блоках кода. Ручной анализ выявил несколько ключевых проблем: - Чрезмерное логирование в некритичных участках кода. - Трудности в логировании внутри крупных и сложных функций. - Несоответствие логов специфичным конвенциям конкретных проектов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Несмотря на выявленные ограничения, данное исследование показывает потенциал LLMs в автоматизации логирования, особенно в ML-проектах. Автоматическое генерирование логов может значительно ускорить процесс разработки, уменьшить человеческий труд и повысить надежность систем. Однако для практического применения необходимо решить проблемы связанные с overlogging и несоответствием конвенциям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показало, что GPT-4o mini может быть полезна для генерации логов на файловом уровне, но существуют значительные проблемы, которые необходимо решить для её практического применения. Будущие исследования могут фокусироваться на улучшении точности позиционирования логов, сокращении overlogging и адаптации моделей к конкретным проектам.

Annotation:

Logging is essential in software development, helping developers monitor system behavior and aiding in debugging applications. Given the ability of large language models (LLMs) to generate natural language and code, researchers are exploring their potential to generate log statements. However, prior work focuses on evaluating logs introduced in code functions, leaving file-level log generation underexplored -- especially in machine learning (ML) applications, where comprehensive logging can enha...

ID: 2508.04820v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

2025-08-09

Авторы:

Seungyong Lee, Jeong-gi Kwak

## КОНТЕКСТ И ПРОБЛЕМАТИКА Виртуальный трай-он (virtual try-on) представляет собой технологию, позволяющую синтезировать реалистичное изображение человека в выбранной одежде, которая адаптируется к его фигуре и позе. Однако до сих пор одной из ключевых проблем в этой области остается точная моделирование соответствия между телом и одеждой, особенно при изменениях положения тела и внешнего вида. Традиционные подходы часто требуют специализированных сетей, дополнительных целей оптимизации или дополнительных меток, что увеличивает сложность и затраты вычислений. Мотивацией для исследования является необходимость разработки более универсального и эффективного решения, которое могло бы обеспечить высококачественный результат для обеих задач – виртуального трай-она и трай-оффа (удаления одежды) – в рамках единого фреймворка. Такой подход мог бы упростить процесс обучения и расширить возможности применения, обеспечивая лучшее понимание взаимодействия между одеждой и телом без необходимости дополнительных ресурсов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе авторы предлагают **Voost** – унифицированный и масштабируемый фреймворк, основанный на диффузионном трансформере, который совместно обучается на задачах виртуального трай-она и трай-оффа. Основная идея заключается в том, чтобы использовать обучение взаимно-двойному направлению (try-on и try-off) для улучшения моделирования взаимосвязи между телом и одеждой. Архитектура Voost основана на диффузионном трансформере, который позволяет эффективно обрабатывать контекстные зависимости и генерировать высококачественные изображения. Фреймворк поддерживает гибкую кондиционированию (conditioning) по направлению генерации (трай-он или трай-офф) и категории одежды. Это позволяет модели улучшить понимание взаимодействия между одеждой и телом без необходимости в специализированных сетей или дополнительных метках. Кроме того, авторы вводят два инновационных технических решения для улучшения качества генерации во время вывода (inference): 1. **Attention Temperature Scaling** – это техника, которая позволяет улучшить устойчивость модели к изменениям разрешения или масок, которые могут возникать в реальных условиях. 2. **Self-Corrective Sampling** – это метод, который использует двунаправленную консистентность между задачами трай-она и трай-оффа для самокоррекции выходных изображений, что повышает их точность и качество. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят обширные эксперименты, чтобы оценить эффективность Voost на различных датасетах и сравнить его с современными базовыми моделями. Используемые данные включают различные бенчмарки для задач трай-она и трай-оффа, которые позволяют оценить точность выравнивания, визуальную правдоподобность и общую обобщающую способность модели. Результаты показывают, что Voost достигает лучших результатов по сравнению с современными базовыми моделями. Он показывает значительное улучшение в точности выравнивания одежды относительно тела, а также визуальной фиделити (качество изображения) и общей обобщающей способности на различных датасетах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк Voost имеет широкое применение в области моды, ритейла и виртуального фитинга. Его способность выполнять оба направления – трай-он и трай-офф – в рамках одной модели делает его высоко эффективным и гибким инструментом для разработчиков и пользователей. Преимущества Voost включают в себя: - Улучшенное понимание взаимодействия между телом и одеждой. - Упрощенная модель без необходимости дополнительных сетей или меток. - Высокое качество генерации изображений с повышенной точностью и визуальной правдоподобностью. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк **Voost**, который успешно решает проблему моделирования взаимодействия между телом и одеждой в задачах виртуального трай-она и трай-оффа. Данный подход не только достигает лучших результатов по сравнению с современными базовыми моделями, но также открывает новые возможности для будущих исследований в области виртуального фитинга. Будущие исследования могут фокусироваться на дальнейшем улучшении качества генерации, в том числе на расширении диапазона категорий одежды и поддержке более сложных поз и форм тела. Также могут быть исследованы новые методы оптимизации для дальнейшего повышения эффективности и качества вывода.

Annotation:

Virtual try-on aims to synthesize a realistic image of a person wearing a target garment, but accurately modeling garment-body correspondence remains a persistent challenge, especially under pose and appearance variation. In this paper, we propose Voost - a unified and scalable framework that jointly learns virtual try-on and try-off with a single diffusion transformer. By modeling both tasks jointly, Voost enables each garment-person pair to supervise both directions and supports flexible condi...

ID: 2508.04825v1 cs.GR, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Persistent Instability in LLM's Personality Measurements: Effects of Scale, Reasoning, and Conversation History

2025-08-09

Авторы:

Tommaso Tosato, Saskia Helbling, Yorguin-Jose Mantilla-Ramos, Mahmood Hegazy, Alberto Tosato, David John Lemay, Irina Rish, Guillaume Dumas

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие больших языковых моделей (LLM) сталкивается с фундаментальной проблемой предсказуемости и стабильности поведения систем искусственного интеллекта. В контексте стремительного внедрения LLM в критически важные области - от медицинской диагностики до финансового консультирования и образовательных платформ - последовательность поведения становится не просто технической характеристикой, а фактором общественной безопасности. Однако понимание "личностных" характеристик этих моделей остаётся крайне ограниченным, что создаёт риск непредсказуемых последствий при масштабном развертывании. Существующие подходы к оценке поведения LLM фокусируются преимущественно на задачах классификации или генерации текста, упуская фундаментальный аспект стабильности личностных проявлений. Традиционные психологические инструменты, такие как Big Five Inventory (BFI-44) и Short Dark Triad (SD3), были разработаны для измерения стабильных черт личности у человека, но их применимость к искусственным системам вызывает серьёзные сомнения. Более того, предполагается, что модели большего масштаба должны демонстрировать более стабильное поведение благодаря большей "объёмности" знаний, однако эмпирическое подтверждение этой гипотезы отсутствует. Критической проблемой является отсутствие систематической методологии для оценки стабильности личностных характеристик LLM в различных условиях. Исследователи не располагают данными о том, насколько мелкие изменения в формулировках запросов, порядке вопросов или контексте взаимодействия влияют на измеряемые "личностные" характеристики моделей. Это создаёт потенциальный риск для разработчиков и пользователей, которые могут полагаться на кажущуюся стабильность поведения системы, не осознавая её чувствительности к тривиальным изменениям входных данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали комплексную оценочную рамку PERSIST (PERsonality Stability in Synthetic Text), которая представляет собой многомерный аналитический комплекс для систематического изучения стабильности личностных измерений в LLM. Рамка охватывает более 25 открытых моделей с количеством параметров от 1 до 671 миллиарда, что позволяет провести масштабный анализ зависимости стабильности от размера модели. В рамках исследования было собрано более 500,000 ответов моделей, что обеспечивает статистическую значимость полученных результатов. Методология включает два типа инструментов для измерения личностных характеристик: традиционные психологические шкалы (BFI-44 для оценки "Большой пятёрки" и SD3 для измерения "тёмной триады" личности) и специально адаптированные для LLM инструменты. Это двойное применение позволило исследовать гипотезу о том, что нестабильность может быть вызвана несоответствием человекоцентричных инструментов особенностям искусственных систем. Систематическое варьирование параметров включало четыре ключевых фактора: порядок вопросов, парафразирование формулировок, задание конкретных персон модели, и режимы рассуждений (включая chain-of-thought подход). Каждый фактор тестировался в изоляции и в комбинациях для выявления синергетических эффектов. Особое внимание уделялось влиянию истории предыдущих взаимодействий на текущие измерения, что имитирует реальные сценарии использования, где модели работают в контексте продолжительных диалогов. Аналитический аппарат включал статистические методы оценки вариативности ответов, корреляционный анализ между различными условиями тестирования, и разработку метрик для количественной оценки стабильности. Для каждой модели и условия рассчитывались стандартные отклонения показателей личности, коэффициенты корреляции между повторными измерениями, и индекс чувствительности к изменениям входных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов продемонстрировали удивительно высокий уровень вариативности в личностных измерениях даже у самых крупных моделей. Модели с 400+ миллиардами параметров показывали стандартное отклонение показателей личности более 0.4 по шкале от 0 до 1, что указывает на существенную нестабильность. Это опровергает распространённое представление о том, что увеличение размера модели автоматически приводит к более предсказу

Annotation:

Large language models require consistent behavioral patterns for safe deployment, yet their personality-like traits remain poorly understood. We present PERSIST (PERsonality Stability in Synthetic Text), a comprehensive evaluation framework testing 25+ open-source models (1B-671B parameters) across 500,000+ responses. Using traditional (BFI-44, SD3) and novel LLM-adapted personality instruments, we systematically vary question order, paraphrasing, personas, and reasoning modes. Our findings chal...

ID: 2508.04826v1 cs.CL, cs.AI

arXiv PDF

📄 Multi-Stage Knowledge-Distilled VGAE and GAT for Robust Controller-Area-Network Intrusion Detection

2025-08-09

Авторы:

Robert Frenken, Sidra Ghayour Bhatti, Hanqin Zhang, Qadeer Ahmed

## КОНТЕКСТ И ПРОБЛЕМАТИКА Контроллер Area Network (CAN) является широко используемым протоколом для взаимодействия внутри автомобилей, обеспечивая надежную передачу данных между электронными компьютерными системами. Однако, несмотря на его эффективность, CAN открыт для кибер-атак из-за отсутствия встроенных механизмов безопасности. Это делает автомобили уязвимыми к несанкционному вмешательству, что может привести к серьезным последствиям, включая потерю контроля над автомобилем. Интрусивное обнаружение (Intrusion Detection System, IDS) является ключевым решением для обеспечения безопасности CAN. Однако, существующие методы IDS для CAN-трафика сталкиваются с несколькими проблемами, включая классическую несбалансированность данных (class imbalance), высокую сложность моделей, и ограниченную эффективность в реальных условиях. Основным вызовом является разработка методологии, которая может эффективно обнаруживать аномалии и кибер-атаки в CAN-трафике, особенно когда данные характеризуются высокой несбалансированностью классов. Традиционные методы, основанные на статистических моделях или машинном обучении, часто не справляются с этими вызовами из-за недостатка мощности модели или недостаточного учета временных и структурных зависимостей в данных. Предлагаемая статья предлагает инновационный подход, который сочетает неконтролируемые методы обнаружения аномалий (unsupervised anomaly detection) и контролируемые графовые модели обучения (supervised graph learning) для улучшения точности и эффективности обнаружения атак в CAN-протоколе. Этот подход использует графовые модели для моделирования временных и структурных отношений между сообщениями CAN, что позволяет более точно определять аномалии и атаки. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемая система интрусивного обнаружения основывается на многоступенчатой архитектуре, которая интегрирует Variational Graph Autoencoder (VGAE) и Knowledge-Distilled Graph Attention Network (KD-GAT). Эта система разработана специально для обнаружения аномалий и кибер-атак в трафике CAN. Первым этапом является представление CAN-трафика в виде последовательностей графов, где узлы графа представляют отправителей и получателей сообщений, а ребра обозначают взаимодействия между ними. Это позволяет моделировать временные и структурные зависимости между сообщениями, что критически важно для обнаружения атак. Затем, VGAE используется для выявления структурных аномалий в графовой структуре. VGAE обучается на графовой представлении CAN-трафика для выявления необычных или подозрительных структур, которые могут указывать на атаку. Для решения проблемы классовой несбалансированности, VGAE также применяется для селективного undersampling, что помогает сократить количество данных без потери информации. На последующем этапе, Gra

Annotation:

The Controller Area Network (CAN) protocol is a standard for in-vehicle communication but remains susceptible to cyber-attacks due to its lack of built-in security. This paper presents a multi-stage intrusion detection framework leveraging unsupervised anomaly detection and supervised graph learning tailored for automotive CAN traffic. Our architecture combines a Variational Graph Autoencoder (VGAE) for structural anomaly detection with a Knowledge-Distilled Graph Attention Network (KD-GAT) for ...

ID: 2508.04845v1 cs.LG, cs.AI

arXiv PDF

1
2
3376
3377
3378
3379
3380
3402
3403

Показано 33771 - 33780 из 34022 записей