📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Kaixiang Zhao, Lincan Li, Kaize Ding, Neil Zhenqiang Gong, Yue Zhao, Yushun Dong

## Контекст Область исследования сосредоточена на Model Extraction Attacks (MEAs) — систематических нападениях, направленных на копирование функциональности целевой модели машинного обучения (ML) с помощью открыто доступных интерфейсов. Эти атаки становятся возможными из-за роста использования Machine-Learning-as-a-Service (MLaaS), который обеспечивает доступ к мощным моделям ML с помощью простых API. Это продвижение обеспечивает широкий доступ к технологиям ML, однако также создает уязвимости, которые могут быть использованы злоумышленниками для украдения моделей, нарушения конфиденциальности и подрыва безопасности. Эти угрозы касаются не только интеллектуальной собственности, но и безопасности систем и отношений доверия в мире AI. Этот статус MEAs как важной проблемы мотивирует подробное изучение методов атак и защитных стратегий. ## Метод В статье предлагается новая категоризация MEAs на основе механизмов атак, стратегий защиты и используемых вычислительных парадигм. Описываются различные типы атак, включая black-box и white-box, и выделяются их принципы работы. Методы защиты рассматриваются в рамках синтетического шума, обучения с подкреплением, методов обобщения моделей и других. Архитектура исследования заключается в обобщений и сравнении этих методов, используя различные вычислительные платформы. Эксперименты выполняются с использованием различных данных, таких как CIFAR-10 и ImageNet, чтобы оценить эффективность атак и защитных методов. ## Результаты Результаты статьи основываются на экспериментальных исследованиях, проведенных на различных моделях и датасетах. Были изучены эффективность различных типов атак, в том числе их успешность в подборе моделей, точность и время выполнения. Также проанализированы защитные методы, включая модели с туннельной верификацией и методы, основанные на метриках защиты. Результаты показали, что некоторые защитные стратегии могут существенно снизить эффективность MEAs, но при этом ухудшают производительность модели или приводят к увеличению времени обучения. Эти результаты подчеркивают трудную проблему: поддержание баланса между безопасностью и производительностью. ## Значимость Эта работа имеет значительное значение для различных областей, включая AI-безопасность, юридические вопросы и социальные вопросы. Методы защиты, предложенные в статье, могут быть применены в MLaaS-платформах, чтобы уменьшить риск MEAs и защитить интеллектуальную собственность. Более широко, эти решения могут оказаться полезными для индустрии, разработчиков и пользователей, которые используют ML-модели в с
Annotation:
Machine learning (ML) models have significantly grown in complexity and utility, driving advances across multiple domains. However, substantial computational resources and specialized expertise have historically restricted their wide adoption. Machine-Learning-as-a-Service (MLaaS) platforms have addressed these barriers by providing scalable, convenient, and affordable access to sophisticated ML models through user-friendly APIs. While this accessibility promotes widespread use of advanced ML ca...
ID: 2508.15031v1 cs.CR, cs.AI, cs.LG
Авторы:

Itai Zilberstein, Alberto Candela, Steve Chien, David Rijlaarsdam, Tom Hendrix, Leonie Buckley, Aubrey Dunne

#### Контекст Современные исследования в области земных наук сталкиваются с вызовом необходимости анализа больших объемов данных в реальном времени. Земные наблюдения, использующие спутниковые телескопы с высокой разрешающей способностью, требуют быстрого анализа информации для поддержки эффективных решений в сложных средах. Одним из ключевых подходов является использование компьютерного зрения и глубокого обучения для анализа данных, но развертывание этих технологий на спутниках в реальном времени требует дополнительного оборудования и эффективного алгоритмического подхода. Целью этого исследования является показать, что мощные алгоритмы для спектрального анализа и глубокого обучения могут работать на спутнике в реальном времени, обеспечивая новый подход к телеметрии и контролю спутниковых миссий. #### Метод Методология разработки предполагает использование алгоритмов спектрального анализа и глубокого обучения на борту спутника CogniSAT-6/HAMMER (CS-6), обладающего видимо-инфракрасным гиперспектром и аппаратурой для ускорения нейросетей. На вход данным являются спектральные данные, полученные с помощью гиперспектрометра. Алгоритмы глубокого обучения анализируют эти данные, выявляя признаки и создавая прогнозы, в то время как алгоритмы спектрального анализа выявляют интересующие области на земной поверхности. Для реализации создан оптимизированный алгоритм, который обеспечивает быструю обработку данных в реальном времени, при этом учитывая ограничения ресурсов на спутнике. #### Результаты В ходе экспериментов проводилась демонстрация возможности выполнения больших вычислений на спутнике с использованием глубокого обучения и спектрального анализа. Для этого использовались данные, полученные с земли, а также данные, собранные на спутнике в реальном времени. Результаты показали, что алгоритмы могут быстро и точно идентифицировать интересующие области на земной поверхности, включая полярные регионы и тропические районы. Эти результаты демонстрируют возможность использования глубокого обучения для повышения точности и эффективности анализа данных в спутниковых миссиях. #### Значимость Результаты исследования имеют значительное значение для развития телеметрии и контроля спутниковых миссий. Например, применение глубокого обучения может помочь выявлять интересующие области в регионах, где требуется оперативная информация, такая как поиск активности землетрясений или изменений климата. Это также открывает новые возможности для автоматизации процессов мониторинга и контроля спутниковой техни
Annotation:
In partnership with Ubotica Technologies, the Jet Propulsion Laboratory is demonstrating state-of-the-art data analysis onboard CogniSAT-6/HAMMER (CS-6). CS-6 is a satellite with a visible and near infrared range hyperspectral instrument and neural network acceleration hardware. Performing data analysis at the edge (e.g. onboard) can enable new Earth science measurements and responses. We will demonstrate data analysis and inference onboard CS-6 for numerous applications using deep learning and ...
ID: 2508.15053v1 cs.AI, cs.LG
Авторы:

John E. Hummel, Rachel F. Heaton

#### Контекст Уникальность человеческого разума заключается в способности к символическому мышлению, которое отсутствует у большинства других животных. Одной из ключевых загадок является возможность динамического связывания нейронов, которая, несмотря на её необходимость, оказывается не достаточной для реализации символического мышления. Целью данной работы является изучение дополнительных механизмов, необходимых для формирования символического разума. На основе теоретических работ и предыдущих исследований было предложено, что минимальным условием для получения символического мышления является не только динамическое связывание, но также два типа гиерархической интеграции: объединение ролей в многоместные предикаты и сопоставление структур. Данный подход был проверен с помощью систематической коллекции симуляционных экспериментов. #### Метод В работе использовались 17 систематически созданных симуляций, нацеленных на проверку полученных гипотез. Эксперименты были ориентированы на оценку способности разных моделей знаний к выполнению задач, зависящих от возможности реализации многоместных предикатов и метода сопоставления структур. Архитектуры моделей включали модели с возможностью динамического связывания, а также модели с дополнительными механизмами для гиерархической интеграции. Все задачи были спроектированы на уровне абстракции, не позволяющем использовать конкретные диагностические признаки, чтобы проверить только гипотезу о важности выделенных механизмов. #### Результаты На основе результатов симуляций было показано, что модели с возможностью динамического связывания, многоместных предикатов и методом сопоставления структур показали значительно более высокую эффективность в выполнении задач, относящихся к символическому мышлению, в сравнении с моделями, не обладающими этими механизмами. Эти результаты подтверждают гипотезу, что динамическое связывание, многоместные предикаты и метод сопоставления структур являются минимальными условиями для формирования символического разума. Эти механизмы позволяют моделям обрабатывать информацию на более высоком уровне абстракции, чем модели, не обладающие этими возможностями. #### Значимость Полученные результаты имеют значительное значение для развития биоинспирированных систем искусственного интеллекта. Они могут помочь в развитии систем, подходящих под принципы биологического развития интеллекта, но при этом имеющих возможность уменьшить необходимость в больших объемах данных для обучения. Это может стать важным шагом в развитии методов, которые б
Annotation:
What is it about human brains that allows us to reason symbolically whereas most other animals cannot? There is evidence that dynamic binding, the ability to combine neurons into groups on the fly, is necessary for symbolic thought, but there is also evidence that it is not sufficient. We propose that two kinds of hierarchical integration (integration of multiple role-bindings into multiplace predicates, and integration of multiple correspondences into structure mappings) are minimal requirement...
ID: 2508.15082v1 cs.NE, cs.AI, cs.LG, q-bio.NC, I.2.6; I.2.4; I.2.10; I.2.0; I.5.1; J.4
Авторы:

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro

## Контекст Одним из наиболее затруднительных и интересных областей исследований в машинном обучении является построение моделей с высокими резольюциями, которые могут обрабатывать сложные логические задачи, включая математический анализ и программирование. Для этого необходимо обучать модели на больших, высококачественных данных, которые могут поддерживать и улучшать разумные решения. Несмотря на то, что существуют многочисленные наборы данных для математического моделирования, они часто страдают от несогласованности, потери структуры и ошибок в форматировании. Это приводит к ограниченному улучшению моделей в области проблем с логическими и математическими елементами. ## Метод Методология, предложенная в работе, заключается в создании новой многошаговой архитектуры для построения высококачественных корпусов данных, ориентированных на математические задачи. На начальном этапе используется пайплайн, основанный на различных инструментах для визуального распознавания математических формул и кода. Это позволяет извлекать математические формулы и код из различных форматов, включая MathJax, KaTeX и MathML. Затем применяется целевой LLM-based cleaning stage для удаления ненужных элементов, стандартизации форматирования на LaTeX и исправления неточностей. Это позволяет сохранить структурную целостность данных и улучшить их качество. ## Результаты В результате применения предложенной методологии был получен большой, высококачественный математический корпус Nemotron-CC-Math-3+, содержащий 133 миллиардов токенов, и Nemotron-CC-Math-4+, содержащий 52 миллиардов токенов. Эти данные были использованы для обучения моделей типа Nemotron-T 8B, которые показали результаты, значительно превосходящие существующие базы данных, такие как MegaMath, FineMath и OpenWebMath. Этот подход привел к +4.8 до +12.6 улучшений на математических задачах и до +14.3 на задачах по программированию. ## Значимость Предложенный подход имеет широкие области применения в машинном обучении, обработке текстов, моделировании математических задач и кодировании. Преимущество заключается в улучшении качества моделей, благодаря достижению более высокого уровня точности и стабильности в обработке математических задач. Это может привести к новым возможностям в области автоматизации проблемно-ориентированных задач, включая распознавание и решение математических задач в реальном времени. ## Выводы Результаты работы указывают на будущие направления исследований в повышении качества математических данных для обучения моделей. Модели, обученные на таких высококачественных данных, могут продемонстрировать значительный прогресс в выполнении логических и математических за
Annotation:
Pretraining large language models (LLMs) on high-quality, structured data such as mathematics and code substantially enhances reasoning capabilities. However, existing math-focused datasets built from Common Crawl suffer from degraded quality due to brittle extraction heuristics, lossy HTML-to-text conversion, and the failure to reliably preserve mathematical structure. In this work, we introduce Nemotron-CC-Math, a large-scale, high-quality mathematical corpus constructed from Common Crawl usin...
ID: 2508.15096v1 cs.CL, cs.AI, cs.LG
Авторы:

Sunkalp Chandra

#### Контекст Обнаружение и оценка риска приближающихся к Земле объектов (NEOs) являются ключевыми задачами в планеетной науке и космической безопасности. Небезопасные подлеты могут привести к катастрофическим последствиям для земной жизни и инфраструктуры. Однако поиск и оценка риска NEOs чрезвычайно сложны из-за неполноты данных, сложности паттернов и ограниченности моделей. В этой статье рассматривается использование машинного обучения для бинарной классификации NEOs в зависимости от их опасности. Основной мотивацией является улучшение точности и надежности прогнозирования, чтобы обеспечить более эффективное раннее обнаружение опасных NEOs. #### Метод Для проведения исследования использовались методы машинного обучения, включающие в себя данные по приближению NEOs, трансформацию мощности и масштабирование. Шесть моделей классификации были сравнены: Random Forest Classifier (RFC), Gradient Boosting Classifier (GBC), Support Vector Classifier (SVC), Linear Discriminant Analysis (LDA), Logistic Regression (LR) и K-Nearest Neighbors (KNN). Для каждой модели был произведен подбор гиперпараметров, использование кросс-валидации и разные стратегии ресемплинга, чтобы оптимизировать производительность. Основной подход заключался в эмпирическом сравнении результатов классификации по метрикам, таким как F2-метрика, precision, recall и accuracy. #### Результаты Результаты экспериментов показали, что Random Forest Classifier и Gradient Boosting Classifier показали самые высокие результаты с F2-метрикой 0.987 и 0.986, соответственно. Они также показали малый дисперсионный индекс и незначительные значения false-negative и false-positive. Остальные модели (SVC, LDA, LR и KNN) также показали достойные результаты, но с меньшей точностью и надежностью. В частности, KNN работал хуже из-за его неустойчивости при обработке сложных зависимостей в данных. Акцент был сделан на том, что ensemble-методы, такие как RFC и GBC, демонстрируют более высокую точность и достоверность в прогнозировании NEOs. #### Значимость Найденные результаты могут быть применены в планеетной науке для повышения эффективности систем мониторинга и оценки риска. Использование ensemble-методов, таких как RFC и GBC, демонстрирует высокую точность и относительно низкую стоимость для обнаружения опасных NEOs. Эти модели могут быть использованы в системах космического мониторинга для быстрого и точного определения опасности приближающихся объектов. Будущие исследования могут сосредоточиться на дополнительном оптимизации гиперпараметров и использовании дополнительных признаков для улучшения моделей. #### Выводы В этом исследовании был проведен сравнительный анализ различных моделей машинного обучения для определения опасности NEOs. Наилуч
Annotation:
This study evaluates the performance of several machine learning models for predicting hazardous near-Earth objects (NEOs) through a binary classification framework, including data scaling, power transformation, and cross-validation. Six classifiers were compared, namely Random Forest Classifier (RFC), Gradient Boosting Classifier (GBC), Support Vector Classifier (SVC), Linear Discriminant Analysis (LDA), Logistic Regression (LR), and K-Nearest Neighbors (KNN). RFC and GBC performed the best, bo...
ID: 2508.15106v1 astro-ph.EP, astro-ph.IM, cs.AI, cs.LG
Авторы:

Huanxuan Liao, Yixing Xu, Shizhu He, Guanchen Li, Xuanwu Yin, Dong Li, Emad Barsoum, Jun Zhao, Kang Liu

#### Контекст Современные боLты на основе текста сталкиваются с значительными проблемами в обработке длинных контекстов. Это связано с тем, что хранилище ключ-значение (KV cache) растет линейно с увеличением длины последовательностей, в то время как вычисление внимания происходит квадратично. Это приводит к значительным ограничениям в памяти и вычислительной сложности. Одним из главных подходов является сжатие KV-хранилища по временной оси с помощью таких методов, как удаление токенов, объединение каналов или мерджинг. Однако эти методы часто не учитывают тонкости важности каналов (например, на строковой оси), что ограничивает их эффективность. Наша мотивация заключается в разработке метода, который бы учитывал важность каналов в зависимости от контекста, чтобы эффективно уменьшить вычислительные затраты. #### Метод Мы предлагаем SparK, совершенно новый метод, который уменьшает нагрузку на KV-хранилище при обработке ввода, используя спарсинг по каналам. SparK применяет неструктурированную спарсингу на уровне каналов, что означает, что он удаляет некоторые каналы, но восстанавливает их при вычислении скорости внимания. Этот подход позволяет сохранить модельную точность, даже если большая часть каналов будет удалена. Метод не требует обучения и является взаимозаменяемым с другими методами сжатия KV-хранилища. #### Результаты Мы провели эксперименты на различных датасетах, включая LongBench, Long-Range Arena и другие. Проанализировали поведение SparK в сценариях с длинными контекстами и по сравнению с другими методами сжатия KV-хранилища. Наши результаты показали, что SparK уменьшает расход памяти на более чем 30% по сравнению с удалением токенов, при этом сохраняя почти те же результаты точности. Кроме того, даже при сжатии на 80%, SparK сохраняет модельную точность близкую к базовому методу с восстановлением токенов. Эти результаты демонстрируют высокую эффективность SparK в уменьшении нагрузки на KV-хранилище. #### Значимость SparK широко может быть применен в области обработки естественного языка, где требуется обработка длинных контекстов. Этот метод имеет преимущества перед существующими подходами, так как он уменьшает нагрузку на память, не требуя дополнительного обучения. Также SparK может быть интегрирован с другими методами сжатия KV-хранилища для дополнительного увеличения производительности. Это открывает новые возможности для работы с большими моделями и длинными контекстами. #### Выводы Мы представили метод SparK, который предлагает новый подход к сжатию KV-хранилища при обработке длинных контекстов. Метод SparK демонстрирует высокую эффективно
Annotation:
Long-context inference in large language models (LLMs) is increasingly constrained by the KV cache bottleneck: memory usage grows linearly with sequence length, while attention computation scales quadratically. Existing approaches address this issue by compressing the KV cache along the temporal axis through strategies such as token eviction or merging to reduce memory and computational overhead. However, these methods often neglect fine-grained importance variations across feature dimensions (i...
ID: 2508.15212v1 cs.CL, cs.AI, cs.LG
Авторы:

Hanling Zhang, Yayu Zhou, Tongcheng Fang, Zhihang Yuan, Guohao Dai, Yu Wang

## Контекст Small Language Models (SLMs) предлагают существенные выгоды в плане вычислительной эффективности для ресурсно-ограниченных сред, таких как edge devices. Однако они сталкиваются с значительным ограничением — ограниченным объемом памяти. Это ограничение особенно актуально для компонентов, связанных с семантическим представлением языка, таких как входные тензоры (embeddings) и модели языка (LM heads). Эти компоненты требуют большого объема памяти из-за великого размера словаря. Однако статическая оптимизация, например, pruning, часто приводит к утере информации и неэффективности в условиях реальных задач. В статье предлагается новый подход к динамическому управлению словарем, который адаптируется к конкретным задачам и устраняет недостатки статических методов. ## Метод Работа предлагает VocabTailor — новую систему динамического управления словарем, основывающуюся на двух ключевых принципах. Во-первых, **lexical locality principle**, подчеркивающий, что только малая часть словаря используется в каждом отдельном запросе. Во-вторых, **asymmetry in computational characteristics**, отражающий разные уровни сложности вычислений для разных частей словаря. VocabTailor предлагает декоупленную архитектуру, включающую: 1. **Dynamic Embedding Offloading**: возможность загружать в память только те части входных тензоров, которые требуются для конкретной задачи. 2. **Hybrid Static-Dynamic Vocabulary Selection**: стратегия, которая загружает только те части словаря, необходимые для конкретной задачи, во время выполнения. Эта система разработана с учетом того, чтобы обеспечить эффективность в ресурсно-ограниченных условиях, не ущемляя точность модели. ## Результаты Проведены ряд экспериментов для оценки эффективности VocabTailor на различных задачах, включая текстовый классификатор, трансформацию текста и генерацию текста. Использовались стандартные данные, такие как GLUE benchmark и собственные наборы данных для реальных приложений. Результаты показали, что VocabTailor достигает снижения потребления памяти в 99% для входных тензоров и в значительной степени для словарей LM Head, при этом сохраняя высокую точность модели. Был проведен анализ того, как динамическая система словарей позволяет уменьшить время исполнения и потребление памяти без значительного снижения качества решения задачи. ## Значимость VocabTailor внедряет новый подход к динамическому управлению ресурсами в моделях языка, который может быть применен в различных областях: 1. **Edge Devices**: обеспечение эффективности ресурсов для мобильных приложений и IoT-устройств. 2. **Resource-Constrained Environments**: перенос моделей языка на серверы с ограниченным объемом памяти. 3. **Flexibility and Adaptability**: разработка моделе
Annotation:
Small Language Models (SLMs) provide computational advantages in resource-constrained environments, yet memory limitations remain a critical bottleneck for edge device deployment. A substantial portion of SLMs' memory footprint stems from vocabulary-related components, particularly embeddings and language modeling (LM) heads, due to large vocabulary sizes. Existing static vocabulary pruning, while reducing memory usage, suffers from rigid, one-size-fits-all designs that cause information loss fr...
ID: 2508.15229v1 cs.CL, cs.AI, cs.LG
Авторы:

Da Zhang, Xin Li, Yibin Guo, Haifeng Yu, Yirong Jin, Zhang-Qi Yin

## Контекст Скорость развития машинного обучения и квантового вычисления положила квантовое машинное обучение на переднюю плату исследований. Однако существующие квантовые алгоритмы машинного обучения, основанные на квантовых вариационных алгоритмах, сталкиваются с проблемами, такими как трудности в обучении и уязвимость к шумам. Для решения этих задач предлагается новый алгоритм квантового резервного учета, основанный на динамике дискретных кристаллов времени. Этот подход гарантирует градиентно-свободное и устойчивое к шумам решение, которое может быть эффективно реализовано на современных квантовых платформах. ## Метод Алгоритм основывается на использовании динамики дискретных кристаллов времени в качестве резервного учета. Это позволяет обеспечить высокую топологическую устойчивость к шумам и при этом исключить необходимость градиентного метода для обучения. Метод построен на меры вхождения в резерв, параметризованные с помощью динамики кристаллов времени, что делает его эффективным в задачах классификации. Важной особенностью является использование лишь одного квантового узла, что позволяет экономить ресурсы и обойти проблемы с шумом, характерными для квантовых систем. ## Результаты Разрабатываемый алгоритм был протестирован на задачах классификации изображений. Модель показала высокую точность в простых задачах классификации (двоичной), а также при классификации на 10 классов. Эксперименты проводились на суперпроводящих квантовых процессорах, а также в условиях шумавых условий. Результаты показали, что модель превосходит квантовые вариационные алгоритмы по точности и устойчивости к шумам. Это свидетельствует о том, что динамика кристаллов времени действительно предоставляет новый класс решений для квантового резервного учета. ## Значимость Разработанный алгоритм может быть использован в различных квантовых приложениях, включая классификацию изображений и обработку сигналов. Он демонстрирует высокую топологическую устойчивость к шумам и эффективность даже на малых квантовых системах. Это может привести к новым принципам проектирования квантовых машинных алгоритмов, особенно в условиях неидеальных квантовых систем (NISQ-ERA). Будущие исследования будут сконцентрированы на расширении возможностей данного подхода для более сложных задач обучения и квантовых систем. ## Выводы Разработанный алгоритм является первым примером квантового резервного учета, основанного на дискретных кристаллах времени, для задач классификации изображений. Он устанавливает связь между квантовыми многолоконными
Annotation:
The rapid development of machine learning and quantum computing has placed quantum machine learning at the forefront of research. However, existing quantum machine learning algorithms based on quantum variational algorithms face challenges in trainability and noise robustness. In order to address these challenges, we introduce a gradient-free, noise-robust quantum reservoir computing algorithm that harnesses discrete time crystal dynamics as a reservoir. We first calibrate the memory, nonlinear,...
ID: 2508.15230v1 quant-ph, cs.AI, cs.LG
Авторы:

Xiancheng Gao, Yufeng Shi, Wengang Zhou, Houqiang Li

## Контекст Обучение с подкреплением (RL) широко используется для решения сложных задач, но наиболее успешными подходами являются те, которые полагаются на доступ к окружению и могут исправлять ошибки в процессе обучения. Однако в некоторых ситуациях доступа к окружению нет, и требуется метод, позволяющий обучаться только из уже существующих данных. Такие ситуации встречаются в области **выборочного RL**, где модель обучается с помощью статических наборов данных, не требуя дополнительных взаимодействий с окружением. Одна из сложностей выборочного RL заключается в том, что для эффективного обучения требуются хорошо определенные функции награды. Их разработка трудоемка и дорогостоящая, что ограничивает применение данного подхода. Другой подход — использование **людского вклада**, но он также имеет ограничения. Например, опытные демонстрации могут предоставлять строгую пошаговую наставку, но их сбор дорогостоящий, а поведение моделей часто ограничено теми режимами, которые показал эксперт. Форма людского вклада в виде **предпочтений** является более гибкой, но существует проблема **кредитного назначения** (credit assignment): не всегда понятно, какие части траектории действий вносят наиболее весомый вклад в результат. Таким образом, необходима новая методология, которая объединит достоинства обоих форм людского вклада. ## Метод **Search-Based Preference Weighting (SPW)** — это метод, призванный решить проблему кредитного назначения в выборочном RL. Он работает следующим образом: для каждой траектории, полученной с помощью предпочтений, SPW ищет наиболее похожие состояния-действия из существующих экспертных демонстраций. Эти состояния-действия являются ключевыми для определения того, какой фрагмент траектории внес максимальный вклад в суммарный результат. Для каждого из этих состояний-действий SPW вычисляет вес, который указывает на их вклад в полученный результат. Эти веса, в свою очередь, используются для уточнения траектории и лучшего назначения кредита. Технически SPW обращается к **ближайшему соседу (Nearest Neighbor)** для поиска экспертных демонстраций, используя метрики сходства, такие как **Cosine Similarity**. Это позволяет вести поиск в высокомерном пространстве, используя сохраненные данные экспертного поведения. Основное преимущество метода заключается в его **гибкости** в использовании двух форм людского вклада, что делает его более эффективным в ситуациях, когда обе формы могут быть использованы одновременно. ## Результаты Эксперименты проводились на сложных задачах **робот-манипуляции**, где SPW был сравнен с другими методами, и
Annotation:
Offline reinforcement learning refers to the process of learning policies from fixed datasets, without requiring additional environment interaction. However, it often relies on well-defined reward functions, which are difficult and expensive to design. Human feedback is an appealing alternative, but its two common forms, expert demonstrations and preferences, have complementary limitations. Demonstrations provide stepwise supervision, but they are costly to collect and often reflect limited expe...
ID: 2508.15327v1 cs.AI, cs.LG
Авторы:

Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen

## Контекст Развитие больших спеech-language моделей (LSLMs) сталкивается с рядом проблем, включая разрозненные архитектуры, непрозрачность процесса обучения и невозможность повторного воспроизведения результатов. Эти проблемы затрудняют сравнение и репликацию исследований в этой области. В отличие от визуально-языковых моделей, в сфере speech-language широко распространена практика выпуска моделей с неполными данными обучения и непрозрачными конфигурациями. Для устранения этих проблем мы предлагаем LLaSO — первый полностью открытый и полностью доступный фреймворк для моделирования speech-language на большом масштабе. LLaSO предоставляет сообществу три ключевые ресурса: 1) LLaSO-Align — 12 миллионов записях спеech-text alignment; 2) LLaSO-Instruct — 13.5 миллионов записей для многозадачного тренирования; и 3) LLaSO-Eval — реплицируемый бенчмарк для стандартной оценки моделей. ## Метод Мы разработали LLaSO как полностью открытый фреймворк, который включает в себя следующие этапы: (1) Создание и открытие LLaSO-Align — крупномасштабного корпуса спеech-text alignment, покрывающего различные регионы и акценты. (2) Создание и открытие LLaSO-Instruct — многозадачного датасета для тренировки моделей на основе инструкций. (3) Разработка LLaSO-Eval — создание реплицируемого и прозрачного метода оценки моделей. Для подтверждения эффективности, мы выпустили LLaSO-Base — модель с 3.8 миллиардами параметров, обученную исключительно на открытых данных. ## Результаты Мы провести эксперименты, в ходе которых проанализировали различные аспекты LLaSO-Base. Модель была протестирована на нескольких задачах, включая потоковое распознавание речи, транскрипцию и синтез речи. Мы получили нормализованный результат 0.72, набираясь перед подобными моделями в своем классе. Наши результаты показали, что широкое покрытие обучения модели повышает ее общеуниверсальную производительность, но в случае с чисто аудиовыводом существуют существенные проблемы с generalization. Это открывает путь для последующих исследований в области достижения более высокой универсальности. ## Значимость LLaSO предлагает несколько значимых приложений: 1) Использование в научных исследованиях для построения более открытых и реплицируемых моделей. 2) Улучшение практик открытого образования в AI. 3) Продвижение совместных усилий в развитии новых алгоритмов. 4) Ускорение прогресса в решении задач многоязычного транскриптирования и распознавания речи. Этот фреймворк позволяет сообществу создавать и анализировать модели с более высокой прозрачностью и доступностью, что делает его ключевым инструментом для продвижения научных исследо
Annotation:
The development of Large Speech-Language Models (LSLMs) has been slowed by fragmented architectures and a lack of transparency, hindering the systematic comparison and reproducibility of research. Unlike in the vision-language domain, the LSLM field suffers from the common practice of releasing model weights without their corresponding training data and configurations. To address these critical gaps, we introduce LLaSO, the first fully open, end-to-end framework for large-scale speech-language m...
ID: 2508.15418v1 cs.CL, cs.AI, cs.LG, cs.MM, cs.SD
Показано 1471 - 1480 из 1687 записей