📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Mandeep Rathee, Venktesh V, Sean MacAvaney, Avishek Anand

## Контекст Информационное восстановление (IR) и текстовое понимание являются ключевыми областями искусственного интеллекта, которые находят применение в различных приложениях, включая поисковые системы и диалоговые системы. Одна из сложностей в этих областях заключается в том, чтобы обеспечить высокую точность и человеческий качество ответов при ограниченных ресурсах и временных ограничениях. Классические подходы к IR основываются на классификации, опорных векторах и других статических методах. Однако эти подходы часто не способны адаптироваться к контексту и неоднородности данных. Недавние развития в области генерирующих моделей и адаптивного IR позволили ввести новые подходы, которые могут оптимизировать результаты в реальном времени. Одна из таких технологий — Retrieval-Augmented Generation (RAG), которая объединяет документов из внешних источников с мощными генерирующими языковыми моделями. Тем не менее, большинство RAG-систем статичны по дизайну, что ограничивает их эффективность в сложных задачах, которые требуют итеративного поиска и высокоточного восстановления. В этом контексте возникает потребность в развитии более динамичных методов, которые могут использовать фидбек от пользователя или системы для улучшения результатов. ## Метод В центре данного исследования лежит RAG-фреймворк, который использует документы из внешнего корпуса для улучшения понимания и генерации ответов. Методология основывается на двух основных компонентах: 1) внешний корпус документов, используемый для восстановления информации, и 2) модель генерирующего языка, которая формирует ответы на основе полученной информации. Ключевым инновационным аспектом является внедрение адаптивного механизма фидбека. Этот механизм позволяет модели адаптироваться к новым сигналам, которые могут быть получены как от пользователя, так и от системы. Разработанная архитектура включает в себя следующие этапы: 1. **Инициализация корпуса**: Выбор и инициализация внешнего корпуса документов. 2. **Извлечение фидбека**: Идентификация и извлечение фидбека из пользовательских запросов или интерактивных сигналов. 3. **Обновление модели**: Использование фидбека для обновления модели и внесения изменений в корпус документов. 4. **Повторная итерация**: Запуск новой итерации с учетом обновленных данных. ## Результаты Исследование включало эксперименты на нескольких датасетах, включая TREC-COVID, CQADupStack и GovReport. Были проведены сравнительные анализы с другими подходами, включая традиционный IR и статические RAG-системы. Основные результаты включают: -
Annotation:
Retrieval-Augmented Generation (RAG) has emerged as a standard framework for knowledge-intensive NLP tasks, combining large language models (LLMs) with document retrieval from external corpora. Despite its widespread use, most RAG pipelines continue to treat retrieval and reasoning as isolated components, retrieving documents once and then generating answers without further interaction. This static design often limits performance on complex tasks that require iterative evidence gathering or high...
ID: 2508.15437v1 cs.IR, cs.AI, cs.LG
Авторы:

Yekun Zhu, Guang Chen, Chengjun Mao

## Контекст Modern AI-driven systems, особенно Large Language Models (LLMs), становятся все более важными для решения сложных задач, включая логическое рассуждение. Однако, существуют проблемы: как LLM может адаптировать свой подход к вопросу в зависимости от его сложности? В настоящее время, многие модели используют "chains-of-thought" (цепочки мыслей), которые позволяют решать задачи, но эта парадигма не всегда эффективна. Работа моделей может быть замедлена слишком длинными цепочками, или, наоборот, может не быть достаточно подробной, что приводит к неточностям. Предлагаемая модель, Think in Blocks, предлагает новый подход для адаптивного рассуждения. Она позволяет модели либо выбрать нулевую сложность (без применения цепочки мыслей), либо применить максимально сложное рассуждение в зависимости от задачи. Этот подход мог бы решить проблему эффективности и точности в рассуждении, становясь универсальным инструментом для разных типов задач. ## Метод Think in Blocks предлагает использовать **block-structured paradigm** (блочную модель), где модель сначала предсказывает число блоков (или шагов), которые будет использовать для решения задачи. Это число - это "reasoning budget" (бюджет рассуждения). Каждый блок - это отдельный шаг в цепочке мыслей, позволяя модели контролировать глубину и сложность своего рассуждения. Тренировка модели происходит в трех этапах: 1. **Supervised Fine-Tuning (Супервизированное Финетюнинг)** - модель учится предсказывать число блоков и генерировать соответствующий ответ. 2. **Reward-guided Direct Preference Optimization (Оптимизация с признаком награды)** - модель оптимизируется для повышения качества решения задач. 3. **Reinforcement Learning (Удовлетворение требований)** - модель модифицируется с использованием градиентного оптимизации, чтобы повысить свою эффективность при работе с задачами разной сложности. Эта архитектура позволяет модели адаптироваться к задаче в реальном времени, гибко контролируя свою сложность и эффективность. ## Результаты В экспериментах, Think in Blocks показала сильный показатель на ряде задач, включая сложные логические задачи. Используя данные из различных наборов, модель продемонстрировала способность адаптироваться к различным уровням сложности, выбирая идеальное число блоков для каждой задачи. Эксперименты показывают, что модель может быстро решать простые задачи без лишнего рассуждения, при этом в сложных случаях она может использовать более длинные цепочки мыслей. Это дает модели высокую точность и эффективность при работе с различными типами задач. ## Значимость Think in Blocks может быть применена в различных областях, где необходимо адаптивное и эффективное рассуждение. Например, в области компьютерного зрения, где моде
Annotation:
Large Language Models (LLMs) with chains-of-thought have demonstrated strong performance on an increasing range of tasks, particularly those involving complex logical reasoning. However, excessively long chains can lead to overthinking, causing computational waste and slower responses. This raises a question: can LLMs dynamically adjust the length of their reasoning processes based on task complexity? To address this, we propose the Think in Blocks framework, which enables adaptive reasoning-fro...
ID: 2508.15507v1 cs.AI, cs.LG
Авторы:

Vivin Vinod, Peter Zaspel

#### Контекст Уточнение неопределенности (унисе) — важная компонента активного обучения, особенно при прогнозировании квантово-химических свойств. В квантовой химии существует понятие "фидальности" — более точные вычисления требуют более высоких ресурсов. Однако некоторые низкофидальные модели могут дать приемлемую точность при значительно более низкой стоимости. Недостаток существующих подходов заключается в том, что они не учитывают качественную разницу между высоко- и низкофидальными моделями. Это работа предлагает новый подход к уточнению неопределенности, который информирован о низкофидальности модели и применяется к активному обучению в квантовой химии. Этот подход применяется для прогнозирования различных квантово-химических свойств, таких как эксцитационные энергии и потенциальные энергетические поверхности. #### Метод Новый подход, LoUQAL (Low-fidelity informed Uncertainty Quantification for Active Learning), включает в себя два ключевых элемента: информационную модель с низкой фидальностью и алгоритм активного обучения, который использует неопределенность для выбора следующих точек для обучения. Модель с низкой фидальностью вычисляет быстро значения физических свойств, тогда как высокофидальная модель находится в центре обучения для точности. Обучение LoUQAL заключается в использовании неопределенности, вычисляемой низкофидальной моделью, для уточнения выбора точек в пространстве химических конфигураций. Эта техника позволяет эффективно использовать низкофидальные модели вместе с высокофидальными для получения точных результатов с меньшим количеством вычислительных итераций. #### Результаты Работа проводилась в экспериментах, используя данные, соответствующие химическим конфигурациям, для прогнозирования квантовых свойств. Метод LoUQAL был сравнен с другими методами, использующими только высокофидальные модели. Результаты показали, что LoUQAL показал лучшую точность и эффективность в предсказании квантовых свойств. Также было проведено исследование влияния выбора между высоко- и низкофидальными моделями. Это позволило провести полный бенчмарк и показать, что LoUQAL предлагает более эффективный подход для активного обучения в квантовой химии. #### Значимость Предложенный подход имеет широкие применения в квантовой химии, такие как прогнозирование эксцитационных энергий, молекулярных свойств и \textit{ab initio} потенциальных энергетических поверхностей. Особый преимущество LoUQAL заключается в том, что он уменьшает ресурсоемкость вычислений, используя низкофидальные модели, но при этом поддерживая высокую точность. Это может привести к значитель
Annotation:
Uncertainty quantification is an important scheme in active learning techniques, including applications in predicting quantum chemical properties. In quantum chemical calculations, there exists the notion of a fidelity, a less accurate computation is accessible at a cheaper computational cost. This work proposes a novel low-fidelity informed uncertainty quantification for active learning with applications in predicting diverse quantum chemical properties such as excitation energies and \textit{a...
ID: 2508.15577v1 physics.chem-ph, cs.AI, cs.LG
Авторы:

Alfio Gliozzo, Naweed Khan, Christodoulos Constantinides, Nandana Mihindukulasooriya, Nahuel Defosse, Junkyu Lee

## Контекст Исследование ориентировано на развитие модульного фреймворка Agentics, предназначенного для создания агент-ориентированных систем с поддержкой логического рассуждения и композиционной общезначимости при работе с сложными данными. Основной мотивацией является улучшение способностей AI-систем к работе с структурированными данными, позволяя AI-разработчикам сосредотачиваться на моделировании данных вместо ручного проработки запросов. Фреймворк предлагает новую точку зрения на AI-рабочие процессы с данными, используя логическую трансдукцию между типами данных, которая выполняется автоматически при их подключении. Эта гибкость и простота моделирования данных открывают широкие перспективы для применения в сложных задачах, таких как многовариантные вопросы с ответами, тексто-к SQL-парсинг и оптимизация запросов. ## Метод Agentics основывается на модульной архитектуре, где агенты абстрагированы от логического потока и используются для трансдукции данных внутри типов. Фреймворк построен на основе логического представления данных, позволяющего генерировать композиции типов и выполнять трансдукцию на основе соединения этих типов. Эта логика восходит к теории графов и логическому выводу. AI-рабочие процессы строятся с помощью языка декларативного моделирования, где данные представлены в виде типов, а типы объединяются в цепочки для выполнения рассуждений. Эта архитектура позволяет Agentics адаптироваться к различным задачам, таким как семантический парсинг, вопрос-ответ и оптимизация запросов, при этом обеспечивая трансдукцию данных внутри каждого типа. ## Результаты Исследования включали три ключевых задачи: многовариантный вопрос-ответ, текстово-к SQL-парсинг и оптимизация запросов. На каждой из этих задач Agentics показал высокую точность и гибкость, достигнув состояния лучших результатов в отрасли, не только в точности, но и в масштабируемости. Данные для экспериментов включали сложные наборы данных, такие как семантические графы и реальные запросы к базам данных. Логическая трансдукция доказалась как эффективный механизм для улучшения точности и скорости работы систем, существенно сократив время обучения и время выполнения запросов. ## Значимость Фреймворк Agentics имеет широкие применения в области AI-разработки, в том числе для моделирования сложных данных, представления композитных задач и оптимизации рабочих процессов. Он предлагает преимущества в масштабируемости, точности и удобстве моделирования. Например, можно использовать Agentics для создания новых систем понимания естественного языка, которые могут обрабатывать сложные типы д
Annotation:
This paper introduces Agentics, a modular framework for building agent-based systems capable of structured reasoning and compositional generalization over complex data. Designed with research and practical applications in mind, Agentics offers a novel perspective on working with data and AI workflows. In this framework, agents are abstracted from the logical flow and they are used internally to the data type to enable logical transduction among data. Agentics encourages AI developers to focus on...
ID: 2508.15610v1 cs.AI, cs.LG
Авторы:

Abhigya Verma, Sriram Puttagunta, Seganrasan Subramanian, Sravan Ramachandran

#### Контекст В нынешней эры искусственного интеллекта, акцент становится все более решительным на возможность обработки и анализа разнородных типов данных, включая текст, числа, изображения и табличные данные. Одной из ключевых проблем является обеспечение моделей способности выполнять алгоритмические задачи, основанные на визуальных и текстовых данных, а также проводить разумные выводы на их основе. Эта способность к "структурированному инструкционному следованию" и "визуальному рассуждению" не только повышает качество решения задач, но и позволяет лучше оценивать модели в различных задачах машинного обучения. #### Метод GRAFT (GRaPH and Table Reasoning for Textual Alignment) представляет собой структурированную мультимодальную бенчмарк-среду, предназначенную для оценки моделей на способность выполнять задачи, сочетающие в себе визуально-текстовую аналитику, инструкционное следование и визуально-структурированное рассуждение. Методология GRAFT основывается на программно генерируемых чартах и таблицах, порожденных с использованием Python-визуализационных библиотек. Это обеспечивает корректность данных в терминах семантики, структуры и читаемости. Каждая задача в GRAFT состоит в том, чтобы решить многошаговый аналитический вопрос, основываясь только на визуальных данных. Ответы представляются в структурированных форматах, таких как JSON или YAML, что позволяет провести точную и последовательную оценку. #### Результаты В ходе экспериментов были проведены тесты на множестве визуальных и текстовых вариантов задач, чтобы оценить показатели GRAFT. Обучающие и тестовые данные состояли из созданных специально для этой базы данных чартов и таблиц, а ответы были строго проверены в соответствии с форматными требованиями. Результаты показали высокую точность моделей в выполнении задач визуального рассуждения и инструкционного следования. Благодаря подробной структуре ответов, GRAFT позволяет провести методичный анализ возможности моделей в различных сферах. #### Значимость GRAFT представляет собой значительный шаг в области мультимодального искусственного интеллекта. Он может быть использован в различных приложениях, включая обработку естественного языка, визуально-текстовую аналитику, интеллектуальные помощники, а также в области образовательных технологий. Особенно заметны его преимущества в сфере моделей, которые должны обрабатывать сочетания визуальных и текстовых данных. Бенчмарк GRAFT обеспечивает новый стандарт в задачах мультимодального визуального и текстового рассуждения, имеет большой потенциал в развитии новых моделей и методов, повышающ
Annotation:
GRAFT is a structured multimodal benchmark for evaluating models on instruction-following, visual reasoning, and visual-textual alignment tasks. It features programmatically generated charts and synthetically rendered tables, created with Python visualization libraries to ensure control over data semantics, structure, and clarity. Each GRAFT instance pairs a chart or table image with a systematically generated, multi-step analytical question based solely on visual content. Answers are provided i...
ID: 2508.15690v1 cs.AI, cs.LG, cs.MM
Авторы:

Yuguang Yue, Chris Green, Samuel Hunt, Irakli Salia, Wenzhe Shi, Jonathan J Hunt

## Контекст Область исследования сосредоточена на создании интеллектуальных агентов, которые способны играть в 3D-видеоигры, имитируя человеческий стиль игры. Данная область привлекательна из-за возможности создания AI-текпов, контролируемых NPC, персонализированных трансляторов и помогающих игровых тестеров. Однако существуют сложности, такие как необходимость использовать только те данные, которые доступны игрокам (пиксельный стрим), и обеспечение генерализуемости метода к различным типам игр без особого адаптационного процесса. Настоящее исследование адресовано этим проблемам, стремясь развить агента, который может учиться играть в новые игры с минимальной дополнительной настройкой. ## Метод Методология построена на принципе бихевиорного клонирования (behavior cloning). Использованы два типа данных: 1) отмеченные демонстрации, собранные из игр игроками; 2) неотмеченные видеоигровые видео, в которых ведется активность. Для этих видео применяется процесс импутации действий с помощью модели инверсных динамик. Затем, трансформер-декодер с авто-регрессивным выводом используется для генерации действий. Эта архитектура работает на доступных потребительских GPU и обеспечивает латентность для удобного использования. ## Результаты В ходе исследования проводились эксперименты на различных типах игр, включая Roblox и классические MS-DOS-игры. Наблюдается хорошая генерализуемость: агент продемонстрировал компетентное игровое поведение и способность учиться в новых условиях. Также проведены абляционные эксперименты, подтвердив важность использования дополнительных данных и эффективности архитектуры. ## Значимость Полученный подход открывает новые возможности в использовании AI в игровой индустрии. Модель может применяться для создания AI-текпов, живых трансляторов, и в других сферах, где необходима грамотная игровая интеллектуальная система. Особым преимуществом является то, что модель работает на одном потребительском GPU и не требует сложной настройки для каждой конкретной игры. ## Выводы На основе видения, названия Pixels2Play-0.1 (P2P0.1), данная работа ставит цель развития широкой общей модели, способной играть в 3D-видеоигры. Будущее исследование будет сосредоточено на достижении высочайшего уровня игрового мастерства и реализации полностью текстово-управляемого контроля.
Annotation:
We introduce Pixels2Play-0.1 (P2P0.1), a foundation model that learns to play a wide range of 3D video games with recognizable human-like behavior. Motivated by emerging consumer and developer use cases - AI teammates, controllable NPCs, personalized live-streamers, assistive testers - we argue that an agent must rely on the same pixel stream available to players and generalize to new titles with minimal game-specific engineering. P2P0.1 is trained end-to-end with behavior cloning: labeled demon...
ID: 2508.14295v1 cs.CV, cs.AI, cs.LG
Авторы:

Aman Goel, Daniel Schwartz, Yanjun Qi

#### Контекст Large language models (LLMs) становятся все более важной составляющей современных технологий, позволяя решать задачи, от написания кода до генерирования текстов. Однако они не освобождены от ошибок, одной из самых важных из которых является "hallucination" — выдача неточных или неподтвержденных ответов, которые могут показаться авторитетными, но являются фактически неверными. Эта проблема особенно критична в задачах, требующих высокой точности, таких как медицинские или юридические приложения. Наличие эффективного метода для обнаружения и устранения таких ошибок может существенно усилить надежность LLM в производственных средах. #### Метод Мы предлагаем Finch-Zk — блэк-боксный фреймворк, основанный на **fine-grained cross-model consistency** (тонкой структурной совпадении ответов между разными моделями). За основу фреймворка лежит две ключевые идеи: 1. **Cross-model consistency checking**: Обнаружение тонких неточностей в ответах LLM, проводившись сравнение выдач от нескольких моделей, запущенных на семантически одинаковых запросах. Это позволяет выявить мелкие ошибки, которые могут быть пропущены стандартными методами. 2. **Targeted mitigation**: Использование локальных коррекций, которые исправляют только те части ответа, где обнаружены неточности, при этом сохраняя точные части ответа. Finch-Zk работает на базе black-box моделей, не требуя доступа к их внутренним представлениям или дополнительных источников знаний. #### Результаты Мы провели эксперименты на датасете FELM, сравнив Finch-Zk с существующими подходами. Результаты показали, что F1-меру для обнаружения hallucinations Finch-Zk увеличивает на 6–39% по сравнению с конкурентными вариантами. Также, на GPQA-diamond датасете, Finch-Zk повысил точность ответов примененным к моделям, таким как Llama 4 Maverick и Claude 4 Sonnet, на 7–8 процентных единиц. Эти результаты подтверждают, что этот подход дает существенное улучшение в обнаружении и исправлении неточностей, даже при использовании готовых моделей. #### Значимость Подход Finch-Zk может быть применен в различных областях, где точность ответов критична, включая: - Медицинские приложения. - Юридические системы. - Автоматизация поддержки клиентов. Один из основных преимуществ этого подхода заключается в том, что он может быть использован для любых блэк-боксных моделей без дополнительных требований к обучению или редактированию. Это делает его широко применимым и открывает путь к его внедрению в рабочих производственных средах. #### Выводы Finch-Zk представляет собой эффективный и практичный подход к обнаружению и исправлению неточностей в LLM. Мы доказали его эффективность при помощи научных экспериментов и сравнени
Annotation:
Large language models (LLMs) have demonstrated impressive capabilities across diverse tasks, but they remain susceptible to hallucinations--generating content that appears plausible but contains factual inaccuracies. We present Finch-Zk, a black-box framework that leverages FINe-grained Cross-model consistency to detect and mitigate Hallucinations in LLM outputs without requiring external knowledge sources. Finch-Zk introduces two key innovations: 1) a cross-model consistency checking strategy t...
ID: 2508.14314v1 cs.CL, cs.AI, cs.LG
Авторы:

NVIDIA, :, Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adithya Renduchintala, Aditya Malte, Akhiad Bercovich, Akshay Hazare, Alejandra Rico, Aleksander Ficek, Alex Kondratenko, Alex Shaposhnikov, Alexander Bukharin, Ali Taghibakhshi, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amy Shen, Andrew Tao, Ann Guan, Anna Shors, Anubhav Mandarwal, Arham Mehta, Arun Venkatesan, Ashton Sharabiani, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Banghua Zhu, Barnaby Simkin, Bilal Kartal, Bita Darvish Rouhani, Bobby Chen, Boris Ginsburg, Brandon Norick, Brian Yu, Bryan Catanzaro, Charles Wang, Charlie Truong, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christian Munley, Christopher Parisien, Dan Su, Daniel Afrimi, Daniel Korzekwa, Daniel Rohrer, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Dima Rekesh, Dina Yared, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Eileen Long, Elliott Ning, Eric Chung, Erick Galinkin, Evelina Bakhturina, Gargi Prasad, Gerald Shen, Haifeng Qian, Haim Elisha, Harsh Sharma, Hayley Ross, Helen Ngo, Herman Sahota, Hexin Wang, Hoo Chang Shin, Hua Huang, Iain Cunningham, Igor Gitman, Ivan Moshkov, Jaehun Jung, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jian Zhang, Jiaqi Zeng, Jimmy Zhang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jonathan Cohen, Joseph Jennings, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kezhi Kong, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Kushan Ahmadian, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Luis Vega, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Mark Cai, Markus Kliegl, Marta Stepniewska-Dziubinska, Matvei Novikov, Mehrzad Samadi, Meredith Price, Meriem Boubdir, Michael Boone, Michael Evans, Michal Bien, Michal Zawalski, Miguel Martinez, Mike Chrzanowski, Mohammad Shoeybi, Mostofa Patwary, Namit Dhameja, Nave Assaf, Negar Habibi, Nidhi Bhatia, Nikki Pope, Nima Tajbakhsh, Nirmal Kumar Juluru, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Oluwatobi Olabiyi, Pablo Ribalta, Padmavathy Subramanian, Parth Chadha, Pavlo Molchanov, Peter Dykas, Peter Jin, Piotr Bialecki, Piotr Januszewski, Pradeep Thalasta, Prashant Gaikwad, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi Mahabadi, Rajen Patel, Ran El-Yaniv, Ranjit Rajan, Ria Cheruvu, Rima Shahbazyan, Ritika Borkar, Ritu Gala, Roger Waleffe, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Sahil Jain, Samuel Kriman, Sanjeev Satheesh, Saori Kaji, Sarah Yurick, Saurav Muralidharan, Sean Narenthiran, Seonmyeong Bak, Sepehr Sameni, Seungju Han, Shanmugam Ramasamy, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shizhe Diao, Shreya Gopal, Shrimai Prabhumoye, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Siddhartha Jain, Somshubra Majumdar, Soumye Singhal, Stefania Alborghetti, Syeda Nahida Akter, Terry Kong, Tim Moon, Tomasz Hliwiak, Tomer Asida, Tony Wang, Tugrul Konuk, Twinkle Vashishth, Tyler Poon, Udi Karpas, Vahid Noroozi, Venkat Srinivasan, Vijay Korthikanti, Vikram Fugro, Vineeth Kalluru, Vitaly Kurin, Vitaly Lavrukhin, Wasi Uddin Ahmad, Wei Du, Wonmin Byeon, Ximing Lu, Xin Dong, Yashaswi Karnati, Yejin Choi, Yian Zhang, Ying Lin, Yonggan Fu, Yoshi Suhara, Zhen Dong, Zhiyu Li, Zhongbo Zhu, Zijia Chen

## Контекст Область исследования фокусируется на развитии моделей языка, которые обеспечивают высокую точность и быструю обработку задач рассуждения. Несмотря на прогрессы в области трансформеров, существуют проблемы, связанные с высокими затратами ресурсов и ограниченной скоростью обработки больших объемов данных. Эти ограничения становятся критичными при работе с задачами, требующими длинных итераций размышления (long-thinking traces). Направление исследования заключается в разработке моделей, которые сочетают высокую эффективность с максимальной точностью, особенно для устройств с ограниченными ресурсами. ## Метод Разработка Nemotron-Nano-9B-v2 основывается на Nemotron-H архитектуре, где большая часть слоёв самоп paжения (self-attention) трансформера заменена на Mamba-2 слои. Это позволило значительно улучшить скорость выполнения модели при работе с длинными цепями рассуждений. Модель была предварительно обучена на 20 триллионов токенов с использованием FP8 технологии. Далее, с помощью мини-трансформерского подхода (Minitron), модель была сжата и дистиллирована до 9 миллиардов параметров. Это разрешило её эффективное применение на устройствах с ограниченной памятью, таких как NVIDIA A10G GPU. ## Результаты В экспериментах Nemotron-Nano-9B-v2 показала значительное улучшение пропускной способности при работе с задачами рассуждения (reasoning workloads). На проверяющих наборах данных, таких как Reasoning Bench, она достигла точности, сравнимой или лучшей, чем модели размера 9 миллиардов параметров, такие как Qwen3-8B. На задачах, требующих длинных входных и выходных последовательностей (8k входа, 16k выхода), модель достигла до 6 раз вышей производительности по сравнению с аналогами. Эти результаты достигнуты благодаря стратегии сжатия и дистилляции, которая позволила сохранить точность при минимизации затрат ресурсов. ## Значимость Модель Nemotron-Nano-9B-v2 может использоваться в различных областях, где эффективность вычислений и высокая точность критичны, например, в робототехнике, медицине, интеллектуальных системах рекомендаций. Особым преимуществом является возможность работы на мобильных устройствах и на устройствах с ограниченными ресурсами без потери качества. Эта модель подсказывает возможность значительного улучшения широкого спектра приложений, где сейчас применяются более ресурсоёмкие модели трансформеров. ## Выводы Результаты показывают, что Nemotron-Nano-9B-v2 сочетает высокую точность и производительность в области рассуждения. Будущие исследования будут направлены на дальнейшее улучшение модели, в том чис
Annotation:
We introduce Nemotron-Nano-9B-v2, a hybrid Mamba-Transformer language model designed to increase throughput for reasoning workloads while achieving state-of-the-art accuracy compared to similarly-sized models. Nemotron-Nano-9B-v2 builds on the Nemotron-H architecture, in which the majority of the self-attention layers in the common Transformer architecture are replaced with Mamba-2 layers, to achieve improved inference speed when generating the long thinking traces needed for reasoning. We creat...
ID: 2508.14444v2 cs.CL, cs.AI, cs.LG
Авторы:

Yucong Zhang, Juan Liu, Ming Li

#### Контекст Предварительно обученные фундаментальные модели показали определенный успех в области обработки звука и текста, однако их потенциал в области общей моделирования сигналов — включая акустические, вибрационные и другие индустриальные данные сенсоров — пока остается недостаточно исследованным. Существующие подходы, основанные на разделении сигнала по подботам (sub-band-based), достигли высокой эффективности, но ограничены фиксированным размером входных данных и отсутствием информации о частотной позиции. В данной работе мы предлагаем новую фундаментальную модель, которая объединяет расширенную архитектуру разделения по бандам с позиционными инкапсуляциями частоты, обеспечивая точную локализацию спектра в произвольных конфигурациях семплирования. Модель включает в себя продвинутый ввод неограниченной длины, не требующий дополнительного подучавливания или разбиения на фрагменты, что позволяет сохранять как временную, так и спектральную точность. Мы проверили наш подход на бенчмарке SIREN (https://github.com/yucongzh/SIREN), созданном для синтетического и реального сигнала, который объединяет несколько баз данных, включая все задачи DCASE (2020-2025) и корпусы индустриальных сигналов. Результаты экспериментов подтверждают состояние лидирующего решения в задачах аномалического детектирования и диагностики аварий. #### Метод Мы предлагаем модель, основанную на продвинутой архитектуре разделения сигнала по бандам, в которой включены позиционные модели частоты, обеспечивающие точную локализацию в спектре. Наша модель использует процесс синхронного обучения, что позволяет ему поддерживать входные данные произвольной длины без необходимости подобрать длину или разбивать данные. Мы также внедрили высший уровень позиционного сигнала в спектр, чтобы сохранить высокую точность в интерпретации фоновых и аномальных шумов. Для оценки модели мы использовали бенчмарк SIREN, который предоставляет широкий набор данных, включая задачи DCASE, а также реальные собранные данные в различных индустрийных приложениях. Кроме того, мы проводили подробный анализ эффективности модели в задачах детектирования аномалий и идентификации аварий. #### Результаты Мы провести эксперименты на базе SIREN и получили выдающиеся результаты в задачах аномалического детектирования и идентификации аварий. Наши результаты показали высшую точность по сравнению с имеющимися подходами, особенно в ситуациях с произвольными длинами входных данных и произвольными конфигурациями семплирования. Мы также провели проверку на реальных данных и продемонстрировали, что наш подход может эффек
Annotation:
Pre-trained foundation models have demonstrated remarkable success in vision and language, yet their potential for general machine signal modeling-covering acoustic, vibration, and other industrial sensor data-remains under-explored. Existing approach using sub-band-based encoders has achieved competitive results but are limited by fixed input lengths, and the absence of explicit frequency positional encoding. In this work, we propose a novel foundation model that integrates an advanced band-spl...
ID: 2508.14689v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Josh Barua, Seun Eisape, Kayo Yin, Alane Suhr

#### Контекст Огромный рост мощности и гибкости технологий машинного обучения в последние годы способствовал развитию технологий естественного языка, но при этом был отмечен значительный языковый фокус на английский. Даже самые совершенные модели раскладывают свою эффективность на языках, отличных от английского. Особенно трудности возникают в случае языков с более низким ресурсом, где модели часто сталкиваются с проблемами в понимании задач и выполнении адекватного рассуждения. Наше исследование Long Chain-of-Thought Reasoning Across Languages концентрируется на расширении возможностей рассуждения в LLMs (large language models) на разных языках, включая русский, французский, испанский, и т.д. Мы видим, что существуют существенные проблемы с корректным пониманием и выполнением рассуждений в основном вне англоязычного пространства. Наша мотивация заключается в том, чтобы создать более универсальную модель, которая могла бы оперировать не только на английском, но и на других языках с разными уровнями ресурсов. #### Метод Чтобы достичь этой цели, мы придумали методологию, основанную на переводе и адаптации существующих данных. Мы выбрали два популярных англоязычных датасета, перевели их на целевые языки, и использовали несколько моделей, в том числе Qwen 2.5 (7B) и Qwen 3 (8B). Мы внедрили технический подход, включающий в себя fine-tuning моделей на многоязычных датасетах с различным количеством данных. Например, мы проводили эксперименты с короткими и длинными chain-of-thought reasoning на языках, таких как латынь, французский, японский и свахили. При этом мы придерживались двух основных подходов: 1) узконаправленный fine-tuning, который использовал более качественные, но меньшие данные; 2) более общий подход с использованием многоязычных датасетов, но с меньшим количеством тренировочных данных. Мы также проводили эксперименты с настройкой для конкретных языков, включая русский, чтобы оптимизировать производительность модели для разных языковых структур. #### Результаты Мы получили несколько основных выводов. Во-первых, мы обнаружили, что при использовании английского языка как pivot-языка, который может помочь в выполнении рассуждений, результаты варьируются в зависимости от целевого языка. Например, для французского языка английский не приносил дополнительных выгод, но для японского и латыньи он давал существенный подъем в производительности. Во-вторых, предварительное обучение на многоязычных датасетах (multilingual pretraining) помогло уменьшить разрыв в производительности между разными языками, но не смог пол
Annotation:
Scaling inference through long chains-of-thought (CoTs) has unlocked impressive reasoning capabilities in large language models (LLMs), yet the reasoning process remains almost exclusively English-centric. We construct translated versions of two popular English reasoning datasets, fine-tune Qwen 2.5 (7B) and Qwen 3 (8B) models, and present a systematic study of long CoT generation across French, Japanese, Latvian, and Swahili. Our experiments reveal three key findings. First, the efficacy of usi...
ID: 2508.14828v1 cs.CL, cs.AI, cs.LG
Показано 1481 - 1490 из 1687 записей