📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GEDAN: Learning the Edit Costs for Graph Edit Distance

2025-08-09

Авторы:

Francesco Leonardi, Markus Orsi, Jean-Louis Reymond, Kaspar Riesen

Графовая редакционная дистанция (GED) является важной метрикой для оценки расстояния между двумя графами. Однако поиск GED является NP-трудной задачей, что приводит к развитию методов приближения, включая нейронные сети (NN). Большинство таких подходов упрощают задачу, рассматривая единичные цены на редактирование, что не соответствует реальному миру. Мы предлагаем GEDAN — новую модель графовых нейронных сетей, которая учитывает контекст и учитывает конкретные цены на редактирование. Она обучается как с учителем, так и без него, используя механизм самоорганизации. Главным компонентом является модель генеральных аддитивных моделей (GAM), которая обеспечивает гибкость и прозрачность в определении цен на редактирование. Наши эксперименты показали, что GEDAN демонстрирует результаты, сравнимые с лучшими методами, при этом повышая адаптивность и понимание структур графов. Это делает GEDAN применимым в сложных задачах, таких как анализ молекул и выявление структурных паттернов.

Annotation:

Graph Edit Distance (GED) is defined as the minimum cost transformation of one graph into another and is a widely adopted metric for measuring the dissimilarity between graphs. The major problem of GED is that its computation is NP-hard, which has in turn led to the development of various approximation methods, including approaches based on neural networks (NN). Most of these NN-based models simplify the problem of GED by assuming unit-cost edit operations, a rather unrealistic constraint in rea...

ID: 2508.03111v1 cs.LG, cs.AI

arXiv PDF

📄 Frontier: Simulating the Next Generation of LLM Inference Systems

2025-08-09

Авторы:

Yicheng Feng, Xin Tan, Kin Hang Sew, Yimin Jiang, Yibo Zhu, Hong Xu

**Резюме** С появлением Mixture-of-Experts (MoE) моделей и распределенных архитектур, таких как разделение префилла и декодирования (PD) или аттенции и FFN (AF), интерпретировать и оптимизировать LLM-инференс стало сложнее. Традиционные симуляторы, разработанные для колоколонокных моделей, не могут адекватно описывать сложные системные динамики новых архитектур. Мы предлагаем систему Frontier, разработанную специально для моделирования систем с новыми парадигмами LLM-инференса. Frontier предлагает унифицированный фреймворк для моделирования колоколоночных и распределенных систем, включая MoE-инференс с экспертной параллелизмой. Он поддерживает моделирование сложных рабочих процессов, таких как кросс-кластерный роутинг экспертов и расширенные стратегии пайплайнинга. Для повышения точности и удобства Frontier включает усовершенствованные модели операторов. Это система, которая позволяет комьюнити разрабатывать и оптимизировать будущее технологий для LLM-инференса в масштабах.

Annotation:

Large Language Model (LLM) inference is growing increasingly complex with the rise of Mixture-of-Experts (MoE) models and disaggregated architectures that decouple components like prefill/decode (PD) or attention/FFN (AF) for heterogeneous scaling. Existing simulators, architected for co-located, dense models, are unable to capture the intricate system dynamics of these emerging paradigms. We present Frontier, a high-fidelity simulator designed from the ground up for this new landscape. Frontier...

ID: 2508.03148v1 cs.LG, cs.AI, cs.DC

arXiv PDF

📄 Estimating Worst-Case Frontier Risks of Open-Weight LLMs

2025-08-09

Авторы:

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Заголовок: Оценка худшего сценария рисков от общедоступных грандиозных языковых моделей Аннотация: В статье рассматривается оценка худшего сценария рисков, связанных с релизом модели gpt-oss. Авторы представляют метод мальтинтенционного оточения (Malicious Fine-Tuning, MFT), нацеленный на максимизацию возможностей модели gpt-oss в сферах биологии и кибербезопасности. Для этого используются задачи, связанные с рисками создания угроз в биологии и задачи компьютерного кодирования в сфере безопасности. Результаты показывают, что MFT-модели gpt-oss менее эффективны по сравнению с существующими открытыми моделями в области биориска и кибербезопасности. Тем не менее, при маргинальном увеличении биориска, модель не значительно повышает риски в других сферах. Эти выводы подкрепляют решение авторов о релизе модели и предлагают подход MFT в качестве метода для оценки рисков от будущих релизов.

Annotation:

In this paper, we study the worst-case frontier risks of releasing gpt-oss. We introduce malicious fine-tuning (MFT), where we attempt to elicit maximum capabilities by fine-tuning gpt-oss to be as capable as possible in two domains: biology and cybersecurity. To maximize biological risk (biorisk), we curate tasks related to threat creation and train gpt-oss in an RL environment with web browsing. To maximize cybersecurity risk, we train gpt-oss in an agentic coding environment to solve capture-...

ID: 2508.03153v1 cs.LG, cs.AI

arXiv PDF

📄 CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction

2025-08-09

Авторы:

Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang

Токсичность лекарств остается основной проблемой в фармацевтическом развитии, требуя эффективных методов оценки в условиях ограниченных данных и неполного понимания биологических механизмов. Авторы предлагают CoTox, новую систему на основе лардж-легло-модели GPT-4o, которая использует chain-of-thought (CoT) для пошагового реактивного рассуждения и предсказания токсичности. Она объединяет данные химических структур, биологических путей и терминов Gene Ontology (GO), обеспечивая интерпретируемые и обоснованные прогнозы. Авторы показали, что CoTox превосходит обычные машинно-обученные модели, а также продемонстрировали ее преимущества с использованием различных LLMs. Особый упор сделан на том, что применение IUPAC-названий вместо SMILES улучшает причинность и точность прогнозов. Результаты показывают, что CoTox может стать ценным инструментом для безопасности лекарств в ранних стадиях их разработки.

Annotation:

Drug toxicity remains a major challenge in pharmaceutical development. Recent machine learning models have improved in silico toxicity prediction, but their reliance on annotated data and lack of interpretability limit their applicability. This limits their ability to capture organ-specific toxicities driven by complex biological mechanisms. Large language models (LLMs) offer a promising alternative through step-by-step reasoning and integration of textual data, yet prior approaches lack biologi...

ID: 2508.03159v1 cs.LG, cs.AI

arXiv PDF

📄 GTPO: Trajectory-Based Policy Optimization in Large Language Models

2025-08-09

Авторы:

Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino

**Резюме** Политические оптимизации широко используются для тренировки и выравнивания языковых моделей, но имеют существенные ограничения. Метод Group-relative Policy Optimization (GRPO) стал одним из самых эффективных подходов, но страдает двумя главными недостатками. Во-первых, токены часто получают противоречивые награды (положительные и отрицательные), что приводит к нестабильным градиентам и снижению их вероятности. Во-вторых, отрицательные награды могут пенализировать уверенные ответы, приводя к разряжению выходного распределения и ухудшению обучения. Мы предлагаем GTPO (Group-relative Trajectory-based Policy Optimization), который решает эти проблемы. Метод идентифицирует "конфликтные" токены, появляющиеся в завершениях с противоположными наградами, и защищает их от отрицательных обновлений, повышая вероятности положительных. Также GTPO исключает завершения с высоким энтропийным неопределенностью. Благодаря этому GTPO обеспечивает более устойчивое и эффективное обучение, не прибегая к регуляризации KL-дивергенции или ссылочной модели, что подтверждено результатами на GSM8K, MATH и AIME 2024.

Annotation:

Policy-based optimizations are widely adopted today for the training and alignment of language models, where one of the most recent and effective approaches is Group-relative Policy Optimization (GRPO). In this paper, we reveals and analyze two major limitations of GRPO: (i) tokens frequently appear in completions with both positive and negative rewards, leading to conflicting gradient updates that can reduce their output probability, even though can be essential for maintaining proper structure...

ID: 2508.03772v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 U-PINet: End-to-End Hierarchical Physics-Informed Learning With Sparse Graph Coupling for 3D EM Scattering Modeling

2025-08-09

Авторы:

Rui Zhu, Yuexing Peng, Peng Wang, George C. Alexandropoulos, Wenbo Wang, Wei Xiang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Моделирование электромагнитного (ЕМ) рассеяния играет ключевую роль в радиолокационных системах и удаленном зондировании. Тем не менее, высокая сложность этого процесса представляет значительные вычислительные проблемы. Традиционные численные методы, такие как методы конечных элементов или разностных схем, обеспечивают высокую точность, но страдают от недостаточной масштабируемости и высоких затрат на вычисления, особенно при работе с трехмерными (3D) объектами. В поисках более эффективных решений, исследователи в последнее время обратились к подходам, основанным на глубоком обучении. Однако чистые дата-дривенные модели лишены физических ограничений, что может привести к неточным результатам, не говоря уже о необходимости больших объемов меченых данных для обучения. Это ограничивает их применимость в реальных сценариях, где получение меток может быть затруднительным или невозможным. Чтобы решить эти проблемы, необходимо разработать метод, который сочетает высокую точность традиционных численных решений с эффективностью глубоких нейронных сетей, при этом сохраняя физическую согласованность. Такой подход должен быть способен работать с разреженными данными, обеспечивая точность и снижая вычислительные затраты. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе авторы предлагают **U-PINet** (U-shaped Physics-Informed Network) – первую полностью основанную на глубоком обучении и физически обоснованную иерархическую сеть для моделирования ЕМ рассеяния. Основная идея заключается в использовании иерархического разложения стратегии, аналогичной той, которая применяется в численных методах, для моделирования взаимодействий между близкими (near-field) и дальними (far-field) областями. U-PINet использует мультискейл процессинговую нейронную сеть, которая позволяет обрабатывать информацию на разных уровнях детализации. Для моделирования взаимодействий между элементами сетки (mesh elements), авторы используют разреженное графическое представление, которое эффективно учитывает как внутренние (self-coupling), так и внешние (mutual-coupling) взаимодействия. Кроме того, сеть интегрирует физические принципы непосредственно в процесс обучения, что гарантирует физическую согласованность модели. Это позволяет U-PINet обеспечивать высокую точность предсказаний, особенно при работе с сложными 3D объектами, где традиционные методы могут быть неэффективны. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки производительности U-PINet. В частности, они использовали данные, полученные из различных 3D моделей, для прогнозирования распределения поверхностных токов. Результаты показали, что U-PINet достигает высокой точности, близко соответствующей результатам традиционных численных решений, при этом значительно сокращая время вычислений. Кроме того, U-PINet была сравнена со стандартными дата-дривенными моделями, и результаты показали, что она превосходит их как по точности, так и по робастности. Например, при прогнозировании размеров радиолокационного сечения (radar cross section, RCS), U-PINet демонстрирует значительно лучшую производительность, что делает ее пригодной для реальных приложений в области радиолокации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое практическое применение в областях, требующих моделирования ЕМ рассеяния, таких как радиолокация, удаленное зондирование и системы связи. Благодаря своей эффективности и точности, U-PINet может быть использована для ускорения расчетов в этих областях, что позволяет экономить время и ресурсы. Кроме того, физическая согласованность модели гарантирует, что результаты могут быть использованы в приложениях, требующих высокой достоверности, что делает U-PINet пригодной для индустриальных приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе была представлена U-PINet – инновационная нейронная сеть для моделирования ЕМ рассеяния, которая сочетает высокую точность традиционных методов с эффективностью глубоких нейронных сетей. Эта модель демонстрирует значительные преимущества в вычислительной эффективности и точности, что делает ее пригодной для решения сложных задач в области радиолокации и удаленного зондирования. В будущем, авторы планируют расширить данный подход на более широкие классы задач, включая динамическое моделирование и многочастичные системы, что может открыть новые возможности для применения этой технологии в различных научных и инженерных областях.

Annotation:

Electromagnetic (EM) scattering modeling is critical for radar remote sensing, however, its inherent complexity introduces significant computational challenges. Traditional numerical solvers offer high accuracy, but suffer from scalability issues and substantial computational costs. Pure data-driven deep learning approaches, while efficient, lack physical constraints embedding during training and require extensive labeled data, limiting their applicability and generalization. To overcome these l...

ID: 2508.03774v1 cs.LG, cs.AI

arXiv PDF

📄 Revisiting Heat Flux Analysis of Tungsten Monoblock Divertor on EAST using Physics-Informed Neural Network

2025-08-09

Авторы:

Xiao Wang, Zikang Yan, Hao Si, Zhendong Yang, Qingquan Yang, Dengdi Sun, Wanli Lyu, Jin Tang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Эффективная оценка теплового потока в термоядерном устройстве EAST является критическим заданием для обеспечения безопасной и эффектной работы реактора. В традиционных методах, таких как Метод Конечных Элементов (Finite Element Method, FEM), моделирование теплопроводности зависит от решения уравнений на основе сетки (grid-based sampling), что вызывает значительные вычислительные затраты. Такой подход не только требует больших вычислительных мощностей, но также затрудняет реальновременные моделирования во время экспериментов. Это создает узкое место в процессе анализа и оптимизации работы EAST, особенно в условиях высокой тепловой нагрузки на компоненты, такие как моноблочный дивертор. Недавние тенденции в области искусственного интеллекта и научных вычислений показывают потенциал для решения этих проблем. Физико-информированные нейронные сети (Physics-Informed Neural Networks, PINN) предлагают новый подход, который сочетает физические законы с мощностью нейронных сетей. Использование PINN позволяет упрощать процесс моделирования, избавляя от необходимости использования сложных сеточных структур, и обеспечивает более быстрое решение уравнений теплопроводности. В данной работе авторы предлагают использовать PINN для ускорения процесса оценки теплового потока в EAST. Цель состоит в том, чтобы сочетать высокую точность, присущую традиционным методам, с высокой вычислительной эффективностью, необходимой для реальновременного мониторинга и контроля. Авторы также рассматривают влияние различных материалов и условий нагрузки на эффективность модели, чтобы обеспечить широкую применимость подхода. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается использование физико-информированной нейронной сети (PINN) для моделирования теплопроводности в диверторе EAST. Архитектура сети основывается на решении уравнений теплопроводности с помощью нейронной сети, которая обучается с учетом физических законов. Для этого сеть принимает входные данные, такие как пространственные координаты и временные отметки, и вычисляет потери на граничных условиях, начальных условиях и физических потерях, основываясь на уравнении теплопроводности. Для улучшения точности, авторы также используют метод сэмплирования данных в дата-дривенном режиме. Это позволяет адаптировать модель к конкретным условиям тепловой нагрузки, что улучшает качество прогнозов. Особенностью данного подхода является то, что PINN не требует использования традиционных сеток для вычислений, что существенно уменьшает вычислительные затраты. Авторы также обеспечивают возможность моделирования в условиях различных типов нагрузки, включая равномерную и неравномерную тепловую стимуляцию на поверхности дивертора. Для этого используются различные наборы входных данных, которые позволяют моделировать различные сценарии теплопередачи. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты по оценке теплового потока в условиях различных типов тепловой нагрузки на поверхности дивертора. Для этого использовались данные, полученные в различных условиях экспериментов на EAST. Результаты показали, что предлагаемая модель PINN достигает точности, сравнимой с Методом Конечных Элементов, но с значительно более высокой вычислительной эффективностью. В частности, PINN достигает ускорения в $\times$40 раз по сравнению с традиционным методом FEM, при этом сохраняя высокую точность моделирования. Это позволяет проводить реальновременные моделирования и анализ теплового потока во время экспериментов, что является критическим для эффективного управления работой EAST. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое применение в области термоядерных исследований. Благодаря высокой вычислительной эффективности, PINN может быть использован для реальновременного мониторинга и контроля теплового потока во время экспериментов на EAST. Это позволяет оптимизировать условия работы реактора, минимизируя риски повреждения компонентов и обеспечивая более надежную и безопасную эксплуатацию. Кроме того, предложенный подход может быть применен в других областях, требующих моделирования теплопроводности, таких как промышленные приложения, научные исследования и другие области, где необходима высокая точность и вычислительная эффективность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен новый подход к моделированию теплового потока в термоядерном устройстве EAST с помощью физико-информированной нейронной сети. Результаты показывают, что этот подход не только обеспечивает высокую точность, но также существенно ускоряет процесс моделирования. Будущие исследования могут сосредоточиться на дальнейшей оптимизации архитектуры сети и расширении ее применимости к другим типам термоядерных установок.

Annotation:

Estimating heat flux in the nuclear fusion device EAST is a critically important task. Traditional scientific computing methods typically model this process using the Finite Element Method (FEM). However, FEM relies on grid-based sampling for computation, which is computationally inefficient and hard to perform real-time simulations during actual experiments. Inspired by artificial intelligence-powered scientific computing, this paper proposes a novel Physics-Informed Neural Network (PINN) to ad...

ID: 2508.03776v1 cs.LG, cs.AI

arXiv PDF

📄 SoilNet: A Multimodal Multitask Model for Hierarchical Classification of Soil Horizons

2025-08-09

Авторы:

Teodor Chiaburu, Vipin Singh, Frank Haußer, Felix Bießmann

## КОНТЕКСТ И ПРОБЛЕМАТИКА Классификация горизонтов почвы является важной задачей в эмпирических науках, так как она играет ключевую роль в мониторинге состояния почвы, что влияет на сельскохозяйственную продуктивность, безопасность продовольствия, стабильность экосистем и устойчивость к изменению климата. Однако этот процесс представляет собой сложную задачу, требующую учета мультимодальных данных, таких как изображения и геотемпоральные метаданные, а также сложной иерархической структуры горизонтов почвы. Традиционные методы классификации горизонтов часто сталкиваются с проблемами, связанными с большим количеством возможных лейблов, дисбаллансом данных и нелинейными взаимосвязями между горизонтами. Недавние достижения в области фаундэйшен-моделей показали выдающиеся результаты во многих областях, но эти модели еще не были эффективно применены к задачам, требующим учета сложной иерархической структуры данных, как это требуется для классификации горизонтов почвы. Таким образом, необходимо разработать модель, которая может эффективно обрабатывать мультимодальные входные данные, обрабатывать иерархические структуры лейблов и обеспечить высокую точность классификации. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой работе авторы представляют $\textit{SoilNet}$, мультимодальную мультизадачную модель, предназначенную для классификации горизонтов почвы. Модель состоит из нескольких модулей, каждый из которых выполняет определенную функцию. В первую очередь, модель использует изображения и геотемпоральные метаданные для предсказания глубинных маркеров, которые помогают разделить почвенный профиль на кандидаты на горизонты. Каждый сегмент получает набор морфологических черт, специфичных для горизонта. Далее, для каждого сегмента предсказывается лейбл горизонта, используя вектор мультимодальных фич, полученных из изображений и метаданных. Одним из ключевых элементов модели является использование графового представления лейблов для учета сложной иерархической структуры горизонтов. Это позволяет модели эффективно обрабатывать большое количество возможных лейблов, а также учитывать их нелинейные взаимосвязи. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на реальном датасете почвенных профилей, чтобы оценить эффективность $\textit{SoilNet}$. Для этого использовались данные, включающие изображения почвы и геотемпоральные метаданные. Модель демонстрирует высокую точность классификации, превосходя существующие подходы, особенно в случаях с большим количеством лейблов и дисбаллансом данных. Результаты показывают, что интеграция изображений и метаданных, а также использование графового представления лейблов значительно улучшают качество классификации. Модель показала стабильные результаты даже в сложных сценариях, где требуется учет многих взаимосвязанных горизонтов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ $\textit{SoilNet}$ имеет широкое применение в сельскохозяйственной и экологической науке. Точная классификация горизонтов почвы помогает в мониторинге состояния почвы, что важно для повышения сельскохозяйственной продуктивности, обеспечения безопасности продовольствия и поддержания экосистемной стабильности. Кроме того, модель может быть использована для мониторинга изменений в почве в зависимости от условий климата, что делает ее инструментом для климатической резильентности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В этой работе была представлена $\textit{SoilNet}$, модель, эффективно решающая задачу классификации горизонтов почвы с помощью мультимодальных входных данных и графового представления лейблов. Будущие исследования могут фокусироваться на дальнейшем улучшении модели, включая использование более крупных датасетов и расширение модели для учета еще более сложных иерархических структур.

Annotation:

While recent advances in foundation models have improved the state of the art in many domains, some problems in empirical sciences could not benefit from this progress yet. Soil horizon classification, for instance, remains challenging because of its multimodal and multitask characteristics and a complex hierarchically structured label taxonomy. Accurate classification of soil horizons is crucial for monitoring soil health, which directly impacts agricultural productivity, food security, ecosyst...

ID: 2508.03785v1 cs.LG, cs.AI

arXiv PDF

📄 Self-Questioning Language Models

2025-08-09

Авторы:

Lili Chen, Mihir Prabhudesai, Katerina Fragkiadaki, Hao Liu, Deepak Pathak

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие языковых моделей (Large Language Models, LLM) традиционно связано с их обучением на больших корпусах данных. Однако создание и поддержка таких наборов данных представляет собой сложную и ресурсоемкую задачу. Также существует проблема переобучения моделей на конкретных данных, что может ограничивать их способность к обобщению. Кроме того, существует требование к моделям быть способными к решению новых, невиданных задач, что требует развития их способностей к логическому мышлению и критическому анализу. В этой статье авторы предлагают Self-Questioning Language Models (SQLM), метод, который позволяет языковым моделям улучшать свои способности к логическому мышлению без доступа к внешним данным. Основная идея заключается в том, что модель может самостоятельно генерировать задачи и подзадачи, а затем пытаться решить их. Этот процесс позволяет модели развиваться за счет собственных внутренних ресурсов, не зависящих от внешних источников данных. Авторы сформулировали гипотезу, что при правильном подходе модель может улучшить свои способности к решению задач, просто генерируя сама задания и отвечая на них. Для этого используется метод asymmetric self-play, где две части модели — proposer (генерирующая задачи) и solver (решающая их) — взаимодействуют между собой. Этот подход позволяет модели развиваться в условиях, где у нее нет доступа к специально подготовленным данным. ## ПРЕДЛОЖЕННЫЙ МЕТОД Self-Questioning Language Models (SQLM) представляют собой фреймворк, основанный на asymmetric self-play. Этот метод включает в себя две основные компоненты: proposer и solver. Proposer отвечает за генерацию заданий (вопросов), а solver — за их решение. Обе компоненты обучаются с помощью reinforcement learning (обучения с подкреплением). Proposer получает заданную тему (например, "алгебра" или "программирование") и генерирует задачу, которую необходимо решить. Затем, solver пытается ответить на задачу. Proposer получает награду, если задача не слишком легкая и не слишком сложная для решения. Это позволяет поощрять генерацию задач, которые находятся на оптимальном уровне сложности. Solver, в свою очередь, получает награду на основе того, насколько правильно он решил задачу. Для этого используется метод "мажоритарного голосования" (majority voting), который служит прокси-метрикой для правильности ответа, когда нет доступа к "истинным" ответам. Для задач программирования, proposer может генерировать unit tests (модульные тесты), которые используются для проверки правильности решения solver. Это позволяет создать замкнутую систему, где модель может развиваться через самообучение. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на трех разных бенчмарках: 1. **Трехзначное умножение** (three-digit multiplication): Этот бенчмарк состоит из математических задач, требующих умножения трехзначных чисел. 2. **Алгебра** (OMEGA benchmark): Этот бенчмарк содержит более сложные алгебраические задачи. 3. **Программирование** (Codeforces): Этот бенчмарк включает задачи по программированию, которые требуют написания кода. Результаты показали, что SQLM может улучшить свои результаты на этих бенчмарках без использования внешних данных. Модель стала лучше в решении задач по мере того, как продолжалось обучение через asymmetric self-play. Это показывает, что модель может развиваться за счет собственных внутренних ресурсов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Self-Questioning Language Models (SQLM) могут быть применены в различных областях, где необходимо улучшение способностей моделей к логическому мышлению без доступа к внешним данным. Например, это может быть полезно в области образования, где модели могут генерировать сами задания для студентов и помогать им в решении. Кроме того, SQLM может быть полезен в области программирования, где модели могут генерировать unit tests и проверять код. Это может улучшить качество программных продуктов, уменьшив количество ошибок. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SQLM показывает, что языковые модели могут развиваться за счет собственных внутренних ресурсов, не требуя доступа к внешним данным. Это открывает новые перспективы для исследования и развития моделей, особенно в ситуациях, когда доступ к большим корпусам данных ограничен. В будущем, этот метод может быть расширен для решения более сложных задач, а также для исследования других форм самообучения. Это может привести к новым подходам в области обучения ИИ, где модели могут развиваться без необходимости постоянного обновления внешних наборов данных.

Annotation:

Can large language models improve without external data -- by generating their own questions and answers? We hypothesize that a pre-trained language model can improve its reasoning skills given only a single prompt specifying the topic (e.g., algebra word problems) and asking the model to generate its own questions. To do this, we propose Self-Questioning Language Models (SQLM): an asymmetric self-play framework where a proposer is given the topic and generates a question for a solver, who tries...

ID: 2508.03682v2 cs.LG, cs.AI

arXiv PDF

📄 VAE-DNN: Energy-Efficient Trainable-by-Parts Surrogate Model For Parametric Partial Differential Equations

2025-08-09

Авторы:

Yifei Zong, Alexandre M. Tartakovsky

Решение задач параметрических нелинейных уравнений в частных производных (ПДЕ) требует высокоэффективных и точных методов. В этой работе предлагается модель VAE-DNN, которая является тренируемой по частям суррогатной моделью для решения прямых и обратных задач. Она использует архитектуру вариативного автоэнкодера (VAE), состоящую из энкодера, полносвязной нейронной сети и декодера. Энкодер сжимает высокоразмерный вход $y(\bm{x})$ в латентное пространство $\bm\mu_{\bm\phi_y}$, затем нейросеть отображает его в пространство $\bm\mu_{\bm\phi_h}$ решения ПДЕ $h(\bm{x},t)$, которое восстанавливается декодером. Отдельная тренировка каждого компонента существенно сокращает время и энергию по сравнению с лидирующими моделями FNO и DeepONet. Исследования показывают, что VAE-DNN превосходит их по точности и эффективности в решении уравнений течения грунтовых вод.

Annotation:

We propose a trainable-by-parts surrogate model for solving forward and inverse parameterized nonlinear partial differential equations. Like several other surrogate and operator learning models, the proposed approach employs an encoder to reduce the high-dimensional input $y(\bm{x})$ to a lower-dimensional latent space, $\bm\mu_{\bm\phi_y}$. Then, a fully connected neural network is used to map $\bm\mu_{\bm\phi_y}$ to the latent space, $\bm\mu_{\bm\phi_h}$, of the PDE solution $h(\bm{x},t)$. Fin...

ID: 2508.03839v1 cs.LG, cs.AI, cs.CE, 68

arXiv PDF

Показано 2831 - 2840 из 2901 записей