Generative Modeling for Robust Deep Reinforcement Learning on the Traveling Salesman Problem

2508.08718v1 cs.LG, cs.AI 2025-08-14
Авторы:

Michael Li, Eric Bae, Christopher Haberland, Natasha Jaques

Резюме на русском

## Контекст Туристский продавец (TSP) — это классическая задача комбинаторной оптимизации, которая имеет многочисленные практические приложения, включая управление логистическими сетями, геномную обработку и проектирование цепей поставок. Хотя классические интеллектуальные алгоритмы (например, генетические алгоритмы или линейная ассоциация) могут достичь близкой к оптимальности для малых TSP-проблем, они становятся вычислительно нереалистичными для больших проблем. Задачи реального мира, такие как динамическая перепланировка последних миль доставки, требуют решателя с быстрым временем вывода. Исследователи работают над специализированными нейронными сетевыми решениями, однако эти методы часто сталкиваются с проблемами общей применимости. Особенно трудно проблемах генеральной адаптивности в TSP, когда тренировочные данные могут быть недостаточно представительными для реальных распределений. Наша работа направлена на решение этих проблем, создав модель, которая обеспечивает устойчивость к различным распределениям в TSP. ## Метод Мы предлагаем Combinatorial Optimization with Generative Sampling (COGS), метод генерирующей модели для решения TSP. Модель обучается на данных, сгенерированных специальной статистической моделью TSP. Это позволяет добиться более широкого покрытия области возможных распределений в TSP, чем это могло быть в случае использования реальных TSP-проблем. COGS включает в себя алгоритм обучения, который минимизирует потери в тренировочной выборке, а также включает в себя механизм интерполяции для улучшения общей гибкости. Мы также представляем TSPLib50 — новую библиотеку реальных данных TSP, которая позволяет протестировать устойчивость модели к ненатренированным распределениям. Модель оценивается на синтетических TSP-данных и TSPLib50, и её производительность сравнивается с современными нейронными базовыми решениями. ## Результаты Мы проверили COGS на нескольких синтетических данных и на TSPLib50. Наши результаты показали, что COGS превосходит состояние технологий нейронных базовых решений в тестах на робастность распределения. Особенно заметны повышенные результаты в ситуациях стандартного вывода. Мы также показали, что COGS может лучше предсказывать решения в реальных TSP-данных, чем существующие модели. Это демонстрируется на TSPLib50, где COGS показывает существенные улучшения в сравнении с другими современными алгоритмами. Мы также проанализировали, насколько модель может устойчиво решать все возможные проблемы в TSPLib50. ## Значимость Мы предлагаем модель COGS, которая позволяет улучшить устойчивость решений TSP к различным распределениям, что является клю

Abstract

The Traveling Salesman Problem (TSP) is a classic NP-hard combinatorial optimization task with numerous practical applications. Classic heuristic solvers can attain near-optimal performance for small problem instances, but become computationally intractable for larger problems. Real-world logistics problems such as dynamically re-routing last-mile deliveries demand a solver with fast inference time, which has led researchers to investigate specialized neural network solvers. However, neural networks struggle to generalize beyond the synthetic data they were trained on. In particular, we show that there exist TSP distributions that are realistic in practice, which also consistently lead to poor worst-case performance for existing neural approaches. To address this issue of distribution robustness, we present Combinatorial Optimization with Generative Sampling (COGS), where training data is sampled from a generative TSP model. We show that COGS provides better data coverage and interpolation in the space of TSP training distributions. We also present TSPLib50, a dataset of realistically distributed TSP samples, which tests real-world generalization ability without conflating this issue with instance size. We evaluate our method on various synthetic datasets as well as TSPLib50, and compare to state-of-the-art neural baselines. We demonstrate that COGS improves distribution robustness, with most performance gains coming from worst-case scenarios.

Ссылки и действия