📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Abdulkarim Atrash, Omar Moured, Yufan Chen, Jiaming Zhang, Seyda Ertekin, Omur Ugur

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Infrared small target detection (IRSTD) is critical for defense and surveillance but remains challenging due to (1) target loss from minimal features, (2) false alarms in cluttered environments, (3) missed detections from low saliency, and (4) high computational costs. To address these issues, we propose TY-RIST, an optimized YOLOv12n architecture that integrates (1) a stride-aware backbone with fine-grained receptive fields, (2) a high-resolution detection head, (3) cascaded coordinate attentio...
ID: 2509.22909v1 cs.CV, cs.AI, cs.LG
Авторы:

Yuanzhi Zhu, Xi Wang, Stéphane Lathuilière, Vicky Kalogeiton

#### Контекст Современные технологии генерации изображений столкнулись с вызовами в области эффективности и точности. Особенно актуальной является проблема создания одношаговых генераторов, которые могут эффективно генерировать изображения за один проход, сохраняя высокое качество и точность. Однако существующие подходы страдают от моделирования биаса, заложенного в учительских моделях, и от невозможности применения постобучения оптимизации, таких как гауссовский тренинг или тест-тайм эмбеддинг оптимизация. Эти ограничения способствуют снижению качества и регрессии в процессе развития. #### Метод Мы предлагаем способ решения этих проблем с помощью **soft embeddings** — метода, который заменяет дискретные токены на ожидаемые эмбеддинги под управлением распределения генератора. Эта техника позволяет сохранить высокую точность дискретного генератора, при этом делая его дифференцируемым и подходящим для последовательного улучшения. В рамках этого подхода интегрируется существующий фреймворк Di[M]O, чтобы сделать генераторы одношаговыми и функционально эффективными. Это решение устраняет барьеры для таких методов, как GAN-обучение, тест-тайм оптимизация и другие методы, которые требуют дифференцируемости. #### Результаты Мы провели эксперименты с широким спектром моделей-учителей, таких как MaskBit и MaskGen, используя датасеты ImageNet-256 и другие. Результаты показали, что Soft-Di[M]O (сочетание метода soft embeddings с Di[M]O) улучшает классо-изображения, получает фидбэк-фри коллектив за 1.56 в ImageNet-256 и повышает оценки GenEval и HPS при применении тестовых оптимизаций. Эти результаты доказывают высокую эффективность и гибкость метода, которая позволяет улучшить качество генерации изображений за один проход. #### Значимость Предложенный подход имеет широкое применение в области генеративных моделей, в том числе для тексто-изображения и других задач. Он обеспечивает значительные преимущества, такие как улучшение точности и качества изображений, возможность применения различных методов последовательного оптимизации, таких как GAN и тест-тайм эмбеддинг оптимизация. Это может привести к укреплению приложений в глубоком обучении, где эффективность и качество изображений являются ключевыми факторами. #### Выводы Мы представили Soft-Di[M]O — новый подход к одношаговой генерации изображений, который улучшает точность и эффективность дискретных генераторов. Наш метод доказывает свою эффективность на разных моделях-учителях и датасетах, определяя новые показатели качества. Мы планируем продолжить развитие этого подхода, исследуя
Annotation:
One-step generators distilled from Masked Diffusion Models (MDMs) compress multiple sampling steps into a single forward pass, enabling efficient text and image synthesis. However, they suffer two key limitations: they inherit modeling bias from the teacher, and their discrete token outputs block gradient flow, preventing post-distillation refinements such as adversarial training, reward-based fine-tuning, and Test-Time Embedding Optimization (TTEO). In this work, we introduce soft embeddings, a...
ID: 2509.22925v1 cs.CV, cs.AI, cs.LG
Авторы:

Swaib Ilias Mazumder, Manish Kumar, Aparajita Khan

#### Контекст Область исследования — прогнозирование моносона на региональном уровне, в частности в Индии, где это задание имеет высокий практический значимость для сельского хозяйства, управления водными ресурсами и планирования климатной стратегии. Существующие проблемы включают недостаточность точности и частотности прогнозов, вызванных проблемами с данными почти наземных наблюдений и характером моносона. Мотивация заключается в создании модели, которая могла бы обрабатывать данные с высокой разрешностью и учитывать многообразие влияющих факторов, включая климатические, географические и социальные. #### Метод Методология основывается на multimodal attention U-Net, сочетающей методы сверточных нейронных сетей и мультимодального обучения. Модель обрабатывает семь ключевых геоспациальных модальностей: земное покрытие, NDVI (индекс видимого зеленого покрытия), температуру земной поверхности, влажность воздуха, объем ветра, высоту над уровнем моря и временные данные. Данные собраны за период с июня по сентябрь 2024 года. Архитектура включает элементы скрытых моделей внимания, которые позволяют модели учитывать интересные сегменты в данных. Функции потерь, такие как focal и dice loss, используются для корректной адаптации модели к неравномерности распределения классов распространения дождей, определяемых Индийской метеорологической департаментом (IMD). #### Результаты Експерименты проводились на новой 1-классовой датасете, разделенной на 5-классовые классы, включая 0 дороговесов, 1-10, 11-50, 51-100 и более 100 мм в месяц. Модель была протестирована на 5-классах регионов Индии. Результаты показали, что multimodal attention U-Net показывает высокую точность и способность распознавать резкие изменения в классах дождей. Она показывает лучшие результаты по сравнению с нейронными сетями U-Net и другими текущими моделями по обработке региональных моносонов, особенно в классах высокой интенсивности дождя. #### Значимость Приложениями модели являются сельское хозяйство, управление ресурсами воды и планирование экстремальных ситуаций, которые влияют на климатную устойчивость и безопасность жителей. Основные преимущества заключаются в точности, мультимодальности и возможности работы с высокочастотными данными. Будущие направления исследований могут включать расширение модели на другие регионы, а также интеграцию дополнительных модальностей, таких как данные от социальных сетей и ИИ. #### Выводы Предложенная модель показала состоятельность в анализе и прогнозировании региональных моносонов, особенно в класс
Annotation:
Accurate monsoon rainfall prediction is vital for India's agriculture, water management, and climate risk planning, yet remains challenging due to sparse ground observations and complex regional variability. We present a multimodal deep learning framework for high-resolution precipitation classification that leverages satellite and Earth observation data. Unlike previous rainfall prediction models based on coarse 5-50 km grids, we curate a new 1 km resolution dataset for five Indian states, inte...
ID: 2509.23267v1 cs.CV, cs.AI, cs.LG
Авторы:

Boyu Han, Qianqian Xu, Shilong Bao, Zhiyong Yang, Kangli Zi, Qingming Huang

#### Контекст Текст-на-изображение (T2I) диффузионные модели (T2I DMs) широко применяются в области генерации изображений по тексту, но существуют проблемы с равенством в выводе. Одной из основных причин является несбалансированный текстовый энкодер, который может внедрять склонность в представление изображений. Это приводит к привязанности к контексту, неточности и несправедливости в генерируемых изображениях. Достижение справедливости в T2I DMs является ключевым целям для улучшения качества и универсальности моделей, особенно для сценариев, требующих нейтрального вывода. Несмотря на то, что существуют методы, нацеленные на устранение этой проблемы, они часто требуют тяжелых вычислительных затрат или дополнительных сетей, что ограничивает их применение в практических сценариях. Таким образом, цель нашего исследования состоит в разработке эффективного и экономичного метода для устранения склонности в текстовых энкодерах T2I DMs. #### Метод Мы предлагаем LightFair, новая легковесная стратегия для достижения справедливости в T2I DMs путем шлифовки текстовых энкодеров. Работа начинается с нашего наблюдения: текстовый энкодер T2I DMs выдает нейтральные текстовые признаки, которые показывают незначительную, но заметную склонность в пространстве CLIP. Эта склонность может быть акцентирована ноутсой предсказателем шума. Для устранения этой склонности, мы предлагаем стратегию дезбалансировки с ограничением расстояния, которая гарантирует, что признаки пространства текста остаются близки к исходной справедливости. Для сохранения качества генерации мы предлагаем двухэтапную стратегию текстового управляемого вывода, которая ограничивает вмешательство дезбалансированного энкодера в зависимости от контекста. Эта модель демонстрирует высокую эффективность и экономичность. #### Результаты Мы проводим эксперименты на Stable Diffusion v1.5, используя широкий набор данных для тестирования равенства и качества генерации. В сравнении с другими подходами, LightFair демонстрирует существенное улучшение справедливости в выводе, сохраняя высокую точность и подробность изображений. Например, она достигает лидирующих показателей по метрикам логического справедливости с меньшим количеством тренировочных эпох и минимальным увеличением нагрузки при выводе. Наши результаты подтверждают эффективность и практичность LightFair в решении проблемы склонности в T2I DMs. #### Значимость LightFair предлагается как эффективная альтернатива для достижения справедливости в T2I DMs. Ее основное применение — в области генерирования изображений, где требуется нейт
Annotation:
This paper explores a novel lightweight approach LightFair to achieve fair text-to-image diffusion models (T2I DMs) by addressing the adverse effects of the text encoder. Most existing methods either couple different parts of the diffusion model for full-parameter training or rely on auxiliary networks for correction. They incur heavy training or sampling burden and unsatisfactory performance. Since T2I DMs consist of multiple components, with the text encoder being the most fine-tunable and fro...
ID: 2509.23639v1 cs.CV, cs.AI, cs.LG
Авторы:

Shubhang Bhatnagar, Andy Xu, Kar-Han Tan, Narendra Ahuja

#### Контекст Large Language Models (LLMs) с возможностями визуально-языковых задач (Vision-Language Tasks) превратились в ключевые средства для широкого круга приложений, включая визуальный ответ на вопросы (Visual Question Answering, VQA) и генерацию образов по текстовым подсказкам. Однако их масштабирование и развертывание часто сталкиваются с ограничениями в памяти и вычислительных ресурсах. Хотя методы постобучения кодирования (post-training quantization, PTQ) способны значительно сжать модели с 32-битной до 1-битной точности, сохраняя при этом почти те же показатели качества, для multimodal LLMs (MLLMs) эффективность таких методов остается мало изученной. Наша мотивация заключается в изучении эффективных методов кодирования для MLLMs, что позволит уменьшить их размер без значительного ухудшения качества. #### Метод Мы предлагаем новую методологию, названную **LUQ (Layerwise Ultra-Low Bit Quantization)**, которая лексически кодирует слои модели в зависимости от их устойчивости к ultra-low bit quantization. Для этого проводятся подробные анализы динамики и распределения промежуточных слоев модели, определяя те слои, которые могут лучше переносить низкобитное кодирование. Мы также используем смешанные входы (image-text) для повышения точности PTQ в ultra-low bit режиме. Наша архитектура LUQ выбирает слои, которые могут использовать ultra-low bit quantization, при этом применяя более высокую точность к более чувствительным слоям. #### Результаты Мы проводим эксперименты с LUQ на моделях LLaVA-1.5 и Qwen-2.5-VL на 9 VQA-benchmarks. Результаты показывают, что LUQ уменьшает память, используемую моделью, на 40% для LLaVA-1.5 и на 31% для Qwen-2.5-VL, сохраняя производительность на уровне менее 10% от оригинала на MME benchmark. Эти результаты демонстрируют эффективность LUQ в сокращении размера MLLMs без значительного потери качества. #### Значимость LUQ может быть применено в различных сценариях, где необходимо снизить ресурсоемкость работы моделей, такие как мобильные приложения, облачные сервисы и реальном времени задачи. Наш метод предоставляет значительные преимущества, такие как меньшее потребление ресурсов и сохранение высокого качества результатов. Мы уверены, что LUQ открывает новые перспективы для развития MLLMs, особенно в области визуально-языковых задач. #### Выводы Мы представили LUQ, первую стратегию layerwise ultra-low bit quantization для multimodal LLMs. Наши результаты показывают, что LUQ эффективно уменьшает размер моделей, которые используются в VQA, с минимальным ущербом качества. Мы планируем провести дополнительные исследования для расширения LUQ на другие модели и задачи, а также для улучшения ее устойчивости к различным входным данным.
Annotation:
Large Language Models (LLMs) with multimodal capabilities have revolutionized vision-language tasks, but their deployment often requires huge memory and computational resources. While post-training quantization (PTQ) has successfully compressed language models to as low as 1-bit precision without significant performance loss, its effectiveness for multimodal LLMs (MLLMs) remains relatively unexplored. In this paper, we present the first study on ultra-low bit (<4-bit) quantization for multimodal...
ID: 2509.23729v1 cs.CV, cs.AI, cs.LG, eess.IV
Авторы:

Ali Nazeri, Shashank Mishra, Achim Wagner, Martin Ruskowski, Didier Stricker, Jason Rambach

## Контекст Качественное управление в производстве является ключевым фактором для обеспечения достоверности и безопасности производственных процессов. Особенно важное место занимает контроль качества при сборке мелких компонентов, таких как болты или шайбы. Традиционные методы качественного контроля часто ограничиваются однопроходным изображением или ручным осмотром, что приводит к ошибкам из-за оккультаций, ограниченных углов обзора и неустойчивости освещения. Эти проблемы часто требуют дополнительных станций инспекции, что может привести к снижению производительности линии сборки и увеличению затрат. Данная работа представляет собой новую модель многовидового модуля для качественного контроля, который использует систему многокамерного зрения и новейшие алгоритмы обнаружения объектов. Она предназначена для улучшения достоверности и эффективности контроля в производственных цехах. ## Метод Многовидовый модуль качественного контроля основывается на системе из трех камер, которая обеспечивает трехмерное визуальное покрытие объекта. Для обработки данных используется современный подход к объединению изображений с разных точек зрения, чтобы устранить возможные несоответствия и улучшить точность. Алгоритмы обнаружения объектов были адаптированы для работы с мелкими компонентами в производственных условиях. Для обучения модели и тестирования ее точности разработан собственный уникальный датасет, который включает изображения с различных углов, условий освещения и ситуаций с оккультацией. Это позволяет модели лучше адаптироваться к реальным производственным средам. ## Результаты Эксперименты проводились на собственном датасете, который включал изображения с различных углов и сценариев. Наша модель показала значительное превосходство по сравнению с методами однопроходного зрения в отношении точности и достоверности обнаружения недостаточно скрепленных мелких деталей, таких как болты. Точность и рековери показали значительное улучшение, что демонстрирует эффективность многовидового подхода в решении проблем, связанных с ограниченным полем обзора и неоднородным освещением. ## Значимость Модуль может быть применен в различных производственных секторах, где необходимо высокоточное и надежное контроль качества сборочных процессов. Он предоставляет достоверность, надежность и масштабируемость, что позволяет уменьшить затраты на дополнительные станции инспекции и увеличить производительность производственных линий. Этот подход может привести к значительным экономическим выгодам и повышению безопасности в производстве. ## Выводы Работа доказывает, что многовидовый подход к качественному ко
Annotation:
Quality control is a critical aspect of manufacturing, particularly in ensuring the proper assembly of small components in production lines. Existing solutions often rely on single-view imaging or manual inspection, which are prone to errors due to occlusions, restricted perspectives, or lighting inconsistencies. These limitations require the installation of additional inspection stations, which could disrupt the assembly line and lead to increased downtime and costs. This paper introduces a nov...
ID: 2509.23815v1 cs.CV, cs.AI, cs.LG, 68T45, I.4.8; I.4.1; I.2.10
Авторы:

Youssef Sabiri, Walid Houmaidi, Amine Abouaomar

#### Контекст Область исследования — диагностика остринных заболеваний, которая играет ключевую роль в предотвращении слепоты и снижении экономических нагрузок, связанных с проблемами зрения. Глобально, более 2,2 миллиарда человек страдают изменениями зрения, что приводит к утере продуктивности в $411 миллиардов ежегодно. Традиционные методы группировки фоновых глазных изображений ручным способом оптическими зонмами являются времязатратными и субъективными. Альтернативой стали глубокие нейронные сети, которые автоматизировали анализ глазных изображений и достигли уровня экспертов. В данном исследовании предлагается EYE-DEX — автоматизированная система для классификации 10 остринных заболеваний на основе большого датасета Retinal Disease Dataset, содержащего 21 577 изображений. #### Метод Методология EYE-DEX основывается на архитектуре глубинных нейронных сетей. В качестве базовой архитектуры использована модель VGG16, которая была адаптирована с помощью предобученных весов и дообучена на датасете Retinal Disease Dataset. Система выполняет классификацию на 10 классов, каждый из которых соответствует отдельному остринному заболеванию. Для улучшения понимания результатов используется техника Gradient-weighted Class Activation Mapping (Grad-CAM), которая позволяет создавать визуальные объяснения, показывающие регионы в изображениях, относящиеся к конкретным заболеваниям. Это обеспечивает преимущество в прозрачности и надежности системы. #### Результаты На тестовой выборке EYE-DEX показала достижение тестового точности 92,36%, что является состоянием технологий в области классификации остринных заболеваний. Исследование проводилось на тестовых данных, включающих 21 577 изображений. Нейросеть была кросс-валидирована с помощью бенчмарк-дАТАСЕТА, чтобы убедиться в ее надежности. Дополнительно, визуальные объяснения Grad-CAM позволили выделить регионы, связанные с определенными остринными заболеваниями, улучшив понимание нейросети врачами. #### Значимость EYE-DEX может быть применена для автоматизации диагностики остринных заболеваний в различных медицинских учреждениях, включая клиники и больницы. Она предоставляет быстрый, точный и объясняемый анализ глазных изображений, что уменьшает нагрузку на оптические зонмы. Важное преимущество является возможностью использовать систему в области превентивной медицины для раннего выявления инвазивных заболеваний. Также, система увеличивает доступность качественной медицинской помощи в развивающихся странах. #### Выводы EYE-DEX доказала свою эффективность в классификации остринных заболева
Annotation:
Retinal disease diagnosis is critical in preventing vision loss and reducing socioeconomic burdens. Globally, over 2.2 billion people are affected by some form of vision impairment, resulting in annual productivity losses estimated at $411 billion. Traditional manual grading of retinal fundus images by ophthalmologists is time-consuming and subjective. In contrast, deep learning has revolutionized medical diagnostics by automating retinal image analysis and achieving expert-level performance. In...
ID: 2509.24136v1 cs.CV, cs.AI, cs.LG, 60G35, 62M10, 62P35, 65C20, 68T45, 68U10, 92C35, 92C40, 92C42, 93E10, I.4; I.4.8; I.4.9; I.4.10; I.2; I.2.6; I.2.10; J.3; C.2.4; C.3; H.2.8; H.3.4; H.3.5; I.2.4; I.5; I.5.1; I.5.4; K.6.1
Авторы:

Walid Houmaidi, Youssef Sabiri, Salmane El Mansour Billah, Amine Abouaomar

## Контекст В области раннего диагностирования и лечения туморов мозга важность раннего и точного обнаружения не может быть переоценена. Несоответствие нормам в данной области приводит к задержке лечения, плохому прогнозу и ухудшению качества жизни пациентов. Одним из ключевых аспектов этого процесса является проведение надежной диагностики с помощью магнитной резонансной импульсии (MRI). Несмотря на развитие технологий, существуют проблемы, такие как артефакты данных, несогласованные показатели классификации и проблемы интерпретируемости результатов. Данный исследовательский проект направлен на развитие инновационной системы BrainFusion, которая стремится улучшить точность классификации и локализации туморов мозга с помощью глубокого обучения, а также обеспечить интерпретируемость результатов для клинических специалистов. ## Метод BrainFusion включает в себя три основные компонента: 1. **Обработка изображений MRI** - для подготовки данных используются методы нормализации и центрирования, чтобы обеспечить устойчивость обучения. 2. **Конвейер глубокого обучения** - данный модуль включает в себя несколько конечно-сверточных нейронных сетей (CNN), таких как VGG16, ResNet50 и Xception. Эти модели были тюнированы для классификации типов туморов мозга. 3. **Метод локализации с помощью YOLOv8** - для точной расположения туморов в изображении используется YOLOv8, который создает баундинг-боксы вокруг обнаруженных областей. Кроме того, в систему внедрены элементы интерпретируемости, такие как слои влияния на основе Grad-CAM, чтобы обеспечить понимание результатов клиническими специалистами. ## Результаты Были проведены эксперименты на датасете Brain Tumor MRI, включающем различные классы туморов мозга. Модель VGG16 показала тестовую точность 99.86%, значительно превосходя предыдущие рекорды. Метод локализации YOLOv8 добавил возможность точного определения размеров и местоположения туморов в изображении. Интеграция этих компонентов позволила повысить точность и улучшить объясняемость результатов. Благодаря технологии explainable AI, такие как Grad-CAM, модель стала более интуитивно понятной для клинических специалистов. ## Значимость Научное решение BrainFusion может быть применено в различных областях, включая диагностику заболеваний мозга, мониторинг терапии и планирование операций. Его преимущества заключаются в высокой точности, быстродействии и интерпретируемости результатов. Данная модель может существенно улучшить процесс диагностики, уменьшить время реакции врачей и повысить комфорт пациентов.
Annotation:
The early and accurate classification of brain tumors is crucial for guiding effective treatment strategies and improving patient outcomes. This study presents BrainFusion, a significant advancement in brain tumor analysis using magnetic resonance imaging (MRI) by combining fine-tuned convolutional neural networks (CNNs) for tumor classification--including VGG16, ResNet50, and Xception--with YOLOv8 for precise tumor localization with bounding boxes. Leveraging the Brain Tumor MRI Dataset, our ex...
ID: 2509.24149v1 cs.CV, cs.AI, cs.LG, 60G35, 62M10, 62P35, 65C20, 68T45, 68U10, 92C35, 92C40, 92C42, 93E10, I.4; I.4.8; I.4.9; I.4.10; I.2; I.2.6; I.2.10; J.3; C.2.4; C.3; H.2.8; H.3.4; H.3.5; I.2.4; I.5; I.5.1; I.5.4; K.6.1
Авторы:

Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji, Stefano Ermon

#### Контекст Современные flow map models, такие как Consistency Models (CM) и Mean Flow (MF), используются для эффективного генерирования изображений за несколько шагов, основываясь на решении ОДУ диффузионных моделей. Однако их обучение остается нетривиальным: процесс требует большого объема данных, тщательной настройки параметров и значительных вычислительных ресурсов. Хотя инициализация с помощью предварительно обученного диффузионного моделирования упрощает задачу, она не решает проблемы стабильности и устойчивости обучения. В этом контексте возникает потребность в разработке новых методов, которые могли бы упростить и ускорить обучение, улучшив при этом качество и стабильность результатов. #### Метод Мы предлагаем подход **Consistency Mid-Training (CMT)**, который вводит легковесный интермедийный этап между предварительным обучением диффузионной модели и последующим обучением flow map. CMT стремится обучить модель, которая бы эффективно переносила точки из одной точки старта предварительного диффузионного решения до представительной точки, полученной с помощью ОДУ. Этот подход, в отличие от простого предварительного обучения, позволяет получить более стабильную и консистентную начальную точку для последующей последовательной модели. Основной идеей CMT является то, что он не только уменьшает необходимый объем данных и ресурсов сильно, но и улучшает общую эффективность обучения в рамках моделей flow map. #### Результаты Мы проверили CMT на трех разных датасетах: CIFAR-10, ImageNet (64x64 и 512x512) и ImageNet (256x256). Эмпирические результаты показали, что CMT достигает состояния лидера с FID 1.97 на CIFAR-10, FID 1.32 на ImageNet 64x64 и FID 1.84 на ImageNet 512x512, используя до 98% меньше данных и GPU-времени по сравнению с CM. На ImageNet 256x256, CMT достигает FID 3.34 за один шаг, при этом шаг по времени обучения сокращается примерно вдвое по сравнению с MF. Эти результаты указывают на то, что CMT является более эффективным и стабильным способом обучения flow map, по сравнению с современными методами. #### Значимость CMT может быть применен в различных областях аппликаций, которые используют модели flow map, таких как создание изображений, обработка графики и моделирование данных. Он предлагает не только улучшенные результаты, но и значительное сокращение времени обучения и вычислительных затрат. Изменение парадигмы обучения благодаря CMT может открыть новые возможности для создания более практичных моделей, которые могут быть использованы в реальной жизни, без необходимости значительных вычислительных ресурсов. #### Выводы CMT представляет собой новую, эффективную и универсальную мето
Annotation:
Flow map models such as Consistency Models (CM) and Mean Flow (MF) enable few-step generation by learning the long jump of the ODE solution of diffusion models, yet training remains unstable, sensitive to hyperparameters, and costly. Initializing from a pre-trained diffusion model helps, but still requires converting infinitesimal steps into a long-jump map, leaving instability unresolved. We introduce mid-training, the first concept and practical method that inserts a lightweight intermediate s...
ID: 2509.24526v1 cs.CV, cs.AI, cs.LG
Авторы:

Sangeek Hyun, MinKyu Lee, Jae-Pil Heo

## Контекст Генерирующие адверсарные сети (GANs) стали ключевым инструментом в области искусственного интеллекта, применяемых для создания реалистичных изображений, текстов и других открытых приложений. Несмотря на их успех, GANs до сих пор сталкиваются с рядом проблем, включая нестабильность обучения, плохое использование слоев, а также сложность масштабирования. Эти ограничения становятся все более очевидными при попытке масштабирования GANs для работы с большими данными и высокими разрешениями. Мотивация для данного исследования заключается в рассмотрении возможностей масштабирования GANs с помощью сочетания трансформеров и вариационных автоэнкодеров. ## Метод Для решения проблем, связанных с масштабированием GANs, авторы предлагают Scalable GANs with Transformers (GAT). Эта модель основывается на двух основных компонентах: 1. **Training in Latent Space**: Обучение GANs в центральном пространстве вариационного автоэнкодера (VAE), что позволяет эффективно использовать ресурсы компьютера и сохранять высокую качественную реализацию. 2. **Plain Transformers**: Использование трансформеров как генератора и дискриминатора, чтобы обеспечить гибкость и масштабируемость модели. Для улучшения обучения, авторы предлагают два дополнительных решения: - **Lightweight Intermediate Supervision**: Улучшение локального контроля над генерацией, чтобы избежать ошибок подключения. - **Width-Aware Learning-Rate Adjustment**: Адаптивная настройка скорости обучения в зависимости от ширины слоев, чтобы предотвратить установку оптимизации. ## Результаты Авторы проводят эксперименты на ImageNet-256, сравнивая GAT с другими сильными моделями. Главные результаты: - **FID (Frechet Inception Distance)**: GAT-XL/2 достигает FID 2.96 за 40 эпох, что примерно в 6 раз быстрее, чем сильные базовые модели, такие как StyleGAN3. - **Scalability**: GAT может быть эффективно масштабирована с S-size до XL-size с минимальными изменениями в архитектуре. - **Efficiency and Stability**: Модель показывает высокую эффективность и устойчивость при масштабировании, что отличает ее от других GANs. ## Значимость GAT может применяться в различных областях, таких как генерация реалистичных изображений, редактирование изображений, искусственно созданные данные для обучения других моделей. Основные преимущества включают: - **High-Fidelity Generation**: Нарушение меньшей части модели в генерации реалистичных изображений. - **Scalability**: Модель может быть эффективно масштабирована для работы с большими данными и высокими разрешениями. - **Efficiency and Stability**: Улучшенная оптимизация и устойчивость к нестабильности при масштабировании. GAT открывает новый подход к масштабированию GANs, что может повлиять на дальнейше
Annotation:
Scalability has driven recent advances in generative modeling, yet its principles remain underexplored for adversarial learning. We investigate the scalability of Generative Adversarial Networks (GANs) through two design choices that have proven to be effective in other types of generative models: training in a compact Variational Autoencoder latent space and adopting purely transformer-based generators and discriminators. Training in latent space enables efficient computation while preserving p...
ID: 2509.24935v1 cs.CV, cs.AI, cs.LG
Показано 221 - 230 из 358 записей