📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня
Авторы:

Kyle O'Brien, Stephen Casper, Quentin Anthony, Tomek Korbak, Robert Kirk, Xander Davies, Ishan Mishra, Geoffrey Irving, Yarin Gal, Stella Biderman

########################## ## Контекст ########################## Открытые весовые ИИ-системы (open-weight AI systems) обладают значительными преимуществами, включая прозрачность, открытость исследований и децентрализованный доступ. Однако они подвержены атакам типа tampering, которые эффективно оценивают нежелательные поведения путем модификации весов или активаций. На данный момент, нет тщательно развитой науки по управлению рисками таких моделей. Существующие методы файн-тюнинга и другие пост-тренировочные техники сталкиваются с ограниченной эффективностью в устойчивости к злоумышленникам. Особенно это касается устойчивости в течение многих шагов взаимодействия. Работа, представленная в этой статье, объясняет, может ли фильтрация данных в процессе претренировки помочь снизить уязвимость к таким атакам. ########################## ## Метод ########################## Авторы предлагают многоступенчатую методологию для фильтрации данных в процессе претренировки. Основной инструментом стала методика глубокого скрининга текстов на двойное использование (dual-use), чтобы предотвратить внутреннее восприятие нежелательных знаний. Использовались тексты, связанные с биоугрозами, как исходные данные для экспериментов. Архитектура моделей основана на 6.9B-параметровных языковых моделях, разработанных с нуля. Методы исследовались в условиях тестирования на 10 000 шагов с 300 миллионами токенов биоугроз. Отмечается, что этапы фильтрации были настроены для максимальной эффективности в отношении конкретных рисков. ########################## ## Результаты ########################## Результаты экспериментов показали, что модели, полученные с помощью предложенного метода, вы most of the results are here маятнер робин ты что-то натворила?
Annotation:
Open-weight AI systems offer unique benefits, including enhanced transparency, open research, and decentralized access. However, they are vulnerable to tampering attacks which can efficiently elicit harmful behaviors by modifying weights or activations. Currently, there is not yet a robust science of open-weight model risk management. Existing safety fine-tuning methods and other post-training techniques have struggled to make LLMs resistant to more than a few dozen steps of adversarial fine-tun...
ID: 2508.06601v1 cs.LG, cs.AI
Авторы:

Md Arafat Hossain, Xingfu Wu, Valerie Taylor, Ali Jannesari

## Контекст Одним из основных направлений развития искусственного интеллекта является развитие больших языковых моделей (LLM). Эти модели показали эффективность в решении различных задач, но их развитие связано с высокими затратами на обучение и использование. Размер языковых моделей постоянно растет, что приводит к увеличению вычислительных затрат. Это привело к появлению многочисленных усилий, направленных на оптимизацию процесса обучения и вычислительной эффективности. Одна из основных проблем заключается в том, что многие из текущих подходов к определению "масштабируемости" языковых моделей ограничены архитектурой (либо густая, либо разряженная). Эта работа адресует эту проблему, предлагая новую, универсальную модель масштабируемости, которая может быть применена как к густым, так и к разряженным LLM. ## Метод Мы предлагаем новую модель масштабируемости, которая учитывает особенности обучения густых и разряженных языковых моделей. Модель основывается на анализе существующих экспериментов и статистических моделей, оптимизируя параметры, такие как число слоев, число заголовков, число нейронов в каждом слое, и др. Она использует градиентный спуск для оптимизации и включает методы стохастического градиента, что позволяет ей быть более точной и надёжной. Мы также используем большой набор данных, включающий данные об обучении и тестировании для обучения нашей модели. ## Результаты Мы провели многочисленные эксперименты с различными типами языковых моделей, включая густые и разряженные, чтобы проверить эффективность нашей модели масштабируемости. Мы сравнили полученные результаты с текущими лучшими решениями и показали, что наш подход даёт более точные и надёжные прогнозы в сравнении с существующими методами. Кроме того, наши эксперименты показали, что наша модель может быть использована для эффективного распределения ресурсов при обучении языковых моделей, что приводит к снижению вычислительных затрат и улучшению качества результатов. ## Значимость Мы предлагаем новую общей модель масштабируемости, которая может быть применена также к густым, так и к разряженным языковым моделям, что упрощает процесс оптимизации и сокращает трудозатраты. Этот подход может быть применен в различных областях, таких как здравоохранение, финансы, производство, и др., где требуется эффективное обучение языковых моделей с ограниченным бюджетом. Наш подход также позволяет уменьшить трудозатраты и повысить точность моделей при их развёртывании в реальном мире. ## Выводы Мы установили, что наша модель масшта
Annotation:
Over the past few years, the size of language models has grown exponentially, as has the computational cost to train these large models. This rapid growth has motivated researchers to develop new techniques aimed at enhancing the efficiency of the training process. Despite these advancements, optimally predicting the model size or allocating optimal resources remains a challenge. Several efforts have addressed the challenge by proposing different scaling laws, but almost all of them are architec...
ID: 2508.06617v1 cs.LG, cs.AI, cs.PF
Авторы:

Mosbah Aouad, Anirudh Choudhary, Awais Farooq, Steven Nevers, Lusine Demirkhanyan, Bhrandon Harris, Suguna Pappu, Christopher Gondi, Ravishankar Iyer

## Контекст Панкреатический дуctal аденокарцинома (PDAC) является одной из самых смертоносных форм рака, с годовой продолжительностью жизни менее 5% после диагноза. Одной из ключевых проблем в этой области является затрудненность раннего выявления, в связи с отсутствием определенных симптомов на ранних стадиях заболевания и отсутствием надежных биомаркеров. Несмотря на развитие новых методов диагностики и лечения, PDAC часто выявляется в поздних стадиях, что существенно снижает возможности лечения. Многие исследования сосредоточились на развитии систем для раннего выявления PDAC, но до сих пор не было достигнуто решения, которое могло бы достаточно достоверно использоваться в клинической практике. Наша работа направлена на развитие метода, который может обнаружить PDAC до клинического диагноза на основе данных, доступных в любом клиническом учреждении. ## Метод Мы предлагаем метод, который объединяет несколько моделей машинного обучения, чтобы обнаруживать PDAC на основе данных, доступных в любой клинической системе. Мы использовали две основные модели: **нейронные уравнения различения (Neural Controlled Differential Equations)** для моделирования зависимости изменений значений лабораторных исследований во времени и **рекуррентные нейронные сети (Recurrent Neural Networks)** для обработки и понимания диагностических кодов. Эти две модели были объединены с помощью **кросс-аттенционных механизмов (Cross-Attention)** для учета взаимосвязей между двумя моделями. Мы также использовали предобученные модели текстовой обработки (Pretrained Language Models) для повышения точности распознавания диагностических кодов. Это позволило нам моделировать данные в их натуральной форме, чтобы обнаружить ранние признаки PDAC. ## Результаты Мы проверили наш метод на реальной базе данных, содержащей информацию о 4700 пациентов. Мы сравнили наш результат с тремя современными методами, используемыми для раннего выявления PDAC. Наш метод показал великие улучшения в **AUC (Area Under the Curve)**, которые варьировались от 6.5% до 15.5%, чтобы обнаруживать PDAC до клинического диагноза. Эти результаты показывают, что наш метод превосходит существующие методы в области раннего выявления PDAC. Более того, наша модель позволяет идентифицировать специфические диагностические коды и лабораторные исследования, связанные с высоким риском PDAC, включая как уже известные биомаркеры, так и новые. ## Значимость Наша работа имеет значительное значение для клинической практики, поскольку раннее выявление PDAC может существенно повысить шансы на лечение и улучшить прогноз для пациентов. Наш метод также может быть применен в других областях медицины, г
Annotation:
Pancreatic ductal adenocarcinoma (PDAC) is one of the deadliest cancers, and early detection remains a major clinical challenge due to the absence of specific symptoms and reliable biomarkers. In this work, we propose a new multimodal approach that integrates longitudinal diagnosis code histories and routinely collected laboratory measurements from electronic health records to detect PDAC up to one year prior to clinical diagnosis. Our method combines neural controlled differential equations to ...
ID: 2508.06627v2 cs.LG, cs.AI
Авторы:

Yewon Byun, Shantanu Gupta, Zachary C. Lipton, Rachel Leah Childers, Bryan Wilder

## Контекст Область исследования, связанная с использованием имеющихся данных в крупных моделях языка, набирает популярность в современных научных исследованиях. В частности, в рамках компьютерных и социальных наук, где данные часто ограничены, модели языка используются для генерирования данных и поддержки решения задач. Однако, генерируемые моделями данные могут иметь ошибки, что создает сложности для их использования в реальных приложениях. Более того, необходимо разрабатывать новые методы, которые позволят объединять имеющиеся данные с модельной синтетической информацией для получения точных выводов. Этот рабочей группой предлагается разработать универсальный метод, который позволит правильно объединять искусственные данные с реальными, несмотря на их неточности и различия. ## Метод Методология, разработанная в работе, основывается на новом подходе к решению задач учёта влияния искусственных данных на реальные. Основной инструмент, который используется в работе, является метод моментов, который позволяет объединить в единый процесс данные и модели. Разработчики предлагают также новую модель, которая не требует внесения гиперпараметров на этапе решения. Эта модель обладает теоретическими доказательствами, которые подтверждают, что она является эффективной для задач регрессии и других сложных моделей. Более того, авторы предлагают стратегию для оценки того, насколько модельная информация влияет на реальные данные и на итоговые выводы. ## Результаты Авторы проводили эксперименты на реальных данных, полученных в рамках различных социальных исследований. Использовались различные модели и методы, включая модели генерации текста и текстовой регрессии. Результаты показали, что комбинация модельной информации с реальными данными позволяет повысить точность регрессионных моделей и других моделей, которые используются в социальных исследованиях. Также были сравнены различные стратегии объединения данных и показано, что предлагаемый подход даёт значительный прирост в качестве решения задач. ## Значимость Результаты работы могут иметь значительное значение для различных областей, в том числе для компьютерных наук, социальных исследований и даже для бизнеса. Использование модельной информации, созданной технологиями генерации текста, может повысить точность выводов в ситуациях, когда реальные данные отсутствуют или ограничены. Более того, предлагаемый подход может повысить уровень достоверности результатов в области регрессии и других моделей. Этот подход также может быть применён для решения других задач, где необходимо интегрировать искусственные данные с реальными. ## Вывод
Annotation:
Predictions and generations from large language models are increasingly being explored as an aid to computational social science and human subject research in limited data regimes. While previous technical work has explored the potential to use model-predicted labels for unlabeled data in a principled manner, there is increasing interest in using large language models to generate entirely new synthetic samples (also termed as synthetic simulations), such as in responses to surveys. However, it i...
ID: 2508.06635v1 cs.LG, cs.AI, stat.ML
Авторы:

Muyan Anna Li, Aditi Gautam

## Контекст Многочисленные области, такие как производство, информационные технологии и мониторинг инфраструктуры, сталкиваются с потребностью в эффективном аномалий-детектировании в условиях нестационарных системных изменений. Нестационарность возникает из-за режимных сдвигов, понятийного сдвига и многомерных изменений, которые чрезмерно усложняют распознавание аномалий. Традиционные достижения в этой области опираются на статические пороги, которые становятся неактуальными в результате этих изменений. Развитие адаптивных подходов, которые могут учитывать изменения этих свойств в реальном времени, является ключевым для поддержания высокой точности детектирования аномалий. ## Метод Для решения этой проблемы предложены два новых подхода: Segmented Confidence Sequences (SCS) и Multi-Scale Adaptive Confidence Segments (MACS). SCS работает на основе статистического онлайн-обучения и применяет визуальную интерпретацию для определения локальных пределов надёжности вокруг значения показателя. MACS, в свою очередь, расширяет SCS на многомерные сценарии, используя многомерные подходы для адаптивного установления порогов. Оба метода поддерживают гарантии ложнопозитивных срабатываний даже при изменении статистических свойств временных рядов. Эти подходы используют онлайн-обучение для актуализации порогов, что даёт возможность легко адаптироваться к изменению среды. ## Результаты Эксперименты проводились на датасете Wafer Manufacturing, который отражает реальные сценарии нестационарности в производственных процессах. Надёжность детектирования аномалий была оценена по метрикам F1-score, контрольу ложнопозитивных срабатываний и критерию определения реальных аномалий. Результаты показали, что SCS и MACS превосходят традиционные подходы статических порогов, такие как процентили и хронологическая группировка квантилей. Это особенно важно в условиях многомерного изменения, где традиционные подходы часто низкоточны. ## Значимость Предложенные подходы обладают широкими областями применения, включая производственный мониторинг, системы безопасности информационных сетей и мониторинг инфраструктуры. Они демонстрируют высокую адаптивность и точность, что делает их привлекательными для различных сценариев, где нестационарность является ключевой проблемой. Для будущих исследований планируется расширение этих подходов на многомерные области, включая комбинацию с другими методами машинного обучения, чтобы добиться ещё большей точности и универсальности. ## Выводы SCS и MACS демонстрируют потенциал для эффективного аномалий-детектирования в условиях нестационарности. Они предоставляют новый подход к управлению
Annotation:
As time series data become increasingly prevalent in domains such as manufacturing, IT, and infrastructure monitoring, anomaly detection must adapt to nonstationary environments where statistical properties shift over time. Traditional static thresholds are easily rendered obsolete by regime shifts, concept drift, or multi-scale changes. To address these challenges, we introduce and empirically evaluate two novel adaptive thresholding frameworks: Segmented Confidence Sequences (SCS) and Multi-Sc...
ID: 2508.06638v1 cs.LG, cs.AI, 14J60 (Primary) 14F05, 14J26 (Secondary), F.2.2; I.2.0
Авторы:

Jonas S Almeida, Daniel E Russ, Susana Vinga, Ines Duarte, Lee Mason, Praphulla Bhawsar, Aaron Ge, Arlindo Oliveira, Jeya Balaji Balasubramanian

## Контекст С Modern Language Models (MLMs), основанные на трансформерах, пользуются популярностью благодаря их универсальным возможностям в обработке символьных последовательностей. Тем не менее, для эффективного моделирования сложности текстов необходимы методы, позволяющие хранить информацию о последовательности символов в уникальном, компактном формате. Эта проблема называется **bijective encoding** и требует создания кодирований, которые сохраняют порядок и грамматические отношения между символами в последовательности, без потерь информации. Такие методы могут быть использованы для обработки текстов, генома и других последовательностей. Эти данные требуют новых подходов к кодированию, которые могут полностью сохранить информацию о последовательностях в матричном виде для моделирования. ## Метод **Universal Sequence Maps (USM)** — это биективный фрактальный кодирований, основанный на итерационных функциях, которые называются **Chaos Game Representations (CGR)**. Эти функции преобразуют символьные последовательности в координаты в пространстве чисел. Последовательность представляется как последовательность точек на плоскости, каждая точка выбирается случайным образом в соответствии с правилами CGR. Эти точки могут быть преобразованы в частотные представления (FCGR), что позволяет использовать метрики расстояний и анализировать последовательности. **USM** позволяет решать задачу кодирования последовательностей в числовые значения с помощью итерационного преобразования, которое сохраняет последовательность в уникальном формате, не зависящем от исходного порядка символов. ## Результаты В этом исследовании решены проблемы сейджинга в **USM**, которая влияла на точность и уникальность кодирования. Решение было получено в двух этапах: 1. **Полное согласование позиционирования с последовательностью**: **USM** был изменен таким образом, чтобы каждый символ в последовательности мог быть точно определен в конечной координате, не зависящей от начального набора данных. Это позволило достичь полного согласования между последовательностью и ее координатой. 2. **Понятие USM как эффективного численного процесса**: Было открыто, что **USM** эффективно сходится к численному решению, которое может быть представлено в виде стейт ембеддинга. Это решение позволило использовать **USM** для моделирования последовательностей в любой длине и с любым алфавитом. Было продемонстрировано, что **USM** эффективно работает с алфавитом из 4 символов (геном) и может быть расширен для алфавитов с более большим числом символов. ## Значимость Результаты этого исследования могут быть применены в различных об
Annotation:
Motivation: With the advent of Language Models using Transformers, popularized by ChatGPT, there is a renewed interest in exploring encoding procedures that numerically represent symbolic sequences at multiple scales and embedding dimensions. The challenge that encoding addresses is the need for mechanisms that uniquely retain contextual information about the succession of individual symbols, which can then be modeled by nonlinear formulations such as neural networks. Context: Universal Sequen...
ID: 2508.06641v1 cs.LG, cs.AI, cs.NA, math.NA, q-bio.QM
Авторы:

Fernando Martinez-Lopez, Tao Li, Yingdong Lu, Juntao Chen

## Контекст В области искусственного интеллекта (ИИ), решения задач вне зависимости от наличия обширных данных или тщательной оптимизации, является ключевым заданием. Одним из важных подходов является вне-контекстное обучение (off-context learning), которое обычно используется для обучения агентов в среде с постоянным взаимодействием и заданными целями. Однако, возникает проблема, что агенты не всегда могут перейти на новые задачи или условия без перестройки их политик и представлений. Есть необходимость развития методов, которые позволяют агентам обучаться в контексте и при этом успешно применяться в новых и неизвестных задачах. ## Метод Предлагаемый подход, названный CORAL (Communicative Representation for Adaptive RL), предлагает решение для вне-контекстного обучения (ICRL), используя технику эволюции мировых моделей (world models). На первом этапе развития CORAL, Информационный Агент (IA) обучается на разнообразных задачах и создает мировую модель, которая декодирует входные сигналы в контекстуальные сообщения. Эти сообщения генерируются с помощью конкретного принципа, основанного на коазиентности (causal influence), который определяет, как сообщение влияет на поведение агента в среде. На втором этапе, контрольный агент (CA) использует эти сообщения для решения новых задач, без необходимости повторного обучения. ## Результаты Авторы проводили эксперименты в различных контекстах, в том числе в неизвестных и спарсных средах. Использовались различные данные, в том числе задачи с переменной структурой и сеткой задач. Результаты показали, что CORAL позволяет существенно улучшить эффективность обучения (sample efficiency) и способствует успешному выполнению задач в новых условиях. Например, агент, использующий CORAL, может справиться с задачей в неизвестной среде с нулевым дозапросом (zero-shot), используя только предобученную мировую модель. ## Значимость Предлагаемый подход может быть применен в различных областях, в том числе в играх, в ситуациях с реальным взаимодействием с окружением, в системах с автоматизированным управлением. Он обеспечивает значительное улучшение эффективности обучения и может быть применен для решения проблем, связанных с ограниченным доступом к данным. Благодаря декомпозиции проблемы на две части — генерации контекста и его использования — CORAL упрощает процесс обучения и позволяет использовать решения для различных задач без копирования данных. ## Выводы В итоге, CORAL демонстрирует большую эффективность в решении задач вне-контекстного обучения. Он успешно решает проблему перехода к новым задачам без полного перестроения модели. Будущие исследования будут направлены на улучшение моделей контекста и выявление в
Annotation:
Reinforcement learning (RL) agents often struggle to generalize to new tasks and contexts without updating their parameters, mainly because their learned representations and policies are overfit to the specifics of their training environments. To boost agents' in-context RL (ICRL) ability, this work formulates ICRL as a two-agent emergent communication problem and introduces CORAL (Communicative Representation for Adaptive RL), a framework that learns a transferable communicative context by deco...
ID: 2508.06659v1 cs.LG, cs.AI
Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст В последние годы становится все очевиднее, что депрессия является одной из самых серьезных проблем психического здоровья, значительно сказывающихся на качестве жизни и благополучии индивидуума. Несмотря на значительные достижения в области диагностики депрессии, окончательный анализ часто влечет за собой субъективные оценки в клинических интервью. Это может привести к задержке диагноза и неэффективному лечению. Недавно начались исследования, ориентированные на использование социальных сетей для ранней диагностики депрессии. Тем не менее, обычные методы не всегда справляются с трудностями, связанными с объемом и разнообразием пользовательских данных, а также с потребностью в эффективном сочетании многомодальных данных. Таким образом, возникает необходимость в разработке нового подхода, который бы позволил эффективно обрабатывать многомодальные данные и выявлять связи между ними. ## Метод MMFformer — это многомодальная сеть, основанная на использовании трансформеров, предназначенная для выявления депрессивных моделей в многомодальных социальных медиа-данных. Она включает в себя несколько основных модулей. Во-первых, трансформер с резидентными связями используется для извлечения пространственных характеристик из видеоматериалов. Затем, второй трансформер-энкодер применяется для извлечения динамики в аудиоданных. Для улучшения эффективности, архитектура объединения функций использует лонгшорт-фюзинг для объединения взаимосвязанных функций, что позволяет улучшить детализацию и точность. Наконец, сеть прошла оптимизацию для работы с данными многомодальности, что достигается с помощью устранения некоторых ограничений, связанных с задержкой синтеза и проблемами взаимодействия между модальностями. ## Результаты Для оценки MMFformer были применены две крупномасштабные базы данных по диагностике депрессии: D-Vlog и LMVD. Эксперименты показали, что предложенная сеть превосходит существующие подходы, повышая F1-Score на 13.92% для D-Vlog и 7.74% для LMVD. Эти результаты отражают высокую точность сети в выявлении моделей депрессии, даже в условиях многообразия и большого объема данных. Еще одним огромным достижением является возможность обнаружения столь точных пространственных и временных моделей, что дает новый взгляд на диагностику депрессии. ## Значимость Предложенный подход имеет значительное значение для нескольких областей, включая психиатрию, медицинское исследование и прогностические технологии. Эффективность MMFformer в сочетании нескольких модальностей данных открыва
Annotation:
Depression is a serious mental health illness that significantly affects an individual's well-being and quality of life, making early detection crucial for adequate care and treatment. Detecting depression is often difficult, as it is based primarily on subjective evaluations during clinical interviews. Hence, the early diagnosis of depression, thanks to the content of social networks, has become a prominent research area. The extensive and diverse nature of user-generated information poses a si...
ID: 2508.06701v1 cs.CV, cs.AI, cs.CL, cs.LG, cs.SD, eess.AS
Авторы:

Blair Johnson, Clayton Kerce, Faramarz Fekri

## Контекст Differentiable inductive logic programming (ILP) техники показали себя эффективными в решении задач link prediction и node classification на knowledge graphs. Однако их подход с ограниченной структурой правил в виде цепочки (chain-like) ограничивает их результативность и интерпретируемость. Настоящая работа направлена на развитие более выразительных методов логического программирования, которые могут эффективно обрабатывать более сложные задачи. ## Метод Метод GLIDR (Graph-Like Inductive Logic Programming) представляет собой расширенный подход к differentiable inductive logic programming. Он представляет правила в виде графов, позволяя учитывать более выразительные синтаксические конструкции, такие как ветви и циклы. GLIDR основывается на алгоритме differentiable message passing, который обобщает предыдущие цепные подходы к логическому программированию. Архитектура GLIDR характеризуется параметризированным простым поисковым пространством, ограниченным максимальным количеством свободных переменных в правиле. Экспериментально показано, что этот подход обеспечивает высокую гибкость и точность при решении различных задач. ## Результаты Говорится о выполнении экспериментов с использованием различных datasets, в том числе knowledge graphs. Метод GLIDR показал значительное превосходство по сравнению с другими rule-based methods в задачах completion. Также демонстрируется, что GLIDR сохраняет высокую точность даже при шумных данных и в сравнении с embedding-based methods. Эксперименты подтверждают возможность использования GLIDR в более широких задачах, в том числе с deep neural networks. ## Значимость Работа GLIDR открывает новые возможности в задачах knowledge graph completion и других задачах, требующих выразительных логических правил. Он имеет высокую практическую значимость в областях, где необходимы точные и интерпретируемые правила. Благодаря своему модульному подходу, GLIDR может быть интегрирован с deep learning и другими методами, что позволяет расширять его применение на различные data modalities. ## Выводы GLIDR оказался значительно эффективнее по сравнению с существующими rule-based и embedding-based approaches в задачах knowledge graph completion. Настоящая работа открывает путь к дальнейшим исследованиям в области differentiable inductive logic programming, в том числе расширению возможностей GLIDR для работы с более сложными data modalities и приложениями.
Annotation:
Differentiable inductive logic programming (ILP) techniques have proven effective at finding approximate rule-based solutions to link prediction and node classification problems on knowledge graphs; however, the common assumption of chain-like rule structure can hamper the performance and interpretability of existing approaches. We introduce GLIDR, a differentiable rule learning method that models the inference of logic rules with more expressive syntax than previous methods. GLIDR uses a differ...
ID: 2508.06716v1 cs.AI, cs.LG, cs.LO
Авторы:

Alican Yilmaz, Junyang Cai, Serdar Kadioglu, Bistra Dilkina

## Контекст Область исследования — решение сложных Mixed-Integer Programming (MIP) задач, которые часто требуют огромных вычислительных ресурсов из-за сложности их комбинаторного характера. Одним из подходов к ускорению решения таких задач является параллельное выполнение, позволяющее эффективно использовать ресурсы многоядерных процессоров или кластеров. Несмотря на то, что параллельные методы уже применяются в многих алгоритмах, их потенциал в адаптивных подходах, таких как Balans (Multi-Armed Bandits-based Adaptive Large Neighborhood Search), до сих пор не был полностью использован. Баланс между эффективностью и сложностью вычислений в таких методах остается центральной проблемой для решения трудных MIP-задач. ## Метод Методология основывается на расширении Balans, названном ParBalans, который вводит два уровня параллелизма: **solver-level** и **algorithmic-level**. **Solver-level parallelism** обеспечивает параллельное запуское нескольких решателей на разных ядрах, что позволяет распараллелить вычисления в рамках каждого параллельного эксперимента. **Algorithmic-level parallelism**, в свою очередь, добавляет возможность параллельно оценивать различные стратегии решения в рамках одного запуска решателя. Эта модель позволяет эффективно использовать ресурсы, разбив поиск решения на независимые подпроцессы. ## Результаты Опытные исследования проводились на наборе трудных MIP-задач, включая стандартные бенчмарки из литературы. Решатель ParBalans был сравнен с коммерческим solver-ом Gurobi, запускаемым на одном и том же оборудовании. Результаты показали, что ParBalans состязательно выполняется с Gurobi на этих трудных задачах, и, в некоторых случаях, даже показывает лучшую эффективность, особенно при высоких нагрузках. Это достигается благодаря распараллеливанию вычислений и уменьшению времени ожидания в некоторых сценариях. ## Значимость Параллельный подход ParBalans может быть применен в различных областях, где требуется решение MIP-задач, например, в логистике, энергетике, информационных системах. Одним из основных преимуществ является ускорение вычислений, что позволяет решать более сложные задачи в меньший срок. Благодаря параллельности, ParBalans демонстрирует потенциал для решения реальных, "хардкорных" задач, где повышенная скорость и точность решения критичны. ## Выводы Результаты параллельного подхода ParBalans показали свою эффективность в решении трудных MIP-задач, сравнившись с Gurobi. Будущие исследования будут сфокусированы на улучшении параллельной стратегии, внедрении более сложных моделей параллельного поиска и расширении приложений ParBalans в различных сферах, где высокая скорость решения является критичной. Это открывает путь к еще более
Annotation:
Solving Mixed-Integer Programming (MIP) problems often requires substantial computational resources due to their combinatorial nature. Parallelization has emerged as a critical strategy to accelerate solution times and enhance scalability to tackle large, complex instances. This paper investigates the parallelization capabilities of Balans, a recently proposed multi-armed bandits-based adaptive large neighborhood search for MIPs. While Balans's modular architecture inherently supports parallel e...
ID: 2508.06736v1 cs.AI, cs.LG
Показано 13921 - 13930 из 14827 записей