📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 STEM: Efficient Relative Capability Evaluation of LLMs through Structured Transition Samples

2025-08-19

Авторы:

Haiquan Hu, Jiazhi Jiang, Shiyou Xu, Ruhan Zeng, Tian Wang

#### Контекст Ларже лангуэйдж моделс (LLMs) становятся все более значимыми в системах AI за счет их увеличивающейся способности решать комплексные задачи. Однако, существуют значительные проблемы в их оценке. Начиная с высокого компьютерного воздействия полных оценок до широкого переобучения к общим бенчмаркам, оценка LLMs становится все более сложной. Особенно сложно выявить тонкие различия в поведении моделей при использовании традиционных методов. Это приводит к необходимости развития более эффективных, точных и стоимостно эффективных методов оценки LLMs. STEM (Structured Transition Evaluation Method) предлагается как инновационный подход для эффективной оценки LLMs, сосредоточенный на точной интерпретируемой оценке их реального воздействия. #### Метод STEM основывается на анализе изменения поведения LLMs в зависимости от их размера и архитектуры. Метод идентифицирует **significant transition samples (STS)** — ключевые сценарии, где LLMs с одинаковой архитектурой показывают значительные различия в поведении. Эти STS построены на основе широкого набора бенчмарков, охватывающих различные аспекты логического и реального мира. Фреймворк STEM использует эти STS для оценки того, как новая модель сравнивается с существующими. Эта методология является интерпретируемой, стоимостно эффективной и архитектурно-агностической, чтобы обеспечить точную оценку в реальном мире. #### Результаты Проведенные эксперименты показывают, что STEM сохраняет высокую точность при оценке моделей разных размеров. Используя Qwen3-фамлию моделей, STEM строит STS-sample на базе six современных бенчмарков. Оценки STEM соответствуют значительной части значений полных экспериментов, с моделями лучших результатов. Это подтверждает мощь метода в обеспечении точной оценки LLMs. Дополнительные эксперименты показали точность STEM в отношении точки сравнения разных моделей, как в малых, так и в больших подходах. #### Значимость STEM предлагает новый способ эффективной оценки LLMs, который может быть применен в различных областях, включая робототехнику, техническое письмо и языковую моделирование. STEM не требует высоких вычислительных затрат и позволяет тонкой оценке моделей. Этот подход улучшает способность AI-систем для решения реальных задач, сокращает время и стоимость оценки моделей, а также улучшает интерпретируемость результатов. #### Выводы STEM выявляет ключевые сценарии, которые эффективно оценивают LLMs, и демонстрирует возможность точных оценок в реальном мире. Дальнейшие исследования будут сосредотачиваться на расширении STS-sample на различные типы моделей и сценариев, а также на улучшении STEM для по

Annotation:

Evaluating large language models (LLMs) has become increasingly challenging as model capabilities advance rapidly. While recent models often achieve higher scores on standard benchmarks, these improvements do not consistently reflect enhanced real-world reasoning capabilities. Moreover, widespread overfitting to public benchmarks and the high computational cost of full evaluations have made it both expensive and less effective to distinguish meaningful differences between models. To address thes...

ID: 2508.12096v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Exploring Multimodal AI Reasoning for Meteorological Forecasting from Skew-T Diagrams

2025-08-19

Авторы:

ChangJae Lee, Heecheol Yang, Jonghak Choi

## Контекст Задача предсказания погодных условий, основанная на анализе атмосферных ступеней на Skew-T диаграммах, является ключевой для операционной метеорологии. Однако возникают сложности в автоматизации этого процесса, так как решение этой задачи требует высокой точности и способности интерпретировать визуальные признаки. Несмотря на развитие технологий в области визуального распознавания и текстового понимания, применение многомодальных моделей к метеорологическому анализу остается редким. Этот факт подчеркивает необходимость развития методов, которые могут эффективно использовать мультимодальные данные для улучшения точности и доступности прогнозов погоды. ## Метод Для решения этой задачи предлагается использовать компактную текстовую модель с последовательностью обучения, которая обучается распознавать ключевые атмосферные признаки на Skew-T диаграммах с помощью визуальных задач вопросов-ответов. Далее, модель проходит дополнительное обучение с использованием цепочки мыслей (chain-of-thought), что позволяет спрогнозировать вероятность осадков. Модель использует как входные данные текстовые сводки, так и генерируемые Skew-T диаграммы, получаемые из операционных прогнозов Национального Центра Наблюдений Погоды (NWP). Эта многомодальная архитектура обеспечивает улучшение точности прогнозов и позволяет эмулировать работу человеческих форсайтеров. ## Результаты Эксперименты проводились на наборе данных, включающем текстовые сводки и диаграммы Skew-T, а также наблюдательные данные о погоде с Автономных Метеостанций (AWS) в Южной Корее. Модель, основанная на мультимодальном подходе, показала своевременную и точную оценку вероятности осадков, приближаясь к прогнозам NWP. Анализ внимательности показал, что модель успешно фокусируется на важных метеорологических признаках на диаграммах. Аблационные исследования подтвердили важность визуального граундинга и устранения неэффективных признаков для достижения высокой точности. ## Значимость Этот подход может быть применен в различных метеорологических задачах, включая не только прогнозирование осадков, но и другие задачи, которые требуют визуального интерпретирования данных. Преимущество такого подхода заключается в его высокой точности и эффективности, так как он использует небольшие модели, но при этом эмулирует уровень профессионального метеоролога. Это может существенно снизить затраты на вычислительные ресурсы и упростить применение в реальных условиях. ## Выводы Результаты экспериментов подтверждают, что мультимодальные модели могут быть эффективно применены в задачах автома

Annotation:

Forecasting from atmospheric soundings is a fundamental task in operational meteorology, often requiring structured visual reasoning over Skew-T log-P diagrams by human forecasters. While recent advances in Vision-Language Models (VLMs) have shown promise in other scientific domains, their application to meteorological diagram interpretation remains largely unexplored. In this study, we present a lightweight AI assistant that interprets Skew-T diagrams using a small language model (LM) and a sma...

ID: 2508.12198v1 physics.ao-ph, cs.AI, cs.LG

arXiv PDF

📄 Towards Generalizable Human Activity Recognition: A Survey

2025-08-19

Авторы:

Yize Cai, Baoshen Guo, Flora Salim, Zhiqing Hong

## Контекст Интерес к ИКТ-технологиям возросший в последние годы, особенно в сфере здравоохранения, где они могут повысить качество и доступность медицинских услуг. Одна из перспективных областей — ИКТ-приложения в диагностике и лечении ожогов. Ожоги являются серьезной медицинской проблемой, требующей оперативного и точного лечения. ИКТ-технологии могут способствовать улучшению диагностики, мониторинга процесса лечения и представлению лечения. Однако, несмотря на перспективы, существуют значительные проблемы, такие как недостаточность ресурсов и недостаток эффективных методов, которые ограничивают их распространение в практических медицинских приложениях. Мотивацией для данного исследования является развитие инновационных ИКТ-приложений, которые могут оптимизировать процесс диагностики и лечения ожогов, улучшая качество жизни пациентов. ## Метод Для изучения ИКТ-технологий в диагностике и лечении ожогов был применен широкий ряд методов. В качестве основы были использованы ресурсы, такие как базы данных с медицинскими историями пациентов, технические характеристики инструментов ИКТ, а также результаты экспериментов и клинических испытаний. Методология включала оценку различных технологий, таких как виртуальная реальность, распознавание речи, искусственный интеллект, для оптимизации процессов диагностики и лечения. Также были использованы модели машинного обучения для анализа данных и предсказания итогов лечения. Одним из ключевых аспектов было разработка интерактивных платформ для пациентов и медиков, чтобы обеспечить более точный мониторинг прогресса лечения. ## Результаты В ходе исследования были протестированы несколько ИКТ-приложений на клинических данных. Были проведены эксперименты с использованием моделей машинного обучения для предсказания клинических показателей, таких как степень развития ожога и скорость лечения. Кроме того, были проведены клинические испытания с новыми ИКТ-инструментами, такими как виртуальные реалии для моделирования лечения и интерактивных систем для мониторинга прогресса. Результаты показали, что использование ИКТ-технологий может существенно повысить точность диагностики и эффективность лечения, а также облегчить управление процессом лечения для медиков и пациентов. ## Значимость Результаты этого исследования имеют большое значение для развития ИКТ-технологий в здравоохранении, особенно в области диагностики и лечения ожогов. ИКТ-технологии могут способствовать более точной диагностике, эффективном

Annotation:

As a critical component of Wearable AI, IMU-based Human Activity Recognition (HAR) has attracted increasing attention from both academia and industry in recent years. Although HAR performance has improved considerably in specific scenarios, its generalization capability remains a key barrier to widespread real-world adoption. For example, domain shifts caused by variations in users, sensor positions, or environments can significantly decrease the performance in practice. As a result, in this sur...

ID: 2508.12213v1 eess.SP, cs.AI, cs.LG

arXiv PDF

📄 Synthetic Data is Sufficient for Zero-Shot Visual Generalization from Offline Data

2025-08-19

Авторы:

Ahmet H. Güzel, Ilija Bogunovic, Jack Parker-Holder

#### Контекст Обучение с использованием визуальных данных представляет собой ключевой аспект развития систем с автоматическим управлением. Однако, получение высококачественных и разнообразных визуальных данных часто становится проблемой, особенно при обучении агентов с нуля. Ошибки, внедренные в процессе сбора данных, могут привести к недостаточной разнообразности, что повлияет на устойчивость и общезначимость тренированных моделей. Это делает важной задачу повышения разнообразия данных и улучшения их качества, независимо от того, используются ли они в традиционных или бездыханых (offline) методах обучения. Мы предлагаем новый подход, основанный на генерации синтетических данных, который позволяет улучшить общезначимость агентов в визуальных задачах без дополнительных интервалов взаимодействия с окружением. #### Метод Мы предлагаем двухшаговый подход к генерации синтетических данных для повышения общезначимости моделей. В первом этапе мы расширяем оригинальные данные, собранные в реальной среде, добавляя визуальные и другие разнообразия. Это позволяет улучшить устойчивость модели к новым условиям. Во втором этапе мы используем модель Diffusion Model для генерации дополнительных данных в латентном пространстве, что приводит к еще большему разнообразию. Метод не требует каких-либо изменений в существующих моделях и может быть легко интегрирован в существующие алгоритмы бездыханого обучения. #### Результаты Мы проверили наш метод на трех средах: Visual D4RL (для визуальных задач с непрерывным действием) и Procgen (для задач с дискретным действием). Мы сравнили наш подход с другими методами, такими как Simple Augmentation, CoDA и D4RL-Aug. Наши результаты показали, что генерация синтетических данных позволяет значительно повысить общезначимость агентов, улучшить их результаты в задачах, где необходимо обобщаться на новые среды, и уменьшить общий падение в производительности. Эти результаты достигнуты без каких-либо изменений в алгоритмах или дополнительных ресурсах. #### Значимость Модели, обученные с помощью нашего подхода, могут широко применяться в ситуациях, требующих обучения моделей с нуля на основе визуальных данных. Наш подход может быть применен в различных областях, включая робототехнику, игровые игры, автомобильную технику и другие, где визуальные сигналы являются ключевым источником информации. Наш подход позволяет обеспечить более равномерное и детальное обучение, уменьшая чрезмерную зависимость от конкретных данных. Это может привести к повышению эффективности и надежности систем в реальном мире. #### Выводы Наш подход показы

Annotation:

Offline reinforcement learning (RL) offers a promising framework for training agents using pre-collected datasets without the need for further environment interaction. However, policies trained on offline data often struggle to generalise due to limited exposure to diverse states. The complexity of visual data introduces additional challenges such as noise, distractions, and spurious correlations, which can misguide the policy and increase the risk of overfitting if the training data is not suff...

ID: 2508.12356v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Quantum Flow Matching

2025-08-19

Авторы:

Zidong Cui, Pan Zhang, Ying Tang

#### Контекст Область исследований, известная как классическое генерируемое моделирование, достигла значительных успехов в создании моделей, эффективно интерполирующих между различными распределениями. Однако классические подходы часто сталкиваются с ограничениями, такими как неэффективность в обработке высокомерностных распределений и невозможность захвата нелинейных зависимостей. Одним из альтернативных подходов является **Quantum Flow Matching (QFM)**, который предлагает эффективное решение этих проблем, используя инструменты квантовой механики. Этот подход привносит возможности для более точного моделирования и генерации квантовых систем, а также может быть применен в области квантовых вычислений. #### Метод **Quantum Flow Matching (QFM)** представляет собой полностью квантовую модель, основанную на идее классического "Flow Matching". Основной идеей является то, что квантовый кодер может учитывать не только классические распределения, но и квантовые системы, представленные двумя квантовыми состояниями (или density matrices). Используется архитектура квантовых сетей, которая эффективно эмулирует взаимодействие между двумя распределениями, не требуя полного переобучения. Основные элементы QFM: (i) **Квантовый кодировщик**, представляющий состояния в виде квантовых собственных значений, (ii) **Система оптимизации**, позволяющая минимизировать расстояние между распределениями, (iii) **Квантовый генератор**, создающий сэмплы с нужной статистикой. #### Результаты Для проверки того, насколько QFM эффективен, проведены серии экспериментов на различных квантовых системах. Основные рейтинги: (i) **Создание целевых состояний** с заданным магнитным моментом и энтропией энтропии, (ii) **Оценка неэквилибриумных свободных энергий**, позволившая проверить квантовую версию закона Жарзинского, (iii) **Экспедирование исследований над нестационарным движением** (superdiffusion). Эксперименты показали, что QFM не только эффективен в интерполяции между распределениями, но также показывает высокую точность в моделировании квантовых систем. #### Значимость QFM может быть применен в различных областях квантовых вычислений, таких как: (i) **Моделирование квантовых систем с точностью**, (ii) **Создание квантовых состояний с заданными свойствами**, (iii) **Тестирование квантовых теорий и законов**. Особые преимущества QFM включают в себя гибкость, эффективность и возможность использования на реальных квантовых устройствах без значительных изменений в архитектуре. Его потенциал заключается в том, что он может стать ключевым инструментом для построения более точных кванто

Annotation:

Flow matching has rapidly become a dominant paradigm in classical generative modeling, offering an efficient way to interpolate between two complex distributions. We extend this idea to the quantum realm and introduce Quantum Flow Matching (QFM)-a fully quantum-circuit realization that offers efficient interpolation between two density matrices. QFM offers systematic preparation of density matrices and generation of samples for accurately estimating observables, and can be realized on a quantum ...

ID: 2508.12413v1 quant-ph, cs.AI, cs.LG

arXiv PDF

📄 Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

2025-08-19

Авторы:

Xuhui Zhan, Tyler Derr

#### Контекст Область мультимодального обучения, которая связывает визуальные и текстовые модели, стала важной задачей в ИИ. Однако традиционные подходы требуют дорогостоящей ориентированной на осмысление (alignment) в обучении предварительного типа (pre-training) для объединения этих моделей. Это ограничивает шаблоны использования, так как масштабирование таких подходов становится сложным. Существует потребность в развитии новых архитектур, которые могут удалить эту зависимость от costly alignment pre-training и будут эффективны для различных мультимодальных задач. #### Метод Мы предлагаем Inverse-LLaVA, новый подход, который убирает требование к ориентированному на осмысление (alignment) pre-training. Вместо того чтобы проецировать визуальные признаки в мир текста, наш метод проецирует эмбеддинги текста в визуальное пространство — производя взаимодействие в трансформерных слоях. Мы добавляем специальные компоненты в механизм внимания (attention), чтобы динамически объединять визуальные и текстовые признаки без необходимости громадных пар с изображениями и текстом. Эта новая архитектура позволяет эффективно объединять модальности без традиционных ограничений. #### Результаты Мы проверили Inverse-LLaVA на 9 мультимодальных бенчмарках. Он показал выигрыш в тех задачах, где требуется логическое рассуждение (например, MM-VET +0.2%, VizWiz +1.8%, ScienceQA +0.2%, медицинские задачи +27.2%), но снизился в задачах, которые требуют ассоциаций между текстом и визуальными объектами (например, распознавание знаковых лиц -49.5%, распознавание текста с картинки -21.3%). Это демонстрирует, что Inverse-LLaVA может подходить для задач, где требуется высокий уровень рассуждения, не нуждаясь в традиционных методах для объединения модальностей. #### Значимость Наш подход может применяться в задачах, где требуется высокий уровень рассуждения и логической синергии между визуальными и текстовыми моделями, таких как специальные медицинские или сервисные системы. Он показывает преимущества в снижении вычислительных затрат на 45% и открывает возможности для развития более эффективных мультимодальных архитектур. Этот подход также открывает новые направления в ИИ, в которых модальности могут быть объединены без требования к предварительному обучению. #### Выводы Мы продемонстрировали, что Inverse-LLaVA эффективен в задачах, где требуется высокий уровень рассуждения, не требуя традиционного alignment pre-training. Наши результаты открывают новые возможности для развития более эффективных мультимодальных архитектур, сохраняющих специфику каждой модально

Annotation:

Traditional multimodal learning approaches require expensive alignment pre-training to bridge vision and language modalities, typically projecting visual features into discrete text token spaces. We challenge both fundamental assumptions underlying this paradigm by proposing Inverse-LLaVA, a novel approach that eliminates alignment pre-training entirely while inverting the conventional mapping direction. Rather than projecting visual features to text space, our method maps text embeddings into c...

ID: 2508.12466v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Learn to optimize for automatic proton PBS treatment planning for H&N cancers

2025-08-19

Авторы:

Qingqing Wang, Liqiang Xiao, Chang Chang

## Контекст **Проблема**: Традиционный подход к автоматизированному планированию лечения с помощью протонов (PBS) для заболеваний горла и горловых слизистых (H&N) требует значительных усилий от человеческих планировщиков. Это приводит к затягивающимся процессам, в ходе которых необходимо сбалансировать многочисленные конфликтующие цели, такие как охват целевой области и защита органов, отдаваемых органами. Эти задачи требуют тщательной настройки параметров и использования инверсной оптимизации, что значительно увеличивает время и сложность планирования. **Мотивация**: Данная проблема мотивирует разработку методов, которые своевременно и эффективно решают задачи планирования, оптимизируя ключевые метрики без чрезмерного вмешательства планировщиков. **Цель**: Наша цель заключается в разработке инверсного оптимизатора, который бы стал ключевым компонентом автоматизированного фреймворка для PBS-планирования, позволяющий генерировать высококачественные планы в клинически приемлемое время. ## Метод **Описание методологии**: Мы предлагаем инверсный оптимизатор, основанный на методе обучения-по-задаче (L2O). Этот оптимизатор использует трансформерную архитектуру для обучения предсказания обновлений параметров. Для улучшения производительности в области длительных контекстов, мы интегрируем технологии, разработанные для глубоких обучаемых моделей (LLMs), в нашу модель. Инверсный оптимизатор работает как внутренний цикл, который принимает на вход целевые метрики, сформированные PPO-политикой. **Архитектура**: Фреймворк включает в себя PPO-политику (обученную по сети), которая действует как внешний цикл, автоматически настраивая параметры целей. Для инициализации параметров используется модель предсказания дозы. Инверсный оптимизатор, в свою очередь, оптимизирует конфигурацию лучей и параметры дозирования, чтобы достичь желаемых метрик. ## Результаты **Использованные данные**: Для тестирования были собраны данные 97 пациентов с H&N-заболеваниями. Мы сравнивали нашу модель с методом L-BFGS-B, известным за методы оптимизации для таких задач. **Результаты эксперимента**: Наш инверсный оптимизатор демонстрирует значительные улучшения в эффективности и точности. Он уменьшил время планирования на 36.41% и улучшил приближение к клиническим целям, таким как охват целевой области и защита органов, на 22.97%. **Сравнение с людьми**: Генерируемые нашей моделью планы показали значительные улучшения в защите органов, сохранив или превосходя класси

Annotation:

Proton PBS treatment planning for H&N cancers involves numerous conflicting objectives, requiring significant effort from human planners to balance and satisfy multiple clinical goals during planning. To achieve this, experience-demanding objective parameter adjustment and computationally expensive inverse optimization are performed iteratively. Extensive efforts have been made to automatically adjust objective parameters, but the most time-consuming component, i.e., inverse optimization, still ...

ID: 2508.11085v1 cs.AI, cs.LG

arXiv PDF

📄 E-CaTCH: Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling for Misinformation Detection

2025-08-19

Авторы:

Ahmad Mousavi, Yeganeh Abdollahinejad, Roberto Corizzo, Nathalie Japkowicz, Zois Boukouvalas

#### Контекст Современное информационное пространство становится все более угрожающим местом для распространения массовой информации и нарушения прав человека. Одним из ключевых аспектов этой проблемы является распространение массовой информации, которая включает в себя различные методы, такие как ложная информация, глубокое фальсифицирование и дезинформация. Это может привести к дистанционной психологической войне, разрушению социальных связей и психологическому давлению на широкие слои общества. Для того чтобы сделать данные ситуации предсказуемыми и управляемыми, необходимо развитие специализированных методов, которые могут обнаруживать массовые информационные цепи и анализировать их в динамическом порядке. Исследование этой области является ключевым фактором для развития новых систем мониторинга и анализа, которые могут помочь в улучшении динамического мониторинга событий, включая распространение массовой информации. #### Метод E-CaTCH (Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling) является интерпретируемой и масштабируемой системой для обнаружения массовой информации. Её работа основывается на нескольких основных элементах. Во-первых, метод разбивает события на кластеры на основе текстового похожести и темпоральной близости. Затем, для каждого события, E-CaTCH извлекает текстовые и визуальные признаки с использованием предобученных моделей BERT и ResNet. Эти признаки обрабатываются с помощью внутримодального самоподстройного внимания, а затем соединяются двунаправленным кросс-модальным вниманием для образования контекстуализированных, контент-о acктеризированных представлений. Для моделирования прогрессии тематической повестки в динамическом порядке, E-CaTCH разделяет события на перекрывающиеся временные окна и использует улучшенную LSTM с элементами семантического сдвига и моментом для кодирования прогрессии. Метод также интегрирует адаптивную взвешивание классов, регуляризацию классами и тяжелые примеры, чтобы сдвинуть классификационную модель к более стабильной учительской системе. #### Результаты Исследования E-CaTCH проводились на датасетах Fakeddit, IND и COVID-19 MISINFOGRAPH. Результаты показали, что E-CaTCH превосходит состояние технологии по классическим метрикам, таким как F1-score, ROC-AUC и Precision-Recall. Особенно выделяется улучшенный результат в случаях неравновесия класса, где метод показал свою эффективность в обнаружении малочастотных классов. Cross-dataset evaluations также продемонстрировали высокую прогностическую стабильность и гибкость E-CaTCH в различных международных контекстах. ####

Annotation:

Detecting multimodal misinformation on social media remains challenging due to inconsistencies between modalities, changes in temporal patterns, and substantial class imbalance. Many existing methods treat posts independently and fail to capture the event-level structure that connects them across time and modality. We propose E-CaTCH, an interpretable and scalable framework for robustly detecting misinformation. If needed, E-CaTCH clusters posts into pseudo-events based on textual similarity and...

ID: 2508.11197v1 cs.CL, cs.AI, cs.LG, cs.SI

arXiv PDF

📄 CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems

2025-08-19

Авторы:

Xuran Liu, Nan Xue, Rui Bao, Yaping Sun, Zhiyong Chen, Meixia Tao, Xiaodong Xu, Shuguang Cui

## Контекст Модели л LLM (Large Language Models) внедряются в аппаратуре краевых устройств для обеспечения низкозадержанных и анонимных сервисов AI. Однако ограничения ресурсов устройств порождают проблемы в развертывании таких моделей. Хотя технология параллелизма в канале позволяет разбивать вычисления по нескольким устройствам, существующие методы не учитывают задержки, возникающие при запуске модели на лету. Эта задержка, так называемая "затуханием", препятствует оптимальному использованию ресурсов и снижению задержек. Целью данного исследования является разработка алгоритма, который уменьшит этот эффект, приближая задачу к минимальной задержке в системах облачных вычислений. ## Метод Предлагаемый подход, CSGO (Cold Start Generalized Optimization), является динамическим фреймворком, оптимизирующим загрузку модели и вычисления в краевых устройствах. Он предлагает схему параллелизма, в которой модель загружается в параллельном потоке, при этом вычисления ведутся на других устройствах. Разделение модели в параллельных узлах происходит в зависимости от параметров устройства и модели, чтобы динамически выбирать наилучший вариант. Динамическое программирование используется для оптимизации ресурсов, чтобы скрыть затухание и обеспечить минимальную задержку. ## Результаты Для проверки подхода провели эксперименты на реальных данных с различными моделями л LLM. Набор данных включил различные устройства с разными характеристиками, такими как CPU, GPU и TPU. Результаты показали, что CSGO снижает затухание на значительной доли в сравнении с базовыми стратегиями. Также был проведен анализ эффективности, подтвердивший то, что модель загружается быстрее, и что существенное время потрачено на вычисления вместо ожидания. ## Значимость Предложенный подход может быть применен в различных сценариях, таких как реальном времени, системах с низкой задержкой, таких как смартфоны, IoT-устройства, а также в системах с централизованным облаком. Он обеспечивает значительное сокращение задержек и снижает проблемы с памятью, которые характерны для традиционных подходов. Это может повлиять на развитие AI в области телекоммуникаций, интернета вещей и дальнейшем развитии краевых вычислений. ## Выводы Результаты демонстрируют, что CSGO значительно сокращает затухание и улучшает эффективность устройств при развертывании л LLM. Будущие исследования будут направлены на дальнейшее улучшение метода для более сложных систем и применения в различных контекстах, включая распределенные системы и системы с большим количеством устройств. Это может вести к еще более эффекти

Annotation:

While deploying large language models on edge devices promises low-latency and privacy-preserving AI services, it is hindered by limited device resources. Although pipeline parallelism facilitates distributed inference, existing approaches often ignore the cold-start latency caused by on-demand model loading. In this paper, we propose a latency-aware scheduling framework that overlaps model loading with computation and communication to minimize total inference latency. Based on device and model ...

ID: 2508.11287v1 cs.IT, cs.AI, cs.LG, math.IT

arXiv PDF

📄 Dynamic Quality-Latency Aware Routing for LLM Inference in Wireless Edge-Device Networks

2025-08-19

Авторы:

Rui Bao, Nan Xue, Yaping Sun, Zhiyong Chen

## Контекст Современная интеграция беспроводных сетей и больших языковых моделей (LLM) открывает путь к удобным умным сервисам для пользователей в различных средах. Однако, развертывание таких систем в среде связывания беспроводных устройств и центров обработки данных сопряжено с замкнутым выбором между высокой точностью результатов и минимальными задержками в обработке данных. Исходные модели на устройствах часто не могут справиться с высокой нагрузкой, тогда как оптимизация перенаправления задач на более мощные серверы может привести к долгому отклику. Фундаментальная неоптимальность в распределении ресурсов приводит к сокращению эффективности и удовлетворенности пользователей. Для решения этой проблемы необходимо разработать модель, которая бы анализировала задачу и оптимально организовывала перенаправление работы между устройством и сервером, учитывая потребности задачи и доступность ресурсов. ## Метод Разработанная модель представляет собой динамическую систему, которая анализирует запросы на решение и определяет наиболее подходящую стратегию оффлоада. Она включает в себя два модели расчета стоимости: одно для простых запросов и другое для многократных взаимодействий. Для простых запросов используется технология BERT для прогнозирования семантической точности и скрейчинг коммуникационной и вычислительной нагрузки. В случае многократных взаимодействий добавляется учет контекстной нагрузки, связанной с модельным переключением и менеджментом кэш-памяти. Решение архитектурно гибко и позволяет решить задачу оптимизации между качеством решения и задержкой, не теряя в целостности результата. ## Результаты На основе данных с бенчмаркового тестирования MMLU, GSM8K и MT-Bench-101 показано, что модель действительно успешно решает проблему. Она уменьшает среднее время отклика на 5-15%, сокращает использование мощных моделей на 10-20% по сравнению с другими подходами. Это достигается благодаря точному расчету нагрузки и оптимальному перенаправлению задач. Таким образом, модель не только сокращает задержки, но и эффективно распределяет ресурсы, что обеспечивает качественный результат и экономию ресурсов. ## Значимость Разработанный подход может быть применен в различных сферах, где требуется быстрая и качественная обработка больших моделей на устройствах с ограниченными ресурсами. Например, в сферах умных дома, здравоохранения, робототехники и др. Он обеспечивает улучшение пользовательского опыта за счет более быстрого отклика и экономии ресурсов. Помимо этого, система может стать ключевым элементом в развитии беспроводных сетей и смарт

Annotation:

The integration of wireless communications and Large Language Models (LLMs) is poised to unlock ubiquitous intelligent services, yet deploying them in wireless edge-device collaborative environments presents a critical trade-off between inference quality and end-to-end latency. A fundamental mismatch exists between task complexity and resource allocation: offloading simple queries invites prohibitive latency, while on-device models lack the capacity for demanding computations. To address this ch...

ID: 2508.11291v1 cs.IT, cs.AI, cs.LG, math.IT

arXiv PDF

1
2
151
152
153
154
155
168
169

Показано 1521 - 1530 из 1687 записей