📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Irash Perera, Hiranya Abeyrathne, Sanjeewa Malalgoda, Arshardh Ifthikar

#### Контекст GraphQL представляет собой универсальный способ запроса данных, предлагая гибкость и эффективность в формировании запросов к API. Однако эта гибкость создает уязвимости, которые могут использоваться для злонамеренных действий. Например, злоумышленники могут отправлять вредоносные запросы, что приводит к дениал-оф-сервис (DoS), организации дата-хиджака (data exfiltration), или исполнению внешних скриптов (XSS). На данный момент, существующие методы защиты, такие как статическая анализ, ограничение частоты запросов и общецелевые веб-приложения файрволы, оказываются недостаточными для борьбы с контекстно-зависимыми атаками. Из-за этого потребность в разработке более сильных методов обнаружения вредоносных запросов в GraphQL API становится ключевым мотивационным фактором для этого исследования. #### Метод Предлагаемая модель строится на основе трех основных компонентов: **Large Language Models (LLMs)**, **Sentence Transformers** и **Convolutional Neural Networks (CNNs)**. Основная схема работы состоит в следующем: - **LLMs** используются для динамической конфигурации схемы GraphQL. Они позволяют адаптировать обнаружение вредоносных запросов к конкретным условиям приложения. - **Sentence Transformers (SBERT и Doc2Vec)** используются для контекстного векторизации запросов. Они позволяют выделить контекстные связи между различными частями запроса, что позволяет более точно отличать вредоносные запросы от допустимых. - **CNNs**, **Random Forests** и **Multilayer Perceptrons** используются для заключительного классификационного этапа. Эти модели обрабатывают векторизованные данные и выдают решение о вредоносности запроса. Также в рамках реализации используются **ONNX Runtime** для оптимизации производительности в рабочей среде и **параллельное обработки запросов** для увеличения скорости обработки. #### Результаты Проведенные эксперименты показали высокую точность модели в обнаружении различных типов вредоносных запросов. Например, модель эффективно обнаруживает **SQL Injection**, **OS Command Injection** и **XSS**. Также была доказана эффективность модели в борьбе против **DoS** и **SSRF**. Оценка системы под нагрузкой показала высокую производительность, с минимальными задержками и высокой отдачей в режиме реального времени. #### Значимость Разработанная модель может быть применена в различных областях, где используются GraphQL API, включая электронную коммерцию, финансовые услуги и игровые индустрии. Основной преимуществом является то, что модель позволяет надёжно обнаруживать и блокировать вредоносные запросы в реальном времени, что обеспечивает надежную защиту API. Будущие исследования могут сосредоточиться на расширении модели для обнаружения более сложных атак, а также
Annotation:
GraphQL's flexibility, while beneficial for efficient data fetching, introduces unique security vulnerabilities that traditional API security mechanisms often fail to address. Malicious GraphQL queries can exploit the language's dynamic nature, leading to denial-of-service attacks, data exfiltration through injection, and other exploits. Existing solutions, such as static analysis, rate limiting, and general-purpose Web Application Firewalls, offer limited protection against sophisticated, conte...
ID: 2508.11711v1 cs.CR, cs.AI, cs.LG
Авторы:

Andrei-Valentin Tănase, Elena Pelican

## Контекст Токенизация является основополагающим, но значительно менее изученным аспектом естественного языкового процессинга. Несмотря на то, что модели языковых моделей делают значительные прорывы, стратегии токенизации остаются статичными и неэффективными. Они часто оптимизируются для конкретных моделей или задач, что приводит к убыткам в универсальной обработке текста. Эта проблема сочетается с необходимостью лучшего понимания семантических связей в текстах, чтобы улучшить эффективность и точность моделей. Мы предлагаем SupraTok, многофазную токенизационную архитектуру, которая переосмысливает subword segmentation, предлагая новый подход к обнаружению и обработке семантических единиц. ## Метод SupraTok использует три основных инновации: 1. **Cross-Boundary Pattern Learning**: Это новый подход, оптимизирующий поиск семантических единиц, которые могут простираться за границы подблоков. Это позволяет SupraTok выделять "сверхслова" (superwords) — компактные, семантически целостные композиции, которые обладают более высокой степенью сжатия. 2. **Entropy-Driven Data Curation**: Мы вводим метод, оптимизирующий качество тестового корпуса с помощью сложности выражений. Это позволяет SupraTok более эффективно идентифицировать и сгруппировать слова, которые естественно встречаются вместе в тексте. 3. **Multi-Phase Curriculum Learning**: Мы разработали многоэтапный подход к обучению, который уменьшает возможность переобучения и обеспечивает стабильность сходимости при обучении. SupraTok расширяет Byte-Pair Encoding (BPE), предлагая "сверхслова", которые сохраняют внутреннюю семантическую целостность внутри слов и увеличивают эффективность сжатия. ## Результаты Мы провели эксперименты с SupraTok на 38 языках, оценивая его эффективность по сравнению с двумя текущими токенизаторами: OpenAI 200k и Google Gemma 3. SupraTok показал следующие результаты: - 31% улучшение в токенизации на английском языке (5,91 символов за токен против 4,51 для OpenAI и 2,63 для Gemma 3). - 30% улучшение на 256k-vocabulary Gemma 3 tokenizer. - 8,4% улучшение в HellaSWAG и 9,5% в MMLU без изменений в модели. Эти результаты показали, что SupraTok не только эффективнее в токенизации, но и может способствовать улучшению производительности моделей с широким спектром задач. ## Значимость SupraTok может быть применен в различных областях, где эффективная обработка языка является ключевой задачей, включая машинный перевод, синтез речи и генерацию произвольных текстов. Такие улучшения в токенизации могут привести к существенным повышениям скорости обработки и эффективности моделей. Это также открывает пути для
Annotation:
Tokenization remains a fundamental yet underexplored bottleneck in natural language processing, with strategies largely static despite remarkable progress in model architectures. We present SupraTok, a novel tokenization architecture that reimagines subword segmentation through three innovations: cross-boundary pattern learning that discovers multi-word semantic units, entropy-driven data curation that optimizes training corpus quality, and multi-phase curriculum learning for stable convergence....
ID: 2508.11857v1 cs.CL, cs.AI, cs.LG
Авторы:

Xinxing Wu

## Контекст Преподавание в стандартных текстовых форматах часто лишается эффективности, так как многие студенты не внимательно читают или не полностью понимают информацию, представленную в традиционных текстовых силабусах. Такая невнимательность приводит к пропуску важных деталей, таких как курсовые политики и результаты обучения. Это препятствует эффективному выполнению курса и снижает общее удовлетворение студентов. Чтобы улучшить уровень внимания и понимания, целью данной работы является разработка инновационного подхода, использующего AI-generated singing и virtual avatars для представления силабусов в более ярком, запоминающемся и интерактивном формате. Этот подход способствует усилению курсового процесса и повышению общей мотивации участников. ## Метод Предложенный метод основывается на использовании HeyGem, открытого инструмента для преобразования текстовых силабусов в музыкальные аудиовизуальные презентации. Алгоритм HeyGem анализирует текст силабуса и генерирует аудиодорожки, в которых цифровые аватары исполняют текст в формате песен. Эти песни исполняются виртуальными аватарами, созданными с использованием AI-синтеза. Интеллектуальный трекер взаимодействия позволяет адаптировать презентации под индивидуальные предпочтения студентов. Данный подход использует синтез речи и музыкальную генерацию, чтобы объединить компоненты визуального и аудио-компоненты в объединенном потоке синастесии. ## Результаты Набор экспериментов был проведен с учетом сравнения традиционных текстовых силабусов и AI-generated singing силабусов. Данные были собраны у студентов с разным уровнем подготовки, использовавших разные методы обучения. Основные результаты показали, что студенты, использовавшие AI-generated singing силабусов, показали более высокий уровень вовлеченности и понимания курсовых политик и результатов. Также исследование показало, что интерактивный формат силабусов способствовал повышению мотивации студентов и их способности вспоминать важные детали курса. Эти результаты были подтверждены с помощью визуальных соответствий и анализа ответов студентов. ## Значимость Предлагаемый подход может быть применен в различных областях образования, в том числе для создания учебных материалов, технологий обучения, и цифровых средств обучения. Он предоставляет преимущества в улучшении аудиторного внимания, увеличении мотивации и повышении уровня понимания. Этот подход также может положительно сказаться на уровне участия студентов и их способности вспоминать ключевую информацию. Это может привести к более эффекти
Annotation:
In practical teaching, we observe that few students thoroughly read or fully comprehend the information provided in traditional, text-based course syllabi. As a result, essential details, such as course policies and learning outcomes, are frequently overlooked. To address this challenge, in this paper, we propose a novel approach leveraging AI-generated singing and virtual avatars to present syllabi in a format that is more visually appealing, engaging, and memorable. Especially, we leveraged th...
ID: 2508.11872v1 cs.CY, cs.AI, cs.LG, cs.MM
Авторы:

Punya Syon Pandey, Yongjin Yang, Jiarui Liu, Zhijing Jin

## Контекст Игрокотеоретические взаимодействия между агентами с Large Language Models (LLMs) открыли новые возможности в области искусственного интеллекта, демонстрируя развитие новых языковых способностей. Однако эти взаимодействия характеризуются богатой лингвистической разнообразием, который до сих пор недостаточно оценен. Большинство метрик, используемых для оценки языковой производительности, не учитывают индивидуальные особенности игрокотеоретических взаимодействий. Целью данного исследования является разработка метрики, которая бы позволила эффективно измерить качество монологических и диалогических высказываний в различных игрокотеоретических сценариях. ## Метод Метрика CORE (Conversational Robustness Evaluation Score) основывается на измерении трех ключевых аспектов языкового поведения: кластеризации слов, лексической повторяемости и семантической схожести. Метод включает в себя анализ динамики распределения слов в диалоге, а также использует Zipf's и Heaps' Laws для описания распределения частот слов и роста словарного запаса. Для сравнения различных игрокотеоретических сценариев (конкурентные, сотрудничественные, нейтральные), CORE использует выборку диалогов между LLMs. Это позволяет углубленно изучить как эффективность языка, так и его адаптацию в различных социальных контекстах. ## Результаты Испытания показали, что в кооперативных сценариях Zipf's и Heaps' Laws демонстрируют стрелеующие распределения, что свидетельствует о более высокой репликации лексики и богатом росте лексикографического запаса. Напротив, в конкурентных сценариях эти законы отражают более ограниченную лексическую деятельность и меньшую репликацию. Эти результаты демонстрируют, как сильные социальные интриги влияют на адаптацию языка, а также подтверждают значимость CORE в качестве диагностического инструмента для измерения языковой производительности в многоагентных системах. ## Значимость CORE может использоваться в различных областях, где важно измерить качество монологических и диалогических языковых высказываний, включая обучение ЛСМ, анализ коммуникационных систем, игровые системы и даже психологическое исследование поведения в командных задачах. Одним из ключевых преимуществ CORE является его универсальность и точность, что позволяет создавать более надежные модели и тесты для измерения языкового взаимодействия. ## Выводы Результаты исследования показали, что CORE является эффективной метрикой для измерения языкового качества в игрокотеоретических системах. Будущие исследования будут сфокусированы на расширении CORE для дру
Annotation:
Game-theoretic interactions between agents with Large Language Models (LLMs) have revealed many emergent capabilities, yet the linguistic diversity of these interactions has not been sufficiently quantified. In this paper, we present the Conversational Robustness Evaluation Score: CORE, a metric to quantify the effectiveness of language use within multi-agent systems across different game-theoretic interactions. CORE integrates measures of cluster entropy, lexical repetition, and semantic simila...
ID: 2508.11915v1 cs.CL, cs.AI, cs.LG
Авторы:

Yuannuo Feng, Wenyong Zhou, Yuexi Lyu, Hanjie Liu, Zhengwu Liu, Ngai Wong, Wang Kang

## Контекст State Space Models (SSMs) являются эффективными альтернативами традиционным последовательностным моделям в обработке длинных последовательностей, с меньшим количеством вычислительных ресурсов. Основываясь на матричных множениях, они хорошо подходят для компьютерных архитектур с вычислением в памяти (CIM, Compute-in-Memory), которые улучшают энергоэффективность за счет выполнения вычислений непосредственно в памяти. Однако, недостатки устройств в CIM могут привести к весовым погрешностям, что в свою очередь сказывается на точности инференции. Наблюдение о том, что последние слои моделей SSMs подвержены этим погрешностям больше всего, позволило разработать новую стратегию HPD (Hybrid Projection Decomposition), которая направлена на улучшение точности и устойчивости моделей, особенно при использовании CIM-технологий. ## Метод HPD (Hybrid Projection Decomposition) — это новая стратегия коррекции весов в последнем проекционном слое модели SSM. Она заключается в том, чтобы заменить оригинальную матрицу весов своим Singular Value Decomposition (SVD) — матрицей U и массивом \Sigma — где U применяется на аппаратном уровне, а \Sigma и V^T используются в цифровой части для точной инверсии и коррекции весов. Эта стратегия позволяет совмещать преимущества аппаратного уровня с цифровой коррекцией, чтобы сохранять точность модели, даже при влиянии весовых погрешностей. Метод широко приспособлен для работы в архитектурах CIM, которые требуют высокой энергоэффективности и точности. ## Результаты HPD была протестирована на нескольких моделях Mamba в условиях разных шумовых условий. Результаты показали, что HPD существенно улучшает точность работы модели, снижая perplexity до 99.57% по сравнению с базовыми моделями в условиях шума. На benchmark PIQA (Проблемы Человеческой Рациональности) HPD показала прирост точности до 96.67% в сравнении с традиционными моделями. Эти результаты доказывают, что HPD не только улучшает точность, но и повышает устойчивость моделей SSM в условиях шума, которые характерны для CIM-архитектур. ## Значимость HPD имеет широкие потенциальные применения в области технологий CIM, где точность и эффективность вычислений являются ключевыми параметрами. Она позволяет улучшить точность работы не только в области NLP, но и в других сферах, где используются SSM, таких как видеоанализ, изображения, и другие задачи машинного обучения. Благодаря HPD можно добиться существенных улучшений в точности и устойчивости моделей, даже при использовании CIM-архитектур, что делает ее привлекательной для развития энергоэффективных и точных алгоритмов в различных областях. ## Выводы HPD
Annotation:
State Space Models (SSMs) are efficient alternatives to traditional sequence models, excelling at processing long sequences with lower computational complexity. Their reliance on matrix multiplications makes them ideal for compute-in-memory (CIM) architectures, which improve energy efficiency by computing within memory arrays. However, device non-idealities in CIM introduce weight perturbations that can degrade inference accuracy. In this paper, we systematically analyze the robustness of SSMs u...
ID: 2508.11935v1 cs.AR, cs.AI, cs.LG
Авторы:

Xiaodong Qu, Andrews Damoah, Joshua Sherwood, Peiyan Liu, Christian Shun Jin, Lulu Chen, Minjie Shen, Nawwaf Aleisa, Zeyuan Hou, Chenyu Zhang, Lifu Gao, Yanshu Li, Qikai Yang, Qun Wang, Cristabelle De Souza

#### Контекст Современные искусственные интеллектуальные системы (AI agents) представляют собой сложные системы, которые способны переменоваться, учиться и действовать в различных сложных средах. Они превратились из простых, правил-ориентированных программ в современные системы, использующие глубокое обучение (deep learning), усиленное обучение (reinforcement learning) и методы многоагентного взаимодействия. Несмотря на то, что эти технологии позволяют AI agents выполнять сложные задачи, создание универсальных AI agents, где взаимодействуют решение, планирование и взаимодействие, остается вызовом. Эта статья посвящена изучению основных принципов, моделей и парадигм, которые способствуют развитию AI agents, а также их использования в реальных ситуациях. #### Метод В статье используется систематический подход к изучению архитектур, компонентов и парадигм AI agents. Был проведен анализ современных моделей, включая модели вдохновленные искусственной интеллектуальной моделью (cognitive science-inspired models), расширенные резервирующие решения (hierarchical reinforcement learning frameworks) и модели базированные на больших языковых моделях (large language model-based reasoning). Был осуществлен анализ технологий вычислений, которые позволяют AI agents решать задачи, взаимодействуя с системами и пользователями. Особое внимание уделяется архитектуре и методам, позволяющим AI agents оптимально решать задачи в разных сценариях. #### Результаты Для анализа использовались различные эксперименты, включая моделирование AI agents в различных ситуациях, таких как обнаружение объектов, решение задач планирования, взаимодействие с пользователями. Использовались данные, полученные из реальных ситуаций, таких как обработка данных в интеллектуальных системах, решение задач планирования как в средах с многими участниками. Результаты показывают, что AI agents способны выполнять сложные задачи с высокой точностью, но в то же время существуют проблемы, такие как неполная интерпретируемость, безопасность и эффективность в реальных ситуациях. #### Значимость AI agents имеют широкое применение в различных областях, включая здравоохранение, финансы, производство, транспорт и многие другие. Они могут повысить эффективность, сократить затраты и улучшить качество услуг. Основное преимущество AI agents заключается в их универсальности, гибкости и умении решать сложные задачи. Тем не менее, возникают проблемы, такие как недостаточная интерпретация решений, отсутствие безопасности и надежности. Будущие исследования будут сфокусированы на улучшении этих аспектов и развитии AI agents, которые будут более безопасными, эффективными и интерпретируемыми. #### Выводы В ходе этого обзора были подробно расс
Annotation:
Artificial Intelligence (AI) agents have rapidly evolved from specialized, rule-based programs to versatile, learning-driven autonomous systems capable of perception, reasoning, and action in complex environments. The explosion of data, advances in deep learning, reinforcement learning, and multi-agent coordination have accelerated this transformation. Yet, designing and deploying unified AI agents that seamlessly integrate cognition, planning, and interaction remains a grand challenge. In this ...
ID: 2508.11957v1 cs.MA, cs.AI, cs.LG
Авторы:

Zhiyuan Zeng, Jiashuo Liu, Siyuan Chen, Tianci He, Yali Liao, Jinpeng Wang, Zaiyuan Wang, Yang Yang, Lingyue Yin, Mingren Yin, Zhenwei Zhu, Tianle Cai, Zehui Chen, Jiecao Chen, Yantao Du, Xiang Gao, Jiacheng Guo, Liang Hu, Jianpeng Jiao, Xiangsheng Li, Jingkai Liu, Shuang Ni, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xin Zhou, Jose Blanchet, Xipeng Qiu, Mengdi Wang, Wenhao Huang

#### Контекст Прогнозирование будущего является высокоаналитической задачей, требующей внимательного сбора информации, контекстуального понимания и принятия решений в условиях неопределенности. Искуственные интеллектные агенты должны обрабатывать массу динамической информации, целостно интегрировать разнообразные источники данных, учитывать возможные неопределенности и адаптировать прогнозы под новые тенденции. Несмотря на его важность, существует нет большого масштабного бенчмарка для оценки производительности таких агентов в актуальных условиях. Основные проблемы включают реализацию реального времени, обеспечение точности ответов и сбережение безусловной чистоты данных в процессе. Данная работа предлагает $\textbf{FutureX}$, первый динамический и в реальном времени оцениваемый бенчмарк, ориентированный на оценку показателей Логических Лингвистических Моделей (LLM) при выполнении прогностических задач. #### Метод $\textbf{FutureX}$ призван стать идеальным инструментом для оценки ЛЛМ-агентов в задаче прогнозирования будущих событий. Он характеризуется реальной-временной автоматизированной системой сбора вопросов и ответов, устраняющей возможность загрязнения данных. Бенчмарк включает 25 моделей ЛЛМ, охватывающих разнообразные архитектуры, включая модели с рациональным подходом, модели с возможностью поиска информации, и модели, интегрирующие внешние инструменты, такие как Deep Research Agent и другие закрытые модели. Это позволяет провести широкий анализ показателей устойчивости, рациональности и устойчивости ЛЛМ-агентов в адаптивных средах. #### Результаты В рамках бенчмарка FutureX экспериментально оценены 25 моделей ЛЛМ, включая основные лидеры в области ИИ. Были проведены целенаправленные эксперименты, оценивающие устойчивость моделей к внешним факторам, в том числе избеганию попадания в фейковые источники информации, а также стабильности в течение времени. Анализ результатов показал, что ЛЛМ-агенты часто сталкиваются с проблемами во временных проявлениях и несовершенством интеграции внешних систем. Однако FutureX предоставил возможность заметно улучшить понимание этих проблем. #### Значимость FutureX является первым в мире динамическим бенчмарком, который может использоваться в широком спектре приложений, начиная с финансовых прогнозов и заканчивая прогнозами в сфере экономики и политологии. Он обеспечивает чистоту данных, систематичность в оценке, и способствует развитию новых моделей ЛЛМ, способных выполнять задачи прогнозирования на уровне профессиональных человеко-аналитиков. Будущие ра
Annotation:
Future prediction is a complex task for LLM agents, requiring a high level of analytical thinking, information gathering, contextual understanding, and decision-making under uncertainty. Agents must not only gather and interpret vast amounts of dynamic information but also integrate diverse data sources, weigh uncertainties, and adapt predictions based on emerging trends, just as human experts do in fields like politics, economics, and finance. Despite its importance, no large-scale benchmark ex...
ID: 2508.11987v1 cs.AI, cs.LG
Авторы:

Filippo Torresan, Keisuke Suzuki, Ryota Kanai, Manuel Baltieri

## Контекст Active inference является формальным подходом для изучения мышления, основанным на представлении, что адаптивные агенты могут быть рассмотрены как участники процесса приблизительной байесовской инференции. Это достигается за счет минимизации разности вариационной и ожидаемой свободной энергии. Минимизация разности вариационной энергии обеспечивает аккумуляцию доказательств в процессе перцепции и обучения, в то время как минимизация ожидаемой свободной энергии контролирует поведение агента во времени. Таким образом, адаптивные агенты могут максимизировать вероятность предпочтительных наблюдений или состояний, используя генерирующую модель среды. Однако различные подходы были предложены для описания как агенты планируют свои действия. Некоторые исходят из того, что агенты знают свои действия и используют эту информацию для планирования будущих действий. Другие подходы предполагают, что агенты не знают своих действий и должны их выводить из последних наблюдений. Это отличие отражает двухвдохновенную традицию в моторном управлении: с учетом или без использования сигнала от эффекции, представляющего знания об агентских действиях. В этой работе мы сравниваем активные инференции у агентов, знакомых и незнакомых с своими действиями, в двух задачах навигации, показывая, что незнакомые с своими действиями агенты достигают похожих результатов, несмотря на их серьезное недоразвитие. ## Метод Мы использовали модель активной инференции, которая описывает как агенты выбирают действия, оптимизируя вариационную и ожидаемую свободную энергию. Для сравнения мы разработали две модели: одну с полным знанием действий (action-aware) и другую без знания действий (action-unaware). Модели были тренированы на двух задачах навигации: первая задача требует планирования траекторий в пространстве, а вторая — планирования последовательностей действий для достижения цели. Мы сравнивали показатели эффективности, точности и времени решения задач для каждой модели. Для обеспечения справедливости экспериментов использовались одинаковые условия и начальные данные для обеих моделей. ## Результаты Наши результаты показали, что action-unaware агенты не только достигают подходящих результатов, но и демонстрируют почти одинаковую эффективность по сравнению с action-aware агентами в обоих задачах. Однако action-unaware агенты вынуждены интерпретировать все наблюдения в своей модели как результат своих действий, что приводит к дополнительным вычислительным затратам и некоторой потерей точности. Мы также обнаружили, что action-unaware агенты вынуждены выполн
Annotation:
Active inference is a formal approach to study cognition based on the notion that adaptive agents can be seen as engaging in a process of approximate Bayesian inference, via the minimisation of variational and expected free energies. Minimising the former provides an account of perceptual processes and learning as evidence accumulation, while minimising the latter describes how agents select their actions over time. In this way, adaptive agents are able to maximise the likelihood of preferred ob...
ID: 2508.12027v1 cs.AI, cs.LG, q-bio.NC
Авторы:

Seungju Yoo, Hyuk Kwon, Joong-Won Hwang, Kibok Lee

## Контекст Объектное распознавание является ключевым заданием в области компьютерного зрения, и его эффективная оценка является ключевым фактором для продвижения технологий. Традиционно, оценка моделей обнаружения объектов требует значительных ресурсов для подготовки тренировочных данных и проведения экспериментов. Одним из основных вызовов является то, что при обучении и оценке моделей требуется подробное трудоемкое и дорогостоящее ручное аннотирование, что затрудняет широкое применение моделей в реальных условиях. Для решения этой проблемы авторы предлагают метод, который позволяет оценивать модели обнаружения объектов автоматически, сокращая трудозатраты и улучшая удобство использования. ## Метод Авторы предлагают фреймворк AutoEval, основанный на методе Prediction Consistency and Reliability (PCR). Такой подход использует неопределенность, которая встречается при использовании нескольких кандидатов на боксы, предлагаемых моделями перед применением NMS (Non-Maximum Suppression). PCR оценивает модели на основе двух важных аспектов: 1) пространственной консистентности между боксами до и после применения NMS и 2) надежности полученных результатов, определяемой на основе отношения доверия к полученным боксам. Этот подход позволяет оценивать модель обнаружения объектов без необходимости иметь доступ к истинным меткам. Метод также использует мета-датасет, построенный на основе изображений с различными уровнями помех и деструктивных эффектов, для более реалистичной и скептической оценки. ## Результаты Для оценки эффективности метода были проведены эксперименты, в которых использовались различные модели обнаружения объектов и мета-датасет с изображениями, подвергнутыми различным уровням помех. Результаты показали, что PCR дает более точные оценки производительности, чем традиционные методы. Также была проверена возможность PCR для оценки моделей в условиях реальных помех, где данный подход продемонстрировал высокую точность и надежность. ## Значимость Метод PCR и AutoEval-фреймворк имеют широкое применение в области компьютерного зрения, особенно в ситуациях, когда доступ к трудоемкому ручному аннотированию ограничен. Он позволяет эффективно оценивать модели в различных условиях, в том числе при определенных помехах и изменениях в изображениях. Это делает метод более реалистичным и удобным в использовании, чем традиционные оценки, которые требуют ручного вмешательства. ## Выводы Разработанный метод PCR устанавливает новые стандарты для автоматизированной оценки моделей обнаружения объектов. Он демонстрирует более точную и надежную оценку производительности моделей в сравнении с традиционны
Annotation:
Recent advances in computer vision have made training object detectors more efficient and effective; however, assessing their performance in real-world applications still relies on costly manual annotation. To address this limitation, we develop an automated model evaluation (AutoEval) framework for object detection. We propose Prediction Consistency and Reliability (PCR), which leverages the multiple candidate bounding boxes that conventional detectors generate before non-maximum suppression (N...
ID: 2508.12082v1 cs.CV, cs.AI, cs.LG
Авторы:

Yao Wu

## Контекст Одна из основных проблем в адаптации бо LLM (large language models) лежит в том, чтобы оптимизировать несколько целей, таких как улучшение фактичности (heat) и повышение уверенности (low entropy), при этом не ухудшая другие критерии. Эта задача становятся еще сложнее при учете того, что параметры промптов (например, вставки в скрытых слоях и модификации векторов) могут взаимодействовать друг с другом в нетривиальных способах. Традиционные многоцелевые оптимизационные подходы часто опираются на агрегирование градиентов по мере, чтобы выбрать наиболее приоритетную оптимизацию, не учитывая геометрический структурный смысл между целями и параметрами. В этом контексте возникает необходимость в более глубоком понимании интеракции между целями и параметрами для эффективного управления промптами в LLM. ## Метод Метод J6 (Jacobian-Driven Role Attribution) представляет собой новую модель оптимизации промптов, основанную на декомпозиции градиентного взаимодействия в шесть интерпретируемых компонент. Эти компоненты позволяют выявить взаимосвязи между целями и параметрами, анализировать их геометрическую структуру и динамически регулировать поток оптимизации. Метод включает в себя два режима действия: жесткий (hard), основанный на выборе наиболее приоритетного направления из шести возможных, и мягкий (soft), основанный на атансовском взвешивании вариантов. Это дает гибкость для адаптации к локальным конфликтам и синергиям между целями. Также J6 предоставляет интерпретируемую структуру, позволяющую расследовать вклад каждого параметра в задачу, отслеживать взаимодействия между задачами и применять геометрически управляемые методы адаптации. ## Результаты Эксперименты показали, что J6 эффективно справляется с многоцелевой оптимизацией промптов, предлагая более точный контроль за взаимодействиями между целями. Были проанализированы различные сценарии оптимизации, включая ситуации с значительными конфликтами между целями, и показано, что J6 может адаптироваться к ним, обеспечивая более сбалансированные результаты. Данные эксперименты были проведены на различных наборах данных и с различными видами задач, что демонстрирует широту применения метода. ## Значимость Метод J6 может быть применен в различных областях, где требуется многоцелевая оптимизация с разными типами задач и параметров. Он позволяет улучшить точность и уверенность результатов, а также обеспечить более глубокое понимание взаимодействий между параметрами. Этот подход открывает новую площадку для использования геометрической интерпретации в
Annotation:
In large language model (LLM) adaptation, balancing multiple optimization objectives such as improving factuality (heat) and increasing confidence (via low entropy) poses a fundamental challenge, especially when prompt parameters (e.g., hidden-layer insertions h and embedding modifications w) interact in non-trivial ways. Existing multi-objective optimization strategies often rely on scalar gradient aggregation, ignoring the deeper geometric structure between objectives and parameters. We propos...
ID: 2508.12086v1 cs.CL, cs.AI, cs.LG, 68T50, 90C29, 62F07, I.2.7; I.2.6; G.1.6
Показано 1511 - 1520 из 1687 записей