📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Supervised Dynamic Dimension Reduction with Deep Neural Network

2025-08-06

Авторы:

Zhanye Luo, Yuefeng Han, Xiufan Yu

Статья решает задачу прогнозирования многомерных временных рядов при очень большом количестве входов. Классические методы главных компонент не учитывают целевую переменную и теряют предиктивную информацию. Предложенный SDDP-фреймворк использует нейросеть, которая взвешивает исходные признаки пропорционально их полезности для прогноза; на полученных «таргет-ориентированных» данных затем применяется динамический PCA. Это делает латентные факторы одновременно компактными, интерпретируемыми и максимально предиктивными. Расширение на частично наблюдаемые признаки позволяет работать с реальными пропусками. На четырёх публичных наборах (макроэкономика, финансы, энергетика) SDDP существенно превосходит DR-методы и state-of-the-art модели по точности, а факторы легко интерпретируются экспертами.

Annotation:

This paper studies the problem of dimension reduction, tailored to improving time series forecasting with high-dimensional predictors. We propose a novel Supervised Deep Dynamic Principal component analysis (SDDP) framework that incorporates the target variable and lagged observations into the factor extraction process. Assisted by a temporal neural network, we construct target-aware predictors by scaling the original predictors in a supervised manner, with larger weights assigned to predictors ...

ID: 2508.03546v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Decoding and Engineering the Phytobiome Communication for Smart Agriculture

2025-08-06

Авторы:

Fatih Gulec, Hamdan Awan, Nigel Wallbridge, Andrew W. Eckford

Стремительный рост численности населения, загрязнение почвы и воды и изменение климата ставят сельское хозяйство перед потребностью в «умных» технологиях. Авторы предлагают рассматривать фитобиом — совокупность растения, микроорганизмов и окружающей среды — как полноценную коммуникационную сеть, в которой информация передаётся молекулярными и электрофизиологическими сигналами. В статье разработана многоуровневая модель на основе теории молекулярной связи и методов ИИ/МО, что позволяет декодировать диалог растение–среда и вносить управляемые «сообщения» (например, точечное внесение удобрений или точное орошение). Пилотные эксперименты с растениями подтвердили адекватность модели электрических сигналов. Подход открывает путь к ресурсоэффективному и экологичному земледелию, формируя концепцию «Интернета био-нано-вещей» для сельского хозяйства.

Annotation:

Smart agriculture applications, integrating technologies like the Internet of Things and machine learning/artificial intelligence (ML/AI) into agriculture, hold promise to address modern challenges of rising food demand, environmental pollution, and water scarcity. Alongside the concept of the phytobiome, which defines the area including the plant, its environment, and associated organisms, and the recent emergence of molecular communication (MC), there exists an important opportunity to advance...

ID: 2508.03584v1 eess.SP, cs.AI, cs.ET, cs.NI, q-bio.MN

arXiv PDF

📄 DeepFaith: A Domain-Free and Model-Agnostic Unified Framework for Highly Faithful Explanations

2025-08-06

Авторы:

Yuhan Guo, Lizhong Ding, Shihan Jia, Yanyu Ren, Pengqi Li, Jiarun Fu, Changsheng Li, Ye yuan, Guoren Wang

Существующие методы Explainable AI (XAI) измеряют faithfulness десятками разных метрик и не имеют единой «правильной» интерпретации, что затрудняет объективное сравнение и дальнейшие улучшения. Авторы предлагают DeepFaith — единую модель-агностичную рамку, которая теоретически выводит оптимальное объяснение, максимизирующеe faithfulness сразу по всем популярным метрикам. Обучение идёт на «супервайзере», собранном из лучших фрагментов существующих методов, и заканчивается одним forward-pass без доступа к целевой модели. На 12 задачах, 6 моделях и 6 датасетах DeepFaith показывает наивысшие средние значения по 10 фундаментальным метрикам, демонстрируя домен-независимую обобщаемость и практическую применимость.

Annotation:

Explainable AI (XAI) builds trust in complex systems through model attribution methods that reveal the decision rationale. However, due to the absence of a unified optimal explanation, existing XAI methods lack a ground truth for objective evaluation and optimization. To address this issue, we propose Deep architecture-based Faith explainer (DeepFaith), a domain-free and model-agnostic unified explanation framework under the lens of faithfulness. By establishing a unified formulation for multipl...

ID: 2508.03586v1 cs.LG, cs.AI

arXiv PDF

📄 MetaScope: Optics-Driven Neural Network for Ultra-Micro Metalens Endoscopy

2025-08-06

Авторы:

Wuyang Li, Wentao Pan, Xiaoyuan Liu, Zhendong Luo, Chenxin Li, Hengyu Liu, Din Ping Tsai, Mu Ku Chen, Yixuan Yuan

Современные миниатюрные эндоскопы ограничены миллиметровыми линзами. Метаповерхности позволяют уменьшить толщину до микрон, но создают качественный разрыв между физикой света и алгоритмами. Авторы строят первый набор данных для металинзовой эндоскопии и выявляют два ключевых искажения — затухание интенсивности и хроматическую аберрацию. Предложенная сеть MetaScope учитывает оптику двумя модулями: OIA корректирует затухание через оптические эмбеддинги, OCC устраняет аберрации через пространственную деформацию, обученную на распределении PSF. Градиент-направленная дистилляция переносит знания из базовой модели. Эксперименты показывают SOTA-результаты по сегментации и восстановлению изображений, а также успешную работу на реальных биомедицинских сценах.

Annotation:

Miniaturized endoscopy has advanced accurate visual perception within the human body. Prevailing research remains limited to conventional cameras employing convex lenses, where the physical constraints with millimetre-scale thickness impose serious impediments on the micro-level clinical. Recently, with the emergence of meta-optics, ultra-micro imaging based on metalenses (micron-scale) has garnered great attention, serving as a promising solution. However, due to the physical difference of meta...

ID: 2508.03596v1 cs.CV, cs.AI

arXiv PDF

📄 Block: Balancing Load in LLM Serving with Context, Knowledge and Predictive Scheduling

2025-08-06

Авторы:

Wei Da, Evangelia Kalyvianaki

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы крупные языковые модели (LLM) стали краеугольным камнем в области искусственного интеллекта, находя применение в таких областях, как обработка естественного языка, машинное обучение и автоматизированный перевод. Однако эффективная служба этих моделей зачастую сталкивается с проблемами, связанными с балансировкой нагрузки и оптимизацией распределения ресурсов. Традиционные системы обслуживания моделей часто полагаются на монолитные и эвристические планировщики задач, которые могут быть неэффективными в условиях изменяющихся нагрузок и разнообразных конфигураций оборудования. Эти системы, как правило, не учитывают контекстуальную информацию, такую как конфигурации хостов, длина ответов и производительность аппаратного обеспечения, что приводит к неравномерному распределению нагрузки и увеличению задержек. В этом контексте необходимость разработки новой системы, способной справляться с данными вызовами, становится более актуальной. Настоящее исследование направлено на преодоление этих ограничений путем разработки системы, способной более точно предсказывать и балансировать нагрузку на основе контекстной информации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют Block — распределенную систему планирования, которая оптимизирует балансировку нагрузки и автоматическое распределение ресурсов в рамках обслуживания крупными языковыми моделями. Block отличается от традиционных решений тем, что является полностью распределенной, без сохранения состояния и использует предсказательные методы для планирования задач. Система использует детерминированные и предсказуемые характеристики вывода LLM, такие как конфигурация хостов, длина ответов и производительность аппаратного обеспечения, для принятия решений на основе точно предсказанных метрик. Архитектура Block позволяет обеспечить низкие накладные расходы, надежность и масштабируемость, что делает ее более эффективной по сравнению с монолитными системами. Система учитывает контекстную информацию из входящих запросов, что позволяет более точно управлять распределением нагрузки и повышать производительность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности системы Block были проведены эксперименты на кластере из 12 GPU. Результаты показали, что Block значительно превышает производительность эвристических планировщиков, увеличивая вместимость обслуживания до 16,7% и снижая задержку на уровне P99 до 49,5%. Эти показатели остаются стабильными при различных моделях, нагрузках и конфигурациях оборудования. Эксперименты также подтвердили, что использование контекстуальной информации для предсказательного планирования позволяет более эффективно распределять ресурсы и снижать задержки, что является значительным улучшением по сравнению с традиционными системами. Открытый исходный код и данные позволяют другим исследователям и разработчикам воспроизвести результаты и адаптировать систему под свои нужды. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Block имеет широкий диапазон практического применения, особенно в областях, где требуется эффективное обслуживание крупными языковыми моделями. Система может быть использована в облачных сервисах, центрах обработки данных и других инфраструктурах, где необходима оптимизация распределения ресурсов и снижение задержек. Основные преимущества Block включают в себя высокую масштабируемость, надежность и способность адаптироваться к изменяющимся условиям нагрузки. Потенциальное влияние системы заключается в значительном улучшении качества обслуживания, что может привести к более быстрому и эффективному выполнению задач, связанных с обработкой естественного языка и другими сложными вычислениями. Благодаря открытости кода, Block может стать основой для дальнейших исследований и разработок в области распределенных систем планирования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование продемонстрировало, что использование контекстуальной информации и предсказательных методов в распределенных системах планирования может значительно улучшить производительность обслуживания крупными языковыми моделями. Основные достижения Block включают повышение вместимости обслуживания и снижение задержек, что делает систему более эффективной по сравнению с традиционными подходами. В будущем авторы планируют расширить функциональность Block, добавив поддержку более широкого спектра моделей и конфигураций. Также рассматривается возможность интеграции с другими системами управления ресурсами для повышения общей эффективности и надежности. Дальнейшие исследования могут быть направлены на изучение влияния различных типов контекстуальной информации на производительность системы и разработку новых алгоритмов планирования.

Annotation:

This paper presents Block, a distributed scheduling framework designed to optimize load balancing and auto-provisioning across instances in large language model serving frameworks by leveraging contextual information from incoming requests. Unlike popular model serving systems that rely on monolithic and heuristic task schedulers, Block operates as a fully distributed, stateless, and predictive scheduling system to achieve low overhead, reliability, and scalability. It leverages the deterministi...

ID: 2508.03611v1 cs.DC, cs.AI

arXiv PDF

📄 Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

2025-08-06

Авторы:

Yong Lin, Shange Tang, Bohan Lyu, Ziran Yang, Jui-Hui Chung, Haoyu Zhao, Lai Jiang, Yihan Geng, Jiawei Ge, Jingruo Sun, Jiayun Wu, Jiri Gesi, Ximing Lu, David Acuna, Kaiyu Yang, Hongzhou Lin, Yejin Choi, Danqi Chen, Sanjeev Arora, Chi Jin

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автоматическое доказательство теорем является одним из ключевых направлений в области искусственного интеллекта и вычислительной логики. Эта область направлена на создание алгоритмов и моделей, способных автоматически доказывать математические утверждения, что может значительно ускорить процесс научных открытий и верификацию сложных систем. Однако, существующие методы зачастую сталкиваются с ограничениями в масштабируемости и сложности решаемых задач. Многие из них либо требуют значительных вычислительных ресурсов, либо не способны эффективно справляться с задачами повышенной сложности. Это создает необходимость в разработке новых подходов, которые могли бы обеспечить как высокую производительность, так и доступность для более широкого круга пользователей. Мотивация для создания Goedel-Prover-V2 заключается в преодолении этих ограничений через использование современных языковых моделей и инновационных методологий, таких как синтез данных и самокоррекция, которые позволяют улучшить обучение моделей и их способность решать сложные задачи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Goedel-Prover-V2 представляет собой серию языковых моделей, разработанных для автоматического доказательства теорем. Основой предложенного метода является стандартный процесс итерации экспертов и обучения с подкреплением, в который интегрированы три ключевых инновации. Во-первых, это структурированный синтез данных, который позволяет генерировать синтетические задания с возрастающей сложностью. Это обучает модель постепенно осваивать все более сложные теоремы. Во-вторых, метод самокоррекции, управляемый верификатором, позволяет модели итеративно исправлять свои доказательства, используя обратную связь от компилятора Lean. В-третьих, усреднение моделей, которое объединяет контрольные точки модели, чтобы уменьшить снижение разнообразия выходных данных модели на поздних стадиях обучения. Эти инновации позволяют Goedel-Prover-V2 добиваться высоких результатов в доказательстве теорем, обеспечивая при этом эффективность и устойчивость модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Goedel-Prover-V2 были проведены эксперименты с использованием нескольких тестовых наборов данных. Малая модель Goedel-Prover-V2-8B достигла 84.6% по метрике pass@32 на наборе данных MiniF2F, превосходя DeepSeek-Prover-V2-671B, несмотря на то, что она в 80 раз меньше. Флагманская модель Goedel-Prover-V2-32B достигла 88.1% на MiniF2F при стандартном режиме и 90.4% в режиме самокоррекции, значительно превосходя предыдущее состояние искусства. Более того, она успешно решила 86 задач на PutnamBench при pass@184, заняв первое место среди открытых моделей, обогнав DeepSeek-Prover-V2-671B, который решил 47 задач при pass@1024. Эти результаты демонстрируют, что предложенная методология позволяет достигать высоких показателей производительности при меньших вычислительных затратах и размерах модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Goedel-Prover-V2 имеет широкий спектр потенциальных применений в различных областях, включая математику, компьютерные науки и инженерные дисциплины, где требуется автоматизация верификации и доказательства теорем. Одним из ключевых преимуществ является возможность использования более компактных и эффективных моделей, что расширяет доступность технологии для исследовательских групп с ограниченными ресурсами. Кроме того, инновации, заложенные в методологию Goedel-Prover-V2, могут быть адаптированы и для других задач, требующих автоматического синтеза и проверки сложных структур. Переход на модели открытого исходного кода также способствует более широкому распространению и адаптации технологии в научном сообществе, что может ускорить прогресс в области автоматического доказательства теорем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Разработка Goedel-Prover-V2 представляет собой значительный шаг вперед в области автоматического доказательства теорем. Основные достижения включают в себя создание компактных и эффективных моделей, превосходящих существующие аналоги, а также внедрение инновационных методологий, таких как структурированный синтез данных и самокоррекция. В будущем исследования могут быть направлены на дальнейшее улучшение способности моделей решать задачи повышенной сложности, а также на расширение возможностей применения данных методов в других областях науки и техники. Важно продолжать развивать открытые платформы и инструменты, которые могут способствовать более быстрому и широкому распространению передовых технологий в научных кругах.

Annotation:

We introduce Goedel-Prover-V2, a series of open-source language models that set a new state-of-the-art in automated theorem proving. Built on the standard expert iteration and reinforcement learning pipeline, our approach incorporates three key innovations: (1) Scaffolded data synthesis: We generate synthetic tasks of increasing difficulty to train the model to master increasingly complex theorems; (2) Verifier-guided self-correction: We enable the model to iteratively revise its proofs by lever...

ID: 2508.03613v1 cs.LG, cs.AI

arXiv PDF

📄 Hidden Dynamics of Massive Activations in Transformer Training

2025-08-06

Авторы:

Jorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы трансформеры стали основой многих моделей машинного обучения благодаря их выдающейся способности обрабатывать последовательные данные и захватывать сложные зависимости. Однако, несмотря на их успех, внутренняя динамика этих моделей, особенно в процессе их обучения, остается недостаточно изученной. Одной из таких малоизученных характеристик являются "массовые активации" — скалярные значения в скрытых состояниях трансформеров, которые значительно превышают типичные активации. Эти активации играют ключевую роль в функциональности модели, и, хотя их присутствие в полностью обученных моделях было ранее охарактеризовано, их временная динамика в процессе обучения остается неясной. Понимание того, как и когда возникают эти активации, может иметь значительное влияние на улучшение стабильности модели, сокращение времени обучения и повышение интерпретируемости. В связи с этим, исследование динамики массовых активаций во время обучения трансформеров является актуальной и важной задачей в области машинного обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представили первый полный анализ развития массовых активаций в процессе обучения трансформеров, используя семейство моделей Pythia в качестве тестовой платформы. Методология исследования включает систематический анализ различных размеров моделей на множестве контрольных точек обучения. Основное внимание уделено математическим закономерностям, которым следует возникновение массовых активаций. Авторы предложили модель, описывающую эти закономерности с помощью экспоненциально-модулированной логарифмической функции, содержащей пять ключевых параметров. Для предсказания этих параметров из архитектурных спецификаций была разработана специальная машинно-обучающаяся система. Эта система продемонстрировала высокую точность в предсказании устойчивого состояния модели и умеренную точность в прогнозировании времени и величины возникновения массовых активаций. Такой подход позволяет исследователям и инженерам предсказывать и потенциально контролировать ключевые аспекты возникновения массовых активаций до начала обучения, существенно влияя на дизайн и оптимизацию моделей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальное исследование проводилось на различных моделях семейства Pythia, что позволило охватить широкий спектр архитектурных особенностей. Анализ проводился на множестве контрольных точек в процессе обучения, что позволило выявить временные закономерности возникновения массовых активаций. Полученные результаты показали, что возникновение массовых активаций следует предсказуемым математическим шаблонам, которые можно точно моделировать с помощью предложенной функции. Машинно-обучающаяся система, разработанная для предсказания параметров этой функции из архитектурных спецификаций, продемонстрировала высокую точность в определении устойчивых состояний и умеренную точность в предсказании времени и величины активаций. Эти результаты подтверждают гипотезу о том, что динамика массовых активаций определяется архитектурой модели и может быть предсказана заранее. Важным аспектом исследования является то, что предсказание этих параметров открывает возможности для оптимизации процессов обучения и улучшения стабильности моделей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость данного исследования заключается в возможности предсказания и управления возникновением массовых активаций в трансформерах на основе архитектурных спецификаций. Это открывает новые горизонты для оптимизации моделей машинного обучения. Во-первых, предсказуемость активаций способствует улучшению стабильности моделей, минимизируя риски возникновения непредсказуемых ошибок в процессе обучения. Во-вторых, сокращение времени обучения становится возможным за счет более точной настройки гиперпараметров, что приводит к экономии вычислительных ресурсов. В-третьих, улучшение интерпретируемости моделей достигается через понимание внутренней динамики активаций, что важно для разработки более надежных и понятных систем. В-четвертых, возможность контроля активаций открывает перспективы для создания более устойчивых моделей, способных адаптироваться к различным условиям и задачам. В итоге, исследование потенциально может значительно повлиять на развитие технологий машинного обучения, сделав их более эффективными и надежными. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, данное исследование представляет собой важный шаг в понимании внутренней динамики трансформеров, особенно в контексте массовых активаций. Авторы продемонстрировали, что возникновение этих активаций подчиняется предсказуемым математическим закономерностям, что позволяет использовать это знание для оптимизации и улучшения моделей. Основные достижения включают разработку модели для предсказания и контроля активаций, что потенциально может сократить время обучения и улучшить стабильность моделей. Направления будущих исследований могут включать расширение анализа на другие архитектуры нейронных сетей, изучение влияния различных гиперпараметров на динамику активаций, а также разработку методов, позволяющих более точно предсказывать временные аспекты их возникновения. Кроме того, интеграция предложенных методов в реальные приложения может открыть новые возможности для разработки более эффективных и адаптивных систем машинного обучения.

Annotation:

Massive activations are scalar values in transformer hidden states that achieve values orders of magnitude larger than typical activations and have been shown to be critical for model functionality. While prior work has characterized these phenomena in fully trained models, the temporal dynamics of their emergence during training remain poorly understood. We present the first comprehensive analysis of massive activation development throughout transformer training, using the Pythia model family a...

ID: 2508.03616v1 cs.AI

arXiv PDF

📄 Refining Critical Thinking in LLM Code Generation: A Faulty Premise-based Evaluation Framework

2025-08-06

Авторы:

Jialin Li, Jinzhe Li, Gengxu Li, Yi Chang, Yuan Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА С развитием возможностей генерации кода в крупных языковых моделях (LLM) их зависимость от вводных предпосылок значительно возросла. Современные технологии генерации кода сталкиваются с проблемой, когда пользователи предоставляют вводные данные с ошибочными предпосылками, что приводит к увеличению вероятности появления "галлюцинаций" — ошибок или некорректных результатов в сгенерированном коде. Такие ситуации подчеркивают недостатки в способностях моделей к самопроверке и самокоррекции. Несмотря на значительные успехи в развитии LLM, их способность критически оценивать предоставляемые данные и исправлять ошибки остается недостаточно изученной. Стремление к улучшению этих аспектов генерации кода мотивирует исследователей на создание новых методик и инструментов, способных оценивать и улучшать умение моделей справляться с ошибочными предпосылками. В этом контексте возникает необходимость в разработке специализированных фреймворков, которые позволят систематически оценивать и анализировать поведение моделей в условиях неопределенности и ошибок. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предложен новый фреймворк для оценки генерации кода в условиях ошибочных предпосылок, названный Faulty Premises Bench (FPBench). Этот фреймворк впервые систематически классифицирует три категории ошибочных предпосылок и интегрирует многомерные метрики оценки, что позволяет проводить глубокий анализ поведения языковых моделей. Методология включает создание различных сценариев с ошибочными предпосылками, в которых модели тестируются на их способность выявлять и исправлять ошибки. FPBench использует комплексный подход к оценке, который учитывает не только качество сгенерированного кода, но и способность моделей к самопроверке и самокоррекции. Архитектура фреймворка предусматривает использование наборов данных, содержащих разнообразные ошибочные предпосылки, которые служат основой для тестирования 15 представительных LLM. Такой подход позволяет выделить особенности и недостатки каждой модели, что, в свою очередь, способствует разработке более надежных и человекоориентированных моделей генерации кода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты, проведенные с использованием FPBench, включали тестирование 15 различных языковых моделей на способность обрабатывать ошибочные предпосылки. Для оценки использовались наборы данных, специально разработанные для создания сценариев с тремя типами ошибочных предпосылок. Результаты показали, что большинство моделей демонстрируют недостаточные способности к логическому мышлению и генерации кода в условиях ошибочных предпосылок, сильно завися от явных подсказок для обнаружения ошибок. Также выяснилось, что увеличение длины вводных данных в условиях ошибочных предпосылок не приводит к улучшению качества генерации, а наоборот, вызывает перегрузку ресурсов. Наблюдения показали, что различные типы ошибочных предпосылок активируют разные дефектные паттерны в моделях, что свидетельствует о тройной диссоциации в когнитивных механизмах генерации кода. Эти результаты подчеркивают необходимость разработки новых методов, которые позволят LLM более эффективно проверять вводные данные на наличие ошибок и самостоятельно их исправлять. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанный фреймворк FPBench имеет значительное практическое значение для улучшения качества и надежности генерации кода с использованием языковых моделей. Его применение позволяет выявлять слабые места в моделях и разрабатывать стратегии для их устранения. Это может существенно повысить доверие пользователей к автоматическим системам генерации кода, особенно в критически важных областях, таких как разработка программного обеспечения и анализ данных. Преимущества использования FPBench заключаются в его способности систематически оценивать модели в условиях неопределенности и ошибочных предпосылок, что способствует созданию более адаптивных и точных моделей. Потенциальное влияние данной работы заключается в формировании новых стандартов для оценки и разработки LLM, которые будут учитывать необходимость критического мышления и самопроверки в процессе генерации кода. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование подчеркивает необходимость улучшения способностей языковых моделей к критическому мышлению и самопроверке в условиях ошибочных предпосылок. Основным достижением работы является разработка фреймворка FPBench, который предоставляет теоретическую основу и практический подход для систематической оценки и улучшения моделей генерации кода. В результате проведенных экспериментов было выявлено, что большинство моделей недостаточно эффективно справляются с ошибочными предпосылками, что указывает на необходимость дальнейших исследований в этой области. Перспективы будущих исследований включают разработку новых архитектур и алгоритмов, которые будут учитывать выявленные недостатки и способствовать созданию более надежных и человекоориентированных систем генерации кода. Также важным направлением является интеграция методов машинного обучения, которые позволят моделям более эффективно адаптироваться к различным типам ошибочных предпосылок и повышать общую точность и качество работы.

Annotation:

With the advancement of code generation capabilities in large language models (LLMs), their reliance on input premises has intensified. When users provide inputs containing faulty premises, the probability of code generation hallucinations rises significantly, exposing deficiencies in their self-scrutiny capabilities. This paper proposes Faulty Premises Bench (FPBench), the first code generation evaluation framework targeting faulty premises. By systematically constructing three categories of fa...

ID: 2508.03622v1 cs.AI

arXiv PDF

📄 AttZoom: Attention Zoom for Better Visual Features

2025-08-06

Авторы:

Daniel DeAlcala, Aythami Morales, Julian Fierrez, Ruben Tolosana

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы сверточные нейронные сети (CNNs) стали основным инструментом для решения задач в области компьютерного зрения, таких как классификация изображений, детекция объектов и сегментация. Однако, несмотря на успехи, CNNs имеют ограничения в способности эффективно выделять значимые регионы на изображениях. Это связано с тем, что стандартные архитектуры часто полагаются на заранее заданные параметры и фиксированные фильтры, которые могут не учитывать все тонкости и вариативность визуальных данных. Традиционные подходы с применением механизмов внимания, направленных на улучшение качества извлекаемых признаков, зачастую требуют интеграции в конкретные архитектуры, что ограничивает их универсальность и применимость. Таким образом, существует необходимость в разработке модульного и архитектурно-независимого решения, которое могло бы улучшать процесс выделения признаков в существующих CNNs без значительных изменений их структуры. В данной статье авторы предлагают новый метод Attention Zoom, который направлен на решение этих проблем и повышение эффективности процесса извлечения признаков из изображений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Attention Zoom представляет собой модульный механизм пространственного внимания, который можно интегрировать в различные архитектуры CNN без необходимости значительных изменений. В отличие от традиционных подходов, которые требуют специфической интеграции в архитектуру, Attention Zoom добавляется как отдельный слой, фокусирующийся на областях изображения с высокой важностью. Этот механизм анализирует входные данные и акцентирует внимание сети на значимых регионах, улучшая тем самым качество извлекаемых признаков. Основной идеей является использование внимания для "увеличения" критических участков изображения, что приводит к более детальному и разнообразному вниманию. Таким образом, Attention Zoom способствует более точному и эффективному извлечению признаков, минимизируя при этом архитектурные накладные расходы и сохраняя общую универсальность и гибкость метода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода Attention Zoom авторы провели серию экспериментов на различных архитектурах CNN с использованием наборов данных CIFAR-100 и TinyImageNet. Результаты показали значительные улучшения в точности классификации как по метрике Top-1, так и по метрике Top-5. Визуальный анализ с использованием Grad-CAM и пространственного искажения продемонстрировал, что Attention Zoom способствует более тонкому и разнообразному распределению внимания по изображению. Это подтверждает способность метода акцентировать внимание на более значимых деталях, что в свою очередь улучшает общее качество классификации. Полученные результаты указывают на универсальность и эффективность предложенного слоя, который может улучшать производительность CNNs с минимальными изменениями в архитектуре. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанный механизм Attention Zoom обладает широким спектром потенциальных применений в различных областях, связанных с компьютерным зрением. Одним из ключевых преимуществ является его архитектурная независимость, что позволяет интегрировать его в существующие модели без значительных изменений. Это делает метод особенно привлекательным для практического применения, где часто требуется улучшать производительность уже развернутых систем. Улучшение качества извлечения признаков может существенно повысить точность и надежность задач классификации, детекции и сегментации изображений. Кроме того, минимальные архитектурные накладные расходы делают метод доступным для применения в ресурсозависимых средах, таких как мобильные устройства и встроенные системы. Такой подход может значительно повлиять на эффективность и точность обработки визуальной информации в реальных приложениях, от автономных транспортных средств до систем мониторинга безопасности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, авторы демонстрируют, что Attention Zoom является эффективным и универсальным решением для улучшения качества выделения признаков в CNNs. Основные достижения включают значительное повышение точности классификации и более детализированное распределение внимания на изображениях. Поскольку метод не требует значительных изменений архитектуры, он может быть легко адаптирован для использования с различными моделями CNN. В будущем исследование может быть направлено на дальнейшее улучшение механизма внимания и его адаптацию для других типов нейронных сетей и задач, таких как обработка видео и трехмерных изображений. Кроме того, изучение влияния Attention Zoom в контексте обучения с малым количеством данных может открыть новые возможности для его применения в условиях ограниченных ресурсов.

Annotation:

We present Attention Zoom, a modular and model-agnostic spatial attention mechanism designed to improve feature extraction in convolutional neural networks (CNNs). Unlike traditional attention approaches that require architecture-specific integration, our method introduces a standalone layer that spatially emphasizes high-importance regions in the input. We evaluated Attention Zoom on multiple CNN backbones using CIFAR-100 and TinyImageNet, showing consistent improvements in Top-1 and Top-5 clas...

ID: 2508.03625v1 cs.CV, cs.AI

arXiv PDF

📄 LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations at eBay

2025-08-06

Авторы:

Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире электронной коммерции, где конкуренция среди продавцов постоянно растет, одним из ключевых факторов успешности рекламных кампаний является правильный выбор ключевых фраз для торгов на платформах, таких как eBay. Рекомендации по ключевым фразам должны быть релевантными и точно соответствовать интересам продавцов, а также поисковым запросам пользователей. Однако, из-за сложности получения негативных оценок от пользователей в больших масштабах, многие исследования начали использовать большие языковые модели (LLM) в качестве инструмента для имитации суждений продавцов. Основная проблема заключается в том, что традиционные модели на основе встраиваний (EBR) подвержены различным предвзятостям из-за данных о кликах, что может приводить к рекомендациям нерелевантных ключевых фраз. Это требует разработки новых методов, которые могли бы эффективно устранять такие предвзятости и обеспечивать высокую точность рекомендательных систем. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют инновационный двухшаговый процесс дистилляции LLM, который направлен на устранение предвзятостей в модели EBR. Методология включает использование LLM в качестве "судьи", который помогает скорректировать модель, чтобы она лучше соответствовала ожиданиям продавцов. Процесс дистилляции осуществляется через кросс-энкодер, который выступает в роли посредника между учителем LLM и учеником - би-энкодером. Используя подход мультизадачной тренировки, би-энкодер обучается извлекать релевантные ключевые фразы для рекламодателей. Эта методология позволяет эффективно интегрировать сигналы от LLM, улучшая производительность би-энкодера в сложных условиях реального мира. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода были проведены эксперименты с использованием данных от eBay. В процессе экспериментов сравнивалась производительность традиционной модели на основе встраиваний с новой моделью, улучшенной за счет дистилляции LLM. Результаты показали, что интеграция знаний от LLM в мультизадачной тренировочной среде значительно улучшает способность би-энкодера извлекать релевантные ключевые фразы. Более того, новая модель продемонстрировала устойчивость к предвзятостям, характерным для данных о кликах, что привело к более точным рекомендациям и, как следствие, улучшению восприятия продавцами системы рекомендаций. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкие перспективы применения в области электронной коммерции, особенно в контексте платформ с высокой конкуренцией, таких как eBay. Улучшение точности рекомендаций по ключевым фразам может способствовать увеличению эффективности рекламных кампаний, что, в свою очередь, приводит к повышению доходов продавцов и улучшению пользовательского опыта. Использование LLM для дистилляции знаний также открывает новые возможности для применения в других областях, где важно учитывать человеческие суждения и минимизировать предвзятости в данных. Таким образом, метод имеет потенциал для значительного влияния на развитие рекомендательных систем в целом. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данного исследования является разработка эффективного метода дистилляции знаний от LLM для улучшения производительности моделей извлечения ключевых фраз. Этот метод не только устраняет предвзятости, но и обеспечивает соответствие рекомендаций ожиданиям пользователей, что является ключевым аспектом в контексте рекламных платформ. В будущем исследования могут быть направлены на дальнейшую оптимизацию предложенной архитектуры и расширение ее применения на другие сферы, требующие точных рекомендаций. Также перспективным направлением является изучение возможности интеграции других типов данных и методов машинного обучения для повышения адаптивности и точности рекомендательных систем.

Annotation:

Sellers at eBay are recommended keyphrases to bid on to enhance the performance of their advertising campaigns. The relevance of these keyphrases is crucial in avoiding the overcrowding of search systems with irrelevant items and maintaining a positive seller perception. It is essential that keyphrase recommendations align with both seller and Search judgments regarding auctions. Due to the difficulty in procuring negative human judgment at scale, employing LLM-as-a-judge to mimic seller judgmen...

ID: 2508.03628v1 cs.IR, cs.AI, cs.LG

arXiv PDF

1
2
3399
3400
3401
3402
3403

Показано 34001 - 34010 из 34022 записей