📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Wei Da, Evangelia Kalyvianaki

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы крупные языковые модели (LLM) стали краеугольным камнем в области искусственного интеллекта, находя применение в таких областях, как обработка естественного языка, машинное обучение и автоматизированный перевод. Однако эффективная служба этих моделей зачастую сталкивается с проблемами, связанными с балансировкой нагрузки и оптимизацией распределения ресурсов. Традиционные системы обслуживания моделей часто полагаются на монолитные и эвристические планировщики задач, которые могут быть неэффективными в условиях изменяющихся нагрузок и разнообразных конфигураций оборудования. Эти системы, как правило, не учитывают контекстуальную информацию, такую как конфигурации хостов, длина ответов и производительность аппаратного обеспечения, что приводит к неравномерному распределению нагрузки и увеличению задержек. В этом контексте необходимость разработки новой системы, способной справляться с данными вызовами, становится более актуальной. Настоящее исследование направлено на преодоление этих ограничений путем разработки системы, способной более точно предсказывать и балансировать нагрузку на основе контекстной информации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют Block — распределенную систему планирования, которая оптимизирует балансировку нагрузки и автоматическое распределение ресурсов в рамках обслуживания крупными языковыми моделями. Block отличается от традиционных решений тем, что является полностью распределенной, без сохранения состояния и использует предсказательные методы для планирования задач. Система использует детерминированные и предсказуемые характеристики вывода LLM, такие как конфигурация хостов, длина ответов и производительность аппаратного обеспечения, для принятия решений на основе точно предсказанных метрик. Архитектура Block позволяет обеспечить низкие накладные расходы, надежность и масштабируемость, что делает ее более эффективной по сравнению с монолитными системами. Система учитывает контекстную информацию из входящих запросов, что позволяет более точно управлять распределением нагрузки и повышать производительность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности системы Block были проведены эксперименты на кластере из 12 GPU. Результаты показали, что Block значительно превышает производительность эвристических планировщиков, увеличивая вместимость обслуживания до 16,7% и снижая задержку на уровне P99 до 49,5%. Эти показатели остаются стабильными при различных моделях, нагрузках и конфигурациях оборудования. Эксперименты также подтвердили, что использование контекстуальной информации для предсказательного планирования позволяет более эффективно распределять ресурсы и снижать задержки, что является значительным улучшением по сравнению с традиционными системами. Открытый исходный код и данные позволяют другим исследователям и разработчикам воспроизвести результаты и адаптировать систему под свои нужды. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Block имеет широкий диапазон практического применения, особенно в областях, где требуется эффективное обслуживание крупными языковыми моделями. Система может быть использована в облачных сервисах, центрах обработки данных и других инфраструктурах, где необходима оптимизация распределения ресурсов и снижение задержек. Основные преимущества Block включают в себя высокую масштабируемость, надежность и способность адаптироваться к изменяющимся условиям нагрузки. Потенциальное влияние системы заключается в значительном улучшении качества обслуживания, что может привести к более быстрому и эффективному выполнению задач, связанных с обработкой естественного языка и другими сложными вычислениями. Благодаря открытости кода, Block может стать основой для дальнейших исследований и разработок в области распределенных систем планирования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование продемонстрировало, что использование контекстуальной информации и предсказательных методов в распределенных системах планирования может значительно улучшить производительность обслуживания крупными языковыми моделями. Основные достижения Block включают повышение вместимости обслуживания и снижение задержек, что делает систему более эффективной по сравнению с традиционными подходами. В будущем авторы планируют расширить функциональность Block, добавив поддержку более широкого спектра моделей и конфигураций. Также рассматривается возможность интеграции с другими системами управления ресурсами для повышения общей эффективности и надежности. Дальнейшие исследования могут быть направлены на изучение влияния различных типов контекстуальной информации на производительность системы и разработку новых алгоритмов планирования.
Annotation:
This paper presents Block, a distributed scheduling framework designed to optimize load balancing and auto-provisioning across instances in large language model serving frameworks by leveraging contextual information from incoming requests. Unlike popular model serving systems that rely on monolithic and heuristic task schedulers, Block operates as a fully distributed, stateless, and predictive scheduling system to achieve low overhead, reliability, and scalability. It leverages the deterministi...
ID: 2508.03611v1 cs.DC, cs.AI
Авторы:

Yong Lin, Shange Tang, Bohan Lyu, Ziran Yang, Jui-Hui Chung, Haoyu Zhao, Lai Jiang, Yihan Geng, Jiawei Ge, Jingruo Sun, Jiayun Wu, Jiri Gesi, Ximing Lu, David Acuna, Kaiyu Yang, Hongzhou Lin, Yejin Choi, Danqi Chen, Sanjeev Arora, Chi Jin

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автоматическое доказательство теорем является одним из ключевых направлений в области искусственного интеллекта и вычислительной логики. Эта область направлена на создание алгоритмов и моделей, способных автоматически доказывать математические утверждения, что может значительно ускорить процесс научных открытий и верификацию сложных систем. Однако, существующие методы зачастую сталкиваются с ограничениями в масштабируемости и сложности решаемых задач. Многие из них либо требуют значительных вычислительных ресурсов, либо не способны эффективно справляться с задачами повышенной сложности. Это создает необходимость в разработке новых подходов, которые могли бы обеспечить как высокую производительность, так и доступность для более широкого круга пользователей. Мотивация для создания Goedel-Prover-V2 заключается в преодолении этих ограничений через использование современных языковых моделей и инновационных методологий, таких как синтез данных и самокоррекция, которые позволяют улучшить обучение моделей и их способность решать сложные задачи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Goedel-Prover-V2 представляет собой серию языковых моделей, разработанных для автоматического доказательства теорем. Основой предложенного метода является стандартный процесс итерации экспертов и обучения с подкреплением, в который интегрированы три ключевых инновации. Во-первых, это структурированный синтез данных, который позволяет генерировать синтетические задания с возрастающей сложностью. Это обучает модель постепенно осваивать все более сложные теоремы. Во-вторых, метод самокоррекции, управляемый верификатором, позволяет модели итеративно исправлять свои доказательства, используя обратную связь от компилятора Lean. В-третьих, усреднение моделей, которое объединяет контрольные точки модели, чтобы уменьшить снижение разнообразия выходных данных модели на поздних стадиях обучения. Эти инновации позволяют Goedel-Prover-V2 добиваться высоких результатов в доказательстве теорем, обеспечивая при этом эффективность и устойчивость модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Goedel-Prover-V2 были проведены эксперименты с использованием нескольких тестовых наборов данных. Малая модель Goedel-Prover-V2-8B достигла 84.6% по метрике pass@32 на наборе данных MiniF2F, превосходя DeepSeek-Prover-V2-671B, несмотря на то, что она в 80 раз меньше. Флагманская модель Goedel-Prover-V2-32B достигла 88.1% на MiniF2F при стандартном режиме и 90.4% в режиме самокоррекции, значительно превосходя предыдущее состояние искусства. Более того, она успешно решила 86 задач на PutnamBench при pass@184, заняв первое место среди открытых моделей, обогнав DeepSeek-Prover-V2-671B, который решил 47 задач при pass@1024. Эти результаты демонстрируют, что предложенная методология позволяет достигать высоких показателей производительности при меньших вычислительных затратах и размерах модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Goedel-Prover-V2 имеет широкий спектр потенциальных применений в различных областях, включая математику, компьютерные науки и инженерные дисциплины, где требуется автоматизация верификации и доказательства теорем. Одним из ключевых преимуществ является возможность использования более компактных и эффективных моделей, что расширяет доступность технологии для исследовательских групп с ограниченными ресурсами. Кроме того, инновации, заложенные в методологию Goedel-Prover-V2, могут быть адаптированы и для других задач, требующих автоматического синтеза и проверки сложных структур. Переход на модели открытого исходного кода также способствует более широкому распространению и адаптации технологии в научном сообществе, что может ускорить прогресс в области автоматического доказательства теорем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Разработка Goedel-Prover-V2 представляет собой значительный шаг вперед в области автоматического доказательства теорем. Основные достижения включают в себя создание компактных и эффективных моделей, превосходящих существующие аналоги, а также внедрение инновационных методологий, таких как структурированный синтез данных и самокоррекция. В будущем исследования могут быть направлены на дальнейшее улучшение способности моделей решать задачи повышенной сложности, а также на расширение возможностей применения данных методов в других областях науки и техники. Важно продолжать развивать открытые платформы и инструменты, которые могут способствовать более быстрому и широкому распространению передовых технологий в научных кругах.
Annotation:
We introduce Goedel-Prover-V2, a series of open-source language models that set a new state-of-the-art in automated theorem proving. Built on the standard expert iteration and reinforcement learning pipeline, our approach incorporates three key innovations: (1) Scaffolded data synthesis: We generate synthetic tasks of increasing difficulty to train the model to master increasingly complex theorems; (2) Verifier-guided self-correction: We enable the model to iteratively revise its proofs by lever...
ID: 2508.03613v1 cs.LG, cs.AI
Авторы:

Jorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы трансформеры стали основой многих моделей машинного обучения благодаря их выдающейся способности обрабатывать последовательные данные и захватывать сложные зависимости. Однако, несмотря на их успех, внутренняя динамика этих моделей, особенно в процессе их обучения, остается недостаточно изученной. Одной из таких малоизученных характеристик являются "массовые активации" — скалярные значения в скрытых состояниях трансформеров, которые значительно превышают типичные активации. Эти активации играют ключевую роль в функциональности модели, и, хотя их присутствие в полностью обученных моделях было ранее охарактеризовано, их временная динамика в процессе обучения остается неясной. Понимание того, как и когда возникают эти активации, может иметь значительное влияние на улучшение стабильности модели, сокращение времени обучения и повышение интерпретируемости. В связи с этим, исследование динамики массовых активаций во время обучения трансформеров является актуальной и важной задачей в области машинного обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представили первый полный анализ развития массовых активаций в процессе обучения трансформеров, используя семейство моделей Pythia в качестве тестовой платформы. Методология исследования включает систематический анализ различных размеров моделей на множестве контрольных точек обучения. Основное внимание уделено математическим закономерностям, которым следует возникновение массовых активаций. Авторы предложили модель, описывающую эти закономерности с помощью экспоненциально-модулированной логарифмической функции, содержащей пять ключевых параметров. Для предсказания этих параметров из архитектурных спецификаций была разработана специальная машинно-обучающаяся система. Эта система продемонстрировала высокую точность в предсказании устойчивого состояния модели и умеренную точность в прогнозировании времени и величины возникновения массовых активаций. Такой подход позволяет исследователям и инженерам предсказывать и потенциально контролировать ключевые аспекты возникновения массовых активаций до начала обучения, существенно влияя на дизайн и оптимизацию моделей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальное исследование проводилось на различных моделях семейства Pythia, что позволило охватить широкий спектр архитектурных особенностей. Анализ проводился на множестве контрольных точек в процессе обучения, что позволило выявить временные закономерности возникновения массовых активаций. Полученные результаты показали, что возникновение массовых активаций следует предсказуемым математическим шаблонам, которые можно точно моделировать с помощью предложенной функции. Машинно-обучающаяся система, разработанная для предсказания параметров этой функции из архитектурных спецификаций, продемонстрировала высокую точность в определении устойчивых состояний и умеренную точность в предсказании времени и величины активаций. Эти результаты подтверждают гипотезу о том, что динамика массовых активаций определяется архитектурой модели и может быть предсказана заранее. Важным аспектом исследования является то, что предсказание этих параметров открывает возможности для оптимизации процессов обучения и улучшения стабильности моделей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость данного исследования заключается в возможности предсказания и управления возникновением массовых активаций в трансформерах на основе архитектурных спецификаций. Это открывает новые горизонты для оптимизации моделей машинного обучения. Во-первых, предсказуемость активаций способствует улучшению стабильности моделей, минимизируя риски возникновения непредсказуемых ошибок в процессе обучения. Во-вторых, сокращение времени обучения становится возможным за счет более точной настройки гиперпараметров, что приводит к экономии вычислительных ресурсов. В-третьих, улучшение интерпретируемости моделей достигается через понимание внутренней динамики активаций, что важно для разработки более надежных и понятных систем. В-четвертых, возможность контроля активаций открывает перспективы для создания более устойчивых моделей, способных адаптироваться к различным условиям и задачам. В итоге, исследование потенциально может значительно повлиять на развитие технологий машинного обучения, сделав их более эффективными и надежными. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, данное исследование представляет собой важный шаг в понимании внутренней динамики трансформеров, особенно в контексте массовых активаций. Авторы продемонстрировали, что возникновение этих активаций подчиняется предсказуемым математическим закономерностям, что позволяет использовать это знание для оптимизации и улучшения моделей. Основные достижения включают разработку модели для предсказания и контроля активаций, что потенциально может сократить время обучения и улучшить стабильность моделей. Направления будущих исследований могут включать расширение анализа на другие архитектуры нейронных сетей, изучение влияния различных гиперпараметров на динамику активаций, а также разработку методов, позволяющих более точно предсказывать временные аспекты их возникновения. Кроме того, интеграция предложенных методов в реальные приложения может открыть новые возможности для разработки более эффективных и адаптивных систем машинного обучения.
Annotation:
Massive activations are scalar values in transformer hidden states that achieve values orders of magnitude larger than typical activations and have been shown to be critical for model functionality. While prior work has characterized these phenomena in fully trained models, the temporal dynamics of their emergence during training remain poorly understood. We present the first comprehensive analysis of massive activation development throughout transformer training, using the Pythia model family a...
ID: 2508.03616v1 cs.AI
Авторы:

Jialin Li, Jinzhe Li, Gengxu Li, Yi Chang, Yuan Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА С развитием возможностей генерации кода в крупных языковых моделях (LLM) их зависимость от вводных предпосылок значительно возросла. Современные технологии генерации кода сталкиваются с проблемой, когда пользователи предоставляют вводные данные с ошибочными предпосылками, что приводит к увеличению вероятности появления "галлюцинаций" — ошибок или некорректных результатов в сгенерированном коде. Такие ситуации подчеркивают недостатки в способностях моделей к самопроверке и самокоррекции. Несмотря на значительные успехи в развитии LLM, их способность критически оценивать предоставляемые данные и исправлять ошибки остается недостаточно изученной. Стремление к улучшению этих аспектов генерации кода мотивирует исследователей на создание новых методик и инструментов, способных оценивать и улучшать умение моделей справляться с ошибочными предпосылками. В этом контексте возникает необходимость в разработке специализированных фреймворков, которые позволят систематически оценивать и анализировать поведение моделей в условиях неопределенности и ошибок. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предложен новый фреймворк для оценки генерации кода в условиях ошибочных предпосылок, названный Faulty Premises Bench (FPBench). Этот фреймворк впервые систематически классифицирует три категории ошибочных предпосылок и интегрирует многомерные метрики оценки, что позволяет проводить глубокий анализ поведения языковых моделей. Методология включает создание различных сценариев с ошибочными предпосылками, в которых модели тестируются на их способность выявлять и исправлять ошибки. FPBench использует комплексный подход к оценке, который учитывает не только качество сгенерированного кода, но и способность моделей к самопроверке и самокоррекции. Архитектура фреймворка предусматривает использование наборов данных, содержащих разнообразные ошибочные предпосылки, которые служат основой для тестирования 15 представительных LLM. Такой подход позволяет выделить особенности и недостатки каждой модели, что, в свою очередь, способствует разработке более надежных и человекоориентированных моделей генерации кода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты, проведенные с использованием FPBench, включали тестирование 15 различных языковых моделей на способность обрабатывать ошибочные предпосылки. Для оценки использовались наборы данных, специально разработанные для создания сценариев с тремя типами ошибочных предпосылок. Результаты показали, что большинство моделей демонстрируют недостаточные способности к логическому мышлению и генерации кода в условиях ошибочных предпосылок, сильно завися от явных подсказок для обнаружения ошибок. Также выяснилось, что увеличение длины вводных данных в условиях ошибочных предпосылок не приводит к улучшению качества генерации, а наоборот, вызывает перегрузку ресурсов. Наблюдения показали, что различные типы ошибочных предпосылок активируют разные дефектные паттерны в моделях, что свидетельствует о тройной диссоциации в когнитивных механизмах генерации кода. Эти результаты подчеркивают необходимость разработки новых методов, которые позволят LLM более эффективно проверять вводные данные на наличие ошибок и самостоятельно их исправлять. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанный фреймворк FPBench имеет значительное практическое значение для улучшения качества и надежности генерации кода с использованием языковых моделей. Его применение позволяет выявлять слабые места в моделях и разрабатывать стратегии для их устранения. Это может существенно повысить доверие пользователей к автоматическим системам генерации кода, особенно в критически важных областях, таких как разработка программного обеспечения и анализ данных. Преимущества использования FPBench заключаются в его способности систематически оценивать модели в условиях неопределенности и ошибочных предпосылок, что способствует созданию более адаптивных и точных моделей. Потенциальное влияние данной работы заключается в формировании новых стандартов для оценки и разработки LLM, которые будут учитывать необходимость критического мышления и самопроверки в процессе генерации кода. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование подчеркивает необходимость улучшения способностей языковых моделей к критическому мышлению и самопроверке в условиях ошибочных предпосылок. Основным достижением работы является разработка фреймворка FPBench, который предоставляет теоретическую основу и практический подход для систематической оценки и улучшения моделей генерации кода. В результате проведенных экспериментов было выявлено, что большинство моделей недостаточно эффективно справляются с ошибочными предпосылками, что указывает на необходимость дальнейших исследований в этой области. Перспективы будущих исследований включают разработку новых архитектур и алгоритмов, которые будут учитывать выявленные недостатки и способствовать созданию более надежных и человекоориентированных систем генерации кода. Также важным направлением является интеграция методов машинного обучения, которые позволят моделям более эффективно адаптироваться к различным типам ошибочных предпосылок и повышать общую точность и качество работы.
Annotation:
With the advancement of code generation capabilities in large language models (LLMs), their reliance on input premises has intensified. When users provide inputs containing faulty premises, the probability of code generation hallucinations rises significantly, exposing deficiencies in their self-scrutiny capabilities. This paper proposes Faulty Premises Bench (FPBench), the first code generation evaluation framework targeting faulty premises. By systematically constructing three categories of fa...
ID: 2508.03622v1 cs.AI
Авторы:

Daniel DeAlcala, Aythami Morales, Julian Fierrez, Ruben Tolosana

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы сверточные нейронные сети (CNNs) стали основным инструментом для решения задач в области компьютерного зрения, таких как классификация изображений, детекция объектов и сегментация. Однако, несмотря на успехи, CNNs имеют ограничения в способности эффективно выделять значимые регионы на изображениях. Это связано с тем, что стандартные архитектуры часто полагаются на заранее заданные параметры и фиксированные фильтры, которые могут не учитывать все тонкости и вариативность визуальных данных. Традиционные подходы с применением механизмов внимания, направленных на улучшение качества извлекаемых признаков, зачастую требуют интеграции в конкретные архитектуры, что ограничивает их универсальность и применимость. Таким образом, существует необходимость в разработке модульного и архитектурно-независимого решения, которое могло бы улучшать процесс выделения признаков в существующих CNNs без значительных изменений их структуры. В данной статье авторы предлагают новый метод Attention Zoom, который направлен на решение этих проблем и повышение эффективности процесса извлечения признаков из изображений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Attention Zoom представляет собой модульный механизм пространственного внимания, который можно интегрировать в различные архитектуры CNN без необходимости значительных изменений. В отличие от традиционных подходов, которые требуют специфической интеграции в архитектуру, Attention Zoom добавляется как отдельный слой, фокусирующийся на областях изображения с высокой важностью. Этот механизм анализирует входные данные и акцентирует внимание сети на значимых регионах, улучшая тем самым качество извлекаемых признаков. Основной идеей является использование внимания для "увеличения" критических участков изображения, что приводит к более детальному и разнообразному вниманию. Таким образом, Attention Zoom способствует более точному и эффективному извлечению признаков, минимизируя при этом архитектурные накладные расходы и сохраняя общую универсальность и гибкость метода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода Attention Zoom авторы провели серию экспериментов на различных архитектурах CNN с использованием наборов данных CIFAR-100 и TinyImageNet. Результаты показали значительные улучшения в точности классификации как по метрике Top-1, так и по метрике Top-5. Визуальный анализ с использованием Grad-CAM и пространственного искажения продемонстрировал, что Attention Zoom способствует более тонкому и разнообразному распределению внимания по изображению. Это подтверждает способность метода акцентировать внимание на более значимых деталях, что в свою очередь улучшает общее качество классификации. Полученные результаты указывают на универсальность и эффективность предложенного слоя, который может улучшать производительность CNNs с минимальными изменениями в архитектуре. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанный механизм Attention Zoom обладает широким спектром потенциальных применений в различных областях, связанных с компьютерным зрением. Одним из ключевых преимуществ является его архитектурная независимость, что позволяет интегрировать его в существующие модели без значительных изменений. Это делает метод особенно привлекательным для практического применения, где часто требуется улучшать производительность уже развернутых систем. Улучшение качества извлечения признаков может существенно повысить точность и надежность задач классификации, детекции и сегментации изображений. Кроме того, минимальные архитектурные накладные расходы делают метод доступным для применения в ресурсозависимых средах, таких как мобильные устройства и встроенные системы. Такой подход может значительно повлиять на эффективность и точность обработки визуальной информации в реальных приложениях, от автономных транспортных средств до систем мониторинга безопасности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, авторы демонстрируют, что Attention Zoom является эффективным и универсальным решением для улучшения качества выделения признаков в CNNs. Основные достижения включают значительное повышение точности классификации и более детализированное распределение внимания на изображениях. Поскольку метод не требует значительных изменений архитектуры, он может быть легко адаптирован для использования с различными моделями CNN. В будущем исследование может быть направлено на дальнейшее улучшение механизма внимания и его адаптацию для других типов нейронных сетей и задач, таких как обработка видео и трехмерных изображений. Кроме того, изучение влияния Attention Zoom в контексте обучения с малым количеством данных может открыть новые возможности для его применения в условиях ограниченных ресурсов.
Annotation:
We present Attention Zoom, a modular and model-agnostic spatial attention mechanism designed to improve feature extraction in convolutional neural networks (CNNs). Unlike traditional attention approaches that require architecture-specific integration, our method introduces a standalone layer that spatially emphasizes high-importance regions in the input. We evaluated Attention Zoom on multiple CNN backbones using CIFAR-100 and TinyImageNet, showing consistent improvements in Top-1 and Top-5 clas...
ID: 2508.03625v1 cs.CV, cs.AI
Авторы:

Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире электронной коммерции, где конкуренция среди продавцов постоянно растет, одним из ключевых факторов успешности рекламных кампаний является правильный выбор ключевых фраз для торгов на платформах, таких как eBay. Рекомендации по ключевым фразам должны быть релевантными и точно соответствовать интересам продавцов, а также поисковым запросам пользователей. Однако, из-за сложности получения негативных оценок от пользователей в больших масштабах, многие исследования начали использовать большие языковые модели (LLM) в качестве инструмента для имитации суждений продавцов. Основная проблема заключается в том, что традиционные модели на основе встраиваний (EBR) подвержены различным предвзятостям из-за данных о кликах, что может приводить к рекомендациям нерелевантных ключевых фраз. Это требует разработки новых методов, которые могли бы эффективно устранять такие предвзятости и обеспечивать высокую точность рекомендательных систем. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют инновационный двухшаговый процесс дистилляции LLM, который направлен на устранение предвзятостей в модели EBR. Методология включает использование LLM в качестве "судьи", который помогает скорректировать модель, чтобы она лучше соответствовала ожиданиям продавцов. Процесс дистилляции осуществляется через кросс-энкодер, который выступает в роли посредника между учителем LLM и учеником - би-энкодером. Используя подход мультизадачной тренировки, би-энкодер обучается извлекать релевантные ключевые фразы для рекламодателей. Эта методология позволяет эффективно интегрировать сигналы от LLM, улучшая производительность би-энкодера в сложных условиях реального мира. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода были проведены эксперименты с использованием данных от eBay. В процессе экспериментов сравнивалась производительность традиционной модели на основе встраиваний с новой моделью, улучшенной за счет дистилляции LLM. Результаты показали, что интеграция знаний от LLM в мультизадачной тренировочной среде значительно улучшает способность би-энкодера извлекать релевантные ключевые фразы. Более того, новая модель продемонстрировала устойчивость к предвзятостям, характерным для данных о кликах, что привело к более точным рекомендациям и, как следствие, улучшению восприятия продавцами системы рекомендаций. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкие перспективы применения в области электронной коммерции, особенно в контексте платформ с высокой конкуренцией, таких как eBay. Улучшение точности рекомендаций по ключевым фразам может способствовать увеличению эффективности рекламных кампаний, что, в свою очередь, приводит к повышению доходов продавцов и улучшению пользовательского опыта. Использование LLM для дистилляции знаний также открывает новые возможности для применения в других областях, где важно учитывать человеческие суждения и минимизировать предвзятости в данных. Таким образом, метод имеет потенциал для значительного влияния на развитие рекомендательных систем в целом. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данного исследования является разработка эффективного метода дистилляции знаний от LLM для улучшения производительности моделей извлечения ключевых фраз. Этот метод не только устраняет предвзятости, но и обеспечивает соответствие рекомендаций ожиданиям пользователей, что является ключевым аспектом в контексте рекламных платформ. В будущем исследования могут быть направлены на дальнейшую оптимизацию предложенной архитектуры и расширение ее применения на другие сферы, требующие точных рекомендаций. Также перспективным направлением является изучение возможности интеграции других типов данных и методов машинного обучения для повышения адаптивности и точности рекомендательных систем.
Annotation:
Sellers at eBay are recommended keyphrases to bid on to enhance the performance of their advertising campaigns. The relevance of these keyphrases is crucial in avoiding the overcrowding of search systems with irrelevant items and maintaining a positive seller perception. It is essential that keyphrase recommendations align with both seller and Search judgments regarding auctions. Due to the difficulty in procuring negative human judgment at scale, employing LLM-as-a-judge to mimic seller judgmen...
ID: 2508.03628v1 cs.IR, cs.AI, cs.LG
Авторы:

Saleh Nikooroo, Thomas Engel

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область исследования, рассматриваемая в статье "Cross-Model Semantics in Representation Learning", сосредоточена на внутреннем представлении данных глубокими нейронными сетями. В последние годы глубокое обучение приобрело значительную популярность благодаря своей способности извлекать сложные закономерности из данных, однако возникает проблема стабильности и переносимости этих представлений между различными архитектурами моделей. Вопросы о том, насколько выученные представления устойчивы к архитектурным изменениям, становятся всё более актуальными, особенно в контексте их совместимости и применения в различных системах. Существующие проблемы включают в себя архитектурно-специфические решения, которые могут ограничивать их переносимость и совместимость. Мотивацией для исследования является необходимость разработки подходов, которые позволят улучшить совместимость и стабильность внутренних представлений, что может существенно повысить эффективность обучения и применения моделей в динамично меняющихся средах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают методологию, основанную на структурных ограничениях, таких как линейные операторы формовки и корректирующие пути, чтобы улучшить совместимость внутренних представлений между различными архитектурами. Они разработали рамочную систему для измерения и анализа выравнивания представлений в сетях, имеющих различные, но связанные архитектурные предпосылки. Методология сочетает в себе теоретические выводы, эмпирические исследования и контролируемые эксперименты по переносу, что позволяет оценить влияние структурных регулярностей на стабильность представлений при изменении архитектур. Это достигается путем введения определенных форм индуктивных смещений, которые не только поддерживают обобщение внутри модели, но и улучшают интероперабельность выученных признаков между моделями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе экспериментов были использованы различные наборы данных и архитектуры моделей для проверки гипотезы о том, что структурные регулярности способствуют более стабильной геометрии представлений при изменении архитектур. Эксперименты включали как теоретические моделирования, так и практические тестирования на различных архитектурах, таких как ResNet и VGG. Полученные результаты показали, что предложенные структурные ограничения действительно улучшают совместимость представлений между моделями, что подтверждается более высокой степенью выравнивания и стабильности представлений. Эти результаты указывают на то, что определенные формы индуктивных смещений могут значительно улучшить переносимость и стабильность внутренних представлений, что открывает новые возможности для создания более универсальных и устойчивых моделей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость исследования заключается в его потенциальном влиянии на области, связанные с дистилляцией моделей, модульным обучением и проектированием робастных систем обучения. Улучшенная совместимость представлений между различными архитектурами может способствовать более эффективному переносу знаний и уменьшению необходимости в повторном обучении моделей с нуля, что особенно актуально в условиях ограниченных вычислительных ресурсов. Преимущества предложенного подхода включают в себя более быструю адаптацию моделей к новым задачам и улучшение их обобщающей способности. Это может привести к созданию более гибких и адаптивных систем, способных быстро приспосабливаться к изменениям в данных и задачах, с которыми они сталкиваются. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основные достижения исследования включают демонстрацию того, что структурные регулярности могут значительно улучшить переносимость и стабильность внутренних представлений между различными архитектурами. Это открывает новые перспективы для создания более универсальных и устойчивых моделей, которые могут эффективно работать в разнообразных условиях и задачах. В будущем исследование может быть расширено за счет изучения других типов архитектур и более сложных структурных ограничений. Дополнительно, перспективными направлениями являются разработка новых методов для автоматизации процесса настройки структурных ограничений и исследование их влияния на более широкие классы задач в глубоких нейронных сетях.
Annotation:
The internal representations learned by deep networks are often sensitive to architecture-specific choices, raising questions about the stability, alignment, and transferability of learned structure across models. In this paper, we investigate how structural constraints--such as linear shaping operators and corrective paths--affect the compatibility of internal representations across different architectures. Building on the insights from prior studies on structured transformations and convergenc...
ID: 2508.03649v1 cs.LG, cs.AI
Авторы:

Ruei-Che Chang, Rosiana Natalie, Wenqian Xu, Jovan Zheng Feng Yap, Anhong Guo

Работа исследует применение живого видео-чата ChatGPT (режим Advanced Voice with Video) в качестве повседневного помощника для незрячих и слабовидящих (BVI) в реальных условиях. В эксперименте восемь участников BVI использовали систему для поиска предметов, ориентирования внутри и снаружи помещений и распознавания ориентиров. Выявлены две зоны разрыва: 1) статические сцены описываются точно и полезно, тогда как динамические ситуации требуют непрерывных, временно-критичных подсказок, которые модель выдаёт с запаздыванием; 2) сильные голосовые ответы вызывают ощущение «человечности», но приводят к галлюцинациям, неточностям в пространственных данных и сладкоречивым утверждениям, что повышает риск для безопасности. Авторы рекомендуют добавить внешние датчики, пересмотреть стратегию вмешательства и учитывать экологические и этические факторы при проектировании ассистивных видео-агентов.
Annotation:
Recent advancements in large multimodal models have provided blind or visually impaired (BVI) individuals with new capabilities to interpret and engage with the real world through interactive systems that utilize live video feeds. However, the potential benefits and challenges of such capabilities to support diverse real-world assistive tasks remain unclear. In this paper, we present findings from an exploratory study with eight BVI participants. Participants used ChatGPT's Advanced Voice with V...
ID: 2508.03651v1 cs.HC, cs.AI
Авторы:

He Wang, Liang Zeng

Существующие методы поиска гравитационных волн — согласованная фильтрация по шаблонам и «чёрные ящики» из нейросетей — либо слишком затратны по CPU, либо неинтерпретируемы и таят скрытые искажения. Авторы предлагают Evo-MCTS: гибридный поисковый фреймворк, который исследует пространство алгоритмов через дерево Монте-Карло, эволюционную оптимизацию и физико-информированные подсказки больших языковых моделей. На MLGWSC-1 новые варианты алгоритмов превзошли текущее SOTA на 20,2 % при сохранении человекочитаемости цепочек принятия решений. Подход переносим на другие задачи вычислительной науки.
Annotation:
Computational scientific discovery increasingly relies on algorithms to process complex data and identify meaningful patterns - yet faces persistent challenges in gravitational-wave signal identification. While existing algorithmic approaches like matched filtering (MF) and deep neural networks (DNNs) have achieved partial success, their limitations directly stem from fundamental limitations: MF's excessive computational demands arise from its reliance on predefined theoretical waveform template...
ID: 2508.03661v1 cs.AI, astro-ph.HE, astro-ph.IM, gr-qc
Авторы:

Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan

Вопрос воспроизводимости оценки моделей ML осложняется тем, что эталонные метки собирают у людей, а люди расходятся во мнениях. При ограниченном бюджете чаще жертвуют числом аннотаций на пример (K) ради числа примеров (N). Авторы исследуют оптимальный компромисс (N, K) при фиксированном бюджете N×K. На 10 категориальных датасетах с множественной разметкой показано, что достаточный уровень надёжности достигается при N×K≤1000 и K>10. Чувствительные к распределению метрики (Brier, log-loss) требуют высокого K, а «жёсткие» (Accuracy, F1) — высокого N. Предложенный инструмент помогает практикам выбирать метрику и N, K для максимальной надёжности при заданном бюджете.
Annotation:
Reproducibility is a cornerstone of scientific validation and of the authority it confers on its results. Reproducibility in machine learning evaluations leads to greater trust, confidence, and value. However, the ground truth responses used in machine learning often necessarily come from humans, among whom disagreement is prevalent, and surprisingly little research has studied the impact of effectively ignoring disagreement in these responses, as is typically the case. One reason for the lack o...
ID: 2508.03663v1 cs.LG, cs.AI, cs.CL
Показано 14411 - 14420 из 14425 записей