📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li
## КОНТЕКСТ И ПРОБЛЕМАТИКА
В современном мире электронной коммерции, где конкуренция среди продавцов постоянно растет, одним из ключевых факторов успешности рекламных кампаний является правильный выбор ключевых фраз для торгов на платформах, таких как eBay. Рекомендации по ключевым фразам должны быть релевантными и точно соответствовать интересам продавцов, а также поисковым запросам пользователей. Однако, из-за сложности получения негативных оценок от пользователей в больших масштабах, многие исследования начали использовать большие языковые модели (LLM) в качестве инструмента для имитации суждений продавцов. Основная проблема заключается в том, что традиционные модели на основе встраиваний (EBR) подвержены различным предвзятостям из-за данных о кликах, что может приводить к рекомендациям нерелевантных ключевых фраз. Это требует разработки новых методов, которые могли бы эффективно устранять такие предвзятости и обеспечивать высокую точность рекомендательных систем.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Авторы статьи представляют инновационный двухшаговый процесс дистилляции LLM, который направлен на устранение предвзятостей в модели EBR. Методология включает использование LLM в качестве "судьи", который помогает скорректировать модель, чтобы она лучше соответствовала ожиданиям продавцов. Процесс дистилляции осуществляется через кросс-энкодер, который выступает в роли посредника между учителем LLM и учеником - би-энкодером. Используя подход мультизадачной тренировки, би-энкодер обучается извлекать релевантные ключевые фразы для рекламодателей. Эта методология позволяет эффективно интегрировать сигналы от LLM, улучшая производительность би-энкодера в сложных условиях реального мира.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки эффективности предложенного метода были проведены эксперименты с использованием данных от eBay. В процессе экспериментов сравнивалась производительность традиционной модели на основе встраиваний с новой моделью, улучшенной за счет дистилляции LLM. Результаты показали, что интеграция знаний от LLM в мультизадачной тренировочной среде значительно улучшает способность би-энкодера извлекать релевантные ключевые фразы. Более того, новая модель продемонстрировала устойчивость к предвзятостям, характерным для данных о кликах, что привело к более точным рекомендациям и, как следствие, улучшению восприятия продавцами системы рекомендаций.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предложенный метод имеет широкие перспективы применения в области электронной коммерции, особенно в контексте платформ с высокой конкуренцией, таких как eBay. Улучшение точности рекомендаций по ключевым фразам может способствовать увеличению эффективности рекламных кампаний, что, в свою очередь, приводит к повышению доходов продавцов и улучшению пользовательского опыта. Использование LLM для дистилляции знаний также открывает новые возможности для применения в других областях, где важно учитывать человеческие суждения и минимизировать предвзятости в данных. Таким образом, метод имеет потенциал для значительного влияния на развитие рекомендательных систем в целом.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Основным достижением данного исследования является разработка эффективного метода дистилляции знаний от LLM для улучшения производительности моделей извлечения ключевых фраз. Этот метод не только устраняет предвзятости, но и обеспечивает соответствие рекомендаций ожиданиям пользователей, что является ключевым аспектом в контексте рекламных платформ. В будущем исследования могут быть направлены на дальнейшую оптимизацию предложенной архитектуры и расширение ее применения на другие сферы, требующие точных рекомендаций. Также перспективным направлением является изучение возможности интеграции других типов данных и методов машинного обучения для повышения адаптивности и точности рекомендательных систем.
Annotation:
Sellers at eBay are recommended keyphrases to bid on to enhance the
performance of their advertising campaigns. The relevance of these keyphrases
is crucial in avoiding the overcrowding of search systems with irrelevant items
and maintaining a positive seller perception. It is essential that keyphrase
recommendations align with both seller and Search judgments regarding auctions.
Due to the difficulty in procuring negative human judgment at scale, employing
LLM-as-a-judge to mimic seller judgmen...
Авторы:
Saleh Nikooroo, Thomas Engel
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Область исследования, рассматриваемая в статье "Cross-Model Semantics in Representation Learning", сосредоточена на внутреннем представлении данных глубокими нейронными сетями. В последние годы глубокое обучение приобрело значительную популярность благодаря своей способности извлекать сложные закономерности из данных, однако возникает проблема стабильности и переносимости этих представлений между различными архитектурами моделей. Вопросы о том, насколько выученные представления устойчивы к архитектурным изменениям, становятся всё более актуальными, особенно в контексте их совместимости и применения в различных системах. Существующие проблемы включают в себя архитектурно-специфические решения, которые могут ограничивать их переносимость и совместимость. Мотивацией для исследования является необходимость разработки подходов, которые позволят улучшить совместимость и стабильность внутренних представлений, что может существенно повысить эффективность обучения и применения моделей в динамично меняющихся средах.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Авторы предлагают методологию, основанную на структурных ограничениях, таких как линейные операторы формовки и корректирующие пути, чтобы улучшить совместимость внутренних представлений между различными архитектурами. Они разработали рамочную систему для измерения и анализа выравнивания представлений в сетях, имеющих различные, но связанные архитектурные предпосылки. Методология сочетает в себе теоретические выводы, эмпирические исследования и контролируемые эксперименты по переносу, что позволяет оценить влияние структурных регулярностей на стабильность представлений при изменении архитектур. Это достигается путем введения определенных форм индуктивных смещений, которые не только поддерживают обобщение внутри модели, но и улучшают интероперабельность выученных признаков между моделями.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
В ходе экспериментов были использованы различные наборы данных и архитектуры моделей для проверки гипотезы о том, что структурные регулярности способствуют более стабильной геометрии представлений при изменении архитектур. Эксперименты включали как теоретические моделирования, так и практические тестирования на различных архитектурах, таких как ResNet и VGG. Полученные результаты показали, что предложенные структурные ограничения действительно улучшают совместимость представлений между моделями, что подтверждается более высокой степенью выравнивания и стабильности представлений. Эти результаты указывают на то, что определенные формы индуктивных смещений могут значительно улучшить переносимость и стабильность внутренних представлений, что открывает новые возможности для создания более универсальных и устойчивых моделей.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Практическая значимость исследования заключается в его потенциальном влиянии на области, связанные с дистилляцией моделей, модульным обучением и проектированием робастных систем обучения. Улучшенная совместимость представлений между различными архитектурами может способствовать более эффективному переносу знаний и уменьшению необходимости в повторном обучении моделей с нуля, что особенно актуально в условиях ограниченных вычислительных ресурсов. Преимущества предложенного подхода включают в себя более быструю адаптацию моделей к новым задачам и улучшение их обобщающей способности. Это может привести к созданию более гибких и адаптивных систем, способных быстро приспосабливаться к изменениям в данных и задачах, с которыми они сталкиваются.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Основные достижения исследования включают демонстрацию того, что структурные регулярности могут значительно улучшить переносимость и стабильность внутренних представлений между различными архитектурами. Это открывает новые перспективы для создания более универсальных и устойчивых моделей, которые могут эффективно работать в разнообразных условиях и задачах. В будущем исследование может быть расширено за счет изучения других типов архитектур и более сложных структурных ограничений. Дополнительно, перспективными направлениями являются разработка новых методов для автоматизации процесса настройки структурных ограничений и исследование их влияния на более широкие классы задач в глубоких нейронных сетях.
Annotation:
The internal representations learned by deep networks are often sensitive to
architecture-specific choices, raising questions about the stability,
alignment, and transferability of learned structure across models. In this
paper, we investigate how structural constraints--such as linear shaping
operators and corrective paths--affect the compatibility of internal
representations across different architectures. Building on the insights from
prior studies on structured transformations and convergenc...
Авторы:
Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan
Вопрос воспроизводимости оценки моделей ML осложняется тем, что эталонные метки собирают у людей, а люди расходятся во мнениях. При ограниченном бюджете чаще жертвуют числом аннотаций на пример (K) ради числа примеров (N). Авторы исследуют оптимальный компромисс (N, K) при фиксированном бюджете N×K. На 10 категориальных датасетах с множественной разметкой показано, что достаточный уровень надёжности достигается при N×K≤1000 и K>10. Чувствительные к распределению метрики (Brier, log-loss) требуют высокого K, а «жёсткие» (Accuracy, F1) — высокого N. Предложенный инструмент помогает практикам выбирать метрику и N, K для максимальной надёжности при заданном бюджете.
Annotation:
Reproducibility is a cornerstone of scientific validation and of the
authority it confers on its results. Reproducibility in machine learning
evaluations leads to greater trust, confidence, and value. However, the ground
truth responses used in machine learning often necessarily come from humans,
among whom disagreement is prevalent, and surprisingly little research has
studied the impact of effectively ignoring disagreement in these responses, as
is typically the case. One reason for the lack o...
Авторы:
Claudiu Leoveanu-Condrei
Большие языковые модели генерируют убедительный текст, но не дают формальных гарантий корректности. Авторы переносят идею Design by Contract (DbC) на LLM, внедряя контрактный слой между вызывающим кодом и моделью. Каждый вызов сопровождается контрактом, задающим типовые и семантические ограничения на вход/выход; при нарушении запускается вероятностная дообработка, возвращающая результат в допустимое множество. Контракты декларируются как условия на строго типизированные структуры данных, а валидаторы пишет сам разработчик. Доказано, что два агента, удовлетворяющие одним и тем же контрактам, функционально эквивалентны в их рамках. Работа открывает путь к доверенным LLM-агентам без переобучения моделей.
Annotation:
Generative models, particularly Large Language Models (LLMs), produce fluent
outputs yet lack verifiable guarantees. We adapt Design by Contract (DbC) and
type-theoretic principles to introduce a contract layer that mediates every LLM
call. Contracts stipulate semantic and type requirements on inputs and outputs,
coupled with probabilistic remediation to steer generation toward compliance.
The layer exposes the dual view of LLMs as semantic parsers and probabilistic
black-box components. Contrac...
Авторы:
Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang
Современные методы дообучения LLM-агентов через RL требуют либо глубокой переработки кода агента, либо громоздкого конкатенирования последовательностей с маскированием. Авторы предлагают фреймворк Agent Lightning, который полностью развязывает исполнение агента от процесса обучения. Система представляет выполнение агента как марковский процесс принятия решений и через единый интерфейс преобразует любые траектории (LangChain, OpenAI Agents SDK, AutoGen или «самописные» агенты) в обучающие переходы без изменения кода агента. Введённый RL-алгоритм LightningRL с модулем кредитного присвоения справляется со сложными сценариями: мульти-агентные взаимодействия, динамические workflow. Эксперименты на задачах text-to-SQL, RAG и использовании математических инструментов показали стабильный рост качества, подтверждая пригодность фреймворка для практического дообучения и развёртывания агентов.
Annotation:
We present Agent Lightning, a flexible and extensible framework that enables
Reinforcement Learning (RL)-based training of Large Language Models (LLMs) for
any AI agent. Unlike existing methods that tightly couple RL training with
agent or rely on sequence concatenation with masking, Agent Lightning achieves
complete decoupling between agent execution and training, allowing seamless
integration with existing agents developed via diverse ways (e.g., using
frameworks like LangChain, OpenAI Agents ...
📄 Self-Questioning Language Models
2025-08-06Авторы:
Lili Chen, Mihir Prabhudesai, Katerina Fragkiadaki, Hao Liu, Deepak Pathak
Исследование SQLM решает задачу самосовершенствования больших языковых моделей без внешних данных. Авторы предлагают асимметричный фреймворк самоигры, где «предлагающий» агент генерирует задачи по теме (умножение, алгебра, код), а «решающий» их решает. Обучение обеих сторон ведётся RL: предлагающий получает награду за «золотую середину» сложности, решающий — за согласие m-голосования или прохождение юнит-тестов. На трёх бенчмарках модель без кураторских данных улучшила точность, показывая, что генерация собственных задач и их решение позволяет LLM эффективно развивать рассуждения.
Annotation:
Can large language models improve without external data -- by generating
their own questions and answers? We hypothesize that a pre-trained language
model can improve its reasoning skills given only a single prompt specifying
the topic (e.g., algebra word problems) and asking the model to generate its
own questions. To do this, we propose Self-Questioning Language Models (SQLM):
an asymmetric self-play framework where a proposer is given the topic and
generates a question for a solver, who tries...
Показано 13931 -
13936
из 13936 записей