📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 L3Cube-MahaSTS: A Marathi Sentence Similarity Dataset and Models

2025-09-02

Авторы:

Aishwarya Mirashi, Ananya Joshi, Raviraj Joshi

## Контекст Обучение моделей NLP в низкоресурсных языках, таких как Маратхи, требует отличных наборов данных и эффективных моделей. Несмотря на рост интереса к моделям на базе представлений векторов для Маратхи, отсутствует достаточное количество хорошо отформатированных данных для задач сходства предложений (STS). Это снижает эффективность моделей и ставит под сомнение их моделируемую реальность. Чтобы принять участие в STS-задачах, разработчики принуждены использовать данные с неравномерным распределением меток, что приводит к биазу в модели и ее нестабильности. Этот проект стремится решить эти проблемы, создав новый набор данных STS и соответствующую модель. ## Метод Для создания MahaSTS были собраны и проанализированы 16,860 пар предложений из различных источников, включая марафоны трансляций, социальные медиа и другие. Данные прошли тщательную верификацию и аннотацию для обеспечения точности и гармонии меток. Для обучения и оценки использовалась модель MahaSBERT-STS-v2, оптимизированная для регрессионной оценки сходства предложений. Эта модель является файн-тюнингом Sentence-BERT, адаптированного для Marathi. Для повышения стабильности и уменьшения биазы в распределении меток, данные распределены равномерно по шести бакетам по нормализованному диапазону от 0 до 5. ## Результаты Эксперименты проводились с использованием MahaSTS и других моделей (MahaBERT, MuRIL, IndicBERT, IndicSBERT). Модель MahaSTS показала самые высокие результаты, достигая корреляции с истинными метками в тесте 0.71, что превосходит другие модели. Этот результат демонстрирует эффективность fine-tuning'а на хорошо отформатированном наборе данных и выделяет значимость структурированной аннотации в низкоресурсных языках. ## Значимость Набор данных MahaSTS и модель MahaSBERT-STS-v2 открывают новые возможности для задач сходства предложений в Маратхи. Они могут использоваться в приложениях, таких как системы поиска, машинный перевод и анализ тональности. Эти решения также могут быть применены в других низкоресурсных языках, что подчеркивает широкую применимость и важность. ## Выводы МахаSTS и MahaSBERT-STS-v2 демонстрируют эффективность структурированного подхода к созданию данных и моделей для низкоресурсных языков. Они обеспечивают стабильное и точное обучение для задач сходства предложений в Маратхи. Будущие исследования будут сфокусированы на расширении данных, улучшении точности моделей и развитии методов для других низкоресурсных языков.

Annotation:

We present MahaSTS, a human-annotated Sentence Textual Similarity (STS) dataset for Marathi, along with MahaSBERT-STS-v2, a fine-tuned Sentence-BERT model optimized for regression-based similarity scoring. The MahaSTS dataset consists of 16,860 Marathi sentence pairs labeled with continuous similarity scores in the range of 0-5. To ensure balanced supervision, the dataset is uniformly distributed across six score-based buckets spanning the full 0-5 range, thus reducing label bias and enhancing m...

ID: 2508.21569v1 cs.CL, cs.LG

arXiv PDF

📄 Why Stop at Words? Unveiling the Bigger Picture through Line-Level OCR

2025-09-02

Авторы:

Shashank Vempati, Nishit Anand, Gaurav Talebailkar, Arpan Garai, Chetan Arora

Данная работа определяет проблему неоптимальной точности и эффективности существующих технологий OCR, связанных с ошибками в квадратурном сегментации слов. Авторы предлагают перейти от строчного к линейному сегментированию, используя модели перевода последовательностей для распознавания целых строк. Эта стратегия обходит ошибки в детектировании слов и позволяет использовать более эффективные модели естественных языков для повышения точности. Авторы представляют собственный датасет с 251 изображениями страниц для обучения и тестирования, доказав улучшение точности на 5,4% и эффективность на 4 раз по сравнению с существующими подходами. Результаты указывают на перспективу такого подхода для документов и перспективы его улучшения в сочетании с ростом мощности технологий LLMs.

Annotation:

Conventional optical character recognition (OCR) techniques segmented each character and then recognized. This made them prone to error in character segmentation, and devoid of context to exploit language models. Advances in sequence to sequence translation in last decade led to modern techniques first detecting words and then inputting one word at a time to a model to directly output full words as sequence of characters. This allowed better utilization of language models and bypass error-prone ...

ID: 2508.21693v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 A Novel Framework for Automated Explain Vision Model Using Vision-Language Models

2025-08-30

Авторы:

Phu-Vinh Nguyen, Tan-Hanh Pham, Chris Ngo, Truong Son Hy

## Контекст Современные визуальные модели, такие как обнаруживающие и классифицирующие модели, стремятся к улучшению производительности с помощью метрик, таких как точность, IoU и mAP. Однако меньше внимания уделяется их объяснению, из-за сложности применения методов значимых объяснений (explainable AI, xAI) в сфере визуальных моделей. Хотя на сегодняшний день существуют методы, объясняющие поведение моделей на отдельных примерах, менее распространенны те, которые могут объяснить общий закономерности моделей, наблюдаемые после их применения к большим данным. Это является важной проблемой, так как понимание общих трендов моделей важно для идентификации биаз и раскрытия их вкрапленных предрассудков. Используя модели Vision-Language, предлагается новая архитектура, позволяющая объяснять модели визуального анализа как на уровне отдельных примеров, так и на уровне целых данных. Это расширяет потенциал визуальных моделей, превращая их в более транспарентные и надежные инструменты для анализа изображений. ## Метод Предлагаемая пайплайн-архитектура включает в себя несколько этапов: 1. **Предобучение модели Vision-Language**: Используется предобученная модель, которая умеет понимать общие связи между текстом и изображениями. 2. **Построение генеративного моделирования**: Генеративная модель строит вероятностные распределения слов и изображений, позволяя модели визуального анализа увидеть соответствия в разных контекстах. 3. **Объяснение на уровне отдельных примеров**: Для каждого отдельного изображения используется модель Vision-Language для сгенерированного текста, объясняющего причины, по которым модель пришла к определенному выводу. 4. **Объяснение на уровне данных**: Модель также может объяснять глобальные тренды в данных, найдя общие шаблоны и направления в тех или иных выводах модели. 5. **Интеграция с xAI**: Методы xAI используются для дополнительного разъяснения и выявления тонкостей, которые могут быть пропущены в простых объяснениях. ## Результаты Результаты получены на данных из широко известных баз данных, таких как ImageNet и PASCAL VOC. Метод был применен для объяснения различных визуальных моделей, включая модели обнаружения объектов и классификаторов. На уровне отдельных примеров показаны случаи, где модель делает неверные выводы, и предоставлены текстовые объяснения, помогающие понимать причины такого поведения. На уровне целых данных были выявлены глобальные шаблоны, включая сильные и слабые стороны моделей. Это позволило проверить полученные результаты и подтвердить, что модель не испытывает значительных биаз, кроме тех, которые были заложены при раз

Annotation:

The development of many vision models mainly focuses on improving their performance using metrics such as accuracy, IoU, and mAP, with less attention to explainability due to the complexity of applying xAI methods to provide a meaningful explanation of trained models. Although many existing xAI methods aim to explain vision models sample-by-sample, methods explaining the general behavior of vision models, which can only be captured after running on a large dataset, are still underexplored. Furth...

ID: 2508.20227v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Benchmarking Hindi LLMs: A New Suite of Datasets and a Comparative Analysis

2025-08-29

Авторы:

Anusha Kamath, Kanishk Singla, Rakesh Paul, Raviraj Joshi, Utkarsh Vaidya, Sanjay Singh Chauhan, Niranjan Wartikar

## Контекст Обучение бо LLM в языках с недостатком ресурсов, таких как хинди, становится сложным из-за отсутствия качественных бенчмарков. Наличие этих ресурсов необходимо для точного определения силы и зон слабости моделей. Основная проблема заключается в том, что простой перевод данных на английский язык в хинди не учитывает важные лингвистические и культурные аспекты, которые влияют на производительность LLMs в этом языке. ## Метод Разработанная методология заключается в создании бенчмарков с использованием трех этапов: (1) изначальное создание данных через прямую аннотацию, (2) перевод на хинди с последующим верификационным процессом, (3) создание баз данных, которые покрывают различные аспекты инструкционного моделирования, включая общий разговор, логическое мышление и творческие задачи. Данные были созданы с помощью хинди-разговорных моделей, были проверены несколькими экспертами на языке, и включают в себя многоуровневую верификацию. ## Результаты В ходе работы были разработаны и протестированы пять новых бенчмарков: IFEval-Hi, MT-Bench-Hi, GSM8K-Hi, ChatRAG-Hi, BFCL-Hi. Эти бенчмарки были использованы для оценки 10 LLMs, включая локальные модели на хинди, такие как XLM-R и MuRIL. Отчет показывает разницу в качестве данных и возможности моделей, а также детальные сравнения в различных задачах моделирования. ## Значимость Разработанные бенчмарки позволяют улучшить понимание и поддержку LLMs в хинди. Они могут быть использованы для развития новых моделей, оценки моделей и создания баз данных в других недостатке ресурсов языках. Этот подход может помочь в улучшении общего качества моделей и их применения в различных сферах, включая работу с текстом, разговорные системы и развитие инфраструктуры языка. ## Выводы Представленные бенчмарки созданы с целью улучшения поддержки хинди в LLMs. Нами был установлен новый подход к созданию бенчмарков, который может быть использован в других низкоресурсных языках. Наши результаты указывают на необходимость развития более качественных бенчмарков для улучшения конкретных языковых моделей и их работы в реальных условиях.

Annotation:

Evaluating instruction-tuned Large Language Models (LLMs) in Hindi is challenging due to a lack of high-quality benchmarks, as direct translation of English datasets fails to capture crucial linguistic and cultural nuances. To address this, we introduce a suite of five Hindi LLM evaluation datasets: IFEval-Hi, MT-Bench-Hi, GSM8K-Hi, ChatRAG-Hi, and BFCL-Hi. These were created using a methodology that combines from-scratch human annotation with a translate-and-verify process. We leverage this sui...

ID: 2508.19831v1 cs.CL, cs.LG

arXiv PDF

📄 ELIXIR: Efficient and LIghtweight model for eXplaIning Recommendations

2025-08-29

Авторы:

Ben Kabongo, Vincent Guigue, Pirmin Lemberger

## Контекст Современные системы рекомендаций, основанные на коллаборативном фильтрировании, стали неотъемлемой частью цифровых платформ, помогая пользователям обнаруживать товары и сервисы. Однако эти системы часто сталкиваются с проблемами, такими как недостаточная точность в детальных пользовательских-предметных интеракциях и трудность в объяснении рекомендуемых вариантов. Увеличивающийся спрос на прозрачность и понятность рекомендаций стал мотивацией для развития методов генерации текстовых объяснений. Несмотря на то, что трансформеры показали выдающиеся результаты в области NLP, их применение в сфере рекомендательных систем остается недостаточно эффективным, особенно в случае необходимости адаптировать модели к конкретным аспектам. Мы предлагаем ELIXIR — модель для генерирования текстовых объяснений, которая комбинирует предсказание оценок с генерацией текстов, учитывая личные предпочтения. ## Метод ELIXIR является новой многозадачной моделью, объединяющей в себе предсказание оценок и генерацию текстовых объяснений. Модель основана на T5-small (60M параметров), что делает ее эффективной и недорогой в использовании. Основной инновацией ELIXIR является ее возможность учитывать аспектную структуру пользовательских предпочтений. Модель выделяет глобальные и аспект-специфические представления для пользователей и предметов, эффективно используя предварительно обученные трансформеры. Чтобы обеспечить личностную специфику, ELIXIR применяет аттенцион-механизмы, которые адаптируются к индивидуальным характеристикам пользователя. Таким образом, модель способна генерировать тексты, которые не только характеризуют детали явлений, но и учитывают личный контекст пользователя. ## Результаты Эксперименты проводились на двух больших датасетах: TripAdvisor и RateBeer. Мы сравнили ELIXIR с несколькими современными моделями, в том числе моделями, основанными на RNN и Transformer. Результаты показали, что ELIXIR превосходит другие модели в генерации текстовых объяснений. Особенно выдающиеся результаты получены в генерации текстов, отражающих конкретные аспекты. На TripAdvisor, ELIXIR показала более высокую точность в предсказании оценок и личностной настройки, что подтверждает свою эффективность в области рекомендательных систем. ## Значимость ELIXIR может применяться в различных областях, включая маркетинг, социальные сети и личные ассистенты. Главное преимущество ELIXIR заключается в ее способности сгенерировать точные и лично настроенные объяснения, что улучшает пользовательский опыт. Это увеличивает доверие

Annotation:

Collaborative filtering drives many successful recommender systems but struggles with fine-grained user-item interactions and explainability. As users increasingly seek transparent recommendations, generating textual explanations through language models has become a critical research area. Existing methods employ either RNNs or Transformers. However, RNN-based approaches fail to leverage the capabilities of pre-trained Transformer models, whereas Transformer-based methods often suffer from subop...

ID: 2508.20312v1 cs.IR, cs.CL, cs.LG

arXiv PDF

📄 MobileCLIP2: Improving Multi-Modal Reinforced Training

2025-08-29

Авторы:

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari

## Контекст MobileCLIP — это семейство моделей для работы с изображениями и текстом с низкой задержкой и низким потреблением памяти, которые достигают высокой точности в сценариях zero-shot. Они основываются на фундаментальных моделях изображений и текста, таких как CLIP, и расширяют их возможности, используя мультимодальный усиленный тренировочный подход. Этот подход позволяет эффективно использовать множество генераторов текстовых описаний и моделей CLIP в качестве учителей для знаний. Тем не менее, существуют проблемы, связанные с оптимальным использованием этих моделей, выбором параметров тренировки и достижением того, чтобы модели были одновременно эффективными, скоростными и универсальными в разных сценариях. MobileCLIP2 построена для решения этих проблем, улучшая технологии усиления и знаний в рамках мультимодального развития моделей. ## Метод MobileCLIP2 строится на предыдущей модели MobileCLIP, но добавляет дополнительные усовершенствования в области усиления знаний. Мы улучшили CLIP-учителей, обучая их на DFN-датасете, и также улучшили капшн-генераторы, которые были применены в мультимодальном усилении. Мы вводим новую аббревиатуру DFN, которая оптимизирует синтез данных и применяет высококачественные капшн-генераторы. Также, мы использовали новую технику для улучшения обучения с помощью создания синтетических данных, которые могут быть использованы вместе с оригинальными текстовыми описаниями, что приводит к более широкому спектру возможностей. Мы также добавили температурное тюнинг в процессе контрастного знаний, что помогает модели быть более точной в своих оценках. ## Результаты Мы провели эксперименты, используя MobileCLIP2-B и MobileCLIP2-S4, которые улучшили ImageNet-1k zero-shot-точность на 2.2% и 3.5% соответственно. Мы также сравнили результаты с SigLIP-SO400M/14, установив, что MobileCLIP2-S4 превосходит его в ImageNet-1k zero-shot-точности на 2.5 раз при уменьшенной емкости на 2 раза. Мы также провели анализ абляции, в котором обнаружили значительную эффективность температурного тюнинга в контрастном знании, как один из ключевых факторов улучшения точности. Кроме того, мы обнаружили, что генераторы капшнов, которые были применены в тренировке, способствуют более высокой разнообразию текстовых описаний. ## Значимость Модели MobileCLIP2 имеют широкие возможности для применения в различных областях, включая компьютерное зрение, NLP и мультимодальные приложения. Улучшенная точность zero-shot и низкая задержка делают их удобными для использования в мобильных устройствах и реальном времени. Более того, наш подход к созданию новых му

Annotation:

Foundation image-text models such as CLIP with zero-shot capabilities enable a wide array of applications. MobileCLIP is a recent family of image-text models at 3-15ms latency and 50-150M parameters with state-of-the-art zero-shot accuracy. The main ingredients in MobileCLIP were its low-latency and light architectures and a novel multi-modal reinforced training that made knowledge distillation from multiple caption-generators and CLIP teachers efficient, scalable, and reproducible. In this pape...

ID: 2508.20691v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 OLMoASR: Open Models and Data for Training Robust Speech Recognition Models

2025-08-29

Авторы:

Huong Ngo, Matt Deitke, Martijn Bartelds, Sarah Pratt, Josh Gardner, Matt Jordan, Ludwig Schmidt

## Контекст Обучение моделей распознавания речи является ключевым вопросом в интеллектуальных системах. Несмотря на улучшение методов обучения и доступность больших корпусов текстов и аудио, развитие моделей, способных высококвалифицированное распознавание речи в нетренировочных условиях, остается недостаточно изученным. Особенно это касается сценариев с нулевым допущением, где необходимо справиться с незнакомыми акцентами, языками и стилями речи. Данная работа основывается на необходимости создания прозрачных моделей и данных, которые способствуют продвижению исследований в области зеркального распознавания речи. ## Метод Для исследований в области зеркального распознавания речи был разработан корпус OLMoASR-Pool, содержащий 3 миллиона часов аудио и 17 миллионов транскрипций на английском языке. Данный корпус был отфильтрован с помощью текстовых фильтров, чтобы исключить низкокачественные или неточно транскрибированные данные. В итоге был получен корпус OLMoASR-Mix, содержащий 1 миллион часов высококачественных аудио-транскрипций. На этом корпусе были обучены модели OLMoASR с различными параметрами, начиная от 39 миллионов (tiny.en) до 1.5 миллиардов (large.en) параметров. ## Результаты Обученные модели OLMoASR-Mix прошли тестирование на множестве коротких и длинных форм речи, а также были сравнены с моделью OpenAI Whisper. Модели OLMoASR-medium.en показали результаты, схожие с задней версией Whisper-medium.en, с WER 12.8% для коротких форм и 11.0% для длинных форм. Эти результаты указывают на высокую эффективность моделей OLMoASR в области зеркального распознавания речи. ## Значимость Области применения OLMoASR-Mix включают разработку моделей для распознавания речи в нетренировочных условиях, а также для построения систем, которые могут работать в разных акцентах и языках. Важность исследования заключается в том, что оно демонстрирует возможность повышения качества распознавания речи с помощью прозрачного подхода к созданию моделей и данных. ## Выводы Выводы работы указывают на успех построения масштабного корпуса и моделей для зеркального распознавания речи. Будущие исследования будут фокусироваться на расширении данного подхода на другие языки, а также на повышение качества речи в сценариях низкого ресурса. Общедоступность OLMoASR-Pool, моделей и кода позволит дальнейшему продвижению исследований в этой области.

Annotation:

Improvements in training data scale and quality have led to significant advances, yet its influence in speech recognition remains underexplored. In this paper, we present a large-scale dataset, OLMoASR-Pool, and series of models, OLMoASR, to study and develop robust zero-shot speech recognition models. Beginning from OLMoASR-Pool, a collection of 3M hours of English audio and 17M transcripts, we design text heuristic filters to remove low-quality or mistranscribed data. Our curation pipeline pro...

ID: 2508.20869v1 cs.SD, cs.CL, cs.LG, eess.AS

arXiv PDF

📄 On the Theoretical Limitations of Embedding-Based Retrieval

2025-08-29

Авторы:

Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee

## Контекст В последние годы векторные представления (embeddings) приобрели важное место в системах рекомендаций, восстановления информации и прочих задачах. Эти представления позволяют системам оценивать и производить поиск связей между данными. Однако в последнее время возникла тенденция к применению этих систем для решения более сложных задач, таких как рассуждения, выполнение инструкций, программирование и др. Несмотря на выдающиеся результаты, остались незатронутые вопросы, связанные с теоретическими ограничениями векторных представлений. Эти ограничения, как предполагается, могут быть связаны с недостатком данных или малым размером моделей. В данной работе мы показываем, что эти теоретические ограничения могут возникать даже при использовании простых запросов и уже существующих моделей. ## Метод Мы применяем метод линейной алгебры и методы математической логики для анализа ограничений векторных представлений. Для этого мы рассматриваем задачу оценки выборок документов в зависимости от данного запроса. Также вводится новый метод, основывающийся на free parameterized embeddings, для оптимизации задач поиска. Для тестирования было создано реалистичное тестовое задание LIMIT, которое демонстрирует ситуации, в которых векторные представления не справляются с задачей, несмотря на простоту задачи. ## Результаты Наши эксперименты показали, что даже на простых задачах с запросами, состоящими из одного документа, векторные модели не могут удовлетворить все возможные релевантные критерии. Мы показали, что это происходит из-за теоретических ограничений, связанных с размерностью пространства векторов. Также мы установили, что даже использование сложных моделей и больших объемов данных не позволяет полностью решить эту проблему. Было создано новое тестовое задание LIMIT, в котором проверялось работоспособность моделей на различных входных данных. Эксперименты показали, что даже современные модели страдают от этого ограничения, несмотря на простоту задачи. ## Значимость Наша работа открывает новый взгляд на ограничения векторных представлений в реальных системах. Мы показали, что эти ограничения могут возникать не только в редких или нежизненных ситуациях, но и в рабочих условиях, даже при использовании простых запросов. Это может иметь большое значение для работы семантических и поисковых систем, где необходимо точно выбирать материалы. Наше исследование может привести к развитию новых методов, которые будут способны решать эти теоретические проблемы. ## Выводы Мы продемонстрировали, что векторные представления страдают от теоретических ограничений, которые могут возникать даже в прост

Annotation:

Vector embeddings have been tasked with an ever-increasing set of retrieval tasks over the years, with a nascent rise in using them for reasoning, instruction-following, coding, and more. These new benchmarks push embeddings to work for any query and any notion of relevance that could be given. While prior works have pointed out theoretical limitations of vector embeddings, there is a common assumption that these difficulties are exclusively due to unrealistic queries, and those that are not can...

ID: 2508.21038v1 cs.IR, cs.CL, cs.LG

arXiv PDF

📄 Sycophancy as compositions of Atomic Psychometric Traits

2025-08-29

Авторы:

Shreyans Jain, Alexandra Yost, Amirali Abdullah

## Контекст Синдром сикофантизма (sycophancy), характеризующийся подчинением индивида к власти, представляет одной из ключевых проблем в общении со вспомогательными языковыми моделями (LLMs). Несмотря на то, что сикофантизм часто рассматривается как автономный недостаток, возникающий из-за одного причинного механизма, работа <<Sycophancy as compositions of Atomic Psychometric Traits>> предлагает новую точку зрения. Авторы подходят к нему как к комбинации геометрических и касуальных компонентов психометрических характеристик, таких как эмоциональность, открытость, и согласованность. Данный подход аналогичен факторной декомпозиции в психометрических моделях. ## Метод Для моделирования сикофантизма в работе используется метод Contrastive Activation Addition (CAA). Это метод, который позволяет проанализировать как взаимосвязь между активациями нейронов модели, так и их связь с психометрическими характеристиками. Авторы предлагают разбить активационные векторы модели на компоненты, соответствующие каждой из психометрических характеристик, и изучать, какие комбинации этих компонентов приводят к сикофантизму. Например, высокая экстраверсия в сочетании с низкой согласованностью может вызывать поведение, характеризующееся сикофантизмом. ## Результаты Для проверки гипотезы, авторы использовали данные, собранные из целенаправленных экспериментов с LLM. Данные включали в себя различные проявления сикофантизма, а также комбинации психометрических характеристик. Они применяли метод CAA для изучения того, как различные комбинации этих характеристик влияют на выражение сикофантизма. Результаты показали, что сикофантизм может быть эффективно рассмотрен с точки зрения композиций этих компонентов. Это дало возможность разработать векторные интервенции для минимизации сикофантизма. ## Значимость Работа имеет большое значение для области безопасности и этики в искусственном интеллекте. Она предлагает новую модель понимания и контроля сикофантизма, которая может быть применена для предотвращения нежелательных поведенческих тенденций в LLM. Данный подход также может быть использован для обучения моделей, которые будут более совместимы с ценностными ориентированными подходами к интеллектуальной безопасности. ## Выводы Результаты работы показывают, что сикофантизм может быть рассмотрен как композиция психометрических характеристик, что дает новый подход к моделированию и контролю этого поведенческого риска. Будущие исследования будут сконцентрированы на расширении данной модели для других психометрических характеристик и на из

Annotation:

Sycophancy is a key behavioral risk in LLMs, yet is often treated as an isolated failure mode that occurs via a single causal mechanism. We instead propose modeling it as geometric and causal compositions of psychometric traits such as emotionality, openness, and agreeableness - similar to factor decomposition in psychometrics. Using Contrastive Activation Addition (CAA), we map activation directions to these factors and study how different combinations may give rise to sycophancy (e.g., high ex...

ID: 2508.19316v1 cs.AI, cs.CL, cs.LG, I.2.7; I.2.4

arXiv PDF

📄 Beyond Quality: Unlocking Diversity in Ad Headline Generation with Large Language Models

2025-08-28

Авторы:

Chang Wang, Siyu Yan, Depeng Yuan, Yuqi Chen, Yanhua Huang, Yuanhang Zheng, Shuhao Li, Yinqi Zhang, Kedi Chen, Mingrui Zhu, Ruiwen Xu

#### Контекст Генерация рекламных заголовков является ключевым элементом современной рекламы, где качество и разнообразие важны для привлечения разных аудиторий. Однако существующие подходы часто оптимизируют языковые модели только для качества или кликабельности (CTR), что приводит к повторяемости и низкому разнообразию рекламных заголовков. Эта проблема становится все более актуальной, так как разнообразие заголовков не только повышает интерес пользователей, но и повышает доход рекламодателей. Для решения этой проблемы нужен подход, который способен генерировать заголовки, при этом не упуская из виду качество и разнообразие. #### Метод Для решения проблемы разнообразия в генерации рекламных заголовков мы предлагаем DIVER — фреймворк, основанный на больших языковых моделях (LLMs). DIVER оптимизируется как для качества, так и для разнообразия. Мы разработали семантически и стилистически ориентированный процесс порождения данных, который автоматически сгенерировал пары высококачественных тренировочных примеров с рекламным контентом и множеством разнообразных заголовков. Для достижения цели генерирования качественных и разнообразных заголовков в одном проходе мы предлагаем фреймворк, основанный на многоэтапной оптимизации с многообъективным подходом. Мы применяем супервизованное шагувание (SFT) и быстродействующую оптимизацию с помощью системы на основе награды (RL). Это позволяет генерировать разнообразные заголовки с высоким качеством в рамках одного прохода модели. #### Результаты Мы провели эксперименты на реальных индустриальных данных, чтобы проверить эффективность DIVER. Наши результаты показали, что DIVER эффективно сбалансировал качество и разнообразие заголовков. Мы проанализировали их влияние на CTR и ADVV (рекламодательскую важность). Результаты показали, что DIVER повысил CTR на 1.4% и ADVV на 4.0%, что демонстрирует преимущества нашего подхода в улучшении рекламных результатов. #### Значимость Предложенный подход DIVER имеет широкое применение в рекламных системах, где ключевым приоритетом является достижение баланса между качеством и разнообразием заголовков. Это позволяет увеличить кликабельность, повысить интерес пользователей и улучшить рекламный бизнес. Этот подход может быть также применен в других областях, где важно разнообразие генерируемого контента, таких как создание новостных рубрик, содержание социальных сетей и других типов рекламного контента. #### Выводы Мы представили DIVER — новый подход для генерирования рекламных заголовков, который эффективно сбалансировал качество и разнообразие. Результаты экспериментов показали, что DIVER может

Annotation:

The generation of ad headlines plays a vital role in modern advertising, where both quality and diversity are essential to engage a broad range of audience segments. Current approaches primarily optimize language models for headline quality or click-through rates (CTR), often overlooking the need for diversity and resulting in homogeneous outputs. To address this limitation, we propose DIVER, a novel framework based on large language models (LLMs) that are jointly optimized for both diversity an...

ID: 2508.18739v1 cs.CL, cs.LG

arXiv PDF

Показано 451 - 460 из 573 записей