📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Motaz Saad, David Langlois, Kamel Smaili

**Резюме** В статье предлагается метод создания и выравнивания сходных корпусов (comparable corpora) для многоязычных задач NLP, когда параллельные тексты отсутствуют. Авторы собрали сходные документы из Википедии и EURONEWS в английском, французском и арабском языках, а затем использовали кросс-языковые меры сходства для их выравнивания. Особое внимание уделено двум подходам: основанному на билингвальном словаре и Latent Semantic Indexing (LSI). Исследования показали, что LSI-мера демонстрирует лучший результат в сравнении с билингвальным словарем. Кроме того, авторы собрали и анализировали документы из BBC и Al Jazeera, использовав CL-LSI для автоматического выравнивания документов по темам и событиям. Эксперименты подтвердили, что CL-LSI эффективно выравнивает документы как на тематическом, так и на событийном уровне. Эти результаты показывают, что CL-LSI является эффективным инструментом для сбора и выравнивания сходных корпусов, даже при ограниченном доступе к параллельным текстам.
Annotation:
Comparable corpus is a set of topic aligned documents in multiple languages, which are not necessarily translations of each other. These documents are useful for multilingual natural language processing when there is no parallel text available in some domains or languages. In addition, comparable documents are informative because they can tell what is being said about a topic in different languages. In this paper, we present a method to build comparable corpora from Wikipedia encyclopedia and EU...
ID: 2508.02555v1 cs.CL, I.2.7
Авторы:

Motaz Saad, David Langlois, Kamel Smaili

В статье рассматривается проблема анализа тональности и эмоций в сходных документах на разных языках. Рассматриваются сходные документы, аллинентированные по тематике в разных языках (английский и арабский), которые не являются прямыми переводами. Основной целью является изучение различий в тональности и эмоциях (счастье, гнев, страх, расстройство, жалость и удивление) между английскими и арабскими документами. Для решения этой задачи предлагается метод кросс-лингвистического классификации, не зависящего от машинного перевода. Был разработан билингвальный словарь эмоций на основе WordNet-Affect (WNA) для английского и арабского языков. Эмоции и тональность были отмечены с помощью статистического подхода, сравнивая пары сходных документов из разных источников (Euronews, BBC и Al-Jazeera). Исследование показало, что тональность и эмоции согласовываются, когда документы из одного источника, но различаются, когда они из разных. Таким образом, предложенный подход является языковой-независимым и подходит для других языковых пар.
Annotation:
Comparable texts are topic-aligned documents in multiple languages that are not direct translations. They are valuable for understanding how a topic is discussed across languages. This research studies differences in sentiments and emotions across English-Arabic comparable documents. First, texts are annotated with sentiment and emotion labels. We apply a cross-lingual method to label documents with opinion classes (subjective/objective), avoiding reliance on machine translation. To annotate wit...
ID: 2508.03112v1 cs.CL, I.2.7
Авторы:

Mason Nakamura, Saaduddin Mahmud, Kyle H. Wray, Hamed Zamani, Shlomo Zilberstein

## КОНТЕКСТ И ПРОБЛЕМАТИКА Актуальность выравнивания больших языковых моделей (LLM) с человеческими предпочтениями выросла стремительно после появления ChatGPT, Claude и других систем общего назначения. Без финего выравнивания даже самые мощные модели продолжают порождать вредоносный, токсичный или просто неполезный контент, что делает их непригодными для коммерческого и корпоративного использования. Традиционные подходы к выравниванию опираются на дорогостоящий процесс RLHF (Reinforcement Learning from Human Feedback), включающий подготовку тысяч человеческих примеров, обучение отдельной reward-модели и дальнейший финетюнинг целевой LLM. Этот процесс может занимать недели и требовать десятков тысяч долларов GPU-времени, что делает его недоступным для большинства исследователей и малых компаний. Альтернативой является выравнивание во время инференса (inference-time alignment), при котором модель не переобучается, а лишь переупорядочивает или фильтрует уже сгенерированные кандидаты с помощью reward-модели. Однако существующие методы (best-of-N sampling, beam search, MCTS и др.) либо не учитывают стоимость инференса, либо требуют доступа к градиентам модели, либо не способны балансировать между множественными целями (например, «ответь кратко, но будь полезен»). Критическая проблема — отсутствие практичного решения для сценариев, где разрешено сделать всего 1-3 вызова модели. В таких условиях даже обычный best-of-N терпит неудачу: он просто выбирает лучший из N кандидатов, не имея возможности «подсказать» модели, как улучшить ответ. Накопленный практический опыт показывает, что пользователи готовы жертвовать частью качества ради скорости и дешевизны, но ни одна из текущих систем не позволяет явно задать бюджет инференса и получить максимально возможное качество в рамках этого бюджета. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают HIA (Heuristic-Guided Inference-time Alignment) — метод, который не требует дообучения LLM, работает в «черном ящике» (достаточно лишь API модели) и позволяет строго ограничить число обращений к модели. HIA состоит из трёх ключевых компонентов. Во-первых, легковесный prompt-optimizer на основе «heuristic reward model» (HRM) — маленькой (≈ 770 M параметров) обученной модели, которая по тексту промпта и кандидат-ответа выдаёт скалярную оценку качества. HRM обучается на публичных датасетах с человеческими предпочтениями и потому не требует дорогостоящей разметки. В отличие от крупных reward-моделей в RLHF, HRM работает за доли секунды и может быть запущена локально на CPU. Вторая часть — двухэтапная фильтрация. На первом этапе («exploration») из исходного prompt генерируется k кандидат-ответов (обычно k ≤ 4). HRM оценивает каждый кандидат и выбирает лучший. Однако вместо того чтобы сразу отдавать его пользователю, HIA переходит ко второму этапу («refinement»). Лучший кандидат вместе с кратким «heuristic feedback» (например, «слишком длинный, добавь пример») подаётся обратно в LLM с просьбой улучшить. В результате получается окончательный ответ. Весь процесс расходует ровно k+1 вызовов модели, что позволяет заранее задать бюджет. Третье новшество — многокритериальная оптимизация. HRM может быть обучен одновременно по нескольким осям (helpfulness, conciseness, harmlessness). Во время инференса пользователь задаёт желаемый вектор приоритетов (например, «безопасность важнее краткости»), и HRM автоматически пересчитывает скалярную награду как взвешенную сумму. Это позволяет персонализировать поведение модели без переобучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки качества использовались два публичных набора реальных промптов: HelpSteer (19 200 примеров с 4-уровневой шкалой полезности) и ComPRed (6 000 промптов с критериями полезности, правдивости, краткости и безопасности). В экспериментах сравнивались четыре метода: (1) жадный генерация (Greedy), (2) best-of-N, (3) beam search с шириной N, (4) предложенный HIA при одинаковом общем бюджете вызовов k+1. В качестве backbone-мод
Annotation:
Aligning LLMs with user preferences is crucial for real-world use but often requires costly fine-tuning or expensive inference, forcing trade-offs between alignment quality and computational cost. Existing inference-time methods typically ignore this balance, focusing solely on the optimized policy's performance. We propose HIA (Heuristic-Guided Inference-time Alignment), a tuning-free, black-box-compatible approach that uses a lightweight prompt optimizer, heuristic reward models, and two-stage...
ID: 2508.05165v1 cs.LG, cs.AI, cs.CL, I.2.7; I.2.6; I.2.8
Показано 61 - 63 из 63 записей