📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 fact check AI at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-checked Claim Retrieval
2025-08-06Авторы:
Pranshu Rastogi
**Резюме**
В статье представлен подход к задаче SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval, решаемой как задача Learning-to-Rank. Используется би-энкодер, основанный на предобученном трансформере, оптимизированном для задач поиска похожих предложений. Для обучения в многоязычном режиме использовались исходные языки и их английские переводы, а в кросс-лингвистическом режиме — только английские переводы. Благодаря использованию легковесных моделей с параметрами менее 500 млн и обучения на Kaggle T4 GPUs, метод достиг показателей 92% Success@10 в многоязычной задаче и 80% Success@10 в кросс-лингвистической, заняв 5-е и 10-е места соответственно. Результаты демонстрируют эффективность предложенного подхода в решении задач многоязычного и кросс-лингвистического извлечения фактов.
Annotation:
SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim
Retrieval is approached as a Learning-to-Rank task using a bi-encoder model
fine-tuned from a pre-trained transformer optimized for sentence similarity.
Training used both the source languages and their English translations for
multilingual retrieval and only English translations for cross-lingual
retrieval. Using lightweight models with fewer than 500M parameters and
training on Kaggle T4 GPUs, the method achieved 92% Success...
Авторы:
Hyungjin Kim, Seokho Ahn, Young-Duk Seo
**Резюме**
Персонализированная генерация в моделях типа Text-to-Image (T2I) с диффузионными моделями направлена на то, чтобы учесть предпочтения конкретных пользователей в процессе генерации, при этом свести к минимуму необходимость их участия. Тем не менее, современные подходы зачастую основываются на моделировании на уровне текстовых запросов (prompt-level) с помощью крупномасштабных моделей, что ограничивает эффективность персонализации из-за ограниченной емкости входных токенов в моделях T2I.
Чтобы решить эту проблему, была разработка метода DrUM, который интегрирует пользовательский профиль с помощью адаптера на базе трансформера для моделирования на уровне условий (condition-level) в латентном пространстве. Этот подход обеспечивает высокую эффективность на крупных датасетах и легко интегрируется с открытыми текстовыми декодерами, совместимыми с популярными фундаментальными моделями T2I, не требуя дополнительной файн-тюнинга.
Annotation:
Personalized generation in T2I diffusion models aims to naturally incorporate
individual user preferences into the generation process with minimal user
intervention. However, existing studies primarily rely on prompt-level modeling
with large-scale models, often leading to inaccurate personalization due to the
limited input token capacity of T2I diffusion models. To address these
limitations, we propose DrUM, a novel method that integrates user profiling
with a transformer-based adapter to enabl...
📄 CF-RAG: A Dataset and Method for Carbon Footprint QA Using Retrieval-Augmented Generation
2025-08-06Авторы:
Kaiwen Zhao, Bharathan Balaji, Stephen Lee
Авторы исследуют задачу ответов на вопросы о углеродном следе товаров по неструктурированным отчётам PDF. Предложен открытый набор CarbonPDF-QA: 1735 документов, 1000+ вопросов с разметкой. Показано, что GPT-4o плохо справляется с нестандартными таблицами и текстом. Решение — CarbonPDF: дообученная Llama-3 8B с RAG-модулем, учитывающим структуру таблиц и контекст. Эксперименты: +15 % точности по сравнению с SOTA (TableLlama, GPT-4o). Метод открыт и применим для автоматизированной оценки устойчивости продукции.
Annotation:
Product sustainability reports provide valuable insights into the
environmental impacts of a product and are often distributed in PDF format.
These reports often include a combination of tables and text, which complicates
their analysis. The lack of standardization and the variability in reporting
formats further exacerbate the difficulty of extracting and interpreting
relevant information from large volumes of documents. In this paper, we tackle
the challenge of answering questions related to c...
📄 MoKA: Mixture of Kronecker Adapters
2025-08-06Авторы:
Mohammadreza Sadeghi, Mahsa Ghazvini Nejad, MirHamed Jafarzadeh Asl, Yu Gu, Yuanhao Yu, Masoud Asgharian, Vahid Partovi Nia
Методы параметрически-эффективной дообучения (PEFT) снижают затраты адаптации LLM, но низкоранговые адаптеры теряют точность из-за ограниченной выразительности. Авторы предлагают Mixture of Kronecker Adapters (MoKA) — новый тип Kronecker-адаптера, где обновления весов представлены как смесь продуктов Кронекера с вентильным механизмом, оценивающим значение каждого сомножителя. Переформулировав вычисления Кронекера через стандартные матричные операции, авторы добились аппаратной эффективности на GPU. Эксперименты на дообучении инструкций и здравомысленном рассуждении при помощи квантованных LLaMA2-7B и LLaMA3-8B показали, что MoKA превосходит все PEFT-базовые методы, уменьшая число обучаемых параметров до 27× и обеспечивая новое SOTA соотношение точность/эффективность.
Annotation:
Parameter-efficient fine-tuning (PEFT) is essential for reducing the
computational overhead of large language models (LLMs). Low-rank family
adapters are commonly used to control the parameter size efficiently while
maintaining the generative power of LLMs. However, their limited expressiveness
due to the rank constraint often restricts their performance on complex tasks.
We propose Mixture of Kronecker Adapters (MoKA), a new generation of Kronecker
adapters that addresses this limitation by mod...
Авторы:
Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan
Вопрос воспроизводимости оценки моделей ML осложняется тем, что эталонные метки собирают у людей, а люди расходятся во мнениях. При ограниченном бюджете чаще жертвуют числом аннотаций на пример (K) ради числа примеров (N). Авторы исследуют оптимальный компромисс (N, K) при фиксированном бюджете N×K. На 10 категориальных датасетах с множественной разметкой показано, что достаточный уровень надёжности достигается при N×K≤1000 и K>10. Чувствительные к распределению метрики (Brier, log-loss) требуют высокого K, а «жёсткие» (Accuracy, F1) — высокого N. Предложенный инструмент помогает практикам выбирать метрику и N, K для максимальной надёжности при заданном бюджете.
Annotation:
Reproducibility is a cornerstone of scientific validation and of the
authority it confers on its results. Reproducibility in machine learning
evaluations leads to greater trust, confidence, and value. However, the ground
truth responses used in machine learning often necessarily come from humans,
among whom disagreement is prevalent, and surprisingly little research has
studied the impact of effectively ignoring disagreement in these responses, as
is typically the case. One reason for the lack o...
Авторы:
Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
Современные фреймворки оценки LLM полагаются на hand-crafted регулярные выражения или тяжёлые генеративные LLM, что ведёт к хрупкости и высоким расходам. Проблема усугубляется отсутствием систематического бенчмарка для верификаторов. Авторы представляют CompassVerifier — компактную (≤7B) специализированную модель-верификатор, обученную на новом бенчмарке VerifierBench, охватывающем математику, знания и логические задачи. Верификатор устойчив к edge-case ответам (мульти-подзадачи, формулы, бессмысленные вывода) и обобщается на разные домены без настройки. Эксперименты показывают, что CompassVerifier превосходит как rule-based, так и LLM-основанные подходы по точности и вычислительной эффективности, обеспечивая надёжную метрику для оценки и reward-модель для RL.
Annotation:
Answer verification is crucial not only for evaluating large language models
(LLMs) by matching their unstructured outputs against standard answers, but
also serves as the reward model to guide LLM optimization. Most evaluation
frameworks rely on regularized matching or employ general LLMs for answer
verification, which demands extensive, repetitive customization for regex rules
or evaluation prompts. Two fundamental limitations persist in current
methodologies: 1) the absence of comprehensive b...
Показано 7501 -
7506
из 7506 записей