📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Cropping outperforms dropout as an augmentation strategy for training self-supervised text embeddings

2025-08-09

Авторы:

Rita González-Márquez, Philipp Berens, Dmitry Kobak

Текстовые представления (embeddings) целых текстов широко используются в таких областях, как визуализация данных, кластеризация, анализ тональности и вспомогательная генерация текста. Несмотря на их важность, достижение высокого качества этих представлений часто требует трудоемкого и дорогостоящего супервизованного тренирования. В статье «Cropping outperforms dropout as an augmentation strategy for training self-supervised text embeddings» авторы исследуют альтернативный подход, основанный на самостоятельном (self-supervised) обучении, использующем методы аугментации текстов. Они сравнивают две популярные стратегии: посредством подрезания (cropping) и dropout. Результаты показывают, что cropping выдает значительно лучшие результаты в обучении на основе отрицательных пар (contrastive learning). Хотя внедоменные тесты показывают, что self-supervised модели еще не достигают качества супервизованных моделей, в доменных задачах они демонстрируют высокую качественность уже после короткого тренировочного процесса. Особый интерес представляет тот факт, что глубина представлений возрастает в последних слоях модели, где происходит самая сильная перестройка, и что только эти слои требуются для достижения нужного качества.

Annotation:

Text embeddings, i.e. vector representations of entire texts, play an important role in many NLP applications, such as retrieval-augmented generation, sentiment analysis, clustering, or visualizing collections of texts for data exploration. Currently, top-performing embedding models are derived from pre-trained language models via extensive supervised fine-tuning using curated text pairs. This contrasts with computer vision, where self-supervised training based on data augmentations has demonstr...

ID: 2508.03453v1 cs.CL, cs.LG

arXiv PDF

📄 Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

2025-08-09

Авторы:

Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel

**Резюме** Проблема. Многие изученные приложения Reinforcement Learning (RL) к Large Language Models (LLMs) ограничиваются простыми задачами, такими как математическое обучение или однократное генерирование кода. Эти задачи, хотя и имитируют многократный диалог, являются неэффективными, так как окружение не оказывает влиятельного в suggestions. Это ударно ставит их вразрез с реальными задачами, например, сложной работой в области программного обеспечения, требующей многоэтапного взаимодействия в статической среде, которая отвечает на каждое действие агента с значительными откликами. Решение. Мы применяем модифицированный Decoupled Advantage Policy Optimization (DAPO) алгоритм для обучения агента, основанного на Qwen2.5-72B-Instruct, для решения реальных задач программного обеспечения. Этот подход увеличивает успешность агента на SWE-bench Verified от 20% до 39%, а на SWE-rebench, агент показывает результаты, которые матчируют или превосходят соревнующиеся опен-вестовые модели, такие как DeepSeek-V3-0324 и Qwen3-235B-A22B, при использовании одного скелета. Выводы. Наш подход демонстрирует успешное применение RL к задачам многократного диалога в статических, сильно зависимых от состояния средах, таких как программное обеспечение. Это открывает путь к развитию более сильных автономных агентов для решения сложных задач с помощью открытых моделей.

Annotation:

Research on applications of Reinforcement Learning (RL) to Large Language Models (LLMs) has mostly been focused on single-turn problems, such as mathematical reasoning or single-shot code generation. While these problems can be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate case of multi-turn interaction where the environment provides no feedback. This contrasts with many real-world domains, such as software engineering (SWE), which require rich multi-turn interacti...

ID: 2508.03501v1 cs.LG, cs.CL, cs.SE

arXiv PDF

📄 UPLME: Uncertainty-Aware Probabilistic Language Modelling for Robust Empathy Regression

2025-08-09

Авторы:

Md Rakibul Hasan, Md Zakir Hossain, Aneesh Krishna, Shafin Rahman, Tom Gedeon

**Резюме** В статье предлагается UPLME — модель нейронной сети, ориентированная на решение проблемы регрессии эмпатии в условиях шумных самооценочных оценок. Шумные данные становится сложнее обрабатывать в задачах регрессии по сравнению с задачами классификации. Разработанная модель UPLME решает эту проблему с помощью семантического моделирования с учетом неопределенности, используя пробаболистическую модель языка, которая предсказывает не только эмпатию, но и уровень неопределенности в этом предсказании. Для обучения вводятся два новых компонента потерь: один подавляет дегенерацию уточнения неопределенности, а другой важает схожесть между входными парами, для которых предсказывается эмпатия. Модель показывает лучшие результаты по двум открытым бенчмаркам с шумом в метках: улучшает показатели Pearson Correlation Coefficient (PCC) на $0.022$ и $0.005$, а также снижает ошибку калибровки на $0.2$ в сравнении со стандартными методами регрессии с учетом неопределенности. Это демонстрирует эффективность UPLME в обработке шумных данных и в точном выявлении шумовых и чистых примеров.

Annotation:

Supervised learning for empathy regression is challenged by noisy self-reported empathy scores. While many algorithms have been proposed for learning with noisy labels in textual classification problems, the regression counterpart is relatively under-explored. We propose UPLME, an uncertainty-aware probabilistic language modelling framework to capture label noise in the regression setting of empathy detection. UPLME includes a probabilistic language model that predicts both empathy score and het...

ID: 2508.03520v1 cs.CL, cs.LG

arXiv PDF

📄 FilBench: Can LLMs Understand and Generate Filipino?

2025-08-09

Авторы:

Lester James V. Miranda, Elyanah Aco, Conner Manuel, Jan Christian Blaise Cruz, Joseph Marvin Imperial

Научная статья FilBench: Can LLMs Understand and Generate Filipino? предлагает FilBench — первую полностью филиппинскоспецифическую б BENCHMARK для оценки моделей языковых моделей (LLMs) на языках филиппинского ареала: Филиппинский (Тагалог) и Чебуано. Бенчмарк включает задачи, отражающие приоритеты НЛП в Филиппинах, такие как классические задачи НЛП, чтение понимания и поколение текста. Авторы оценили 27 моделей, обнаружив, что значительная часть них страдает от проблем с чтением и переводом. Лучшая модель, GPT-4o, показала результат 72,23%, а модели, обученные на языках Юго-Восточной Азии, стали подвержены еще сильнее проблемам с Филиппинским языком. Результаты показывают, что Филиппинский язык все еще представляет сложные задачи для LLMs, и FilBench может стать важной инструментой для дальнейшего развития НЛП на Филиппинских языках.

Annotation:

Despite the impressive performance of LLMs on English-based tasks, little is known about their capabilities in specific languages such as Filipino. In this work, we address this gap by introducing FilBench, a Filipino-centric benchmark designed to evaluate LLMs across a diverse set of tasks and capabilities in Filipino, Tagalog, and Cebuano. We carefully curate the tasks in FilBench to reflect the priorities and trends of NLP research in the Philippines such as Cultural Knowledge, Classical NLP,...

ID: 2508.03523v1 cs.CL

arXiv PDF

📄 Marito: Structuring and Building Open Multilingual Terminologies for South African NLP

2025-08-09

Авторы:

Vukosi Marivate, Isheanesu Dzingirai, Fiskani Banda, Richard Lastrucci, Thapelo Sindane, Keabetswe Madumo, Kayode Olaleye, Abiodun Modupe, Unarine Netshifhefhe, Herkulaas Combrink, Mohlatlego Nakeng, Matome Ledwaba

**Резюме** В Сатурн возникла проблема с отсутствием структурированных терминологических данных для официальных языков ЮАР, что существенно ограничивает развитие многоязычного NLP. Хотя существуют многочисленные терминологические списки, они нераздельны и заключены в немашинночитаемых форматах. Авторы предлагают решение — систематическую агрегацию и стандартизацию этих данных в открытые, машинночитаемые датасеты под названием **Marito**. Датасет, основанный на Africa-centered NOODL фреймворке, позволяет интегрировать терминологию в различные NLP-приложения. В качестве демонстрации, авторы интегрировали Marito в RAG-пайплайн, повысив точность и доменную консистентность перевода Английского на Тшивенда с помощью больших языковых моделей. Работа показывает, что Marito может стать основой для развития справедливых и эффективных технологий NLP, обеспечивающих учет языковой диверситети ЮАР в цифровой эпохе.

Annotation:

The critical lack of structured terminological data for South Africa's official languages hampers progress in multilingual NLP, despite the existence of numerous government and academic terminology lists. These valuable assets remain fragmented and locked in non-machine-readable formats, rendering them unusable for computational research and development. \emph{Marito} addresses this challenge by systematically aggregating, cleaning, and standardising these scattered resources into open, interope...

ID: 2508.03529v1 cs.CL

arXiv PDF

📄 EmbedGrad: Gradient-Based Prompt Optimization in Embedding Space for Large Language Models

2025-08-09

Авторы:

Xiaoming Hou, Jiquan Zhang, Zibin Lin, DaCheng Tao, Shengli Zhang

Одной из основных проблем в развитии машинного обучения является эффективное приспособление мощных предобученных моделей к различным задачам. Существуют две основные подходы: дискретная оптимизация текстовых приглашений (prompts) и непрерывная адаптация с помощью дополнительных trainable параметров. Однако оба подхода имеют ограничения: дискретные методы не обеспечивают достаточной точности, а параметрические подходы усложняют модели и снижают их интерпретируемость. Предлагаемый EmbedGrad — это новый фреймворк, основанный на градиентной оптимизации текстовых приглашений в пространстве вычислительных слоёв. EmbedGrad разделяет тренировочный процесс и работу модели: в процессе оптимизации лейбленные примеры позволяют точно настраивать приглашения, сохраняя семантический смысл, в то время как во время работы модели используются только оптимизированные приглашения. Опытные испытания показали, что EmbedGrad эффективно улучшает работу моделей в различных задачах, таких как математическое разумение, анализ тональности и вывод причинно-следственных связей. Например, улучшение приглашения для Qwen2.5-Math-1.5B увеличило точность на 44.22 процентные очки в решении математических задач. Эти результаты доказывают, что EmbedGrad может стать мощным инструментом для улучшения task adaptation без необходимости внесения изменений в модель.

Annotation:

Effectively adapting powerful pretrained foundation models to diverse tasks remains a key challenge in AI deployment. Current approaches primarily follow two paradigms:discrete optimization of text prompts through prompt engineering, or continuous adaptation via additional trainable parameters. Both exhibit limitations-discrete methods lack refinement precision while parameter-based techniques increase complexity and reduce interpretability. To address these constraints, we propose EmbedGrad, a ...

ID: 2508.03533v1 cs.CL

arXiv PDF

📄 Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

2025-08-09

Авторы:

Peng Lai, Jianjie Zheng, Sijie Cheng, Yun Chen, Peng Li, Yang Liu, Guanhua Chen

На данный момент автоматизированное оценивание текстов с помощью великолепных языковых моделей, известных как "LLM-as-a-Judge", получило широкое распространение. Однако улучшение сходства с предпочтениями людей без громоздких подсказок или дорогостоящего файн-тюнинга остается вызовом. В данной работе авторы предлагают LAGER — легковесный и эффективный подход, основанный на экспериментальных находках, что слои среднего и верхнего уровня модели содержат полезные для задачи семантические представления, более совпадающие с человеческими оценками, чем финальный слой. LAGER улучшает точность оценок, аггрегируя матрицу заданий в разных слоях модели и используя дистрибутивную модель softmax, при этом без изменения фактического веса модели. Эта работа доказывает, что LAGER улучшает сходство с человеческими оценками до 7.5% по сравнению с лучшими базовыми моделями, а также продвигается вперед перед разумными методами, не прибегая к логическим шагам. Эксперименты в прикладных задачах, таких как выбор данных и распознавание эмоций, подтверждают эффективность LAGER.

Annotation:

The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using large language models, a paradigm known as "LLMas-a-judge." However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and taskrelevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a l...

ID: 2508.03550v1 cs.CL

arXiv PDF

📄 MultiRAG: A Knowledge-guided Framework for Mitigating Hallucination in Multi-source Retrieval Augmented Generation

2025-08-09

Авторы:

Wenlong Wu, Haofen Wang, Bohan Li, Peixuan Huang, Xinzhe Zhao, Lei Liang

Одной из основных проблем в области Retrieval Augmented Generation (RAG) является эксплуатация ложной информации (hallucination), которая может усиливаться при использовании множества источников знаний. MultiRAG — это новая архитектура, разработанная для решения этой проблемы. Она вводит два ключевых модуля: (1) **Module для построения знаний**, который использует multi-source line graphs для эффективного агрегации логических связей между различными источниками знаний, и (2) **Sophisticated retrieval module**, реализующий многоуровневую механику вычисления достоверности, которая оценивает объекты на уровне графа и узлов, чтобы идентифицировать и исключить недостоверные данные. Эксперименты на 4 многодоменных запросах и 2 многошаговых датасетах показали, что MultiRAG эффективно улучшает надежность и эффективность знаний в многоисточниковых сценариях, снижая эффекты hallucination. Наш код доступен по ссылке: https://github.com/wuwenlong123/MultiRAG.

Annotation:

Retrieval Augmented Generation (RAG) has emerged as a promising solution to address hallucination issues in Large Language Models (LLMs). However, the integration of multiple retrieval sources, while potentially more informative, introduces new challenges that can paradoxically exacerbate hallucination problems. These challenges manifest primarily in two aspects: the sparse distribution of multi-source data that hinders the capture of logical relationships and the inherent inconsistencies among ...

ID: 2508.03553v1 cs.IR, cs.CL

arXiv PDF

📄 PyLate: Flexible Training and Retrieval for Late Interaction Models

2025-08-09

Авторы:

Antoine Chaffin, Raphaël Sourty

Многовекторные подходы в нейронной оценке, вроде ColBERT, стали важной альтернативой одновекторным моделям в процессе поиска информации. Они удерживают отдельные токенные векторы и используют оператор MaxSim для вычисления сходства, что позволяет улучшить общую производительность, в частности в задачах с длинными контекстами и решении прикладных проблем. Однако, несмотря на эти преимущества, доступные инструменты для обучения и экспериментирования с многовекторными моделями остаются ограниченными. Для решения этой проблемы представлена PyLate — модульная библиотека, основанная на Sentence Transformers, которая обеспечивает простой доступ к многовекторной архитектуре. PyLate наследует удобные возможности Sentence Transformers, включая эффективный тренировочный процесс, замысловатый журналирование и генерацию модельных карточек. Благодаря PyLate модели, такие как GTE-ModernColBERT и Reason-ModernColBERT, показали свою эффективность в исследовательских и реальных приложениях. Таким образом, PyLate ускоряет развитие и применение многовекторных моделей в системах информационного поиска.

Annotation:

Neural ranking has become a cornerstone of modern information retrieval. While single vector search remains the dominant paradigm, it suffers from the shortcoming of compressing all the information into a single vector. This compression leads to notable performance degradation in out-of-domain, long-context, and reasoning-intensive retrieval tasks. Multi-vector approaches pioneered by ColBERT aim to address these limitations by preserving individual token embeddings and computing similarity via ...

ID: 2508.03555v1 cs.IR, cs.CL

arXiv PDF

📄 Tackling Distribution Shift in LLM via KILO: Knowledge-Instructed Learning for Continual Adaptation

2025-08-09

Авторы:

Iing Muttakhiroh, Thomas Fevens

**Резюме** Проблема: Large Language Models (LLMs) часто сталкиваются с ухудшением производительности при выполнении задач в новых доменах из-за проблемы катастрофического забывания (catastrophic forgetting). Решение: В статье предложена методика KILO (Knowledge-Instructed Learning for Continual Adaptation), которая интегрирует динамические знания из графов знаний (knowledge graphs) с инструкционным обучением (instruction tuning). Метод KILO использует во время обучения внешние знания, полученные с помощью восстановления, как дополнительный стимул для модели. Эта модель была протестирована на последовательном адаптировании к четырём разным доменам: BioASQ, SciQ, TweetEval и MIND. Результаты: Модель KILO показала лучшие результаты по сравнению с основными базовыми моделями, в том числе ERNIE 2.0 и CPT, в плане производительности, эффективности обучения и способности сохранить данные из предыдущих доменов. Вывод: Объединение внешних знаний с инструкционным обучением даёт эффективный метод для преодоления проблемы катастрофического забывания в LLMs при адаптации к новым доменам.

Annotation:

Large Language Models (LLMs) often suffer from performance degradation when faced with domain shifts, primarily due to catastrophic forgetting. In this work, we propose KILO (Knowledge-Instructed Learning for Continual Adaptation), a novel continual learning framework that integrates dynamic knowledge graphs with instruction tuning. By leveraging retrieved domain-specific knowledge as guidance during training, KILO enhances both adaptability to new domains and retention of previously acquired kn...

ID: 2508.03571v1 cs.CL, cs.LG

arXiv PDF

Показано 7291 - 7300 из 7506 записей