📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Mohamed Insaf Ismithdeen, Muhammad Uzair Khattak, Salman Khan

## Контекст В последние годы Large Multimodal Models (LMMs) показали выдающиеся результаты в области многомодального понимания и вывода. Однако, дизайн инструкций (prompts) для LMMs в задачах Multiple-Choice Question Answering (MCQA) остается значительной недоработкой. Исследования показывают, что даже незначительные изменения в формулировке и структуре инструкций могут привести к существенным отклонениям в точности решения задач — до 15%. Это выносит в угрозу честность и транспарентность оценки LMM, так как модели часто отчётливо показывают свои лучшие результаты, оптимизировав инструкции. Для снятия этой проблемы мы предлагаем Promptception — новую систематическую модель для оценки чувствительности LMM к инструкциям. ## Метод Promptception представляет собой развитый фреймворк, включающий 61 типа инструкций, разделенных на 15 категорий и 6 суперкатегорий. Каждая категория нацелена на конкретный аспект формулировки инструкций. Мы использовали этот фреймворк для оценки точности 10 LMMs, включая опенсорсные модели и самые современные проприетарные модели, такие как GPT-4o и Gemini 1.5 Pro. Эксперименты проводились на трёх бенчмарках MCQA: MMStar, MMMU-Pro и MVBench. Это позволило нам выявить различия в чувствительности к инструкциям между моделями, а также выявить специфику работы проприетарных и опенсорсных моделей. ## Результаты Наши результаты показали, что проприетарные модели, такие как GPT-4o и Gemini 1.5 Pro, чувствительнее к тонкостям формулировки инструкций, что свидетельствует о более глубокой инструкционной алигнентах. Отклонения в их результатах достигают 15%. Опенсорсные модели, такие как LLaMA и Falcon, показали более стабильные, но менее точные результаты при сложном дизайне инструкций. Мы также выявили, что чувствительность к формулировке сильно зависит от типа задачи и модели, что подтверждает необходимость развития специальных принципов дизайна инструкций для различных моделей. ## Значимость Результаты Promptception имеют высокую значимость для разработчиков и отрасли AI в целом. Наша работа подчёркивает важность тщательной оценки инструкций для достижения честных и транспарентных результатов в экспериментах с LMM. Мы предлагаем Prompting Principles, которые могут помочь улучшить честность экспериментов и сделать результаты более сравнимыми. Эти находки могут быть применены в области обучения с подкреплением, видеоанализа, мультимодального понимания и других многомодальных задачах. ## Выводы Мы показали, что Promptception даёт новые возможности для понимания и оценки чувствительности LMM к инструкциям. Наши результаты подтверждают, что чувствительность к формулировке инструкций может в
Annotation:
Despite the success of Large Multimodal Models (LMMs) in recent years, prompt design for LMMs in Multiple-Choice Question Answering (MCQA) remains poorly understood. We show that even minor variations in prompt phrasing and structure can lead to accuracy deviations of up to 15% for certain prompts and models. This variability poses a challenge for transparent and fair LMM evaluation, as models often report their best-case performance using carefully selected prompts. To address this, we introduc...
ID: 2509.03986v1 cs.CV, cs.AI, cs.CL, cs.LG
Авторы:

Matthew Ho, Chen Si, Zhaoxiang Feng, Fangxu Yu, Zhijian Liu, Zhiting Hu, Lianhui Qin

## Контекст Современные текстовые глубокозатрагивающие модели (LLMs) обладают возможностью выполнять рассуждения различной сложности. Однако при выполнении новых задач они часто потеряют возможность повторно применять накопленные ранее знания и выводы. Это ограничивает их эффективность при решении задач, требующих постоянного обучения в процессе работы. Для решения этой проблемы вводится концепция **"тест-time continual learning"**, которая позволяет моделям в процессе работы учиться на новых данных и совершенствоваться. Одним из вариантов этого подхода является использование **внешней памяти**, которая может хранить полученные выводы и концепции в естественном языке. Исследование подтверждает, что такой подход повышает эффективность в решении рассуждений, особенно в задачах, требующих значительной логической структуры. Идея ArcMemo — создать систему, которая бы не только помогала моделям в решении рассуждений, но и сохраняла наиболее универсальные знания в виде **концептуальных модулей**, которые могут быть повторно применены в будущих задачах. ## Метод ArcMemo работает на основе **тест-time continual learning** с использованием **концептуальной внешней памяти**. Основной идеей является использование **техники роллаутов** (rollouts), которая позволяет модели в процессе работы делать выводы и хранить их в виде **концептуальных абстракций** — естественно языковых описаний решений. Эти абстракции после этого могут быть **выбираться и интегрированы** в новые задачи, чтобы помочь модели в решении новых задач. ArcMemo использует два ключевых аспекта: 1. **Абстрактные модули** — модули, которые представляют собой стабильные и универсальные решения, выведенные из роллаутов. 2. **Динамическое обновление памяти** — постоянное добавление новых модулей и удаление устаревших при помощи тест-time continual learning. Это позволяет модели ArcMemo расти в силе и эффективности в процессе выполнения задач. Техника роллаутов позволяет находить сложные решения задач и записывать их в естественно языковом виде в виде **концептуальных модулей**. Эти модули, в свою очередь, могут быть повторно использованы при решении новых задач. ## Результаты Исследование проводилось на **ARC-AGI benchmark**, который требует выполнения сложных рассуждений. Отмечается, что система ArcMemo показывает **7.5% относительный выигрыш** по сравнению с теми же моделями без внешней памяти. Особенно полезность **концептуальных модулей** продемонстрирована в задачах, требующих высокой логической структуры. Также было показано, что модель ArcMemo становится эффективнее при увеличении компьютерных ресурсов и количества решенных задач, что подтверждает свою способность
Annotation:
While inference-time scaling enables LLMs to carry out increasingly long and capable reasoning traces, the patterns and insights uncovered during these traces are immediately discarded once the context window is reset for a new query. External memory is a natural way to persist these discoveries, and recent work has shown clear benefits for reasoning-intensive tasks. We see an opportunity to make such memories more broadly reusable and scalable by moving beyond instance-based memory entries (e.g...
ID: 2509.04439v1 cs.AI, cs.CL, cs.LG
Авторы:

Deepak Bastola, Woohyeok Choi

#### Контекст Область юридического текстового анализа становится все более важной в свете роста количества юридических документов, необходимости упрощения процессов и улучшения точности анализа. Однако юридические тексты имеют уникальные особенности: ограниченный объем меток, специфическая лексика и высокая степень специфичности. Эти факторы ограничивают эффективность существующих методов классификации и кластеризации. Необходимо разработать методы, которые могут эффективно обрабатывать такие тексты, учитывая их специфику. В данной работе предлагается гибридный подход, который объединяет семантическую обработку текстов с техниками графовых представлений для улучшения кластеризации юридических документов. #### Метод Методология основывается на двух основных компонентах: обучению семантических представлений документов с помощью Top2Vec и извлечении структурных представлений с помощью Node2Vec. Top2Vec обнаруживает подчиненные темы в текстах, а Node2Vec позволяет выделять связи между документами в графе, основываясь на бипартийном графе документов. Эти два представления комбинируются с помощью алгоритма KMeans для кластеризации. Важным аспектом является то, что модель не требует меток во время обучения, что делает ее пригодной для обработки больших объемов юридических документов. Архитектура подхода включает в себя несколько шагов: инициализация тем, их автоматическое выявление, построение графа документов и вычисление графовых представлений с использованием Node2Vec. #### Результаты На юридической базе данных была проведена серия экспериментов, сравнивая результаты кластеризации с использованием только семантических представлений (Top2Vec), только графовых представлений (Node2Vec) и их совместного использования. Была оценена точность кластеризации, а также проведена анализ чувствительности к параметрам, таким как число кластеров и размерность представлений. Результаты показали, что гибридный подход демонстрирует лучшую точность кластеризации по сравнению с отдельными моделями. Особенно выдачными были результаты в случае достаточного числа кластеров и оптимальной размерности представления, что указывает на эффективность комбинации семантических и графовых представлений. #### Значимость Предложенный подход может быть применен в различных задачах, связанных с анализом юридических текстов, таких как классификация, кластеризация, определение важности документов и экспертная оценка. Он привносит улучшение в точность и качество анализа, учитывая специфику юридического языка. Его применение может стать предпосылкой для дальнейше
Annotation:
Legal documents pose unique challenges for text classification due to their domain-specific language and often limited labeled data. This paper proposes a hybrid approach for classifying legal texts by combining unsupervised topic and graph embeddings with a supervised model. We employ Top2Vec to learn semantic document embeddings and automatically discover latent topics, and Node2Vec to capture structural relationships via a bipartite graph of legal documents. The embeddings are combined and cl...
ID: 2509.00990v1 stat.ML, cs.CL, cs.LG
Авторы:

Refat Othman, Diaeddin Rimawi, Bruno Rossi, Barbara Russo

#### Контекст В области информационной безопасности важность анализа и автоматизации процесса связывания атак с уязвимостями несомненна. Несмотря на то, что уязвимости часто остаются незамеченными даже после их эксплуатации, их активное использование во время атак может обеспечить важные сведения о слабых местах систем. Установление связи между атаками и уязвимостями не только позволяет значительно сократить время отклика на инциденты, но и повышает эффективность защиты систем. Однако решение этой задачи вручную, особенно в больших объемах данных, невозможно, что приводит к потребности в автоматизированных системах. Текущая исследоательская работа адресует эту проблему, оценивая различные модели трансформации предложений с целью выявления подходящих уязвимостей. #### Метод Для решения проблемы связывания атак с уязвимостями были использованы 14 современных моделей трансформации предложений, включая Sentence-BERT, MiniLM и MPNet. Модели были обучены классифицировать текстовые описания атак и связывать их с уязвимостями из Common Vulnerabilities and Exposures (CVE) репозитория. Основной фокус был уделен модели Multi-QA-MPNet-base-dot-v1 (MMPNet), которая была оценена на специально подготовленных данных, содержащих технические описания атак. Результаты экспериментов были измерены с помощью метрик F1-score, precision и recall. #### Результаты Результаты экспериментов показали, что MMPNet достигла F1-score в 89.0, precision в 84.0 и recall в 94.7 при классификации описаний атак. Было обнаружено, что 56% уязвимостей, выявленных моделью, соответствуют уязвимостям, перечисленным в CVE, в сочетании с их атаками. Дополнительно, 61% уязвимостей, выявленных моделью, соответствуют таким, как описаны в CVE. Это позволяет судить о высокой эффективности модели в выявлении связанных уязвимостей. Было также выявлено, что 275 уязвимостей, выданных моделью, не были документированы в репозитории MITRE, что может указывать на новые находки в области безопасности. #### Значимость Результаты этой работы могут быть применены в области автоматизации мониторинга безопасности, позволяя системам быстрее и эффективнее реагировать на инциденты. Также модель MMPNet может использоваться для поиска новых уязвимостей, которые еще не описаны в репозиториях. Важно отметить, что этот подход может существенно сократить время, в течение которого уязвимости остаются необнаруженными и эксплуатируемыми, что повышает уровень защиты систем. #### Выводы Результаты исследования демонтстрируют, что модель MMPNet является высокоэффективной для связывания атак с уязвимостями. В даль
Annotation:
In the domain of security, vulnerabilities frequently remain undetected even after their exploitation. In this work, vulnerabilities refer to publicly disclosed flaws documented in Common Vulnerabilities and Exposures (CVE) reports. Establishing a connection between attacks and vulnerabilities is essential for enabling timely incident response, as it provides defenders with immediate, actionable insights. However, manually mapping attacks to CVEs is infeasible, thereby motivating the need for au...
ID: 2509.02077v2 cs.CR, cs.CL, cs.LG, 68T50 Natural language processing, D.4.6; I.2.7
Авторы:

Ali Hamdi, Malak Mohamed, Rokaia Emad, Khaled Shaban

## Контекст В последние годы здравоохранение стало востребованным дисциплинарным полем, в котором технологии и инновации приобретают все более важное значение. Одной из наиболее заметных тенденций является использование социальных телездоровья (social telehealth), который позволяет пациентам отправлять симптомы и получать консультации у врачей удаленно. В связи с этим, большие объемы медицинских данных, создаваемых пользователями на социальных сетях и онлайн-платформах, становятся ресурсом для классификации заболеваний. Большие языковые модели (LLMs), такие как LLAMA3 и GPT-3.5, а также трансформер-ориентированные модели, такие как BERT, продемонстрировали свою эффективность в обработке сложных медицинских текстов. Тем не менее, необходимость улучшения точности и универсальности классификации заболеваний в социальном телездоровье остается актуальной. Данное исследование направлено на изучение возможностей использования LLMs в сочетании с техническими препроцессинговыми методами для повышения точности классификации в социальных телездоровьях. ## Метод В данном исследовании применяется комбинация методов препроцессинга текстов, включая суммаризацию, рефининг и Named Entity Recognition (NER), над социальными медицинскими текстами на арабском языке. Для обработки используются модели AraBERT, CAMeLBERT и AsafayaBERT, которые были предварительно обучены на арабских данных. Для повышения точности и устойчивости результатов в качестве метода классификации применяется ensemble learning с majority voting. Это позволяет объединить представления текста, полученные от оригинального и препроцессированного текста, и получить более точные прогнозы. Методы препроцессинга и классификации были применены к данным, полученным с заболеваний и симптомами, чтобы исследовать, как эти технологии могут быть использованы для улучшения классификации заболеваний в социальных телездоровьях. ## Результаты Исследование включало в себя эксперименты с несколькими вариантами представления текста, включая оригинальную форму, суммаризованные версии и NER-преобразованные тексты. Модели AraBERT, CAMeLBERT и AsafayaBERT были применены к сгенерированным представлениям, а затем результаты объединялись с помощью ensemble learning. Точность классификации, достигнутая этой комбинацией, составила 80,56%, что показывает эффективность комбинированного подхода. Эксперименты показали, что препроцессинг и ensemble learning способствуют улучшению точности и общей понимаемости медицинских текстов, что является ключевым результатом данного исследования. ## Значимость Данный подход имеет значительное значение для развития социальных те
Annotation:
Social telehealth has made remarkable progress in healthcare by allowing patients to post symptoms and participate in medical consultations remotely. Users frequently post symptoms on social media and online health platforms, creating a huge repository of medical data that can be leveraged for disease classification. Large language models (LLMs) such as LLAMA3 and GPT-3.5, along with transformer-based models like BERT, have demonstrated strong capabilities in processing complex medical text. In ...
ID: 2509.02446v1 cs.CL, cs.LG
Авторы:

Lingzhi Shen, Xiaohao Cai, Yunfei Long, Imran Razzak, Guanming Chen, Shoaib Jameel

## Контекст Детекция личности на основе текстов является важной задачей в области обработки естественного языка, которая находит применение в маркетинге, социальных сетях и психологии. Существующие методы требуют больших объемов тщательно аннотированных данных, что ограничивает их эффективность в реальных сценариях применения. Одной из особенностей этих методов является недостаточное учет реляционных отношений между эмоциями и личностными характеристиками, что приводит к ограниченной точности распознавания. Данная работа стремится улучшить точность детекции личности, используя самостоятельно отмеченные эмоциональные признаки и самостоятельно свертку реляционных моделей. ## Метод Предлагаемый EmoPerso-фреймворк включает в себя несколько ключевых компонентов. Во-первых, используется механизм генеративного моделирования для синтеза данных и обучения богатых представлений. Во-вторых, выделение эмоциональных признаков с помощью самостоятельных меток, которые используются для взаимодействия с моделью детекции личности. Третьим компонентом является модуль перекрестного внимания, который позволяет охватывать тонкие локальные связи между эмоциональными и личностными признаками. Наконец, модель использует самообучающую стратегию, позволяющую улучшать реляционное рассуждение со временем. ## Результаты Для оценки эффективности EmoPerso проведены эксперименты на двух бенчмарк-датасетах. Модель показала существенное превосходство по таким метрикам, как F1-score и accuracy, по сравнению со существующими методами. Это достигается благодаря улучшенному учету эмоциональных отношений и их взаимодействия с личностными характеристиками. Основные результаты показывают, что EmoPerso имеет более высокую точность и глубину в анализе, чем существующие модели. ## Значимость Предлагаемый подход может применяться в различных действительных сценариях, включая социальные сети, рекламу, психологическую диагностику и даже персонализацию услуг. Он предлагает выгоды в виде улучшенной точности и реляционной логики при распознавании личности. В будущем могут быть рассмотрены дополнительные синтетические методы ввода данных и повышение прозрачности модели в принятии решений. ## Выводы EmoPerso представляет собой новую модель детекции личности, которая может улучшить результаты существующих моделей, используя самостоятельно отмеченные эмоциональные признаки. Это демонстрирует эффективность нового подхода в решении проблем, связанных с ограниченностью доступных данных и учетом связи между эмоциями и личностью. Дальнейшие
Annotation:
Personality detection from text is commonly performed by analysing users' social media posts. However, existing methods heavily rely on large-scale annotated datasets, making it challenging to obtain high-quality personality labels. Moreover, most studies treat emotion and personality as independent variables, overlooking their interactions. In this paper, we propose a novel self-supervised framework, EmoPerso, which improves personality detection through emotion-aware modelling. EmoPerso first ...
ID: 2509.02450v1 cs.CL, cs.LG
Авторы:

Chenglong Wang, Yongyu Mu, Hang Zhou, Yifu Huo, Ziming Zhu, Jiali Zeng, Murun Yang, Bei Li, Tong Xiao, Xiaoyang Hao, Chunliang Zhang, Fandong Meng, Jingbo Zhu

#### Контекст Гармоничное обучение моделей на основе наград (reward modeling) является ключевым заданием в области искусственного интеллекта, особенно в рамках машинного обучения с подкреплением (reinforcement learning). Однако, существующие подходы сужаются только к определенным типам задач, чрезвычайно зависят от больших объемов руководственной данной (labeled data) и не включают в себя явный логический мотив для принятия решений модели. Это ограничивает их применение в условиях, где необходимо широкое и универсальное применение. Из-за этого, целью нынешнего исследования является развитие модели, которая не только может оценивать награды, но и способна логически обосновывать свои решения. #### Метод Мы предлагаем самоучительный (self-training) подход, который использует неразмеченные данные для создания модели с объясняемым резонансом в моделировании наград. Главной идеей является использование автокодировщиков для выделения фундаментальных причин модели для своих принятых решений. Мы представляем **GRAM-R$^2$**, модель, которая не только генерирует ответы, но и сопутствующие им логические объяснения. Модель обучается с использование неразмеченных данных для возможности исследования наград, и в дальнейшем может быть использована для различных задач, включая оценку ответов, адаптацию к задачам и улучшение моделей основанных на подкреплении. #### Результаты В ходе экспериментов мы применяли GRAM-R$^2$ к задачам, таким как оценка ответов, адаптация моделей и обучение с подкреплением с использованием руководства от людей. Модель показала высокую точность и логическую целостность в своих ответах. Она показала себя лучше, чем несколько дискриминативных и генеративных моделей, установив новый стандарт в области моделей наград. Эксперименты также подтвердили гибкость модели, которая может быть применена к различным задачам с минимальным или никаким тренировочным вкладом. #### Значимость Выделяется широкое применение GRAM-R$^2$ в различных индустриях, в т.ч. в области разработки систем новых поколений (GPAI), в сфере обработки естественного языка, в системах рекомендаций и в задачах контроля качества. Модель позволяет сократить зависимость от больших данных для тренировки, увеличивая гибкость и эффективность моделей. Благодаря своему универсальному характеру, GRAM-R$^2$ может поддерживать разработку более зрелых и понятных моделей решений в будущем. #### Выводы Мы представляем GRAM-R$^2$, модель, которая способна генерировать не только ответы, но и логические объяснения для своих решений. Мы демонстрируем, что модель показывает высокую гибкость и выдерживает создание новых стандартов в области моделе
Annotation:
Significant progress in reward modeling over recent years has been driven by a paradigm shift from task-specific designs towards generalist reward models. Despite this trend, developing effective reward models remains a fundamental challenge: the heavy reliance on large-scale labeled preference data. Pre-training on abundant unlabeled data offers a promising direction, but existing approaches fall short of instilling explicit reasoning into reward models. To bridge this gap, we propose a self-tr...
ID: 2509.02492v1 cs.CL, cs.LG
Авторы:

Nishant Tanksale, Tanmay Kokate, Darshan Gohad, Sarvadnyaa Barate, Raviraj Joshi

#### Контекст В последние годы роль языковых моделей в области естественного языкового процессинга (НЛП) стала важной для решения задач, включая семантическую оценку и идентификацию заголовков в новостных статьях. Однако большая часть работ по НЛП сосредоточена на высокоресурсных языках, тогда как в низкоресурсных языках, таких как языки Индии, существуют существенные проблемы с ресурсами и бенчмарками. Эти недостатки порождают сложности в создании моделей, которые могли бы эффективно работать в таких языках. #### Метод Мы предлагаем L3Cube-IndicHeadline-ID, датасет, состоящий из 20 000 новостных статей на 10 низкоресурсных языках Индии (маратхи, хинди, тамильский, гуджарати, оди, каннада, малаялам, пунджаби, таджикский, бенгальский и английский) и 4 версиями заголовков: оригинального, семантически похожего, лексически похожего и не относящегося к теме. Датасет предназначен для тестирования тонкой семантической оценки и выбора правильного заголовка с помощью семантической схожести статей и заголовков. Мы используем метрику cosine similarity для оценки моделей. #### Результаты Мы провели эксперименты с несколькими типами моделей НЛП, включая многоязычные и языково-конкретные модели. Наши результаты показали, что многоязычные модели обеспечивают более высокую точность и постоянство по сравнению с моделями, ориентированными только на конкретный язык. Данные показатели указывают на необходимость дальнейшего исследования в области семантической оценки в низкоресурсных языках. #### Значимость Датасет L3Cube-IndicHeadline-ID может использоваться для нескольких задач, включая вопрос-ответ, классификацию заголовков и тестирование моделей семантического понимания. Он может стать важной ресурсной платформой для повышения эффективности языковых моделей в низкоресурсных языках. Это также может положительно сказаться на развитии систем Retrieval-Augmented Generation (RAG), которые часто используются в задачах семантического понимания. #### Выводы Наш датасет L3Cube-IndicHeadline-ID представляет собой значительный вклад в область низкоресурсных языков, особенно в Индии. Мы планируем продолжить работу над улучшением этого датасета и расширением применений в различных НЛП-задачах, чтобы помочь улучшить семантическое понимание в низкоресурсных языках.
Annotation:
Semantic evaluation in low-resource languages remains a major challenge in NLP. While sentence transformers have shown strong performance in high-resource settings, their effectiveness in Indic languages is underexplored due to a lack of high-quality benchmarks. To bridge this gap, we introduce L3Cube-IndicHeadline-ID, a curated headline identification dataset spanning ten low-resource Indic languages: Marathi, Hindi, Tamil, Gujarati, Odia, Kannada, Malayalam, Punjabi, Telugu, Bengali and Englis...
ID: 2509.02503v1 cs.CL, cs.LG
Авторы:

Mayur Shirke, Amey Shembade, Pavan Thorat, Madhushri Wagh, Raviraj Joshi

Да, вот подробное резюме научной статьи в требуемом формате: ## Контекст Code-mixed языковые модели, особенно в контексте Hindi-English (Hinglish), требуют особого подхода из-за особенностей такого текста: смешанный синтаксис, транслитерация, и частая смена языка. Нейрометрическое распознавание сущностей (NER) в таких текстах является сложной задачей. Существующие модели либо оптимизированы для monolingual или multilingual текстов, либо не приспособлены для код-миксед текстов. Это ставит перед исследователями задачу выявления моделей, которые могут достигать высокую точность при работе с код-миксед NER. ## Метод Мы провели эксперименты с тремя код-миксед моделями BERT: HingBERT, HingMBERT, и HingRoBERTa, которые были прикладным образом приспособлены для работы с текстом на Hinglish. Также использовались несколько моделей многоязычных BERT, включая BERT Base Cased, IndicBERT, RoBERTa, и MuRIL, которые были прикладно приспособлены для multilingual NER. Наконец, мы использовали Google Gemini в zero-shot режиме, для которого были скрыты NER-теги, чтобы оценить его обобщающую способность. Все модели были протестированы на Hinglish NER dataset, с использованием Precision, Recall и F1-score. ## Результаты Наши результаты показали, что код-миксед модели, в частности HingRoBERTa и HingBERT, показали значительное преимущество перед некоторыми моделями многоязычных BERT, включая Google Gemini. Это связано с domain-specific pretraining, который позволяет этим моделям быть более эффективными в данной задаче. Но некоторые модели многоязычных BERT, такие как RoBERTa и MuRIL, показали приемлемую точность, но не приспособлены для код-миксед NER. Google Gemini, несмотря на то, что была нетренирована в контексте NER, реализовала высокую точность в zero-shot режиме, подчеркнув силу общей generalization новых LLMs. ## Значимость Области применения данного исследования включают в себя разработку моделей NER для Hinglish и других code-mixed текстов, включая различные языковые комбинации. Модели HingBERT и HingRoBERTa имеют высокую значимость для коммерческих приложений, таких как chatbots, системы отзывов, и другие сервисы, которые работают с code-mixed текстом. Особенное преимущество код-миксед моделей заключается в их domain-specific pretraining, который позволяет лучше работать в этой сфере по сравнению с generalized моделями. ## Выводы Мы демонстрируем, что code-mixed модели, особенно HingRoBERTa и HingBERT, значительно outperform общие многоязычные модели, такие как RoBERTa и MuRIL, а также closed-source LLMs, включая Google Gemini. Это мотивирует дальнейшие исследования в области код-миксед моделей и дает перспективы для дальнейшего улучшения этих моделей, с целью достижения более высокой точности и общей generalization. Это максимально подробное резюме научной статьи, кото
Annotation:
Named Entity Recognition (NER) in code-mixed text, particularly Hindi-English (Hinglish), presents unique challenges due to informal structure, transliteration, and frequent language switching. This study conducts a comparative evaluation of code-mixed fine-tuned models and non-code-mixed multilingual models, along with zero-shot generative large language models (LLMs). Specifically, we evaluate HingBERT, HingMBERT, and HingRoBERTa (trained on code-mixed data), and BERT Base Cased, IndicBERT, Ro...
ID: 2509.02514v1 cs.CL, cs.LG
Авторы:

Jiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang

## Контекст Reinforcement Learning with Verifiable Rewards (RLVR) является важной методологией, позволяющей обучить модели на основе верифицируемых выходных данных. Она применяется для решения задач, требующих высокого уровня логического и математического разума, таких как программирование и математическое моделирование. Несмотря на свои преимущества, RLVR сталкивается с многочисленными проблемами, включая спарсительные сигналы награды и неустойчивые обновления политики. Эти проблемы становятся особенно заметны при использовании RL-алгоритмов. Мы предлагаем новый подход, PACS, который адресует эти проблемы с помощью инновационной архитектуры и методологии. ## Метод PACS, или Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR, предлагает новую методологию, в которой награда получена на выходе трансформации лингвистического контекста представляется как метка для супервизированного обучения. Это позволяет перевести задачу RLVR в задачу кросс-энтропийного супервизированного обучения. Мы используем свертку супервизора и политики, чтобы улучшить процесс обучения и сделать его более устойчивым. Градиентный анализ показывает, что этот подход не только приводит к более стабильной политике, но и комбинирует роль актера и критика в единое целое, что повышает эффективность. ## Результаты Мы проверили PACS на задачах математического моделирования, включая AIME 2025. Наши результаты показывают, что PACS превосходит существующие методы, такие как PPO и GRPO, на 13.32 и 14.36 процентных единиц соответственно. Он показывает значительные улучшения в счете pass@256, достигший 59.78%. Этот результат доказывает устойчивость и эффективность нашего подхода, даже при сложных задачах. ## Значимость PACS может быть применен в различных областях, где требуется высокая точность и верификация результатов. Он имеет преимущества перед существующими RLVR-методами, такими как устойчивость и эффективность обучения. Мы видим потенциал PACS в развитии глубокого обучения с помощью наград, гарантирующих верификацию решений. Это может привести к новым возможностям в логическом моделировании и программировании. ## Выводы Мы предлагаем PACS, новую модель, которая использует супервизированное обучение для точной политики RLVR. Этот подход не только улучшает процесс обучения, но и обогащает функциональные возможности модели в сфере верифицируемых наград. Наши результаты показывают, что PACS является эффективным инструментом для решения сложных математических задач. Мы планируем продолжить развитие этого подхода, ориентируясь на улучшение его точности и расширение его применений.
Annotation:
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have empowered large language models (LLMs) to tackle challenging reasoning tasks such as mathematics and programming. RLVR leverages verifiable outcome rewards to guide policy optimization, enabling LLMs to progressively improve output quality in a grounded and reliable manner. Despite its promise, the RLVR paradigm poses significant challenges, as existing methods often suffer from sparse reward signals and unstable polic...
ID: 2509.02522v1 cs.CL, cs.LG
Показано 431 - 440 из 573 записей