📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Comparison of Unsupervised Metrics for Evaluating Judicial Decision Extraction

2025-10-04

Авторы:

Ivan Leonidovich Litvak, Anton Kostin, Fedor Lashkin, Tatiana Maksiyan, Sergey Lagutin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The rapid advancement of artificial intelligence in legal natural language processing demands scalable methods for evaluating text extraction from judicial decisions. This study evaluates 16 unsupervised metrics, including novel formulations, to assess the quality of extracting seven semantic blocks from 1,000 anonymized Russian judicial decisions, validated against 7,168 expert reviews on a 1--5 Likert scale. These metrics, spanning document-based, semantic, structural, pseudo-ground truth, and...

ID: 2510.01792v1 cs.CL, cs.AI, cs.IR, H.3.3; I.2.8; I.2.7

arXiv PDF

📄 jina-reranker-v3: Last but Not Late Interaction for Document Reranking

2025-10-02

Авторы:

Feng Wang, Yuqing Li, Han Xiao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

jina-reranker-v3 is a 0.6B parameter multilingual document reranker that introduces a novel last but not late interaction. Unlike late interaction models such as ColBERT that perform separate encoding followed by multi-vector matching, our approach conducts causal self-attention between query and documents within the same context window, enabling rich cross-document interactions before extracting contextual embeddings from the last token of each document. This compact architecture achieves state...

ID: 2509.25085v2 cs.CL, cs.AI, cs.IR, 68T50, I.2.7

arXiv PDF

📄 AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play

2025-10-01

Авторы:

Ran Xu, Yuchen Zhuang, Zihan Dong, Jonathan Wang, Yue Yu, Joyce C. Ho, Linjun Zhang, Haoyu Wang, Wenqi Shi, Carl Yang

## Контекст Поисковые вычисления, интегрированные с ло LLM, широко применяются для решения сложных задач, но сталкиваются с рядом проблем. Неэффективная многошаговая рекомендация и ограниченная возможность рационального мышления приводят к снижению качества решений. Эти проблемы особенно актуальны в области финансового анализа и текстовой обработки. Необходимость повышения эффективности и точности поисковых запросов привела к развитию AceSearcher — рамочного подхода, который объединяет распределённое мышление и поисковые технологии для улучшения процесса получения ответа. ## Метод AceSearcher представляет собой самоиграческую систему, в которой один ЛЛМ выполняет две роли: декомпозитор и решатель. Декомпозитор разбивает запрос на подзадачи, а решатель агрегирует информацию и формирует ответ. Метод основывается на использовании супервизованного дообучения учитывающего разнообразие задач, а также на развитии модели через реинфорсинг оптимизации на основе актёр-критика. Это позволяет избежать требований к интерпретации важности вариантов ответа и ускорить процесс обучения. ## Результаты На тестах трёх разных сфер — финансового анализа, текстового понимания и распределённого мышления — AceSearcher показал свои преимущества. Эксперименты проводились на 10 различных датасетах. Модель опережает современные аналоги: например, на финансовых задачах повысила точность решения до 32%, при этом работая с меньшим числом параметров (до 5% от DeepSeek-V3). Даже при меньших размерах модели (1.5B и 8B параметров) AceSearcher превосходит существующие решения, за счёт высокой эффективности и универсальности. ## Значимость AceSearcher имеет широкие перспективы в различных областях, включая финансовый анализ, предсказание рисков и текстовую обработку. Основные преимущества: эффективность, точность и универсальность. Модель обеспечивает значительное увеличение эффективности по сравнению с предшествующими подходами, что делает её привлекательной для решения сложных задач. Будущие исследования будут сконцентрированы на расширении функционала и упрощении интеграции с другими технологиями. ## Выводы AceSearcher доказала свою эффективность в решении сложных задач, где требуется высокая точность и рациональность. Она предлагает новый подход к проблемам рекомендации и распределённого мышления, повышая производительность и гибкость. Будущие исследования будут сосредоточены на улучшении модели, уменьшении потребления ресурсов и расширении её применение в различных сферах.

Annotation:

Search-augmented LLMs often struggle with complex reasoning tasks due to ineffective multi-hop retrieval and limited reasoning ability. We propose AceSearcher, a cooperative self-play framework that trains a single large language model (LLM) to alternate between two roles: a decomposer that breaks down complex queries and a solver that integrates retrieved contexts for answer generation. AceSearcher couples supervised fine-tuning on a diverse mixture of search, reasoning, and decomposition tasks...

ID: 2509.24193v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 Scaling Generalist Data-Analytic Agents

2025-10-01

Авторы:

Shuofei Qiao, Yanqiu Zhao, Zhisong Qiu, Xiaobin Wang, Jintian Zhang, Zhao Bin, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen

## Контекст Модели генеративного искусственного интеллекта (AI) приобрели важное значение в сфере автоматизированного научного исследования. Однако существуют значительные проблемы, связанные с нехваткой качественных данных, неэффективной архитектурой обучения и нестабильностью многошаговых процессов модели. В этой области проблематично создание общих моделей, которые могут справляться с проблемами разнообразных форматов данных и многоступенчатым логическим анализом. Целью настоящего исследования является разработка нового подхода к построению сильных общих агентов способных эффективно работать с данными и решать задачи анализа. ## Метод Для решения приведенных выше задач предложен алгоритм DataMind. Он включает в себя несколько ключевых компонентов: 1) Таксономия задач с тонкой гранулярностью, которая увеличивает сложность и разнообразие синтезированных запросов. 2) Траектории познания, в которых применяются методы моделирования и правил для фильтрации результатов. 3) Динамический объектив обучения, объединяющий тренировочные потери с подкреплением и моделью работы с текстом. 4) Архитектура многошагового мульти-роллаута, оптимизированная с точки зрения производительности памяти и стабильности. Такие технические решения позволяют справляться с недостатками существующих систем. ## Результаты Проводились эксперименты с использованием DataMind-12K, набора траекторий, покрывающий разные домены, задачи и форматы данных. Модель DataMind-14B показала средний балл 71.16% на нескольких бенчмарках анализа данных, превосходя DeepSeek-V3.1 и GPT-5. Модель DataMind-7B также показала лидирующие результаты среди открытых моделей с баллом 68.10%. Эти результаты подтверждают эффективность предложенного подхода в сравнении с конкурирующими моделями. ## Значимость Предложенный подход имеет широкие применения в области автоматизированного научного изучения, анализа данных и прогнозирования. Особые преимущества заключаются в его открытости и надежности, что открывает возможности для использования в различных промышленных и научных сферах. В будущем планируется расширение наборов данных и моделей для повышения совместимости и качества решения задач. ## Выводы Результаты данного исследования указывают на существенный прогресс в области систем генеративного искусственного интеллекта. Однако в будущем необходимо продолжить исследования в сторону улучшения моделей для еще более сильного повышения производительности и универсальности.

Annotation:

Data-analytic agents are emerging as a key catalyst for automated scientific discovery and for the vision of Innovating AI. Current approaches, however, rely heavily on prompt engineering over proprietary models, while open-source models struggle to face diverse-format, large-scale data files and long-horizon, multi-step reasoning that real-world analytics demands. This paper introduces DataMind, a scalable data synthesis and agent training recipe designed to build generalist data-analytic agent...

ID: 2509.25084v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 jina-reranker-v3: Last but Not Late Interaction for Document Reranking

2025-10-01

Авторы:

Feng Wang, Yuqing Li, Han Xiao

#### Контекст Исследование сосредоточено на развитии модели reranker-v3 для релевантного рейтинга документов в многоязычной среде. Существующие модели, такие как ColBERT, используют последовательные операции: предварительное кодирование документов и затем вычисление взаимодействий с помощью многовекторного поиска. Однако такой подход может быть неэффективен в ситуациях, когда необходимо учитывать взаимодействия между документами в реальном времени. Наша модель jina-reranker-v3 предлагает более эффективное графическое решение, используя самовыделяющееся внимание внутри контекстной группы документов, что позволяет проводить раннюю интерактивную обработку документов и объединять их контексты до получения контекстных векторов. #### Метод Модель jina-reranker-v3 основывается на самовыделяющемся внимании с трансформерами, которое работает в ограниченной контекстной группе документов. Основная идея заключается в том, чтобы взаимодействовать с каждым документом внутри этой группы, используя казуальное само-внимание, которое позволяет оценивать взаимосвязи между документами в течение одного прохода. Этот подход позволяет объединять контексты документов раньше, чем это делают многие другие модели. Затем для каждого документа извлекается контекстное представление из последнего токена. Эта модель имеет небольшой размер, но показывает высокую эффективность в задаче рейтинга документов. #### Результаты Мы провели эксперименты с популярным набором данных BEIR, чтобы оценить эффективность модели. jina-reranker-v3 показала state-of-the-art результаты с nDCG@10 = 61.94. Это продемонстрировано на основе многоязычных запросов, где наша модель существенно превосходит существующие модели. Кроме того, мы сравнили размер модели и увидели, что jina-reranker-v3 гораздо меньше, чем другие generative listwise rerankers, но при этом показывает почти такие же результаты. Это преимущество обусловлено своей компактной архитектурой. #### Значимость Модель jina-reranker-v3 может использоваться в различных областях, где необходимо выполнять быстрое и точное рейтинговое внимание к документам. Например, в поисковых системах, рекомендательных системах, или в любой ситуации, где релевантность документов к запросу критическа. Одно из основных преимуществ этой модели — это ее высокая эффективность и компактность, что делает ее привлекательной для распределенных систем и для использования на устройствах с ограниченными ресурсами. #### Выводы Модель jina-reranker-v3 достигла новых рекордов в рейтинговом внимании между документами, показав высокую эффективность и компактность. Такой подход может стать полезны

Annotation:

ID: 2509.25085v1 cs.CL, cs.AI, cs.IR, 68T50, I.2.7

arXiv PDF

📄 Towards Personalized Deep Research: Benchmarks and Evaluations

2025-10-01

Авторы:

Yuan Liang, Jiaxian Li, Yuqing Wang, Piaohong Wang, Motong Tian, Pai Liu, Shuofei Qiao, Runnan Fang, He Zhu, Ge Zhang, Minghao Liu, Yuchen Eleanor Jiang, Ningyu Zhang, Wangchunshu Zhou

## Контекст Современные Deep Research Agents (DRAs) могут выполнять сложные расследования и формировать подробные отчеты, демонстрируя высокий потенциал в реальных условиях. Однако, существующие оценочные подходы ограничиваются замкнутыми бенчмарками, не учитывая открытые, открытые тесты, не уделяя внимания личности пользователя. Это снижает реальность этих оценок и не позволяет оценить полную силу DRAs в персонализированных сценариях. Исследователи предлагают новый подход, разработав Personalized Deep Research Bench, первый бенчмарк, оценивающий возможность персонализации DRAs. Он сочетает 50 разных расследований из 10 различных областей с 25 реальными профилями пользователей, включающими как структурированные атрибуты, так и динамические контексты, что приводит к 250 реальным запросам пользователей. ## Метод Для оценки систем был разработан PQR Evaluation Framework, который оценивает три ключевых аспекта: (P) Personalization Alignment, (Q) Content Quality и (R) Factual Reliability. Personalization Alignment оценивает долю личности пользователя в процессе расследования, Content Quality оценивает качество информации, а Factual Reliability — точность и достоверность фактических данных. Этот фреймворк позволяет эффективно оценивать системы на различных уровнях сложности, учитывая требования к персонализации и качеству результатов. Использование этого подхода позволяет более точно определить сильные и слабые стороны существующих DRAs. ## Результаты В ходе экспериментов были оценены несколько систем DRAs на базе Personalized Deep Research Bench. Результаты показали, что ни одна из систем не достигла идеального соотношения всех трех аспектов. Наилучшие результаты были получены в плане Content Quality, но существуют существенные проблемы в Personalization Alignment и Factual Reliability. Например, некоторые системы способны хорошо адаптироваться к личным предпочтениям, но страдают от неточностей в фактических данных. Эти результаты подтверждают, что есть большой потенциал для улучшения личности DRAs, особенно в сценариях с большим количеством динамических контекстов. ## Значимость Разработанный подход и бенчмарк имеют широкие применения в области развития персонализированных AI-решений. Они могут быть использованы для создания пользовательских AI-помощников, которые будут учитывать индивидуальные потребности и контексты. Это может привести к улучшению качества сервисов в области информационного поиска, медицины, юриспруденции и других областях, где нужно учитывать личные особенности. В будущем это может привести к развитию новых, более гибких и эффективных AI-систем, улучшающих качество жизни пользователей. ## Выводы Основной достижением является создание первого бенчмарка для оценки персонализации в DR

Annotation:

Deep Research Agents (DRAs) can autonomously conduct complex investigations and generate comprehensive reports, demonstrating strong real-world potential. However, existing evaluations mostly rely on close-ended benchmarks, while open-ended deep research benchmarks remain scarce and typically neglect personalized scenarios. To bridge this gap, we introduce Personalized Deep Research Bench, the first benchmark for evaluating personalization in DRAs. It pairs 50 diverse research tasks across 10 do...

ID: 2509.25106v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Retrieval-Augmented Guardrails for AI-Drafted Patient-Portal Messages: Error Taxonomy Construction and Large-Scale Evaluation

2025-09-30

Авторы:

Wenyuan Chen, Fateme Nateghi Haredasht, Kameron C. Black, Francois Grolleau, Emily Alsentzer, Jonathan H. Chen, Stephen P. Ma

#### Контекст Ласкаво просимо до статті "Retrieval-Augmented Guardrails for AI-Drafted Patient-Portal Messages: Error Taxonomy Construction and Large-Scale Evaluation". У статті висвітлюються проблеми, пов’язані зі зростанням клінічного навантаження повідомлень асинхронного зв'язку між пацієнтами і клінічними працівниками через електронні реєстри хворих (EHR). До того ж, висвітлюються можливості ларж-скейл лернинг моделей (LLMs) для створення змістового і коректного клінічного змісту. Незважаючи на те, що ці моделі допомагають у формуванні відповідей, вони можуть містити клінічні неточності, помилки представлення фактів або неправильні тоні. Це вимагає розробки ефективних методів евалюції, щоб забезпечити безпеку й точність вихідних повідомлень. Наша модель розвивається на тлі цієї інтересуючої теми. #### Метод Методологія статті базується на **retrieval-augmented evaluation pipeline (RAEC)**. Цей метод використовує семантично схожі архівні пари повідомлень і відповідей для покращення якості оцінювання. За допомогою цього підходу модель виконує двіціфазну оцінку. Перший етап включає використання моделі DSPy для здійснення детальної експертної лінгвістичної оцінки. У другому етапі використовується кластерність знань з інституційних архівів, щоб покращити достовірність оцінки. Ця методологія призначена для шукання та оцінки помилок в клінічному змісті, тоні та коректності формування повідомлень. Архітектура роботи розроблена з баченням її як інструмент для формування "клінічних охоронних засобів" для зручного і безпечного використання шляхом LLMs. #### Результати У статті представлені результати експериментів з понад 1500 пацієнтських повідомлень. Результати показують, що контекстне відстежування з інституційних архівів значно покращує якість оцінювання. За допомогою DSPy-підходу виявлено, що у таких клінічних домінах, як достовірність інформації і роботу процесу, доля помилок знижується. Оцінки, зображені за допомогою двічіфазної підходу, показали кращу точність (F1 = 0.500) у порівнянні з базовим підходом (F1 = 0.256). На 100 випадків людської валідації зроблено виявлення, що контекстне відстежування покращило достовірність оцінки до 50% порівняно з 33% при застосуванні базового підходу. Це демонструє ефективні

Annotation:

Asynchronous patient-clinician messaging via EHR portals is a growing source of clinician workload, prompting interest in large language models (LLMs) to assist with draft responses. However, LLM outputs may contain clinical inaccuracies, omissions, or tone mismatches, making robust evaluation essential. Our contributions are threefold: (1) we introduce a clinically grounded error ontology comprising 5 domains and 59 granular error codes, developed through inductive coding and expert adjudicatio...

ID: 2509.22565v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 SwasthLLM: a Unified Cross-Lingual, Multi-Task, and Meta-Learning Zero-Shot Framework for Medical Diagnosis Using Contrastive Representations

2025-09-26

Авторы:

Ayan Sar, Pranav Singh Puri, Sumit Aich, Tanupriya Choudhury, Abhijit Kumar

#### Контекст Modern healthcare средах требуют эффективных систем для автоматического диагностирования заболеваний из клинического текста. Эта задача становится особенно сложной в многоязычных средах, где есть недостаточность аннотированных медицинских данных, особенно в low-resource языках, и высокая языковая разнообразия. Эти факторы сильно влияют на качество автоматизированных диагностических систем. Для устранения этих проблем, предлагается разработать SwasthLLM – модель, которая может эффективно работать в cross-lingual средах, способная обучаться в zero-shot режиме и выполнять multi-task задачи без нужды в языкопредварительной настройке. #### Метод SwasthLLM основывается на multilingual XLM-RoBERTa encoder, который включает в себя attention механизм для захвата языковых особенностей. Для обеспечения alignment семантических представлений в разных языках, введен Siamese contrastive learning module, который гарантирует, что семантически эквивалентные медицинские тексты в разных языках будут иметь похожие embeddings. Для улучшения language-invariant representation, используется contrastive projection head. Модель обучается с помощью multi-task learning, включающего в себя задачи disease classification, translation alignment и contrastive learning. Более того, Model-Agnostic Meta-Learning (MAML) применяется для улучшения rapid adaptation capabilities, что позволяет модели быстро адаптироваться к незнакомым языкам или задачам с минимальными данными. #### Результаты Extensive evaluation показывает, что SwasthLLM демонстрирует высокую performance в диагностических задачах. В supervised settings, test accuracy составляет 97.22%, а F1-score – 97.17%. В zero-shot сценариях, SwasthLLM достигает 92.78% accuracy на Hindi и 73.33% на Bengali, что демонстрирует сильную generalization в low-resource языках. Это важно, так как модель не только высоко эффективна в supervised режиме, но и способна выполнять задачи в zero-shot сценариях, что может быть крайне полезно для диагностики в регионах, где нет доступа к аннотированным данным. #### Значимость SwasthLLM может быть применен в различных медицинских средах, где требуется автоматизированное диагностирование заболеваний из текста, особенно в low-resource средах. Основной преимуществом является значительное уменьшение нужды в language-specific fine-tuning. Это позволяет модели быть примененной в разных языковых контекстах без каких-либо дополнительных настроек. Такой подход может сильно повлиять на область медицинского NLP, делая диагностику доступней и эффективней в различных медицинских системах. #### Выводы SwasthLLM показывает сильный потенциал в cross-lingual медицинской диагностике, используя zero-shot и multi-task learning подходы. Основными достижениями являются высокое diagnostic accuracy и generalization в low-resource языках, таких как Hindi и Bengali. Будущие исследования будут сфокусированы на улучшении модели для более широкого набора языков и расширении её возможностей для други

Annotation:

In multilingual healthcare environments, automatic disease diagnosis from clinical text remains a challenging task due to the scarcity of annotated medical data in low-resource languages and the linguistic variability across populations. This paper proposes SwasthLLM, a unified, zero-shot, cross-lingual, and multi-task learning framework for medical diagnosis that operates effectively across English, Hindi, and Bengali without requiring language-specific fine-tuning. At its core, SwasthLLM lever...

ID: 2509.20567v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Dynamic Reasoning Chains through Depth-Specialized Mixture-of-Experts in Transformer Architectures

2025-09-26

Авторы:

Sampurna Roy, Ayan Sar, Anurag Kaushish, Kanav Gupta, Tanupriya Choudhury, Abhijit Kumar

## Контекст В современных transformer-архитектурах существует проблема одинакового обработки всех входных данных одинаковой глубиной. Это приводит к неэффективности и ограниченной качеством рассуждений. Например, простые фактические запросы обрабатываются с тем же количеством слоев, что и сложные логические проблемы, что тратит ресурсы и сужает возможности для глубокого рассуждения. Этот недостаток особенно заметен при многошаговых рассуждениях, где традиционные модели часто сталкиваются с ограничениями в скорости и качестве обработки. Мы предлагаем новую модель, основанную на концепции **Dynamic Reasoning Chains** (Динамические цепи рассуждений), которая расширяет парадигму **Mixture of Experts (Микса экспертов)** с ширины вычислений к модульному depth-специализированному подходу. ## Метод Мы представляем **Depth-Specialised Mixture-of-Experts (DS-MoE)** — модель, которая расширяет парадигму Mixture of Experts, добавив модульную структуру, оптимизированную для различных уровней глубины рассуждений. Модель состоит из экспертных модулей, каждый из которых оптимизирован для конкретной глубины рассуждения, включая: - **Shallow pattern recognition** (Распознавание простых узких участков) - **Compositional reasoning** (Композиционное рассуждение) - **Logical inference** (Логическое выводение) - **Memory integration** (Интеграция памяти) - **Meta-cognitive supervision** (Мета-регулирование) Ключевым элементом является **learned routing network** (сеть управления), которая анализирует входную сложность и динамически активирует только необходимые эксперты, чтобы соответствовать требованиям входных данных. Мы использовали датасет **The Pile**, состоящий из 800 Гб данных различных доменов (научные статьи, правовые документы, программный код, веб-контент), для систематической оценки модели на различных уровнях глубины рассуждения. ## Результаты Мы проводили подробные эксперименты, сравнивая DS-MoE с традиционными uniform-depth transformer-архитектурами. Наши результаты показали, что DS-MoE обеспечивает: - **Экономию ресурсов** — до 16% в вычислительных затратах - **Ускорение** — до 35% быстрее в процессе обработки - **Повышение точности** — до 2.8% на многошаговых задачах рассуждения Эти результаты доказывают, что depth-специализированная модульная структура позволяет не только экономить ресурсы, но и улучшать качество рассуждений, в то же время обеспечивая более транспарентную интерпретацию результатов. ## Значимость Мы видим применение DS-MoE в области **large-scale language models**, где требуется эффективность и качество рассуждений. Модель может быть применена в следующих областях: - **Scientific reasoning** (Рассуждения в научных сферах) - **Legal text analysis** (Ана

Annotation:

Contemporary transformer architectures apply identical processing depth to all inputs, creating inefficiencies and limiting reasoning quality. Simple factual queries are subjected to the same multilayered computation as complex logical problems, wasting resources while constraining deep inference. To overcome this, we came up with a concept of Dynamic Reasoning Chains through Depth Specialised Mixture of Experts (DS-MoE), a modular framework that extends the Mixture of Experts paradigm from widt...

ID: 2509.20577v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Hierarchical Resolution Transformers: A Wavelet-Inspired Architecture for Multi-Scale Language Understanding

2025-09-26

Авторы:

Ayan Sar, Sampurna Roy, Kanav Gupta, Anurag Kaushish, Tanupriya Choudhury, Abhijit Kumar

## Контекст Трансформеры (Transformers) являются де-факто стандартом для решения задач обработки естественного языка, однако они неэффективно обрабатывают структуру языка, требуя квадратичного комплексности в зависимости от длины последовательности входных данных. Эта проблема становится еще более актуальной при работе с длинными текстами и дискурсами. Традиционные модели также слабо подстраиваются под целевые языковые задачи, такие как дискурс-уровень моделирования, и недостаточно эффективны в вычислительных ресурсах. Мы предлагаем новую архитектуру Hierarchical Resolution Transformer (HRT), которая адаптируется к естественному языку за счет многоуровневого представления текста и включает в себя элементы волновой теории. Это решение предназначено для улучшения моделирования языка на многих уровнях абстракции, от знаков до дискурсных единиц, с целью улучшения точности и снижения вычислительных затрат. ## Метод HRT использует многоуровневую структуру, вдохновленную волновыми теориями, для обработки текста на разных резолюциях, от морфем до дискурсных единиц. Архитектура включает в себя механизмы внешней и внутренней активации, которые обеспечивают эффективную обработку последовательностей на разных уровнях. Мы вводим новый механизм "субдискретного привязывания" (sub-discrete attention), который позволяет модели обрабатывать текст в экспоненциальном природе, а также "экспоненциального сжатия последовательностей" (exponential sequence reduction), чтобы уменьшить количество элементов входа в модель. Эти функциональности позволяют HRT эффективно обрабатывать длинные тексты с меньшим количеством вычислительных ресурсов, при этом сохраняя высокую точность. ## Результаты Мы проверили HRT на нескольких б BENCHMARKS, включая GLUE, SuperGLUE, Long Range Arena и WikiText-103. Наши результаты показывают, что HRT существенно превосходит традиционные модели Transformer по метрикам F1-score и accuracy. В частности, HRT показал +3.8% улучшение на GLUE, +4.5% на SuperGLUE, и +6.1% на Long Range Arena. К тому же, HRT эффективнее стандартных моделей по памяти и затратам времени, на 42% уменьшив память и 37% уменьшив latency на инференсе. Ablation studies показали, что как субдискретное привязывание, так и экспоненциальное сжатие вкладываются в оптимизацию как точности, так и эффективности. ## Значимость HRT может быть применена в различных областях, включая дискурс-уровень моделирования, диалоговые системы, анализ длинных текстов, а также задачи машинного перевода. Его преимущества заключаются в наибольшей точности, эффективности ресурсов и эффективном моделировании дискурса. Эта модель может стать новой с

Annotation:

Transformer architectures have achieved state-of-the-art performance across natural language tasks, yet they fundamentally misrepresent the hierarchical nature of human language by processing text as flat token sequences. This results in quadratic computational cost, weak computational cost, weak compositional generalization, and inadequate discourse-level modeling. We propose Hierarchical Resolution Transformer (HRT), a novel wavelet-inspired neural architecture that processes language simultan...

ID: 2509.20581v1 cs.CL, cs.AI, cs.IR

arXiv PDF

Показано 41 - 50 из 78 записей