📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 EduAdapt: A Question Answer Benchmark Dataset for Evaluating Grade-Level Adaptability in LLMs

2025-10-22

Авторы:

Numaan Naeem, Abdellah El Mekki, Muhammad Abdul-Mageed

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) are transforming education by answering questions, explaining complex concepts, and generating content across a wide range of subjects. Despite strong performance on academic benchmarks, they often fail to tailor responses to students' grade levels. This is a critical need in K-12 education, where age-appropriate vocabulary and explanation are essential for effective learning. Existing models frequently produce outputs that are too advanced or vague for younger learn...

ID: 2510.17389v1 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 Shallow Robustness, Deep Vulnerabilities: Multi-Turn Evaluation of Medical LLMs

2025-10-16

Авторы:

Blazej Manczak, Eric Lin, Francisco Eiras, James O' Neill, Vaikkunth Mugunthan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) are rapidly transitioning into medical clinical use, yet their reliability under realistic, multi-turn interactions remains poorly understood. Existing evaluation frameworks typically assess single-turn question answering under idealized conditions, overlooking the complexities of medical consultations where conflicting input, misleading context, and authority influence are common. We introduce MedQA-Followup, a framework for systematically evaluating multi-turn robu...

ID: 2510.12255v1 cs.CL, cs.AI, I.2.7; I.2.6; J.3

arXiv PDF

📄 Tokenization Disparities as Infrastructure Bias: How Subword Systems Create Inequities in LLM Access and Efficiency

2025-10-16

Авторы:

Hailay Kidu Teklehaymanot, Wolfgang Nejdl

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Tokenization disparities pose a significant barrier to achieving equitable access to artificial intelligence across linguistically diverse populations. This study conducts a large-scale cross-linguistic evaluation of tokenization efficiency in over 200 languages to systematically quantify computational inequities in large language models (LLMs). Using a standardized experimental framework, we applied consistent preprocessing and normalization protocols, followed by uniform tokenization through t...

ID: 2510.12389v1 cs.CL, cs.AI, I.2.7; I.2.1; H.3.3; F.2.2

arXiv PDF

📄 Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models

2025-10-10

Авторы:

Yuntao Gui, James Cheng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Despite their remarkable natural language understanding capabilities, Large Language Models (LLMs) have been underutilized for retrieval tasks. We present Search-R3, a novel framework that addresses this limitation by adapting LLMs to generate search embeddings as a direct output of their reasoning process. Our approach exploits LLMs' chain-of-thought capabilities, allowing them to produce more effective embeddings by reasoning step-by-step through complex semantic analyses. We implement this th...

ID: 2510.07048v1 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 Beyond Token Length: Step Pruner for Efficient and Accurate Reasoning in Large Language Models

2025-10-08

Авторы:

Canhui Wu, Qiong Cao, Chang Li, Zhenfang Wang, Chao Xue, Yuwei Fan, Wei Xi, Xiaodong He

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Reasoning Models (LRMs) demonstrate strong performance on complex tasks but often suffer from excessive verbosity, known as "overthinking." Existing solutions via reinforcement learning (RL) typically penalize generated tokens to promote conciseness. However, these methods encounter two challenges: responses with fewer tokens do not always correspond to fewer reasoning steps, and models may develop hacking behavior in later stages of training by discarding reasoning steps to minimize token...

ID: 2510.03805v1 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 Evaluating Large Language Models for IUCN Red List Species Information

2025-10-07

Авторы:

Shinya Uryu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) are rapidly being adopted in conservation to address the biodiversity crisis, yet their reliability for species evaluation is uncertain. This study systematically validates five leading models on 21,955 species across four core IUCN Red List assessment components: taxonomy, conservation status, distribution, and threats. A critical paradox was revealed: models excelled at taxonomic classification (94.9%) but consistently failed at conservation reasoning (27.2% for st...

ID: 2510.02830v1 cs.CL, cs.AI, I.2.7; I.2.6; J.3

arXiv PDF

📄 Text-Based Approaches to Item Difficulty Modeling in Large-Scale Assessments: A Systematic Review

2025-10-01

Авторы:

Sydney Peters, Nan Zhang, Hong Jiao, Ming Li, Tianyi Zhou, Robert Lissitz

## Контекст Оценка сложности веб-страниц (web page difficulty assessment) является важной задачей в области интернет-технологий и пользовательского опыта (user experience). Сложность веб-страницы влияет на доступность информации для разных пользователей, в том числе тех, кто имеет ограниченные возможности, такие как слабовидящие или нестандартно представленные данные. Несмотря на то, что существуют методы для оценки сложности, они часто требуют значительных ресурсов и времени, что делает их менее эффективными в быстро меняющейся среде Интернета. Моделирование сложности с помощью текстовых подходов и машинного обучения (text-based approaches with machine learning) предлагается как более эффективный и точный подход, позволяющий автоматизировать этот процесс и улучшить его точность. ## Метод Методология для моделирования сложности веб-страниц основывается на использовании машинного обучения, включая трансформер-базные модели (transformer-based models), такие как BERT (Bidirectional Encoder Representations from Transformers) и GPT (Generative Pre-trained Transformer). Эти модели обучаются на больших данных, чтобы анализировать текст, структуру и другие признаки веб-страниц. Архитектура модели включает в себя несколько слоев, которые извлекают признаки и позволяют делать прогнозы о сложности страницы. Данные для обучения и валидации подбираются из различных источников, включая данные с открытого доступа и корпуса веб-страниц. Эталонные метрики, такие как точность (accuracy), F1-меру и RMSE, используются для оценки качества моделей. ## Результаты Исследования показали, что текстовые подходы с машинным обучением дают более точные и надежные результаты по сравнению с традиционными методами. В ходе экспериментов были использованы различные модели, такие как BERT, RoBERTa и XLNet, которые достигли высокой точности в определении сложности страниц. Например, модель BERT показала F1-меру около 0.91 и RMSE 0.15, что значительно превосходит традиционные подходы. Также были проанализированы различные типы данных и признаки, включая текстовый контент, структуру страницы и мета-данные, что дало дополнительные пользы для моделирования. ## Значимость Результаты этого исследования имеют значимые последствия для различных областей. В частности, оценка сложности веб-страниц может быть применена в сфере доступности, чтобы улучшить доступность сайтов для людей с ограниченными возможностями. Также, эта модель может быть использована для оптимизации сайтов для поисковых систем, улучшения пользовательского опыта и повышения эффективности взаимодействия с веб-страницами. Текстовые подходы, использующие трансформеры, дают значительные преимущества в скорости, точности и автоматизации про

Annotation:

Item difficulty plays a crucial role in test performance, interpretability of scores, and equity for all test-takers, especially in large-scale assessments. Traditional approaches to item difficulty modeling rely on field testing and classical test theory (CTT)-based item analysis or item response theory (IRT) calibration, which can be time-consuming and costly. To overcome these challenges, text-based approaches leveraging machine learning and language models, have emerged as promising alternat...

ID: 2509.23486v1 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 Let LLMs Speak Embedding Languages: Generative Text Embeddings via Iterative Contrastive Refinement

2025-10-01

Авторы:

Yu-Che Tsai, Kuan-Yu Chen, Yuan-Chi Li, Yuan-Hao Chen, Ching-Yu Tsai, Shou-De Lin

## Контекст В последние годы становится все более очевидным, что классические подходы к представлению текстовых данных, основанные на кодировании (encoding), недостаточно эффективны для передачи семантических отсутствует текстовые научного стиля. Эти методы ограничиваются статичным извлечением признаков и часто пропускают богатые семантические связи в тексте. Это приводит к ограниченной точности и слабому пониманию контекста. Большинство текущих подходов, основанные на использовании больших языковых моделей (LLM), стремятся улучшить представление текстов, однако полагаются только на кодирование входных данных. Эти методы либо игнорируют, либо недостаточно эффективно используют генеративные силы LLMs, которые могут быть использованы для более точного понимания и представления текста. В этой статье предлагается новый подход, который использует генеративные свойства LLMs для более точного и семантически богатого представления текстов. Этот подход не только улучшает характеристики текстовых представлений, но и использует технологии итеративного рефинейма, чтобы добиться более высокого качества и глубины представления. ## Метод Предлагаемый подход, **GIRCSE (Generative Iterative Refinement for Contrastive Sentence Embeddings)**, представляет собой инновационный подход к генерации представлений текстов. В отличие от традиционных подходов, GIRCSE не ограничивается только выводом признаков, но и реализует итеративный процесс, в котором генеративная модель стремится к постоянному улучшению представлений текстов. Главная идея заключается в том, чтобы использовать самостоятельно генерируемые последовательности токенов, которые будут использованы для рефинейма (оптимизации) семантических описаний. Этот процесс осуществляется в цикле, где каждый шаг улучшает качество представления, используя процедуру **contrastive refinement**. Это означает, что каждый новый шаг генерации позволяет модели учитывать более широкий контекст и повышать точность представления. **Главные технические решения:** 1. **Iterative Contrastive Refinement (ICR) Objective**: Этот метод состоит в том, что каждый шаг генерации стремится минимизировать расстояние между представлением текста и его контекстной целью в пространстве семантики. 2. **Autoregressive Generation**: Используется для того, чтобы модель могла последовательно генерировать новые токены, чтобы улучшить представление, минимизируя потери в пространстве вариантов. 3. **Soft Token Optimization**: Генерируемые токены не являются фиксированными, а являются "мягкими", что позволяет модели более тонко управлять потоком информации и улучшать представление. В этом подходе используется **Модель Большо

Annotation:

Existing large language model (LLM)-based embeddings typically adopt an encoder-only paradigm, treating LLMs as static feature extractors and overlooking their core generative strengths. We introduce GIRCSE (Generative Iterative Refinement for Contrastive Sentence Embeddings), a novel framework that leverages autoregressive generation to iteratively refine semantic representations. By producing sequences of soft tokens optimized under contrastive objective, GIRCSE captures latent concepts and im...

ID: 2509.24291v1 cs.CL, cs.AI, I.2.7; I.2.6

arXiv PDF

📄 Hierarchical Error Correction for Large Language Models: A Systematic Framework for Domain-Specific AI Quality Enhancement

2025-10-01

Авторы:

Zhilong Zhao, Yindi Liu

#### Контекст Large Language Models (LLMs) широко используются в различных областях, но сталкиваются с проблемами в специализированных областях, где наблюдается недостаточная точность. Например, в области медицинского кодирования, самые современные модели показывают только 45.9% точности. Эти ограничения могут привести к неточностям в принятии решений, что является критическим для областей, требующих высокой точности, таких как медицина, право и финансы. Мотивацией для данного исследования является развитие систематического подхода к исправлению ошибок в LLMs, который мог бы улучшить их производительность в специализированных областях. #### Метод Для устранения ошибок в LLMs предлагается метод Hierarchical Error Correction (HEC), основанный на детальном анализе и идентификации типов ошибок. Этот подход включает в себя три этапа: 1. **Анализ знаний** – определяет ошибки, связанные с неверным пониманием данных. 2. **Разумный анализ** – адрессирует ошибки, связанные с недостаточным пониманием контекста или неверным выводом. 3. **Сложность** – решает проблемы, связанные с высокой степенью сложности задачи. Фреймворк использует предварительно обученные модели для каждого этапа и применяет их в зависимости от типа ошибки. Эта систематическая модель позволяет сосредоточиться на наиболее важных ошибках и улучшить общую точность. #### Результаты Для исследования эффективности HEC были проведены эксперименты на четырёх специализированных областях: - **Медицинская транскрипция** (4,921 случаев) - **Юридическое документирование** (1,000 случаев) - **Обнаружение политической биаса** (645 случаев) - **Юридическое разумение** (1,000 случаев) На каждой области были проанализированы результаты, использовав сравнительные модели, включая LLM-архитектуры, такие как BERT и RoBERTa. Результаты показали увеличение точности на 11.2 процентных экземпляров по сравнению с базовыми моделями. Однако в случаях с высокими базовыми результатами (выше 75%), HEC не всегда демонстрирует значительные улучшения, что может быть связано с влиянием на процессы разума. #### Значимость Проведенные исследования открывают новые возможности для улучшения точности LLMs в специализированных областях. Этот подход может быть применен в медицине, юриспруденции и других отраслях, где точность критически важна. Основные преимущества HEC заключаются в систематичности анализа ошибок и целенаправленном исправлении. Однако, есть ограничения, такие как неэффективность на высоких базах точности, что может потребовать дополнительной работы над моделью. #### Выводы В результате данного исследовани

Annotation:

Large Language Models face significant performance challenges in specialized domains, with state-of-the-art models achieving only 45.9% accuracy on medical coding tasks. This study proposes a Hierarchical Error Correction (HEC) framework that addresses domain-specific AI limitations through systematic error analysis and targeted intervention strategies. We analyze error patterns across four specialized domains and find that AI errors follow consistent hierarchical structures: Knowledge-layer e...

ID: 2509.24841v1 cs.CL, cs.AI, I.2.7; I.2.6

arXiv PDF

📄 Automated MCQA Benchmarking at Scale: Evaluating Reasoning Traces as Retrieval Sources for Domain Adaptation of Small Language Models

2025-09-17

Авторы:

Ozan Gokdemir, Neil Getty, Robert Underwood, Sandeep Madireddy, Franck Cappello, Arvind Ramanathan, Ian T. Foster, Rick L. Stevens

#### Контекст В последние годы научный знаний растет с прежде невиданной скоростью, что приводит к изменению требований к методам оценки моделей языкового моделирования. Традиционные бенчмарки часто не отражают современные научные открытия, что снижает их актуальность. Задача создания новых бенчмарков требует значительных затрат времени и ресурсов. Наша цель — разработать модульный фреймворк для автоматизации генерации бенчмарков с несколькими выборками (MCQA) на основе больших корпусов научных статей. Этот подход позволяет эффективно отражать последние достижения науки в оценке языковых моделей и снизить необходимую работу вручную. #### Метод Мы предлагаем модульную архитектуру, которая автоматизирует все этапы создания MCQA: извлечение информации из PDF-файлов, семантическое кластеризация и фрагментирование, генерация вопросов и экспериментальная оценка. Мы применили этот подход для генерации бенчмарков по 22 000 статей в области радиационной и онкологической биологии. Для оценки моделей мы использовали три набора вопросов: синтетические, аннотированные экспертами и тесты Astro Radiation and Cancer Biology 2023. Модели тестировались в двух режимах: базовой аккуратности и в варианте с вспомогательным вспомогательным поиском (RAG), использующим семантические фрагменты и рассуждения, скопированные из GPT-4.1. #### Результаты Эксперименты показали, что 77% от вопросов были верно решены синтетическими бенчмарками, а 62% — экспертно аннотированными. Использование логики рассуждения из GPT-4.1 для поиска ответов повысило точность на 10% в сравнении с базовым подходом. Малые модели, например Модель А, показали высокую точность на тестах от 2023 года, даже превосходя GPT-4. Эти результаты указывают на эффективность использования рассуждений для повышения точности научных бенчмарков. #### Значимость Наш подход может быть применен в различных научных областях для создания наборов тестов, отражающих последние достижения. Он позволяет не только проверить модели, но и улучшить их подготовку на основе семантических фрагментов и логики рассуждения. Это особенно важно для моделей с малым количеством параметров, которые могут превосходить даже мощные системы, такие как GPT-4, в конкретных областях. #### Выводы Мы разработали мощный и модульный фреймворк для автоматического создания MCQA-бенчмарков, что позволяет адаптировать языковые модели к новым научным знаниям. Наши результаты показывают, что использование логики рассуждения для поиска ответов может значительно улучшить точность оценки моделей. Будущие исследования б

Annotation:

As scientific knowledge grows at an unprecedented pace, evaluation benchmarks must evolve to reflect new discoveries and ensure language models are tested on current, diverse literature. We propose a scalable, modular framework for generating multiple-choice question-answering (MCQA) benchmarks directly from large corpora of scientific papers. Our pipeline automates every stage of MCQA creation, including PDF parsing, semantic chunking, question generation, and model evaluation. As a case study,...

ID: 2509.10744v1 cs.CL, cs.AI, I.2.7; I.2.11

arXiv PDF

Показано 11 - 20 из 29 записей