📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 EduAdapt: A Question Answer Benchmark Dataset for Evaluating Grade-Level Adaptability in LLMs
2025-10-22Авторы:
Numaan Naeem, Abdellah El Mekki, Muhammad Abdul-Mageed
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large language models (LLMs) are transforming education by answering
questions, explaining complex concepts, and generating content across a wide
range of subjects. Despite strong performance on academic benchmarks, they
often fail to tailor responses to students' grade levels. This is a critical
need in K-12 education, where age-appropriate vocabulary and explanation are
essential for effective learning. Existing models frequently produce outputs
that are too advanced or vague for younger learn...
Авторы:
Blazej Manczak, Eric Lin, Francisco Eiras, James O' Neill, Vaikkunth Mugunthan
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large language models (LLMs) are rapidly transitioning into medical clinical
use, yet their reliability under realistic, multi-turn interactions remains
poorly understood. Existing evaluation frameworks typically assess single-turn
question answering under idealized conditions, overlooking the complexities of
medical consultations where conflicting input, misleading context, and
authority influence are common. We introduce MedQA-Followup, a framework for
systematically evaluating multi-turn robu...
Авторы:
Hailay Kidu Teklehaymanot, Wolfgang Nejdl
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Tokenization disparities pose a significant barrier to achieving equitable
access to artificial intelligence across linguistically diverse populations.
This study conducts a large-scale cross-linguistic evaluation of tokenization
efficiency in over 200 languages to systematically quantify computational
inequities in large language models (LLMs). Using a standardized experimental
framework, we applied consistent preprocessing and normalization protocols,
followed by uniform tokenization through t...
Авторы:
Yuntao Gui, James Cheng
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Despite their remarkable natural language understanding capabilities, Large
Language Models (LLMs) have been underutilized for retrieval tasks. We present
Search-R3, a novel framework that addresses this limitation by adapting LLMs to
generate search embeddings as a direct output of their reasoning process. Our
approach exploits LLMs' chain-of-thought capabilities, allowing them to produce
more effective embeddings by reasoning step-by-step through complex semantic
analyses. We implement this th...
📄 Beyond Token Length: Step Pruner for Efficient and Accurate Reasoning in Large Language Models
2025-10-08Авторы:
Canhui Wu, Qiong Cao, Chang Li, Zhenfang Wang, Chao Xue, Yuwei Fan, Wei Xi, Xiaodong He
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large Reasoning Models (LRMs) demonstrate strong performance on complex tasks
but often suffer from excessive verbosity, known as "overthinking." Existing
solutions via reinforcement learning (RL) typically penalize generated tokens
to promote conciseness. However, these methods encounter two challenges:
responses with fewer tokens do not always correspond to fewer reasoning steps,
and models may develop hacking behavior in later stages of training by
discarding reasoning steps to minimize token...
Авторы:
Shinya Uryu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large Language Models (LLMs) are rapidly being adopted in conservation to
address the biodiversity crisis, yet their reliability for species evaluation
is uncertain. This study systematically validates five leading models on 21,955
species across four core IUCN Red List assessment components: taxonomy,
conservation status, distribution, and threats. A critical paradox was
revealed: models excelled at taxonomic classification (94.9%) but consistently
failed at conservation reasoning (27.2% for st...
📄 Text-Based Approaches to Item Difficulty Modeling in Large-Scale Assessments: A Systematic Review
2025-10-01Авторы:
Sydney Peters, Nan Zhang, Hong Jiao, Ming Li, Tianyi Zhou, Robert Lissitz
## Контекст
Оценка сложности веб-страниц (web page difficulty assessment) является важной задачей в области интернет-технологий и пользовательского опыта (user experience). Сложность веб-страницы влияет на доступность информации для разных пользователей, в том числе тех, кто имеет ограниченные возможности, такие как слабовидящие или нестандартно представленные данные. Несмотря на то, что существуют методы для оценки сложности, они часто требуют значительных ресурсов и времени, что делает их менее эффективными в быстро меняющейся среде Интернета. Моделирование сложности с помощью текстовых подходов и машинного обучения (text-based approaches with machine learning) предлагается как более эффективный и точный подход, позволяющий автоматизировать этот процесс и улучшить его точность.
## Метод
Методология для моделирования сложности веб-страниц основывается на использовании машинного обучения, включая трансформер-базные модели (transformer-based models), такие как BERT (Bidirectional Encoder Representations from Transformers) и GPT (Generative Pre-trained Transformer). Эти модели обучаются на больших данных, чтобы анализировать текст, структуру и другие признаки веб-страниц. Архитектура модели включает в себя несколько слоев, которые извлекают признаки и позволяют делать прогнозы о сложности страницы. Данные для обучения и валидации подбираются из различных источников, включая данные с открытого доступа и корпуса веб-страниц. Эталонные метрики, такие как точность (accuracy), F1-меру и RMSE, используются для оценки качества моделей.
## Результаты
Исследования показали, что текстовые подходы с машинным обучением дают более точные и надежные результаты по сравнению с традиционными методами. В ходе экспериментов были использованы различные модели, такие как BERT, RoBERTa и XLNet, которые достигли высокой точности в определении сложности страниц. Например, модель BERT показала F1-меру около 0.91 и RMSE 0.15, что значительно превосходит традиционные подходы. Также были проанализированы различные типы данных и признаки, включая текстовый контент, структуру страницы и мета-данные, что дало дополнительные пользы для моделирования.
## Значимость
Результаты этого исследования имеют значимые последствия для различных областей. В частности, оценка сложности веб-страниц может быть применена в сфере доступности, чтобы улучшить доступность сайтов для людей с ограниченными возможностями. Также, эта модель может быть использована для оптимизации сайтов для поисковых систем, улучшения пользовательского опыта и повышения эффективности взаимодействия с веб-страницами. Текстовые подходы, использующие трансформеры, дают значительные преимущества в скорости, точности и автоматизации про
Annotation:
Item difficulty plays a crucial role in test performance, interpretability of
scores, and equity for all test-takers, especially in large-scale assessments.
Traditional approaches to item difficulty modeling rely on field testing and
classical test theory (CTT)-based item analysis or item response theory (IRT)
calibration, which can be time-consuming and costly. To overcome these
challenges, text-based approaches leveraging machine learning and language
models, have emerged as promising alternat...
Авторы:
Yu-Che Tsai, Kuan-Yu Chen, Yuan-Chi Li, Yuan-Hao Chen, Ching-Yu Tsai, Shou-De Lin
## Контекст
В последние годы становится все более очевидным, что классические подходы к представлению текстовых данных, основанные на кодировании (encoding), недостаточно эффективны для передачи семантических отсутствует текстовые научного стиля. Эти методы ограничиваются статичным извлечением признаков и часто пропускают богатые семантические связи в тексте. Это приводит к ограниченной точности и слабому пониманию контекста.
Большинство текущих подходов, основанные на использовании больших языковых моделей (LLM), стремятся улучшить представление текстов, однако полагаются только на кодирование входных данных. Эти методы либо игнорируют, либо недостаточно эффективно используют генеративные силы LLMs, которые могут быть использованы для более точного понимания и представления текста.
В этой статье предлагается новый подход, который использует генеративные свойства LLMs для более точного и семантически богатого представления текстов. Этот подход не только улучшает характеристики текстовых представлений, но и использует технологии итеративного рефинейма, чтобы добиться более высокого качества и глубины представления.
## Метод
Предлагаемый подход, **GIRCSE (Generative Iterative Refinement for Contrastive Sentence Embeddings)**, представляет собой инновационный подход к генерации представлений текстов. В отличие от традиционных подходов, GIRCSE не ограничивается только выводом признаков, но и реализует итеративный процесс, в котором генеративная модель стремится к постоянному улучшению представлений текстов.
Главная идея заключается в том, чтобы использовать самостоятельно генерируемые последовательности токенов, которые будут использованы для рефинейма (оптимизации) семантических описаний. Этот процесс осуществляется в цикле, где каждый шаг улучшает качество представления, используя процедуру **contrastive refinement**. Это означает, что каждый новый шаг генерации позволяет модели учитывать более широкий контекст и повышать точность представления.
**Главные технические решения:**
1. **Iterative Contrastive Refinement (ICR) Objective**: Этот метод состоит в том, что каждый шаг генерации стремится минимизировать расстояние между представлением текста и его контекстной целью в пространстве семантики.
2. **Autoregressive Generation**: Используется для того, чтобы модель могла последовательно генерировать новые токены, чтобы улучшить представление, минимизируя потери в пространстве вариантов.
3. **Soft Token Optimization**: Генерируемые токены не являются фиксированными, а являются "мягкими", что позволяет модели более тонко управлять потоком информации и улучшать представление.
В этом подходе используется **Модель Большо
Annotation:
Existing large language model (LLM)-based embeddings typically adopt an
encoder-only paradigm, treating LLMs as static feature extractors and
overlooking their core generative strengths. We introduce GIRCSE (Generative
Iterative Refinement for Contrastive Sentence Embeddings), a novel framework
that leverages autoregressive generation to iteratively refine semantic
representations. By producing sequences of soft tokens optimized under
contrastive objective, GIRCSE captures latent concepts and im...
Авторы:
Zhilong Zhao, Yindi Liu
#### Контекст
Large Language Models (LLMs) широко используются в различных областях, но сталкиваются с проблемами в специализированных областях, где наблюдается недостаточная точность. Например, в области медицинского кодирования, самые современные модели показывают только 45.9% точности. Эти ограничения могут привести к неточностям в принятии решений, что является критическим для областей, требующих высокой точности, таких как медицина, право и финансы. Мотивацией для данного исследования является развитие систематического подхода к исправлению ошибок в LLMs, который мог бы улучшить их производительность в специализированных областях.
#### Метод
Для устранения ошибок в LLMs предлагается метод Hierarchical Error Correction (HEC), основанный на детальном анализе и идентификации типов ошибок. Этот подход включает в себя три этапа:
1. **Анализ знаний** – определяет ошибки, связанные с неверным пониманием данных.
2. **Разумный анализ** – адрессирует ошибки, связанные с недостаточным пониманием контекста или неверным выводом.
3. **Сложность** – решает проблемы, связанные с высокой степенью сложности задачи.
Фреймворк использует предварительно обученные модели для каждого этапа и применяет их в зависимости от типа ошибки. Эта систематическая модель позволяет сосредоточиться на наиболее важных ошибках и улучшить общую точность.
#### Результаты
Для исследования эффективности HEC были проведены эксперименты на четырёх специализированных областях:
- **Медицинская транскрипция** (4,921 случаев)
- **Юридическое документирование** (1,000 случаев)
- **Обнаружение политической биаса** (645 случаев)
- **Юридическое разумение** (1,000 случаев)
На каждой области были проанализированы результаты, использовав сравнительные модели, включая LLM-архитектуры, такие как BERT и RoBERTa. Результаты показали увеличение точности на 11.2 процентных экземпляров по сравнению с базовыми моделями. Однако в случаях с высокими базовыми результатами (выше 75%), HEC не всегда демонстрирует значительные улучшения, что может быть связано с влиянием на процессы разума.
#### Значимость
Проведенные исследования открывают новые возможности для улучшения точности LLMs в специализированных областях. Этот подход может быть применен в медицине, юриспруденции и других отраслях, где точность критически важна. Основные преимущества HEC заключаются в систематичности анализа ошибок и целенаправленном исправлении. Однако, есть ограничения, такие как неэффективность на высоких базах точности, что может потребовать дополнительной работы над моделью.
#### Выводы
В результате данного исследовани
Annotation:
Large Language Models face significant performance challenges in specialized
domains, with state-of-the-art models achieving only 45.9% accuracy on medical
coding tasks. This study proposes a Hierarchical Error Correction (HEC)
framework that addresses domain-specific AI limitations through systematic
error analysis and targeted intervention strategies.
We analyze error patterns across four specialized domains and find that AI
errors follow consistent hierarchical structures: Knowledge-layer e...
Авторы:
Ozan Gokdemir, Neil Getty, Robert Underwood, Sandeep Madireddy, Franck Cappello, Arvind Ramanathan, Ian T. Foster, Rick L. Stevens
#### Контекст
В последние годы научный знаний растет с прежде невиданной скоростью, что приводит к изменению требований к методам оценки моделей языкового моделирования. Традиционные бенчмарки часто не отражают современные научные открытия, что снижает их актуальность. Задача создания новых бенчмарков требует значительных затрат времени и ресурсов. Наша цель — разработать модульный фреймворк для автоматизации генерации бенчмарков с несколькими выборками (MCQA) на основе больших корпусов научных статей. Этот подход позволяет эффективно отражать последние достижения науки в оценке языковых моделей и снизить необходимую работу вручную.
#### Метод
Мы предлагаем модульную архитектуру, которая автоматизирует все этапы создания MCQA: извлечение информации из PDF-файлов, семантическое кластеризация и фрагментирование, генерация вопросов и экспериментальная оценка. Мы применили этот подход для генерации бенчмарков по 22 000 статей в области радиационной и онкологической биологии. Для оценки моделей мы использовали три набора вопросов: синтетические, аннотированные экспертами и тесты Astro Radiation and Cancer Biology 2023. Модели тестировались в двух режимах: базовой аккуратности и в варианте с вспомогательным вспомогательным поиском (RAG), использующим семантические фрагменты и рассуждения, скопированные из GPT-4.1.
#### Результаты
Эксперименты показали, что 77% от вопросов были верно решены синтетическими бенчмарками, а 62% — экспертно аннотированными. Использование логики рассуждения из GPT-4.1 для поиска ответов повысило точность на 10% в сравнении с базовым подходом. Малые модели, например Модель А, показали высокую точность на тестах от 2023 года, даже превосходя GPT-4. Эти результаты указывают на эффективность использования рассуждений для повышения точности научных бенчмарков.
#### Значимость
Наш подход может быть применен в различных научных областях для создания наборов тестов, отражающих последние достижения. Он позволяет не только проверить модели, но и улучшить их подготовку на основе семантических фрагментов и логики рассуждения. Это особенно важно для моделей с малым количеством параметров, которые могут превосходить даже мощные системы, такие как GPT-4, в конкретных областях.
#### Выводы
Мы разработали мощный и модульный фреймворк для автоматического создания MCQA-бенчмарков, что позволяет адаптировать языковые модели к новым научным знаниям. Наши результаты показывают, что использование логики рассуждения для поиска ответов может значительно улучшить точность оценки моделей. Будущие исследования б
Annotation:
As scientific knowledge grows at an unprecedented pace, evaluation benchmarks
must evolve to reflect new discoveries and ensure language models are tested on
current, diverse literature. We propose a scalable, modular framework for
generating multiple-choice question-answering (MCQA) benchmarks directly from
large corpora of scientific papers. Our pipeline automates every stage of MCQA
creation, including PDF parsing, semantic chunking, question generation, and
model evaluation. As a case study,...
Показано 11 -
20
из 29 записей