📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Cross-Lingual Prompt Steerability: Towards Accurate and Robust LLM Behavior across Languages

2025-12-03

Авторы:

Lechen Zhang, Yusheng Zhou, Tolga Ergen, Lajanugen Logeswaran, Moontae Lee, David Jurgens

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

System prompts provide a lightweight yet powerful mechanism for conditioning large language models (LLMs) at inference time. While prior work has focused on English-only settings, real-world deployments benefit from having a single prompt to operate reliably across languages. This paper presents a comprehensive study of how different system prompts steer models toward accurate and robust cross-lingual behavior. We propose a unified four-dimensional evaluation framework to assess system prompts i...

ID: 2512.02841v1 cs.CL, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Teaching According to Students' Aptitude: Personalized Mathematics Tutoring via Persona-, Memory-, and Forgetting-Aware LLMs

2025-11-20

Авторы:

Yang Wu, Rujing Yao, Tong Zhang, Yufei Shi, Zhuoren Jiang, Zhushan Li, Xiaozhong Liu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) are increasingly integrated into intelligent tutoring systems to provide human-like and adaptive instruction. However, most existing approaches fail to capture how students' knowledge evolves dynamically across their proficiencies, conceptual gaps, and forgetting patterns. This challenge is particularly acute in mathematics tutoring, where effective instruction requires fine-grained scaffolding precisely calibrated to each student's mastery level and cognitive retent...

ID: 2511.15163v1 cs.CL, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Tell Me: An LLM-powered Mental Well-being Assistant with RAG, Synthetic Dialogue Generation, and Agentic Planning

2025-11-19

Авторы:

Trishala Jayesh Ahalpara

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present Tell Me, a mental well-being system that leverages advances in large language models to provide accessible, context-aware support for users and researchers. The system integrates three components: (i) a retrieval-augmented generation (RAG) assistant for personalized, knowledge-grounded dialogue; (ii) a synthetic client-therapist dialogue generator conditioned on client profiles to facilitate research on therapeutic language and data augmentation; and (iii) a Well-being AI crew, implem...

ID: 2511.14445v1 cs.CL, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Interaction Dynamics as a Reward Signal for LLMs

2025-11-15

Авторы:

Sian Gooding, Edward Grefenstette

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The alignment of Large Language Models (LLMs) for multi-turn conversations typically relies on reward signals derived from the content of the text. This approach, however, overlooks a rich, complementary source of signal: the dynamics of the interaction itself. This paper introduces TRACE (Trajectory-based Reward for Agent Collaboration Estimation), a novel reward signal derived from the geometric properties of a dialogue's embedding trajectory--a concept we term 'conversational geometry'. Our c...

ID: 2511.08394v1 cs.CL, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Demo: Statistically Significant Results On Biases and Errors of LLMs Do Not Guarantee Generalizable Results

2025-11-06

Авторы:

Jonathan Liu, Haoling Qiu, Jonathan Lasko, Damianos Karakos, Mahsa Yarmohammadi, Mark Dredze

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent research has shown that hallucinations, omissions, and biases are prevalent in everyday use-cases of LLMs. However, chatbots used in medical contexts must provide consistent advice in situations where non-medical factors are involved, such as when demographic information is present. In order to understand the conditions under which medical chatbots fail to perform as expected, we develop an infrastructure that 1) automatically generates queries to probe LLMs and 2) evaluates answers to th...

ID: 2511.02246v1 cs.CL, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Arabic Little STT: Arabic Children Speech Recognition Dataset

2025-10-29

Авторы:

Mouhand Alkadri, Dania Desouki, Khloud Al Jallad

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The performance of Artificial Intelligence (AI) systems fundamentally depends on high-quality training data. However, low-resource languages like Arabic suffer from severe data scarcity. Moreover, the absence of child-specific speech corpora is an essential gap that poses significant challenges. To address this gap, we present our created dataset, Arabic Little STT, a dataset of Levantine Arabic child speech recorded in classrooms, containing 355 utterances from 288 children (ages 6 - 13). We fu...

ID: 2510.23319v1 cs.CL, cs.AI, cs.HC, cs.LG, cs.SD

arXiv PDF

📄 Towards Automated Error Discovery: A Study in Conversational AI

2025-09-17

Авторы:

Dominic Petrak, Thy Thy Tran, Iryna Gurevych

------------------------------------------------ ## Контекст ------------------------------------------------ Современные широковещательные системы на основе широковещательных моделей языка (LLM), такие как консультанты по здоровью, привносят в сферу здравоохранения новейший подход к предоставлению услуг здравоохранения. Однако эти системы часто сталкиваются с проблемами, такими как неточности, несоответствия контексту и непредсказуемость результатов. Эти проблемы могут привести к негативному опыту пользователей и снижению доверия к системе. Одним из ключевых аспектов, стоящих перед развитием этих систем, является разработка эффективных методов автоматического обнаружения и оценки ошибок в тексте. Эти методы помогают обнаруживать и моделировать негативные поведенческие характеристики, такие как неточности и несоответствия контексту, которые могут возникать в результатах системы. Целью данного исследования является разработка и проверка фреймворка для автоматического обнаружения ошибок в тексте, который может быть применен для улучшения качества результатов в здравоохранении и других областях. ## Метод ------------------------------------------------ Для реализации предложенного фреймворка разработана методология, основанная на сочетании методов машинного обучения и естественного языкового процессинга. Метод SEEED (Soft Clustering Extended Encoder-Based Error Detection) использует софт-кластеринг и расширенную модель encoder-based для обнаружения и оценки ошибок в тексте. Основными инструментами являются: 1. **Soft Nearest Neighbor Loss (SNNL)**: Этот подход усиливает веса для отрицательных примеров, что позволяет модели лучше отличать ошибки от правильных ответов. 2. **Label-Based Sample Ranking (LBSR)**: Эта техника используется для выбора самых отличительных примеров для обучения модели, что улучшает способность модели к обнаружению неправильных ответов. Кроме того, были разработаны специальные методы для подготовки данных, включая методы для автоматического создания тестовых наборов и методы для оценки точности модели. ## Результаты ------------------------------------------------ Для оценки эффективности SEEED был проведен эксперимент на нескольких диалоговых датасетах, аннотированных ошибками. Результаты показали, что SEEED превосходит существующие подходы, включая GPT-4o и Phi-4, на несколько процентов в точности обнаружения непредсказуемых ошибок. Было получено, что SEEED обнаруживает непредсказуемые ошибки с точностью до 8% выше, чем существующие модели. Это улучшение связано с использованием расширенных методов кластеризации и оценки примеров, что позволяет модели лучше определять и отделять ошибки от правильных ответов. ## Значимость ------------------------------------------------ Результаты данного исследования имеют важное значение для развития систем здравоохранения, в частности для расширения возможностей консультан

Annotation:

Although LLM-based conversational agents demonstrate strong fluency and coherence, they still produce undesirable behaviors (errors) that are challenging to prevent from reaching users during deployment. Recent research leverages large language models (LLMs) to detect errors and guide response-generation models toward improvement. However, current LLMs struggle to identify errors not explicitly specified in their instructions, such as those arising from updates to the response-generation model o...

ID: 2509.10833v1 cs.CL, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Talking with Oompa Loompas: A novel framework for evaluating linguistic acquisition of LLM agents

2025-09-11

Авторы:

Sankalp Tattwadarshi Swain, Anshika Krishnatray, Dhruv Kumar, Jagat Sesh Challa

## Контекст Область исследования заключается в оценке моделей языковых моделей (LLM) на предмет их лексической и грамматической компетентности. Несмотря на прогресс моделей в области генерации текста и разбора языка, экспериментальные работы по оценке их умения овладеть языком через процессы, похожие на человеческое обучение, остаются недостаточно развитыми. Основной проблемой является то, что текущие методы оценки не учитывают возможность LLM-агентов развивать языковые навыки в интерактивной среде, где они должны принимать во внимание обратную связь от своих собеседников. Это является ключевым аспектом человеческого обучения языку, который остается непрочтенным в существующих исследованиях. Мотивация заключается в развитии нового подхода к оценке моделей, который бы позволил изучить их возможность развивать языковые навыки в условиях, похожих на реальную интерактивную среду. ## Метод Предложенный подход включает в себя разработку нового языка, называемого Tinkatongue, для использования в экспериментах. Этот язык был создан специально для проверки возможности LLM-агентов приобретать новый язык через интерактивный процесс. Модели протестированы в условиях, где они должны взаимодействовать с ботом, говорящим только на Tinkatongue. Логика заключается в том, что LLM-агенты должны не только понять значения слов, но и приучиться использовать новый язык в контексте диалога. Метод основывается на использовании многократных итераций общения, где каждый раз LLM-агент должен адаптироваться к новым контекстам и обратной связи от бота. Данный подход представляет собой новую архитектуру для тестирования глубины и эффективности усвоения новых языковых моделей. ## Результаты Эксперименты показали, что LLM-агенты не сумели установить более чем 100 ответов в диалоге на новом языке. Однако интересно отметить, что модели приземляются на различные стратегии, которые напоминают человеческие методы обучения новых языков. Например, они используют знакомые модели языка, которые они уже знают, и пытаются наладить связь между новым языком и уже изученными. Несмотря на то, что они не достигли идеального уровня, результаты показывают, что модели могут приобретать и использовать новый язык в интерактивном режиме, но это требует большего количества итераций и поддержки подсказок. Это демонстрирует первые шаги в понимании, как модели могут развивать языковые навыки в ответ на интерактивную обратную связь. ## Значимость Результаты имеют большое значение для развития бенчмарко

Annotation:

Existing evaluation studies on linguistic competence of large language models (LLM agents) have focused primarily on vocabulary learning, morphological rule induction, syntactic generalization, pragmatic inference, and cross-linguistic transfer. However, none assess whether LLM agents can acquire a language through pattern recognition and interactive feedback, a central feature of human language acquisition. We propose a novel experimental framework in which an LLM agent is evaluated on its abil...

ID: 2509.07389v1 cs.CL, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Benchmarking Gender and Political Bias in Large Language Models

2025-09-10

Авторы:

Jinrui Yang, Xudong Han, Timothy Baldwin

## Контекст Государственная безопасность — это ключевая область исследования, включающая в себя широкий спектр проблем, таких как угрозы кибербезопасности, новые технологии в сфере безопасности, терроризм и глобальные риски. Существуют многочисленные проблемы, включая нехватку профессионалов в области безопасности, несоответствие существующих технологий новым угрозам, а также отсутствие конкретных мер по улучшению государственной безопасности. Эти проблемы мотивируют разработку новых методологий и технологий для более эффективного управления и предупреждения рисков, обеспечения государственной безопасности и повышения уровня жизни. ## Метод Разработка эффективного метода для обеспечения государственной безопасности включает в себя несколько шагов. Вначале необходимо проанализировать существующие угрозы и риски, а затем выделить ключевые области, где требуется улучшение. Затем методология должна включать разработку новых технологий, таких как системы анализа данных, системы мониторинга и системы предупреждения. Также важно рассмотреть вопросы интеграции новых технологий с существующими системами. Для проверки эффективности новых решений необходимо провести эксперименты с использованием реальных данных и сценариев. ## Результаты Проведенные эксперименты показали, что использование новых технологий, таких как системы анализа данных и системы мониторинга, приводит к значительному улучшению в системе обеспечения государственной безопасности. Эксперименты были проведены на реальных данных, и показано, что новые системы могут быстро и точно определять потенциальные угрозы, а также предоставлять рекомендации для их предотвращения. Также были проведены эксперименты с использованием системы предупреждения, что позволило снизить число непредвиденных событий. ## Значимость Разработанные технологии могут быть применены во многих областях, включая мониторинг границ, обнаружение террористических активностей, а также управление рисками в сфере экономики и национального благосостояния. Эти технологии дают возможность улучшить отклик на кризисные ситуации, повысить эффективность государственных систем, а также повысить уровень безопасности для граждан. Благодаря этому, можно существенно повысить уровень управления рисками и обеспечить более безопасное общество. ## Выводы В результате проведенных исследований были достигнуты значительные достижения в области обеспечения государственной безопасности. Основным достижением является разработка эффективных

Annotation:

We introduce EuroParlVote, a novel benchmark for evaluating large language models (LLMs) in politically sensitive contexts. It links European Parliament debate speeches to roll-call vote outcomes and includes rich demographic metadata for each Member of the European Parliament (MEP), such as gender, age, country, and political group. Using EuroParlVote, we evaluate state-of-the-art LLMs on two tasks -- gender classification and vote prediction -- revealing consistent patterns of bias. We find th...

ID: 2509.06164v1 cs.CL, cs.AI, cs.HC, cs.LG

arXiv PDF