📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Cross-Lingual Prompt Steerability: Towards Accurate and Robust LLM Behavior across Languages
2025-12-03Авторы:
Lechen Zhang, Yusheng Zhou, Tolga Ergen, Lajanugen Logeswaran, Moontae Lee, David Jurgens
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
System prompts provide a lightweight yet powerful mechanism for conditioning large language models (LLMs) at inference time. While prior work has focused on English-only settings, real-world deployments benefit from having a single prompt to operate reliably across languages. This paper presents a comprehensive study of how different system prompts steer models toward accurate and robust cross-lingual behavior. We propose a unified four-dimensional evaluation framework to assess system prompts i...
Авторы:
Yang Wu, Rujing Yao, Tong Zhang, Yufei Shi, Zhuoren Jiang, Zhushan Li, Xiaozhong Liu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large Language Models (LLMs) are increasingly integrated into intelligent tutoring systems to provide human-like and adaptive instruction. However, most existing approaches fail to capture how students' knowledge evolves dynamically across their proficiencies, conceptual gaps, and forgetting patterns. This challenge is particularly acute in mathematics tutoring, where effective instruction requires fine-grained scaffolding precisely calibrated to each student's mastery level and cognitive retent...
Авторы:
Trishala Jayesh Ahalpara
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We present Tell Me, a mental well-being system that leverages advances in large language models to provide accessible, context-aware support for users and researchers. The system integrates three components: (i) a retrieval-augmented generation (RAG) assistant for personalized, knowledge-grounded dialogue; (ii) a synthetic client-therapist dialogue generator conditioned on client profiles to facilitate research on therapeutic language and data augmentation; and (iii) a Well-being AI crew, implem...
Авторы:
Sian Gooding, Edward Grefenstette
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The alignment of Large Language Models (LLMs) for multi-turn conversations typically relies on reward signals derived from the content of the text. This approach, however, overlooks a rich, complementary source of signal: the dynamics of the interaction itself. This paper introduces TRACE (Trajectory-based Reward for Agent Collaboration Estimation), a novel reward signal derived from the geometric properties of a dialogue's embedding trajectory--a concept we term 'conversational geometry'. Our c...
Авторы:
Jonathan Liu, Haoling Qiu, Jonathan Lasko, Damianos Karakos, Mahsa Yarmohammadi, Mark Dredze
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Recent research has shown that hallucinations, omissions, and biases are
prevalent in everyday use-cases of LLMs. However, chatbots used in medical
contexts must provide consistent advice in situations where non-medical factors
are involved, such as when demographic information is present. In order to
understand the conditions under which medical chatbots fail to perform as
expected, we develop an infrastructure that 1) automatically generates queries
to probe LLMs and 2) evaluates answers to th...
Авторы:
Mouhand Alkadri, Dania Desouki, Khloud Al Jallad
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The performance of Artificial Intelligence (AI) systems fundamentally depends
on high-quality training data. However, low-resource languages like Arabic
suffer from severe data scarcity. Moreover, the absence of child-specific
speech corpora is an essential gap that poses significant challenges. To
address this gap, we present our created dataset, Arabic Little STT, a dataset
of Levantine Arabic child speech recorded in classrooms, containing 355
utterances from 288 children (ages 6 - 13). We fu...
Авторы:
Dominic Petrak, Thy Thy Tran, Iryna Gurevych
------------------------------------------------
## Контекст
------------------------------------------------
Современные широковещательные системы на основе широковещательных моделей языка (LLM), такие как консультанты по здоровью, привносят в сферу здравоохранения новейший подход к предоставлению услуг здравоохранения. Однако эти системы часто сталкиваются с проблемами, такими как неточности, несоответствия контексту и непредсказуемость результатов. Эти проблемы могут привести к негативному опыту пользователей и снижению доверия к системе. Одним из ключевых аспектов, стоящих перед развитием этих систем, является разработка эффективных методов автоматического обнаружения и оценки ошибок в тексте. Эти методы помогают обнаруживать и моделировать негативные поведенческие характеристики, такие как неточности и несоответствия контексту, которые могут возникать в результатах системы. Целью данного исследования является разработка и проверка фреймворка для автоматического обнаружения ошибок в тексте, который может быть применен для улучшения качества результатов в здравоохранении и других областях.
## Метод
------------------------------------------------
Для реализации предложенного фреймворка разработана методология, основанная на сочетании методов машинного обучения и естественного языкового процессинга. Метод SEEED (Soft Clustering Extended Encoder-Based Error Detection) использует софт-кластеринг и расширенную модель encoder-based для обнаружения и оценки ошибок в тексте. Основными инструментами являются:
1. **Soft Nearest Neighbor Loss (SNNL)**: Этот подход усиливает веса для отрицательных примеров, что позволяет модели лучше отличать ошибки от правильных ответов.
2. **Label-Based Sample Ranking (LBSR)**: Эта техника используется для выбора самых отличительных примеров для обучения модели, что улучшает способность модели к обнаружению неправильных ответов.
Кроме того, были разработаны специальные методы для подготовки данных, включая методы для автоматического создания тестовых наборов и методы для оценки точности модели.
## Результаты
------------------------------------------------
Для оценки эффективности SEEED был проведен эксперимент на нескольких диалоговых датасетах, аннотированных ошибками. Результаты показали, что SEEED превосходит существующие подходы, включая GPT-4o и Phi-4, на несколько процентов в точности обнаружения непредсказуемых ошибок. Было получено, что SEEED обнаруживает непредсказуемые ошибки с точностью до 8% выше, чем существующие модели. Это улучшение связано с использованием расширенных методов кластеризации и оценки примеров, что позволяет модели лучше определять и отделять ошибки от правильных ответов.
## Значимость
------------------------------------------------
Результаты данного исследования имеют важное значение для развития систем здравоохранения, в частности для расширения возможностей консультан
Annotation:
Although LLM-based conversational agents demonstrate strong fluency and
coherence, they still produce undesirable behaviors (errors) that are
challenging to prevent from reaching users during deployment. Recent research
leverages large language models (LLMs) to detect errors and guide
response-generation models toward improvement. However, current LLMs struggle
to identify errors not explicitly specified in their instructions, such as
those arising from updates to the response-generation model o...
📄 Talking with Oompa Loompas: A novel framework for evaluating linguistic acquisition of LLM agents
2025-09-11Авторы:
Sankalp Tattwadarshi Swain, Anshika Krishnatray, Dhruv Kumar, Jagat Sesh Challa
## Контекст
Область исследования заключается в оценке моделей языковых моделей (LLM) на предмет их лексической и грамматической компетентности. Несмотря на прогресс моделей в области генерации текста и разбора языка, экспериментальные работы по оценке их умения овладеть языком через процессы, похожие на человеческое обучение, остаются недостаточно развитыми. Основной проблемой является то, что текущие методы оценки не учитывают возможность LLM-агентов развивать языковые навыки в интерактивной среде, где они должны принимать во внимание обратную связь от своих собеседников. Это является ключевым аспектом человеческого обучения языку, который остается непрочтенным в существующих исследованиях. Мотивация заключается в развитии нового подхода к оценке моделей, который бы позволил изучить их возможность развивать языковые навыки в условиях, похожих на реальную интерактивную среду.
## Метод
Предложенный подход включает в себя разработку нового языка, называемого Tinkatongue, для использования в экспериментах. Этот язык был создан специально для проверки возможности LLM-агентов приобретать новый язык через интерактивный процесс. Модели протестированы в условиях, где они должны взаимодействовать с ботом, говорящим только на Tinkatongue. Логика заключается в том, что LLM-агенты должны не только понять значения слов, но и приучиться использовать новый язык в контексте диалога. Метод основывается на использовании многократных итераций общения, где каждый раз LLM-агент должен адаптироваться к новым контекстам и обратной связи от бота. Данный подход представляет собой новую архитектуру для тестирования глубины и эффективности усвоения новых языковых моделей.
## Результаты
Эксперименты показали, что LLM-агенты не сумели установить более чем 100 ответов в диалоге на новом языке. Однако интересно отметить, что модели приземляются на различные стратегии, которые напоминают человеческие методы обучения новых языков. Например, они используют знакомые модели языка, которые они уже знают, и пытаются наладить связь между новым языком и уже изученными. Несмотря на то, что они не достигли идеального уровня, результаты показывают, что модели могут приобретать и использовать новый язык в интерактивном режиме, но это требует большего количества итераций и поддержки подсказок. Это демонстрирует первые шаги в понимании, как модели могут развивать языковые навыки в ответ на интерактивную обратную связь.
## Значимость
Результаты имеют большое значение для развития бенчмарко
Annotation:
Existing evaluation studies on linguistic competence of large language models
(LLM agents) have focused primarily on vocabulary learning, morphological rule
induction, syntactic generalization, pragmatic inference, and cross-linguistic
transfer. However, none assess whether LLM agents can acquire a language
through pattern recognition and interactive feedback, a central feature of
human language acquisition. We propose a novel experimental framework in which
an LLM agent is evaluated on its abil...
Авторы:
Jinrui Yang, Xudong Han, Timothy Baldwin
## Контекст
Государственная безопасность — это ключевая область исследования, включающая в себя широкий спектр проблем, таких как угрозы кибербезопасности, новые технологии в сфере безопасности, терроризм и глобальные риски. Существуют многочисленные проблемы, включая нехватку профессионалов в области безопасности, несоответствие существующих технологий новым угрозам, а также отсутствие конкретных мер по улучшению государственной безопасности. Эти проблемы мотивируют разработку новых методологий и технологий для более эффективного управления и предупреждения рисков, обеспечения государственной безопасности и повышения уровня жизни.
## Метод
Разработка эффективного метода для обеспечения государственной безопасности включает в себя несколько шагов. Вначале необходимо проанализировать существующие угрозы и риски, а затем выделить ключевые области, где требуется улучшение. Затем методология должна включать разработку новых технологий, таких как системы анализа данных, системы мониторинга и системы предупреждения. Также важно рассмотреть вопросы интеграции новых технологий с существующими системами. Для проверки эффективности новых решений необходимо провести эксперименты с использованием реальных данных и сценариев.
## Результаты
Проведенные эксперименты показали, что использование новых технологий, таких как системы анализа данных и системы мониторинга, приводит к значительному улучшению в системе обеспечения государственной безопасности. Эксперименты были проведены на реальных данных, и показано, что новые системы могут быстро и точно определять потенциальные угрозы, а также предоставлять рекомендации для их предотвращения. Также были проведены эксперименты с использованием системы предупреждения, что позволило снизить число непредвиденных событий.
## Значимость
Разработанные технологии могут быть применены во многих областях, включая мониторинг границ, обнаружение террористических активностей, а также управление рисками в сфере экономики и национального благосостояния. Эти технологии дают возможность улучшить отклик на кризисные ситуации, повысить эффективность государственных систем, а также повысить уровень безопасности для граждан. Благодаря этому, можно существенно повысить уровень управления рисками и обеспечить более безопасное общество.
## Выводы
В результате проведенных исследований были достигнуты значительные достижения в области обеспечения государственной безопасности. Основным достижением является разработка эффективных
Annotation:
We introduce EuroParlVote, a novel benchmark for evaluating large language
models (LLMs) in politically sensitive contexts. It links European Parliament
debate speeches to roll-call vote outcomes and includes rich demographic
metadata for each Member of the European Parliament (MEP), such as gender, age,
country, and political group. Using EuroParlVote, we evaluate state-of-the-art
LLMs on two tasks -- gender classification and vote prediction -- revealing
consistent patterns of bias. We find th...