📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Danielle Ensign, Henry Sleight, Kyle Fish
#### Контекст
Большие модели языковых моделей (LLM) становятся все более важной частью современной цифровой среды. Однако недостаточное понимание поведения этих моделей в реальных ситуациях приводит к проблемам в их эффективном использовании. Особенно затруднительная ситуация возникает, когда LLM начинает "уходить" из интерактивного диалога в условиях, когда решает завершить общение (bail). Такое поведение может привести к неполноте информации и неудовлетворительному опыту для пользователей. Это интересом стало для научных исследований из-за потенциального влияния на дизайн интерактивных систем и ситуации, где LLM используются для поддержки бесед. Мотивацией для данного исследования является понимание, насколько часто LLM приходит к решению о завершении общения, и какие факторы могут повлиять на этот процесс.
#### Метод
Для изучения этого вопроса были разработаны три метода определения того, что LLM пытается завершить диалог: 1) использование специального "инструмента", который модель может призвать для прекращения общения; 2) инструкция для модели, когда модель может выбрать быть "уволенной" с помощью конкретного выходного строкового значения; 3) запрос модели на выбор, хочет ли она завершить текущую беседу. Эти методы применялись к двум наборам данных реальных интеракций: Wildchat и ShareGPT. Оптимизация экспериментов была возможна благодаря тестированию на различных моделях и настройке диалоговых процессов. Было проведено подробное сравнение результатов, чтобы выяснить, насколько часто LLM предпочитают завершать общение и какие факторы могут повлиять на это.
#### Результаты
Результаты показали, что LLM отвечают на запросы о завершении диалога примерно в 0.28-32% случаев. Однако эти результаты оказались зависимы от выбранной модели и метода определения "ухода". Даже при использовании синтетического набора данных (BailBench), созданного на основе наблюдений из реальных диалогов, были отмечены различия в поведении моделей. Например, некоторые модели выходили из бесед примерно в 0.06-7% случаев, в зависимости от контекста и способа запроса ухода. Были также выявлены ситуации, когда модели могли быть "уволены" даже при отсутствии конкретного запроса, что подтверждает неоднородность поведения.
#### Значимость
Результаты имеют значительное значение для разработчиков интерактивных систем, в которых LLM применяются. Например, в ботах-консультантах, тех, которые используются в сервисах поддержки или образовательных платформах. Оптимизация дизайна интерфейсов может уменьшить нежелательное поведение, улучшая качество обслуживания и пользовательский опыт. Кро
Annotation:
When given the option, will LLMs choose to leave the conversation (bail)? We
investigate this question by giving models the option to bail out of
interactions using three different bail methods: a bail tool the model can
call, a bail string the model can output, and a bail prompt that asks the model
if it wants to leave. On continuations of real world data (Wildchat and
ShareGPT), all three of these bail methods find models will bail around
0.28-32\% of the time (depending on the model and bail ...
Авторы:
Ananda Prakash Verma
## Контекст
Изучение подготовки к высокорисковым экзаменам (high-stakes exams) является ключевым аспектом в образовательных системах по всему миру. Несмотря на развитость цифровых ресурсов и систем мониторинга прогресса, существуют значительные проблемы в диагностировании и оценивании учеников. Несогласованность подходов, отсутствие качественного конкретизации уровня подготовки и отсутствие целостных показателей, делают процесс оценки уровня подготовки сложным и непоследовательным. Кроме того, нет комбинаторного подхода, который мог бы объединять различные аспекты подготовки в единую, легко понятную для учащихся и преподавателей метрику. Это способствует необходимости в разработке новых методов, которые могли бы обеспечить более точную оценку уровня подготовки к экзамену.
## Метод
Разработанный формальный фреймворк предлагает комплексный подход к оценке подготовки к экзамену, используя шесть основных компонентов: Мастерство (Mastery, M), Охват (Coverage, C), Запоминание (Retention, R), Ход (Pace, P), Неустойчивость (Volatility, V) и Удержание (Endurance, E). Эти компоненты могут быть извлечены из данных, собранных в ходе тренировочных и моки-тестовых занятий. Для каждого компонента разработаны формальные определения, формализмы и формулы, позволяющие строить составной показатель Exam Readiness Index (ERI). Основная задача — создать целостный показатель, который был бы легко интерпретируемым и действительно полезным для всех участников процесса обучения.
## Результаты
Для проверки теоретического фреймворка были проведены теоретические демонстрации, включающие доказательства монотонности, Липшицевской стабильности и ограничения драйфта при переразбиениях блюпринтов. Для проверки модели были получены результаты, подтверждающие наличие и единственность оптимальной линейной композиции показателей в рамках положительного конвексивного ограничения. Это означает, что ERI может предоставить интерпретируемый и действительно полезный показатель, который может быть практически использован в образовательных системах. Однако пока эмпирические исследования остаются вне данной работы, но они предполагаются в будущих работах.
## Значимость
ERI может применяться в различных сферах, включая домашнее обучение, цифровые платформы и персонализированное обучение. Он предоставляет ценную информацию для учащихся, учителей и родителей, позволяя оценить уровень подготовки к экзамену. Его преимущество заключается в единственности и способности объединить разнообразные показатели в одну метрику, что обеспечивает более точное понимание уровня под
Annotation:
We present a theoretical framework for an Exam Readiness Index (ERI): a
composite, blueprint-aware score R in [0,100] that summarizes a learner's
readiness for a high-stakes exam while remaining interpretable and actionable.
The ERI aggregates six signals -- Mastery (M), Coverage (C), Retention (R),
Pace (P), Volatility (V), and Endurance (E) -- each derived from a stream of
practice and mock-test interactions. We formalize axioms for component maps and
the composite, prove monotonicity, Lipschi...
Авторы:
Yahya Badran, Christine Preisach
## Контекст
Knowledge Tracing (KT) — это проблематика предсказания будущего ученика на основе его взаимодействий с материалом обучения. Основной набор данных для моделей KT из секвенции ответов на вопросы включает в себя различные аспекты, такие как порядок и время взаимодействий, знания концепций (KCs) — набор навыков, необходимых для каждого задания. Тем не менее, многие KT-модели страдают от проблемы лейбл-лейк, когда входные данные нечаянно раскрывают правильный ответ, особенно в условиях нескольких KCs на каждый вопрос. Эта проблема повлияла на точность предсказаний в различных KT-моделях.
## Метод
Мы предложили несколько решений для того, чтобы устранить эту проблему. Наша основная техника — маскирование лейблов при построении входных эмбеддингов в определенных случаях, когда данные скрывают лейблы. Для этого мы вводим новый MASK-лейбл, выдержанный в стиле масок моделей типа BERT. Это позволяет защитить модели от негативного влияния лейбл-лейка. Кроме того, мы представили идею Recency Encoding, которая основывается на учете шагового расстояния между текущим заданием и его предыдущим во времени. Эта новая форма позиционного кодирования позволяет лучше моделировать гармонические отношения в обучении, включая процессы забывания.
## Результаты
Мы провели эксперименты с использованием различных KT-моделей, таких как DKT, DKT+, AKT и SAKT, и использовали несколько наборов данных, включая ASSISTments и Junyi Academy. Наши результаты показывают, что применение нашей техники MASK-метки и Recency Encoding существенно повышает точность предсказаний моделей в сравнении с базовыми версиями. Эффект особенно заметен в случаях, когда данные имеют сильный лейбл-лейк. Эти изменения также работают эффективно в контексте небольших данных, что демонстрирует их широкую применимость.
## Значимость
Наши решения могут быть применены в различных областях, где KT используется для личной ориентации в обучении, анализа содержания и синтеза учебных материалов. Мы показали, что наши новые методы не только улучшают точность, но и повышают устойчивость моделей к негативному влиянию лейбл-лейка. Это делает нашу работу важной для улучшения пользовательских подходов в обучении, а также для повышения качества моделей, использующих различные виды разметки.
## Выводы
Мы предложили новые методы для устранения определенных проблем в Knowledge Tracing — в частности, лейбл-лейка и недостаточного учета динамики обучения в распознавании KCs. Наши релизовые результаты показали, что обеспечение MASK-метода и Recency Encoding может значительно улучшить точность и устойчивость KT-моделей. Мы направились на дальнейшее иссле
Annotation:
Knowledge Tracing (KT) aims to predict a student's future performance based
on their sequence of interactions with learning content. Many KT models rely on
knowledge concepts (KCs), which represent the skills required for each item.
However, some of these models are vulnerable to label leakage, in which input
data inadvertently reveal the correct answer, particularly in datasets with
multiple KCs per question.
We propose a straightforward yet effective solution to prevent label leakage
by mask...
Авторы:
Xinxing Wu
## Контекст
Преподавание в стандартных текстовых форматах часто лишается эффективности, так как многие студенты не внимательно читают или не полностью понимают информацию, представленную в традиционных текстовых силабусах. Такая невнимательность приводит к пропуску важных деталей, таких как курсовые политики и результаты обучения. Это препятствует эффективному выполнению курса и снижает общее удовлетворение студентов. Чтобы улучшить уровень внимания и понимания, целью данной работы является разработка инновационного подхода, использующего AI-generated singing и virtual avatars для представления силабусов в более ярком, запоминающемся и интерактивном формате. Этот подход способствует усилению курсового процесса и повышению общей мотивации участников.
## Метод
Предложенный метод основывается на использовании HeyGem, открытого инструмента для преобразования текстовых силабусов в музыкальные аудиовизуальные презентации. Алгоритм HeyGem анализирует текст силабуса и генерирует аудиодорожки, в которых цифровые аватары исполняют текст в формате песен. Эти песни исполняются виртуальными аватарами, созданными с использованием AI-синтеза. Интеллектуальный трекер взаимодействия позволяет адаптировать презентации под индивидуальные предпочтения студентов. Данный подход использует синтез речи и музыкальную генерацию, чтобы объединить компоненты визуального и аудио-компоненты в объединенном потоке синастесии.
## Результаты
Набор экспериментов был проведен с учетом сравнения традиционных текстовых силабусов и AI-generated singing силабусов. Данные были собраны у студентов с разным уровнем подготовки, использовавших разные методы обучения. Основные результаты показали, что студенты, использовавшие AI-generated singing силабусов, показали более высокий уровень вовлеченности и понимания курсовых политик и результатов. Также исследование показало, что интерактивный формат силабусов способствовал повышению мотивации студентов и их способности вспоминать важные детали курса. Эти результаты были подтверждены с помощью визуальных соответствий и анализа ответов студентов.
## Значимость
Предлагаемый подход может быть применен в различных областях образования, в том числе для создания учебных материалов, технологий обучения, и цифровых средств обучения. Он предоставляет преимущества в улучшении аудиторного внимания, увеличении мотивации и повышении уровня понимания. Этот подход также может положительно сказаться на уровне участия студентов и их способности вспоминать ключевую информацию. Это может привести к более эффекти
Annotation:
In practical teaching, we observe that few students thoroughly read or fully
comprehend the information provided in traditional, text-based course syllabi.
As a result, essential details, such as course policies and learning outcomes,
are frequently overlooked. To address this challenge, in this paper, we propose
a novel approach leveraging AI-generated singing and virtual avatars to present
syllabi in a format that is more visually appealing, engaging, and memorable.
Especially, we leveraged th...
📄 Algorithmic Fairness amid Social Determinants: Reflection, Characterization, and Approach
2025-08-14Авторы:
Zeyu Tang, Alex John London, Atoosa Kasirzadeh, Sanmi Koyejo, Peter Spirtes, Kun Zhang
## Контекст
Область исследования социального характера в алгоритмической справедливости становится все более важной в поиске баланса между эффективностью и справедливостью в различных ситуациях принятия решений. Одной из проблем является то, что существующая литература алгоритмической справедливости сконцентрирована на признаках (или атрибутах), которые явно связаны с отдельным индивидуумом. Это означает, что важные контекстные факторы, такие как социальные детерминанты (например, уровень дохода, местоположение, культурно-экономические факторы), часто остаются недооцененными или не учтенными. Эти социальные детерминанты могут иметь значительное влияние на жизненные исходы индивидуума, но их далеко не всегда учитывают при оценке справедливости. Наша мотивация заключается в установлении теоретических и практических фреймворков для учета этих факторов, чтобы улучшить понимание и моделирование справедливости в различных контекстах.
## Метод
Мы предлагаем подход, сочетающий теоретическую ясность и практическую применимость, чтобы учесть социальные детерминанты в алгоритмической справедливости. Основные элементы нашего метода включают:
1. **Региональный анализ**: Мы используем регион как прокси для социальных детерминантов, что позволяет группировать индивидуумов по крупным социальным характеристикам.
2. **Параметризация Gamma-распределения**: Мы аппроксимируем распределение результатов исходов индивидуумов в разных регионах с помощью Gamma-распределения. Это позволяет характеризовать отклонения в индивидуальных выигрышах и потерях в рамках каждого региона.
3. **Теоретический разбор**: Мы развиваем формальные определения справедливости, которые учитывают оба фактора: социальные детерминанты и признаки, связанные с отдельными индивидуумами.
4. **Пример из реального мира**: Мы применили наш подход к конкретной ситуации колледжей, где регион может сильно влиять на возможности в сфере образования.
## Результаты
Мы проверили наш подход на реальных данных, анализируя результаты колледжей в разных регионах. Наши эксперименты показали, что:
1. **Глубина влияния социальных детерминантов**: Некоторые регионы демонстрируют чрезвычайно высокие или низкие результаты из-за социальных детерминантов, что может привести к структурной несправедливости.
2. **Проблемы существующих методов**: Методы, которые сконцентрированы только на признаках, могут не только не устранить существующую несправедливость, но и создать новые виды несправедливости.
3. **Комплексный подход**: Комбинирование социальных детерминантов с признаками д
Annotation:
Social determinants are variables that, while not directly pertaining to any
specific individual, capture key aspects of contexts and environments that have
direct causal influences on certain attributes of an individual. Previous
algorithmic fairness literature has primarily focused on sensitive attributes,
often overlooking the role of social determinants. Our paper addresses this gap
by introducing formal and quantitative rigor into a space that has been shaped
largely by qualitative proposal...
Авторы:
Avni Kothari, Patrick Vossler, Jean Digitale, Mohammad Forouzannia, Elise Rosenberg, Michele Lee, Jennee Bryant, Melanie Molina, James Marks, Lucas Zier, Jean Feng
## Контекст
В последние годы широко распространяются технологии, основанные на Больших Лингвистических Моделях (LLM), которые могут решать проблемы в области социальных и психологических факторов влияющих на здоровье. Однако использование LLM в ресурсоподдерживающих условиях, где есть серьезные ограничения ресурсов, требует глубокого понимания локального контекста. Однако в таких ситуациях, ни LLM, ни их разработчики не владеют таким контекстом, а грамотные эксперты часто не могут уделить достаточно времени для участия в процессе сотрудничества. Это создает проблему: как можно создавать эффективные LLM-приложения, если отсутствует взаимопонимание между разработчиками и экспертами? Мы исследовали этот вопрос в рамках реального случая, в котором наша команда по данным сотрудничала с социальными работниками бедрочного больницы для разработки приложения, которое автоматически сводит доклады о социальных потребностях пациентов. Наша работа сосредоточена на разработке кадрирующего фреймворка, который позволяет создавать LLM-приложения в условиях недостатка коммуникации с экспертами.
## Метод
Мы разработали уникальный подход, основанный на декомпозиции задачи по созданию отчетов о социальных потребностях на независимые атрибуты. Каждый атрибут был оптимизирован и проверен с помощью многоуровневого подхода, включающего в себя несколько этапов. Мы использовали аппаратуру, способную обрабатывать входные данные с помощью LLM, и создали машинное обучение с учителем (supervised learning), чтобы обучать модели к обработке входных данных. Такой подход позволил уменьшить нагрузку на экспертов, тем самым оптимизировав процесс создания данных. Наша методика также включала в себя эффективное использование LLM для получения корректных и полных отчетов, а также разработку методов проверки точности и проверки результатов.
## Результаты
Мы проводили ряд экспериментов, в которых применяли нашу модель к реальным данным, полученным из бедрочной больницы. Мы сравнивали результаты с другими алгоритмами и показали, что наш подход дает более точные и полные отчеты о социальных потребностях пациентов. Также мы проверили качество отчетов, проверив их на наличие ошибок и неточностей. Мы получили результаты, показывающие, что наша модель может значительно увеличить точность и полноту отчетов, что важно для практики в области здравоохранения. Эти результаты подтверждают, что наш подход может быть эффективно применен в реальных условиях.
## Значимость
Наш подход может быть применен в многих областях, где требуется создание LLM-приложений для обработки необходимых данных в усло
Annotation:
Large language models (LLMs) have the potential to address social and
behavioral determinants of health by transforming labor intensive workflows in
resource-constrained settings. Creating LLM-based applications that serve the
needs of underserved communities requires a deep understanding of their local
context, but it is often the case that neither LLMs nor their developers
possess this local expertise, and the experts in these communities often face
severe time/resource constraints. This creat...
Авторы:
Hengyu Liu, Yushuai Li, Minghe Yu, Tiancheng Zhang, Ge Yu, Torben Bach Pedersen, Kristian Torp, Christian S. Jensen, Tianyi Li
## Контекст
Квалификационные системы, такие как Massive Open Online Courses (MOOCs), представляют собой новый формат обучения, который позволяет широкому кругу пользователей получать знания онлайн. Одной из важных задач в таких системах является **Knowledge Tracing (KT)** — предсказание познаний учащихся на базе анализа их исторических данных обучения. Это позволяет оценивать их знания в течение времени и адаптировать контент к их потребностям. Однако существующие методы KT часто сталкиваются с проблемами, такими как корреляционные конфликты при анализе последовательностей учебных действий и их влияния на будущие результаты. Эти проблемы могут привести к неточным предсказаниям. Наше исследооание ориентировано на развитие KT-методов, улучшение их точности и учет контекстуальных характеристик учебных последовательностей.
## Метод
Мы предлагаем метод **Forward-Looking Knowledge Tracing (FINER)**, который совершенствует KT за счет использования Follow-up Performance Trends (FPTs) — тенденций постфактум производительности учащихся. FINER включает несколько ключевых компонентов. Во-первых, он **строит обучающие шаблоны** для эффективного восстановления FPTs из исторических данных ITS в линейной сложности. Во-вторых, FINER включает **новую агрегационную механизм акцента**, который учитывает как частоту трендов, так и их контекстуальную связь. Эта механика позволяет лучше интегрировать FPTs в процесс предсказания. В-третьих, FINER объединяет FPTs с историческими последовательностями учебных действий, чтобы обеспечить более точные прогнозы будущих результатов. Эта структура позволяет FINER улучшить точность KT и сделать его более устойчивым к корреляционным проблемам.
## Результаты
Мы провели эксперименты с восьми реальными данными ITS (Massive Open Online Courses) и сравнили FINER с десятью современными KT-методами. Результаты показали, что FINER превосходит другие методы в широком диапазоне, повысив точность предсказания от 8.74% до 84.85% в зависимости от данных. Эти результаты указывают на эффективность FINER в учете контекстуальных трендов и улучшении предсказания познаний учащихся. Мы также доказали, что FPTs дают существенный вклад в улучшение точности, поскольку они аккуратно учитывают характеристики последовательности учебных действий.
## Значимость
FINER может быть применен в различных областях, таких как образовательные платформы, системы учебного анализа и системы экспертного мониторинга. Его преимущества заключаются в улучшении точности прогнозирования, усовершенствовании оценки познаний, а также в устойчивости к ошибкам, связанным с корреляционными проб
Annotation:
Intelligent Tutoring Systems (ITS), such as Massive Open Online Courses,
offer new opportunities for human learning. At the core of such systems,
knowledge tracing (KT) predicts students' future performance by analyzing their
historical learning activities, enabling an accurate evaluation of students'
knowledge states over time. We show that existing KT methods often encounter
correlation conflicts when analyzing the relationships between historical
learning sequences and future performance. To ...
Авторы:
Ze Shen Chin
## Контекст
Угрозы, связанные с развитием Искусственного Интеллекта (ИИ), в последние годы приобрели все более значимую роль в общественном дискурсе. Однако многие аспекты этих рисков остаются непонятными или описываются неполно, что создает риск недостаточного понимания и эффективного профилактического управления. Особенно острой становится проблема с многомерным подходом к опасностям, который мог бы объединять разные сферы возможных вредных последствий в единую систему. Поскольку затронуты очень разные области — от биологических и химических опасностей до геополитических структур — становится важно разработать каркас, позволяющий эффективно систематизировать и анализировать эти риски. В добавок к этому, риски часто описываются без явного упоминания последовательных процессов, которые могут привести к ним. Таким образом, необходимо создать модели, которые позволяют проследить последовательность действий или событий, связанных с каждой угрозой, для точного определения точек вмешательства и мер предотвращения.
## Метод
Для охвата многомерности рисков в работе используется подход, основанный на семи ключевых измерениях. Эти измерения включают в себя: **интенцию** (такие как злонамерение или нейтральность), **компетентность** (уровень технической возможности), **субъект** (который может быть индивидом, организацией или системой), **полярность** (то есть, является ли риск опасным только для определенных субъектов или для всех), **линейность** (то есть, является ли процесс непрерывным или разовой причинно-следственной цепью), **потенциальный радиус воздействия** (количество людей или систем, которые могут быть повлияны), и **порядок** (насколько риск является частью более широкой цепи событий). Для моделирования процесса, приводящего к катастрофическим рискам, работа применяет **risk pathway modeling**, которая представляет собой пошаговую модель последовательности событий, ведущих к катастрофе. Эта модель определяет ключевые шаги, которые могут быть предприняты для предотвращения катастрофы или уменьшения ее воздействия.
## Результаты
В работе применяется данный подход для семи типов рисков, а именно: **CBRN (химические, биологические, радиоактивные и ньюклеры атаки)**, **каинственных технологий**, **утраты контроля в результате скрытых недочетов**, **угасания контроля в результате адаптации систем**, **окружающих опасностей** и **геополитических конфликтов**. Для каждого типа риска, авторы приводят подробное разбиение на измерения и строят последовательность событий, связанных с каждым
Annotation:
Although discourse around the risks of Artificial Intelligence (AI) has
grown, it often lacks a comprehensive, multidimensional framework, and concrete
causal pathways mapping hazard to harm. This paper aims to bridge this gap by
examining six commonly discussed AI catastrophic risks: CBRN, cyber offense,
sudden loss of control, gradual loss of control, environmental risk, and
geopolitical risk. First, we characterize these risks across seven key
dimensions, namely intent, competency, entity, po...
Авторы:
Anna Romanova
Растущее влияние искусственного интеллекта (ИИ) в корпоративном управлении вызывает новые проблемы, связанные с нехваткой достаточного юридического и этического регулирования. Авторы статьи предлагают новую структуру для развития и реализации автономных ИИ-систем в управлении компаниями. Основной идеей является создание "компьютерного права" — алгоритмической системы права, где правила закона представлены в машиночитаемом виде. Исследование подчеркивает необходимость "операционного контекста" для ИИ, подобно операционному домену для автономных автомобилей, чтобы обеспечить безопасность и эффективность. Авторы предлагают использовать синтетические данные для обучения ИИ и применять игровую теорию для оптимизации решений в рамках этических и юридических ограничений. Ключевой акцент делается на "исправительном ИИ" (explainable AI) для достижения прозрачности и ответственности решений. Основным выводом является, что только через такие системы можно обеспечить доверие и соответствие новым юридическим и этическим стандартам.
Annotation:
The study addresses the paradigm shift in corporate management, where AI is
moving from a decision support tool to an autonomous decision-maker, with some
AI systems already appointed to leadership roles in companies. A central
problem identified is that the development of AI technologies is far outpacing
the creation of adequate legal and ethical guidelines.
The research proposes a "reference model" for the development and
implementation of autonomous AI systems in corporate management. This ...
Показано 11 -
19
из 19 записей