📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Evaluating Retrieval-Augmented Generation Strategies for Large Language Models in Travel Mode Choice Prediction

2025-08-27

Авторы:

Yiming Xu, Junfeng Jiao

## Контекст Предсказание способа путешествия (travel mode choice) является ключевым фактором для эффективного транспортного планирования. Однако существующие статистические и машинное обучение (machine learning) модели страдают от редуцированной гибкости, ограниченной контекстной рассуждением и недостаточной общностью. В этом исследовании рассматривается возможность использования Large Language Models (LLMs), которые предлагают более гибкую и контекст-знающую модель для предсказания способа путешествия. Дополнительно, введена методология Retrieval-Augmented Generation (RAG), которая позволяет лучше интегрировать эмпирические данные в процесс предсказания. Исследование также исследует различные стратегии RAG для оптимизации процесса работы LLMs. ## Метод Моделирование предсказаний о способах путешествия осуществляется с помощью LLMs, в которые внедрена RAG. Для подачи набора данных в модель используется модульный фреймворк, который позволяет сравнивать различные стратегии RAG. Используются четыре стратегии RAG: базовая RAG, RAG с балансировкой набора данных, RAG с кросс-энкодером для ре-ранкинга и RAG с балансировкой набора данных и кросс-энкодером для ре-ранкинга. Эти стратегии тестируются на трех различных моделях LLMs: OpenAI GPT-4o, o4-mini и o3. Для экспериментов использованы данные из 2023 Puget Sound Regional Household Travel Survey. ## Результаты Эксперименты показали, что внедрение RAG значительно повышает точность предсказаний для всех моделей LLM. Наиболее эффективной была комбинация GPT-4o с балансировкой набора данных и кросс-энкодером для ре-ранкинга, которая достигла точности 80.8%. LLMs показали значительное преимущество в общей общей гибкости и точности по сравнению с статистическими и традиционными моделями машинного обучения. ## Значимость Исследование демонстрирует значимость внедрения RAG в LLMs для предсказания способа путешествия. Результаты могут применяться в транспортном планировании и логистике для эффективного решения задач моделирования поведения. Данная модель также улучшает общую гибкость и точность моделей, что делает её более универсальной и полезной в разных сценариях. ## Выводы Результаты показывают, что RAG значительно повышает точность предсказаний в LLMs для моделирования способа путешествия. Однако существует необходимость продолжать исследования для оптимизации стратегий RAG и их интеграции с LLMs, чтобы добиться наибольшего эффекта в моделировании поведения. Будущие исследования должны также сосредоточиться на расширении применения этой модели в различных транспортных сценариях.

Annotation:

Accurately predicting travel mode choice is essential for effective transportation planning, yet traditional statistical and machine learning models are constrained by rigid assumptions, limited contextual reasoning, and reduced generalizability. This study explores the potential of Large Language Models (LLMs) as a more flexible and context-aware approach to travel mode choice prediction, enhanced by Retrieval-Augmented Generation (RAG) to ground predictions in empirical data. We develop a modu...

ID: 2508.17527v1 cs.AI, cs.CY, cs.LG

arXiv PDF

📄 Continuous Determination of Respiratory Rate in Hospitalized Patients using Machine Learning Applied to Electrocardiogram Telemetry

2025-08-26

Авторы:

Thomas Kite, Brian Ayers, Nicholas Houstis, Asishana A. Osho, Thoralf M. Sundt, Aaron D Aguirre

#### Контекст В настоящее время, мониторинг клинических витальных признаков, включая респираторный ритм (RR), является важной задачей для обеспечения качественного здравоохранения. Изменения РР сильно связаны с изменениями состояния пациента, которые могут привести к адверским событиям. Однако, человеческое определение РР, основанное на подсчете дыхания, является неточным и трудоемким для медицинского персонала. Даже при наличии автоматизированных систем мониторинга РР, они применяются только в отдельных случаях, например, в отделениях интенсивного лечения (ICU). Тем не менее, большинство пациентов на стандартных медицинских отделениях, также находятся в риске развития клинического деградации, но не охвачены автоматизированными системами. Наша цель состоит в разработке метода автоматического определения РР из электрокардиограмм (ECG) с использованием машинного обучения для расширения автоматизированного мониторинга РР на широкий круг пациентов. #### Метод Мы использовали глубокие нейронные сети (NN) для обучения модели, которая выявляет респираторный ритм (RR) из электрокардиограмм (ECG). Модель обучалась на многочисленных примерах, включая внутренние и внешние наборы данных с маркировкой РР. Мы применяли многочисленные методы, включая автокодировщики, для извлечения признаков из ECG, а затем предсказывали РР. Архитектура модели включала в себя несколько слоев, которые обрабатывали сигналы ECG и настраивались на выявление дыхательных вариаций. Мы оценивали точность модели на нескольких валидационных наборах данных, включая отдельные и многоцентровые наборы. #### Результаты Модель показала высокую точность в определении РР, с малыми ошибками в пределах 1.78 дыхательных движений в минуту (bpm). Мы провели несколько типов экспериментов, включая внутреннюю и внешнюю валидацию. Эксперименты проводились на разных наборах данных, включая данные с разных источников и разных типов разметки РР. Эти эксперименты показали, что модель обеспечивает высокую точность в разных условиях. Например, в одном из экспериментов, мы проанализировали данные от двух групп пациентов, которые столкнулись с адверскими событиями, включая респираторную недостаточность. Мы показали, что модель может выявить динамику РР, которая тесно связана с критическими событиями, такими как интубация. #### Значимость Разработанная модель открывает новые возможности для автоматизированного мониторинга РР вне ICU, что может существенно повысить качество здравоохранения и снизить риск критических событий. Модель может быть интегрирована с сущ

Annotation:

Respiration rate (RR) is an important vital sign for clinical monitoring of hospitalized patients, with changes in RR being strongly tied to changes in clinical status leading to adverse events. Human labels for RR, based on counting breaths, are known to be inaccurate and time consuming for medical staff. Automated monitoring of RR is in place for some patients, typically those in intensive care units (ICUs), but is absent for the majority of inpatients on standard medical wards who are still a...

ID: 2508.15947v1 eess.SP, cs.CY, cs.LG

arXiv PDF

📄 Cognitive Structure Generation: From Educational Priors to Policy Optimization

2025-08-20

Авторы:

Hengnian Gu, Zhifu Chen, Yuxin Chen, Jin Peng Zhou, Dongdai Zhou

## Контекст Обучение и развитие студентов широко исследуются в области учебной психологии и образовательной информатики. Одной из ключевых проблем является моделирование клеточной структуры – психологического строения идей и их взаимосвязей в учебной системе. Оценка клеточной структуры остается затруднительной задачей из-за сложности измерения индивидуальных представлений студентов и их изменений в процессе обучения. Это сделало этот аспект базовым, но до сих пор малодоступным в практике обучения. Чтобы решить эту проблему, предлагается новый подход, основанный на искусственном интеллекте, для генерирования и оценки клеточной структуры студентов. ## Метод Фреймворк Cognitive Structure Generation (CSG) предлагает двухэтапный подход к генерированию клеточных структур. В первой стадии используется Cognitive Structure Diffusion Probabilistic Model (CSDPM), которая позволяет сгенерировать клеточную структуру на основе предварительно обученных представлений обучения. Во второй стадии, алгоритмы оптимизации политики с использованием reinforcement learning (RL) используются для оптимизации процесса генерирования. Это реализуется с помощью различных знаковых сигналов, которые учитывают развитие клеточной структуры в процессе обучения. ## Результаты Работа была проверена на четырех реальных датасетах образовательных данных. Набор экспериментов показал, что генерируемые клеточные структуры CSG демонстрируют лучшую соответствие реальной клеточной структуре студентов в сравнении с другими методами. Это приводит к улучшению результатов на задачах закладывания связей (Knowledge Tracing, KT) и контроля динамики учебного процесса (Cognitive Development, CD). Кроме того, CSG демонстрирует более высокую интерпретируемость результатов в сравнении с другими подходами. ## Значимость Фреймворк CSG имеет значительное потенциальное применение в образовательных системах. Он может помочь в создании более точных моделей студентов, более эффективно направляя процесс обучения. Также CSG может иметь положительное влияние на создание индивидуальных программ обучения, учитывающих индивидуальные особенности учеников. Это может способствовать более эффективному использованию ресурсов в образовательных процессах. ## Выводы На основе экспериментов были получены следующие основные выводы. Модель CSG может генерировать более точные и подробные клеточные структуры, что улучшает моделирование студентов. Будущие работы будут направлены на улучшение модели CSDPM, а также на расширение применений CSG в различных областях, включая раннее выявление проблем в обучении и создание учебных планов на основе индивидуальных особенностей. Это может повлия

Annotation:

Cognitive structure is a student's subjective organization of an objective knowledge system, reflected in the psychological construction of concepts and their relations. However, cognitive structure assessment remains a long-standing challenge in student modeling and psychometrics, persisting as a foundational yet largely unassessable concept in educational practice. This paper introduces a novel framework, Cognitive Structure Generation (CSG), in which we first pretrain a Cognitive Structure Di...

ID: 2508.12647v1 cs.AI, cs.CY, cs.LG

arXiv PDF

📄 OPTIC-ER: A Reinforcement Learning Framework for Real-Time Emergency Response and Equitable Resource Allocation in Underserved African Communities

2025-08-20

Авторы:

Mary Tonwe

## Контекст В многих регионах Африки публичные системы обслуживания страдают от задержек в реагировании на срочные ситуации и пространственной неравенствой в доступе к ресурсам. Эти проблемы приводят к ухудшению качества жизни и избыточным потерям жизни. Одним из ключевых факторов, вызывающих эти проблемы, является неэффективное управление ресурсами. Это приводит к недостаточности ответа на неотложные ситуации и неравномерному распределению ресурсов. Избыточные затраты на спасательные операции и задержки в прибытии скорой помощи приводят к ухудшению социальной ситуации и повышению уровня недовольства граждан. Мотивация для создания OPTIC-ER заключается в разработке системы, которая могла бы адаптироваться к реальному времени, обеспечивать справедливое распределение ресурсов и повышать эффективность реагирования на срочные ситуации. ## Метод OPTIC-ER — это рамфрейм (framework) для управления реального времени, основанный на reinforcement learning (RL). Он использует архитектуру actor-critic с внимательным руководством (attention-guided) для управления сложностью среды диспетчеризации. Основными инновациями являются: 1) контекстно-богатый вектор состояния (Context-Rich State Vector), который кодирует неоптимальность действий, и 2) функцию премии (Precision Reward Function), которая наносит наказания за неэффективность. Тренировка происходит в высокоточной симуляции с использованием реальных данных из Риверс-Стейта, Нигерии, и ускорена с помощью предварительно вычисленного атласа путей (Travel Time Atlas). Основываясь на TALS-фреймворке (Thin computing, Adaptability, Low-cost, Scalability), OPTIC-ER предназначен для развертывания в условиях нехватки ресурсов. ## Результаты В ходе экспериментов были использованы данные из 500 невидимых (unseen) случаев. OPTIC-ER достиг optimality rate в 100.00% с минимальной неэффективностью. Это подтверждает высокую ретроспективную и нормальную общину рамфрейма. Данные результаты показывают, что OPTIC-ER эффективно работает в реальных условиях и может быть распространен в других регионах, схожих по характеристикам с Rivers State. ## Значимость OPTIC-ER может быть применен в сфере обслуживания граждан, включая скорую помощь, пожарные службы и полицию. Он предоставляет прозрачность в решениях и повышает эффективность реагирования на срочные ситуации. Также он может быть применен в проектировании инфраструктуры, позволяя проводить оценку необходимости ресурсов и создавать карты недостатков инфраструктуры. Это позволяет государству проводить прогностическое управление и принимать более обоснованные решения в области развития. ## Выводы Результаты показывают

Annotation:

Public service systems in many African regions suffer from delayed emergency response and spatial inequity, causing avoidable suffering. This paper introduces OPTIC-ER, a reinforcement learning (RL) framework for real-time, adaptive, and equitable emergency response. OPTIC-ER uses an attention-guided actor-critic architecture to manage the complexity of dispatch environments. Its key innovations are a Context-Rich State Vector, encoding action sub-optimality, and a Precision Reward Function, whi...

ID: 2508.12943v1 cs.AI, cs.CY, cs.LG

arXiv PDF

📄 PakBBQ: A Culturally Adapted Bias Benchmark for QA

2025-08-15

Авторы:

Abdullah Hashmat, Muhammad Arham Mirza, Agha Ali Raza

#### Контекст С появлением Large Language Models (LLMs) в различных приложениях, важно обеспечить их справедливость и нейтральность во взаимодействии с различными пользователями. Однако, большинство LLMs разрабатываются и проверяются на данных, сфокусированных на западных стереотипах и языках, оставляя малозначимость для низкоресурсных языков и региональных контекстов. Это нарушает справедливость и эффективность моделей в региональном контексте. Работа PakBBQ, расширенного Bias Benchmark for Question Answering (BBQ), нацелена на решение этой проблемы. Она содержит более 214 шаблонов, 17180 QA-пар, охватывающих 8 категорий в 2 языках (английский и урду). В состав включено 8 стейт-биасов, включающих важные западные и региональные характеристики, такие как возраст, инвалидность, внешность, пол, социально-экономический статус, религиозные убеждения, региональная принадлежность и формальность языка. #### Метод Методология PakBBQ основывается на разработке шаблонов и QA-пар, отражающих региональные и культурные особенности. Множество нейтральных и негативно формулированных вопросов подвергались оценке в разных контекстах. Использовались несколько LLMs для оценки подвижности моделей по стейт-биасу. Эксперименты проводились с разными типами вопросов, чтобы изучить влияние фрейминга и нейтрализации стейт-биаса. Это дало возможность сравнить модели под влиянием неявной и явной дисамбигуации, чтобы продемонстрировать их устойчивость к различным формам вопросов. #### Результаты Опытные исследования показали следующие результаты: (i) увеличение точности в 12% при использовании дисамбигуации, (ii) наличие сильной биас-нейтрализации в урду по сравнению с английским, (iii) влияние на фрейминг, при котором отрицательно формулированные вопросы уменьшают стейт-биас. Эти результаты подтверждают важность разработки конкретных бенчмаров для региональных языков. Они также показывают, что простой фрейминг вопросов может сильно повлиять на результаты, помогая уменьшить биас в низкоресурсных языках. #### Значимость PakBBQ предлагает свой вклад в область создания справедливых и нейтральных моделей для низкоресурсных языков. Он может использоваться для тестирования LLMs на уровне биаса в региональных контекстах, таких как язык урду. Это решение может иметь значительный потенциал в области создания безопасных, справедливых и эффективных моделей для местных пользователей. Это также открывает пути для развития технологий повышения качества языковых моделей на уровне регионального образования. #### Выводы Работа

Annotation:

With the widespread adoption of Large Language Models (LLMs) across various applications, it is empirical to ensure their fairness across all user communities. However, most LLMs are trained and evaluated on Western centric data, with little attention paid to low-resource languages and regional contexts. To address this gap, we introduce PakBBQ, a culturally and regionally adapted extension of the original Bias Benchmark for Question Answering (BBQ) dataset. PakBBQ comprises over 214 templates, ...

ID: 2508.10186v1 cs.CL, cs.AI, cs.CY, cs.LG

arXiv PDF

📄 Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face

2025-08-13

Авторы:

Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg

## Контекст Область исследования состоит в изучении создания и развития моделей машинного обучения (ML), особенно в контексте генеративных моделей и искусственного интеллекта (AI). За последние годы возрастает интерес к разработке и применению таких моделей в различных сферах. Однако ограниченное количество эмпирических исследований посвящено изучению структуры взаимодействий при развитии и применении этих моделей. Это затрудняет понимание эволюционных процессов, происходящих в экосистеме ML. Учитывая растущий объем моделей и их взаимосвязей, необходимо получить более глубокие аналитические сведения о том, как эти модели создаются, адаптируются и используются. Задача этого исследования — получить эмпирические подтверждения для понимания логики того, как генеративные модели развиваются, и выделить направления для будущих исследований. ## Метод Для изучения структуры и эволюции моделей ML было использовано данные с платформы Hugging Face, ведущей платформы для разработки моделей ML. Исследователи разработали архитектуру подхода, основанную на изучении "деревьев моделей" — структур, которые связывают между собой модели, основанные на базовых моделях или "родительские" модели. Для измерения генетической схожести использовались метаданные моделей и "карточки моделей" (model cards), которые содержат сведения о метаданных, наименовании и описании моделей. Методом анализа было применено подходы, подобные эволюционной биологии, для изучения сходства моделей, их взаимодействия и уровня мутаций. Эта методология позволила получить новые подходы к изучению взаимосвязей в ML-экосистемах. ## Результаты Исследование охватило 1.86 миллиона моделей, размещенных на Hugging Face. Отдельным аспектом было изучение "деревьев моделей", показавших разнообразие структур и размеров этих сетей. Изучив семейные сходства моделей, исследователи обнаружили, что модели, принадлежащие к одной семье, демонстрируют большую генетическую схожесть, но это сходство отличается от стандартных моделей по аксельсорсной репродукции. Так, две "сестринские" модели чаще всего более похожи друг на друга, чем родительская и дочерняя модель. Эволюционные анализы также выявили некоторые интересные тенденции в экосистеме ML. Например, модели часто перемещаются от ограничительных коммерческих лицензий к более открытым, таким как последовательные (copyleft) или менее ограничительные лицензии, что порой противоречит условиям "родительских" лицензий. Также обнаружена тенденция к уменьшению размера моделей, превращению в англоязычные, а также к стандартизации моделе

Annotation:

Many have observed that the development and deployment of generative machine learning (ML) and artificial intelligence (AI) models follow a distinctive pattern in which pre-trained models are adapted and fine-tuned for specific downstream tasks. However, there is limited empirical work that examines the structure of these interactions. This paper analyzes 1.86 million models on Hugging Face, a leading peer production platform for model development. Our study of model family trees -- networks tha...

ID: 2508.06811v1 cs.SI, cs.AI, cs.CY, cs.LG

arXiv PDF

📄 Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

2025-08-13

Авторы:

Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson

#### Контекст Дипломатия — сложная и информационно-объемная игра, требующая стратегического мышления, взаимодействия и тонкого понимания социальных отношений. Участие в этой игре требует высокого уровня мотивации и компетентности от игроков. Существующие методы учебных и тестовых задач для оценки моделей языкового понимания не позволяют оценить их возможности в такой сложной области. Это приводит к ограниченности в широком применении моделей языкового понимания в задачах, требующих стратегического мышления. Наша мотивация заключается в том, чтобы создать метод, позволяющий оценивать модели языкового понимания на полноценных задачах дипломатии, не требуя дополнительной обучения или предварительной подготовки. #### Метод Мы предлагаем методологию, призванную оценивать модели языкового понимания на полноценной задаче дипломатии без необходимости дополнительной подготовки. Мы используем данные для итеративной оптимизации игрового пространства, чтобы улучшить комплексность и точность игрового процесса. Инновационной частью нашего подхода является использование текстовой игровой системы, которая позволяет моделям языкового понимания работать в реальном времени, упрощая процесс тестирования и анализа. Мы также вводим метод критического анализа состояний игры, который позволяет быстро исследовать и анализировать ключевые моменты в игре. #### Результаты Мы провели эксперименты с различными моделями языкового понимания, включая модели с разным количеством параметров. Мы отобрали модели, которые совершенно не требуют дополнительной настройки и имеют широкий диапазон возможностей. Мы также проводили сравнение основных моделей, определяя, какие модели демонстрируют лучший результат в задаче дипломатии. Оказалось, что модели с большим количеством параметров показывают лучшие результаты. Однако мы также обнаружили, что даже модели с меньшим количеством параметров могут выполнять достаточно хорошую работу. Эти результаты позволяют нам понять, как модели языкового понимания могут оценивать сложные ситуации в игре дипломатии. #### Значимость Наш подход демократизирует оценку моделей языкового понимания, позволяя использовать их в задачах, требующих стратегического мышления. Он упрощает процесс тестирования и позволяет проводить сравнение моделей в разных ситуациях. Этот подход также предоставляет новый взгляд на то, какие способности моделей языкового понимания возникают при их обучении на других задачах. Это может привести к новым возможностям в использовании моделей языкового понимания в сложных задачах, требующих с

Annotation:

We present the first evaluation harness that enables any out-of-the-box, local, Large Language Models (LLMs) to play full-press Diplomacy without fine-tuning or specialized training. Previous work required frontier LLMs, or fine-tuning, due to the high complexity and information density of Diplomacy's game state. Combined with the high variance of matches, these factors made Diplomacy prohibitive for study. In this work, we used data-driven iteration to optimize a textual game state representati...

ID: 2508.07485v1 cs.AI, cs.CL, cs.CY, cs.LG

arXiv PDF

Показано 61 - 67 из 67 записей