📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Yinan Yu, Alex Gonzalez-Caceres, Samuel Scheidegger, Sanjay Somanath, Alexander Hollberg

## КОНТЕКСТ И ПРОБЛЕМАТИКА Реновация существующих зданий является ключевой задачей в борьбе с климатическими изменениями. Для оптимального планирования реставрации на ранней стадии необходимы точные термические 3D-модели зданий, которые должны быть представлены на уровне детализации (LoD) 3. Такие модели должны включать важные элементы, такие как окна, чтобы обеспечить точные симуляции энергоэффективности. Однако создание таких моделей представляет собой сложную задачу, особенно когда речь идет о масштабируемости и точности определения таких элементов. Существующие подходы часто основываются на сегментации изображений и последующем проецировании геометрических данных, но эти методы могут страдать от перспективных искажений и недостаточной точности. Кроме того, многие существующие решения не могут эффективно обрабатывать различные типы данных, такие как изображения из Google Street View или фотографии, сделанные ручным способом. Это создает значительные ограничения для применения в реальных условиях, особенно когда речь идет о масштабировании процессов реставрации и планирования. Таким образом, существует актуальная потребность в разработке методологии, которая могла бы обеспечить точное и масштабируемое создание 3D-моделей зданий, основываясь на изображениях различных источников. Такой подход должен уменьшить ошибки, связанные с перспективными искажениями, и обеспечить высокую точность для применения в ранних стадиях планирования реставрации. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье представлен метод Scalable Image-to-3D Facade Parser (SI3FP), который предназначен для генерации термических 3D-моделей зданий на уровне LoD 3. Основная инновационность этого подхода заключается в том, что он непосредственно моделирует геометрические примитивы (такие как окна) в ортогональной плоскости изображения, что позволяет избежать перспективных искажений, характерных для традиционных методов. SI3FP использует сочетание компьютерного зрения и техник глубокого обучения для извлечения геометрии из изображений. Этот подход обеспечивает единый интерфейс для обработки различных типов данных, включая разреженные данные (например, изображения из Google Street View) и плотные данные (например, фотографии, сделанные с ручным камерой). Это позволяет обрабатывать данные из различных источников, что значительно расширяет применимость метода. Архитектура SI3FP основывается на нейронных сетях, которые обучены распознавать и извлекать геометрические формы из изображений. Особенностью этого метода является то, что он не зависит от конкретного типа данных и может быть применен к различным источникам изображений. Это позволяет создавать 3D-модели с высокой точностью, которые могут быть использованы для раннего планирования реставрации и улучшения энергоэффективности зданий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода были проведены эксперименты на данных, полученных из типичных шведских жилых зданий. Эти данные включали изображения различных типов, в том числе изображения из Google Street View и фотографии, сделанные ручным способом. Результаты экспериментов показали, что SI3FP достигает примерно 5% ошибки при оценке отношения площади окон к площади стен (window-to-wall ratio). Эта точность достаточна для раннего планирования реставрации и позволяет использовать полученные модели для энергетических симуляций. Кроме того, метод показал высокую стабильность и точность при обработке различных типов данных, что демонстрирует его применимость в реальных условиях. Эксперименты также показали, что SI3FP может эффективно обрабатывать данные из различных источников, что делает его универсальным инструментом для масштабирования процессов реставрации и улучшения энергоэффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SI3FP имеет широкое применение в области энергетической реставрации и планирования. Благодаря точности и масштабируемости метода, он может быть использован для создания термических 3D-моделей зданий, которые необходимы для раннего этапа планирования реставрации. Это позволяет оптимизировать процессы улучшения энергоэффективности и снижения эмиссий при реставрации существующих зданий. Кроме того, метод может быть применен в более широкой области, такой как урбанистическое планирование и развитие. Его способность обрабатывать различные типы данных делает его полезным инструментом для разработки и анализа городских пространств, что может быть использовано для создания более устойчивых и энергоэффективных городов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе был представлен метод SI3FP, который позволяет создавать точные термические 3D-модели зданий на основе изображений различных источников. Этот метод обеспечивает высокую точность и масштабируемость, что делает его подходящим для применения в реальных условиях. В будущем планируется дальнейшее улучшение метода, в том числе расширение его возможностей для обработки более сложных типов данных и улучшение точности моделей. Также предполагается исследование дополнительных приложений метода в области урбанистического планирования и развития.
Annotation:
Renovating existing buildings is essential for climate impact. Early-phase renovation planning requires simulations based on thermal 3D models at Level of Detail (LoD) 3, which include features like windows. However, scalable and accurate identification of such features remains a challenge. This paper presents the Scalable Image-to-3D Facade Parser (SI3FP), a pipeline that generates LoD3 thermal models by extracting geometries from images using both computer vision and deep learning. Unlike exis...
ID: 2508.04406v1 cs.CV, cs.AI
Авторы:

Thassilo M. Schiepanski, Nicholas Piël

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время продвинутые языковые модели (LLMs) позволили создать автономных веб-агентов, которые могут выполнять задачи в веб-приложениях. Такие модели действуют как моментальные бэкенды доменной модели, консультируясь с веб-задачами и соответствующим состоянием приложения. Однако ключевой проблемой является сериализация состояния приложения, так называемый "снапшот". Существующие веб-агенты опираются на "уземлённые" GUI-снапшоты, то есть скриншоты с визуальными подсказками, чтобы представлять состояние пользовательского интерфейса (UI). Этот подход приближает процесс к человеческому восприятию, и изображения представляют собой относительно дешевый формат ввода для моделей. Однако, визуальное восприятие LLMs ещё недостаточно развито в сравнении с их способностью интерпретировать код. Другой подход заключается в использовании DOM-снапшотов, которые структурно похожи на HTML и могут быть более эффективными. Тем не менее, большой размер входных токенов в DOM-снапшотах препятствует их эффективному использованию в веб-агентах. Эта проблема становится особенно актуальной, учитывая, что LLMs должны обрабатывать большие объёмы данных в рамках своего контекстного окна. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается новый алгоритм под названием D2Snap – первый в своем роде алгоритм для сжатия DOM-снапшотов. D2Snap основан на бэкенде GPT-4o и разработан для сокращения размера входных данных, сохраняя при этом ключевую информацию о пользовательском интерфейсе. Алгоритм спроектирован таким образом, чтобы сократить количество токенов, необходимых для представления DOM-снапшота, при этом сохраняя его структурные особенности. D2Snap выполняет "доуменьшение" DOM-снапшотов, сохраняя их иерархическую структуру, которая является важной особенностью для LLMs. Это позволяет модели эффективнее обрабатывать входные данные, не превышая пределы контекстного окна модели. Благодаря этому, D2Snap может быть интегрирован в веб-агентов для выполнения задач, связанных с веб-приложениями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности D2Snap авторы провели серию экспериментов на основе датасета Online-Mind2Web. В этих экспериментах были использованы задачи, где LLMs должны были выполнять различные действия на основе веб-интерфейса. Результаты показали, что D2Snap-сжатые DOM-снапшоты достигают успешности в 67% случаев, что соответствует базовому уровню успешности GUI-снапшотов (65%), но с меньшим количеством токенов входных данных (порядок величины 1e3). Кроме того, были исследованы различные конфигурации D2Snap, и один из них, который использовал немного больше токенов, но все еще помещался в контекстном окне модели, показал лучшие результаты, превосходя базовый GUI-снапшот на 8%. Это подтверждает, что иерархическая структура DOM является важной особенностью для LLMs и может быть эффективно использована для повышения точности выполнения задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод D2Snap имеет значительный потенциал для практического применения в области веб-агентов. Благодаря своей способности сокращать размер DOM-снапшотов, D2Snap позволяет LLMs более эффективно обрабатывать данные веб-интерфейсов, не превышая ограничений контекстного окна модели. Это может быть особенно полезно в ситуациях, когда необходимо выполнять сложные задачи, требующие обработки больших объёмов данных. Кроме того, D2Snap может быть использован в различных приложениях, где необходимо автоматизировать взаимодействие с веб-приложениями, таких как автоматизация тестирования, мониторинга и анализа веб-страниц. Его эффективность в уменьшении размера входных данных также может быть полезна в ситуациях, где требуется быстрое и эффективное взаимодействие с веб-приложениями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования было показано, что D2Snap является эффективным алгоритмом для сжатия DOM-снапшотов, позволяющим LLMs обрабатывать веб-задачи с высокой точностью. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритма, в частности, на оптимизации его производительности и расширении его применимости к более широкому кругу задач. Также, исследование может быть расширено для включения более сложных веб-интерфейсов и более разнообразных задач, чтобы проверить широкую применимость D2Snap в реальных условиях.
Annotation:
Frontier LLMs only recently enabled serviceable, autonomous web agents. At that, a model poses as an instantaneous domain model backend. Ought to suggest interaction, it is consulted with a web-based task and respective application state. The key problem lies in application state serialisation $\unicode{x2013}$ referred to as snapshot. State-of-the-art web agents are premised on grounded GUI snapshots, i.e., screenshots enhanced with visual cues. Not least to resemble human perception, but for i...
ID: 2508.04412v1 cs.AI, cs.CL, cs.HC
Авторы:

Md Raisul Kibria, Sébastien Lafond, Janan Arslan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультимодальное обучение представляет собой передовой подход в области искусственного интеллекта, который интегрирует данные из нескольких модальностей, таких как текст, изображения, видео и звук, для решения сложных задач. В последние годы этот домен испытал значительный рост, особенно благодаря использованию моделей на основе механизма внимания, которые достигли высоких результатов в различных прикладных задачах. Однако, по мере того как эти модели становятся все более сложными, встает важный вопрос интерпретируемости их решений. Это особенно критично в приложениях, где необходима ответственность и прозрачность, например, в медицине, финансовом секторе и юридических системах. Проблема интерпретируемости становится еще более сложной в мультимодальных моделях, где взаимодействия между различными модальностями трудно понять и объяснить. Традиционные методы explainable AI (XAI), разработанные для одномодальных моделей, не всегда эффективны в мультимодальном контексте, так как не учитывают сложность взаимодействий между модальностями. Кроме того, архитектурная гетерогенность мультимодальных моделей дает дополнительные трудности для разработки универсальных методов объяснения. Недостаток стандартизированных методов оценки и отчетности в области XAI для мультимодальных моделей также представляет собой значительную проблему. Многие исследования фокусируются на конкретных приложениях или модальностях, но не предоставляют общих принципов для оценки качества объяснений. Это приводит к недостаточной прозрачности и сравнительной оценке различных подходов. Таким образом, необходимо развитие методологий, которые бы обеспечивали более систематический и консистентный подход к XAI в мультимодальных моделях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается систематический обзор литературы, охватывающий период с января 2020 года по начало 2024 года, с целью анализа состояния исследований по explainability в мультимодальных моделях. Авторы разработали методологию обзора, основанную на нескольких ключевых измерениях: архитектура моделей, используемые модальности, алгоритмы объяснения и методы оценки. Обзор включает в себя анализ различных типов моделей, включая модели vision-language и текстовые модели, которые являются наиболее часто исследуемыми в этой области. Авторы также описывают различные методы XAI, применяемые для мультимодальных моделей, включая методы основанные на внимании (attention-based), которые широко используются для визуализации и объяснения решений моделей. Кроме того, в статье рассматриваются различные подходы к оценке качества объяснений, такие как метрики корреляции с человеческим пониманием, метрики базовой точности и методы валидации на основе пользовательских исследований. Авторы выделяют проблемы, связанные с текущими методами оценки, в том числе недостаточную учету контекстуальных и когнитивных факторов, специфических для каждой модальности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках систематического обзора авторы провели мета-анализ результатов исследований, опубликованных в указанном временном диапазоне. Результаты показывают, что большинство исследований сосредоточено на моделях vision-language, где визуальные и текстовые модальности широко используются. Методы на основе внимания являются наиболее популярными для объяснения решений моделей, однако они часто ограничены в своей способности захватывать полный спектр взаимодействий между модальностями. Авторы также обнаружили, что методы оценки XAI в мультимодальных моделях являются недостаточно систематичными и часто не учитывают специфику каждой модальности. Например, некоторые методы могут быть эффективными для текстовых данных, но не подходят для визуальных данных. Это приводит к несогласованности в оценке качества объяснений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Статья имеет значительное практическое значение для разработчиков и исследователей мультимодальных моделей. Она подчеркивает важность создания более прозрачных и интерпретируемых моделей, которые могут быть использованы в критически важных приложениях, таких как медицина, юриспруденция и финансы. Развитие стандартизированных методов оценки XAI может повысить доверие к мультимодальным моделям и обеспечить более ответственное их использование. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение авторы предлагают набор рекомендаций для улучшения исследований в области XAI для мультимодальных моделей. Они подчеркивают необходимость разработки более консистентных и стандартизированных методов оценки, которые учитывали бы специфику каждой модальности. Также предлагается расширение исследований на более широкий спектр модальностей и архитектур моделей. Будущие исследования могут фокусироваться на создании более гибких и универсальных методов объяснения, которые будут эффективны в различных доменах применения.
Annotation:
Multimodal learning has witnessed remarkable advancements in recent years, particularly with the integration of attention-based models, leading to significant performance gains across a variety of tasks. Parallel to this progress, the demand for explainable artificial intelligence (XAI) has spurred a growing body of research aimed at interpreting the complex decision-making processes of these models. This systematic literature review analyzes research published between January 2020 and early 202...
ID: 2508.04427v1 cs.LG, cs.AI
Авторы:

Si Chen, Izzy Molnar, Ting Hua, Peiyu Li, Le Huy Khiem, G. Alex Ambrose, Jim Lang, Ronald Metoyer, Nitesh V. Chawla

## КОНТЕКСТ И ПРОБЛЕМАТИКА Высококачественные многоходовые инструктивные диалоги между начинающими и экспертами являются необходимым компонентом для создания ИИ-систем, поддерживающих обучение, преподавание и принятие решений. Такие диалоги часто включают в себя скаффолдинг (scaffolding) — процесс, при котором эксперт поддерживает мышление новичка с помощью вопросов, обратной связи и пошагового руководства. Однако сбор таких данных сталкивается со значительными трудностями, в том числе из-за конфиденциальности и уязвимости в процессе поиска помощи. Недостаточность качественных данных лимитирует возможности развития ИИ-систем, которые могли бы эффективно моделировать и поддерживать такие взаимодействия. Кроме того, существующие ресурсы часто не отвечают потребностям в практически релевантных, педагогически богатых диалогах, которые могли бы отражать разнообразие ситуаций и характеристик участников. Это создает проблему для разработки ИИ-систем, способных предоставлять эффективную поддержку в образовательных и профессиональных контекстах. Необходимость в инновационных подходах для сбора данных, которые могли бы решить эти проблемы, является ключевым мотивом данного исследования. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы предлагается **SimInstruct** — инструмент, разработанный для сбора диалогов скаффолдинга с использованием эксперт-в-лайн-подхода. SimInstruct использует языковые модели (LLM) для моделирования новичков-инструкторов, которые представляют различные уровни профессионального опыта и характеристики личности, такие как экстраверсия или интроверсия. Эти модели новичков взаимодействуют с реальными экспертами, которые предоставляют многоходовую обратную связь, анализ и пошаговые инструкции. Ключевым элементом SimInstruct является возможность контролировать характеристики личности модели новичка, что позволяет создавать разнообразные сценарии взаимодействия. Эксперты могут адаптировать свой подход в зависимости от поведенческих характеристик новичка, что приводит к созданию более реалистичных и педагогически ценных диалогов. Данный подход не требует участия реальных новичков, что обходит проблемы конфиденциальности и уязвимости. Кроме того, была проведена файн-тюнинг процедура модели LLaMA, которая была обучена на основе расширенного датасета, созданного с помощью SimInstruct. Эта модель эксперта (Expert Model) продемонтрировала значительное улучшение по сравнению с GPT-4o в плане качества инструктивного взаимодействия. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе исследования были проведены эксперименты, в которых SimInstract использовался для сбора диалогов в области развития преподавательских навыков. Данные, полученные с помощью SimInstruct, были сравнены с реальными записями менторинговых сессий. Результаты показали, что диалоги, сгенерированные SimInstruct, обладают сравнимой педагогической релевантностью и когнитивной глубиной по сравнению с реальными записями. Кроме того, эксперты, участвовавшие в процессе, отметили высокую степень вовлеченности и рефлексии, что способствовало как повышению качества данных, так и развитию их собственных профессиональных навыков. Анализ показал, что характеристики личности модели новичка, такие как экстраверсия, влияют на то, как эксперты формулируют свои ответы и поддерживают диалог. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SimInstruct имеет широкое применение в областях образования, профессионального развития и подготовки ИИ-систем для поддержки обучения. Инструмент позволяет создавать реалистичные и педагогически ценные диалоги без необходимости в участии реальных новичков, что решает проблемы конфиденциальности и доступности данных. Преимущества SimInstruct включают в себя возможность моделирования различных характеристик новичков, что позволяет экспертам адаптировать свой подход и создавать более эффективные инструктивные стратегии. Благодаря этому, SimInstruct может быть использован для обучения ИИ-систем, которые поддерживают преподавателей, менторов и других профессионалов в процессе обучения и развития. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует успех SimInstruct в создании реалистичных и педагогически ценных диалогов скаффолдинга. Это открывает новые возможности для разработки ИИ-систем, которые могут эффективно поддерживать обучение и развитие начинающих. Будущие исследования могут фокусироваться на дальнейшем улучшении моделей новичков, включая более точное моделирование индивидуальных характеристик и поведенческих тенденций. Кроме того, исследование может быть расширено на другие домены, где скаффолдинг играет ключевую роль, такие как медицинское образование или корпоративное обучение.
Annotation:
High-quality, multi-turn instructional dialogues between novices and experts are essential for developing AI systems that support teaching, learning, and decision-making. These dialogues often involve scaffolding -- the process by which an expert supports a novice's thinking through questions, feedback, and step-by-step guidance. However, such data are scarce due to privacy concerns in recording and the vulnerability inherent in help-seeking. We present SimInstruct, a scalable, expert-in-the-loo...
ID: 2508.04428v1 cs.AI
Авторы:

Yutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui Cao, Lei Qi, Rui Zhang, Zidong Du, Jie Yan, Xing Hu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Autoformalization — это процесс преобразования математических утверждений на естественном языке в формальный язык, который может быть обработан системами формальной проверки доказательств или формальной верификации. Несмотря на значительные успехи, достигнутые благодаря применению моделей языкового обработки (LLMs), эта задача все еще столкнулась со значительными трудностями. Одной из главных проблем является низкая точность преобразования, вызванная недостаточным освоением моделями формального доменного знания и ограниченными способностями к резону при анализе естественного языка и выравнивании его с формальным представлением. Ключевыми требованиями для эффективного autoformalization являются: 1) полное понимание формальных объектов и знаний домена, необходимых для корректного идентификации и представления математических конструкций, и 2) способность к резонированию над естественным языком для точного отображения неформальных контекстов в формальные выражения. Без первого, модели не могут корректно опознавать формальные объекты; без второго, они не могут точно интерпретировать реальные контексты и сопоставить их с формальными выражениями. Существующие подходы часто падают в точности из-за нехватки этих ключевых способностей. Таким образом, необходимо разработать методологию, которая бы объединяла эти две составляющие в единый процесс обучения, позволяя моделям достигать высокой точности в autoformalization. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить выявленные проблемы, авторы представляют ThinkingF — комплексную пайплайн для синтеза данных и обучения моделей, нацеленную на улучшение обеих ключевых способностей. Эта пайплайн состоит из двух основных этапов: построение высококачественных датасетов и их использование в процессе обучения моделей. В первом этапе создаются два датасета. Первый датасет формируется путем дистилляции и выбора большого количества примеров, богатых формальным знанием. Этот датасет направлен на развитие глубокого понимания формального домена у моделей. Второй датасет формируется с помощью генерации неформально-формальных рассуждений, которые основываются на шаблонах, разработанных экспертами. Эти шаблоны помогают обучать модели к резонированию и выравниванию между неформальным и формальным языком. Во втором этапе применяются два метода обучения: Supervised Fine-Tuning (SFT) и Reinforcement Learning with Value-Reward (RLVR). Эти методы позволяют моделям не только освоить формальные знания, но и улучшить способность к резонированию и выравниванию. Архитектура моделей, полученных в результате этого процесса, основана на базовых LLMs размером 7B и 32B. Эти модели показывают высокую способность к формальному знанию и неформально-формальному выравниванию, что является результатом функционального слияния двух ключевых способностей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного подхода были проведены эксперименты на двух фундаментальных датасетах: FormalMATH-Lite и ProverBench. Модель StepFun-Formalizer-32B достигла рекордных результатов, показав BEq@1 (exact match accuracy) в 40.5% на FormalMATH-Lite и 26.7% на ProverBench. Эти результаты значительно превосходят результаты предыдущих моделей, как общего назначения, так и специализированных под autoformalization. Было показано, что модели, обученные с помощью ThinkingF, не только лучше понимают формальные объекты, но также эффективнее выравнивают неформальные контексты с формальными выражениями. Эти результаты демонстрируют значительный прогресс в решении проблем недостаточной точности, которая была характерна для предыдущих подходов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный подход имеет широкое применение в областях, требующих формальной верификации и автоматизации математических доказательств. Он может быть использован в разработке программного обеспечения, системах автоматической проверки доказательств, а также в образовательных целях для обучения студентов формальной математике. Преимущества этого подхода заключаются в высокой точности преобразования, что позволяет автоматизировать процесс преобразования неформальных математических утверждений в формальные, что значительно экономит время и усилия человека. Кроме того, этот подход может быть использован в различных научных и инженерных дисциплинах, где формальные выражения играют ключевую роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ StepFun-Formalizer представляет собой значительный шаг вперед в области autoformalization. Он не только показывает высокую точность, но также открывает новые возможности для применения LLMs в формальных задачах. Будущие исследования могут фокуссироваться на дальнейшем улучшении моделей, особенно в области резонирования и выравнивания между неформальным и формальным языками, а также на расширении областей применения этого подхода.
Annotation:
Autoformalization aims to translate natural-language mathematical statements into a formal language. While LLMs have accelerated progress in this area, existing methods still suffer from low accuracy. We identify two key abilities for effective autoformalization: comprehensive mastery of formal-language domain knowledge, and reasoning capability of natural language problem understanding and informal-formal alignment. Without the former, a model cannot identify the correct formal objects; without...
ID: 2508.04440v1 cs.CL, cs.AI, cs.LG
Авторы:

Rohaizah Abdul Wahid, Muhamad Said Nizamuddin Nadim, Suliana Sulaiman, Syahmi Akmal Shaharudin, Muhammad Danial Jupikil, Iqqwan Jasman Su Azlan Su

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современной образовательной практике существует актуальная проблема создания высококачественных и масштабируемых оценивающих инструментов, особенно в условиях ограниченных ресурсов. Эта проблема особенно остро стоит в регионах с низким уровнем ресурсов, где языки обучения, такие как Бахаса Мелайу, имеют ограниченные ресурсы для разработки образовательного контента. Малазийская система образования сталкивается с трудностями в обеспечении точности и соответствия учебному плану при создании оценивающих материалов. Это создает потребность в инновационных подходах, которые могли бы обеспечить качество и соответствие курсивному плану. Generative AI (GenAI) представляет собой перспективное решение для автоматического генерирования оценивающих вопросов, однако этот подход не без вызовов. Одной из ключевых проблем является обеспечение фактической точности и соответствия учебному плану, особенно для ресурсоемких языков. Таким образом, требуется разработка методологий, которые могли бы обеспечить высокое качество автоматически генерируемых вопросов, основанных на официальных учебных материалах и планах. Цель данного исследования – разработка и сравнение различных методологий автоматического генерирования вопросов для математики 1 класса на языке Бахаса Мелайу, используя модель OpenAI's GPT-4. Исследование рассматривает четыре последовательных подхода к генерации вопросов: от базовых незаземленных подсказок до более сложных методологий, основанных на Retrieval-Augmented Generation (RAG). Исследование также анализирует точность и соответствие учебному плану, используя специально разработанные методы оценки, такие как Semantic Textual Similarity (STS) и RAG-based Question-Answering (RAG-QA). ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании были разработаны четыре последовательных подхода к генерации вопросов. Первые два метода основаны на незаземленных подсказках, которые генерируют вопросы без непосредственного использования дополнительных контекстуальных данных. Эти методы включают структурированные и базовые подходы к формулировке запросов. Третий и четвертый подходы основаны на RAG-методологии, которая дополняет модель генерации дополнительными контекстуальными данными. Один из них использует фреймворк LangChain для упрощения процесса, а другой реализуется вручную для более тонкого контроля над процессом. Оба подхода используют официальные учебные материалы, включая заметки учителей и годовой учебный план (RPT), для обеспечения соответствия учебному плану. Кроме того, была разработана двойная система оценки для проверки генерируемых вопросов. Одна из компонентов, STS, измеряет соответствие вопросов учебному плану, а другая, RAG-QA, проверяет фактическую точность вопросов путем их проверки с помощью дополнительных контекстуальных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проведены эксперименты, которые сравнивают четыре подхода к генерации вопросов. Результаты показывают, что RAG-based подходы значительно превосходят незаземленные подсказки в терминах соответствия учебному плану и фактической точности. Методы, основанные на RAG, продемонстрировали лучшие результаты в измерении STS и RAG-QA, показывая высокий уровень соответствия курсивному плану. Дополнительно, исследование провело анализ того, как удобство использования фреймворка LangChain сравнивается с более тонким контролем, предоставляемым ручной реализацией. Это показало, что фреймворк LangChain обеспечивает более простой интеграцию, но может ограничивать точность контроля. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данное исследование имеет значительное практическое применение в области образования, особенно в регионах с низким уровнем ресурсов. Разработанная методология может быть использована для создания высококачественных оценивающих материалов, которые соответствуют учебному плану и обеспечивают фактическую точность. Это может быть особенно полезно для регионов, где языки обучения имеют ограниченные ресурсы. Преимущества этого подхода включают в себя масштабируемость, высокую точность и возможность адаптации к конкретным учебным планам. Это может способствовать развитию EdTech-решений в Малазии и других регионах с похожими условиями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует, что RAG-based подходы являются эффективными для генерации высококачественных оценивающих вопросов, соответствующих учебному плану. Это открывает перспективы для дальнейшего развития EdTech-решений, особенно в регионах с низким уровнем ресурсов. Будущие исследования могут фокусироваться на улучшении точности и эффективности таких систем, а также на расширении их применения на другие предметы и регионы.
Annotation:
This paper addresses the critical need for scalable and high-quality educational assessment tools within the Malaysian education system. It highlights the potential of Generative AI (GenAI) while acknowledging the significant challenges of ensuring factual accuracy and curriculum alignment, especially for low-resource languages like Bahasa Melayu. This research introduces and compares four incremental pipelines for generating Form 1 Mathematics multiple-choice questions (MCQs) in Bahasa Melayu u...
ID: 2508.04442v1 cs.CL, cs.AI
Авторы:

Biao Hu, Guoyin Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генеративные модели, такие как автокодировщики и их разновидности, играют ключевую роль в задачах моделирования высокомерных данных, восстановления объектов и генерации реалистичных образцов. Однако традиционные модели, основанные на стандартных нормальных распределениях в латентном пространстве и классических мерах различия (divergence), часто сталкиваются с проблемами, связанными с недостаточной структурированностью пространства представлений и низкой качественностью восстановленных образцов. В частности, при использовании стандартного гауссовского приоритета (prior) возникает эффект "гомогенизации", при котором разнообразие восстановленных образцов снижается из-за недостаточной экспрессивности латентного пространства. Другой существенной проблемой является сложность моделирования сложных, многомодальных распределений данных. Традиционные методы регуляризации латентного пространства, такие как Kullback-Leibler дивергенция, не всегда способны обеспечить достаточную гибкость для представления таких распределений. Это приводит к неоптимальному разбиению пространства и снижению качества моделирования. В этой связи становится актуальной задача интеграции более гибких математических моделей, способных лучше представлять сложные распределения. Одной из таких моделей является облачная модель (cloud model), которая предлагает более естественное и гибкое представление распределений, основанное на их характеристических функциях. Интеграция этой модели в рамках современных генеративных архитектур, таких как Wasserstein Auto-Encoder (WAE), может помочь решить вышеупомянутые проблемы и улучшить качество моделирования данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается **Cloud Model Characteristic Function Auto-Encoder (CMCFAE)**, новая генеративная модель, которая интегрирует облачную модель с фреймворком WAE. Основная идея заключается в использовании характеристических функций облачной модели для регуляризации латентного пространства. Облачная модель представляет собой вероятностную модель, которая описывает распределения с помощью их характеристических функций. Эти функции позволяют описать распределение более гибко, чем традиционные гауссовские модели. Авторы предлагают использовать эту гибкость для регуляризации латентного пространства в WAE. Архитектура CMCFAE включает в себя энкодер и декодер, как в традиционном WAE, но дополнена регуляризатором, основанным на характеристических функциях облачной модели. Регуляризатор обеспечивает согласованность распределения в латентном пространстве с характеристической функцией облачной модели. Такой подход позволяет избежать гомогенизации восстановленных образцов и повысить качество генерации. Кроме того, для улучшения качества моделирования используется Maximum Mean Discrepancy (MMD) регуляризация. MMD позволяет выровнять распределения в латентном пространстве и реальных данных, обеспечивая лучшую структурированность пространства. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на наборах данных MNIST, FashionMNIST, CIFAR-10 и CelebA для оценки качества модели CMCFAE. Результаты сравнивались с другими современными генеративными моделями, такими как VAEs и WAEs с гауссовским приоритетом. Квантитативные результаты показали, что CMCFAE превосходит существующие модели по таким метрикам, как Fréchet Inception Distance (FID) и реконструкционная ошибка. Кроме того, квалитативный анализ показал, что образцы, генерируемые моделью CMCFAE, более разнообразны и реалистичны по сравнению с другими моделями. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод CMCFAE может быть применен в различных областях, где важна высокая качественность генерации и реалистичность восстановленных образцов. Например, в области компьютерного зрения, CMCFAE может быть использована для генерации реалистичных изображений, восстановления деталей изображений или синтеза данных. Другой важной областью применения является обработка естественного языка, где модель может быть использована для моделирования многомодальных распределений, таких как распределение слов в тексте. Также CMCFAE может быть полезна в задачах анонимизации данных, где необходимо сохранить разнообразие и реалистичность генерируемых образцов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе была представлена новая генеративная модель **CMCFAE**, которая интегрирует облачную модель с фреймворком WAE и использует MMD регуляризацию для улучшения качества генерации. Эксперименты показали, что CMCFAE превосходит существующие модели по различным метрикам качества. Будущие исследования могут быть направлены на дальнейшее улучшение архитектуры модели, а также на применение этого подхода к более сложным данным, таким как видео и 3D-данные. Кроме того, может быть исследовано влияние различных регуляризаторов на качество моделирования.
Annotation:
We introduce Cloud Model Characteristic Function Auto-Encoder (CMCFAE), a novel generative model that integrates the cloud model into the Wasserstein Auto-Encoder (WAE) framework. By leveraging the characteristic functions of the cloud model to regularize the latent space, our approach enables more accurate modeling of complex data distributions. Unlike conventional methods that rely on a standard Gaussian prior and traditional divergence measures, our method employs a cloud model prior, providi...
ID: 2508.04447v1 cs.LG, cs.AI
Авторы:

Roman Belaire, Arunesh Sinha, Pradeep Varakantham

## КОНТЕКСТ И ПРОБЛЕМАТИКА Ред тимминг (red teaming) является критически важным процессом для выявления уязвимостей в текущих моделях машинного обучения, в том числе в Large Language Models (LLMs). Эти модели широко используются в различных приложениях, что повышает требования к их надежности и безопасности. Однако существующие автоматизированные методы ред тимминга для LLMs основываются на хрупких шаблонах запросов (prompt templates) или однократных атаках (single-turn attacks), что не позволяет полноценно охватить сложность интерактивных, реальных атак. Традиционные методы часто не учитывают динамические, многошаговые взаимодействия, которые могут возникновением в реальных сценариях использования. Кроме того, существующие подходы сталкиваются с трудностями, связанными со спарсными наградами (sparse rewards) и длительными горизонтами взаимодействия (long-horizon challenges), что ограничивает их эффективность. Необходимо разработать более продвинутый и адаптивный подход, способный обнаруживать тонкие уязвимости, которые могут быть пропущены существующими методами. Таким образом, целью данного исследования является создание нового парадигматического подхода к ред тиммингу LLMs, который бы учитывал их динамическую природу и позволял бы обнаруживать более сложные уязвимости. Это необходимо для обеспечения безопасного и надежного развертывания моделей ИИ в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается инновационный подход к ред тиммингу LLMs, основанный на формализации процесса как Марковский процесс принятия решений (Markov Decision Process, MDP) и применении иерархического Reinforcement Learning (RL). Этот подход позволяет обучить агента, который стратегически «ломает» другой ИИ, используя многошаговые атаки. Авторы предлагают использовать иерархическую структуру RL, где верхний уровень отвечает за выбор общей стратегии атаки, а нижний уровень фокусируется на тонких, токено-ориентированных изменениях, которые могут привести к вредным последствиям. Для обучения агента используется наградная функция, основанная на токенах, которая позволяет оценивать вредность действий на более детальном уровне. Ключевой момент данного подхода заключается в том, что он рассматривает ред тимминг как динамический, траекторийный процесс, а не как однократный тест. Это позволяет обнаруживать более сложные и подтаивающиеся уязвимости, которые могут быть пропущены при использовании традиционных методов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода проведены эксперименты с использованием различных наборов данных и моделей LLMs. Авторы сравнили результаты существующих базовых методов с тем, что было получено с использованием их нового подхода. Результаты показали, что предложенный метод способен обнаруживать гораздо более тонкие и сложные уязвимости, которые не были выявлены при использовании традиционных методов. Благодаря токено-ориентированной наградной функции, агент может выявлять тонкие изменения в поведении модели, которые могут привести к негативным последствиям. Кроме того, эксперименты показали, что иерархическая структура RL позволяет обучить агента выполнять многошаговые атаки, которые более эффективны в выявлении уязвимостей, чем однократные атаки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области безопасности и надежности моделей ИИ. Он может быть использован для обнаружения уязвимостей в различных моделях LLMs, что в свою очередь позволяет улучшить их безопасность и надежность перед развертыванием в реальных условиях. Данный подход также может быть применен для тестирования и оптимизации других моделей ИИ, где важно обеспечить высокий уровень безопасности и надежности. Потенциальное влияние этого метода может быть огромным, так как он позволяет создавать более надежные и безопасные системы ИИ, которые могут быть использованы в критически важных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования был разработан новый подход к ред тиммингу LLMs, основанный на формализации процесса как MDP и применении иерархического RL. Этот подход позволяет обнаруживать более сложные и тонкие уязвимости, которые могут быть пропущены традиционными методами. Будущие исследования могут фокусироваться на дальнейшем улучшении этого подхода, в том числе на разработке более эффективных наградных функций и методов обучения агентов. Кроме того, можно рассмотреть возможность применения этого подхода к другим типам моделей ИИ, чтобы обеспечить более широкое использование этой технологии.
Annotation:
Red teaming is critical for identifying vulnerabilities and building trust in current LLMs. However, current automated methods for Large Language Models (LLMs) rely on brittle prompt templates or single-turn attacks, failing to capture the complex, interactive nature of real-world adversarial dialogues. We propose a novel paradigm: training an AI to strategically `break' another AI. By formalizing red teaming as a Markov Decision Process (MDP) and employing a hierarchical Reinforcement Learning ...
ID: 2508.04451v1 cs.LG, cs.AI
Авторы:

Rui Ha, Chaozhuo Li, Rui Pu, Sen Su

```markdown ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы Large Reasoning Models (LRMs) продемонтрировали высокую эффективность в решении сложных задач, включая спонтанное демонстрацию таких когнитивных процессов, как пошаговое выведение, рефлексия и бэктрекинг. Эти явления, известные как "Aha Moments", отражают способность моделей к сложному мышлению. Однако, несмотря на эти успехи, такое мышление характеризуется значительными недостатками. Оно часто неконтролируемо и может приводить к "overthinking", когда модель продолжает генерировать избыточную информацию даже после достижения надежного решения. Это приводит к ненужному увеличению вычислительных затрат и задержек, что ограничивает практическую применимость LRMs. Ключевой проблемой является отсутствие внутренних механизмов регуляции. Текущие модели не могут эффективно мониторить и адаптировать свой процесс мышления, чтобы определить, когда нужно продолжить, вернуться назад или закончить процесс. Этот недостаток ограничивает возможности моделей к эффективному использованию в реальных приложениях. Чтобы решить эту проблему, необходим подход, который позволит моделям эффективно управлять своим процессом мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагается Meta-cognitive Reasoning Framework (MERA), который разделяет процесс мышления на две компоненты: reasoning (мышление) и control (управление). Это позволяет оптимизировать стратегии управления независимо от самого процесса мышления. MERA включает в себя несколько ключевых компонентов. Первый компонент - это takeover-based data construction mechanism, который идентифицирует критические моменты принятия решений в процессе мышления и делегирует создание контрольных сигналов на вспомогательные LLMs. Это позволяет построить высококачественные данные для обучения reasoning-control моделей. Второй компонент - это supervised fine-tuning, который реализует структурированное разделение между процессом мышления и управлением. Этот процесс позволяет модели генерировать явные трассируемые следы и приобретать начальные meta-cognitive (мета-когнитивные) способности управления. Наконец, MERA использует Control-Segment Policy Optimization (CSPO), который сочетает segment-wise Group Relative Policy Optimization (GRPO) с механизмом control-masking. Это позволяет оптимизировать процесс обучения контрольного поведения, свести к минимуму вмешательство несвязанных компонентов и эффективно обучать модель. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на различных reasoning benchmarks для оценки эффективности MERA. Результаты показали, что модели, обученные с использованием MERA, демонстрируют значительное улучшение как в эффективности, так и в точности выполнения задач. Эти модели способны лучше управлять своим процессом мышления, избегая избыточного вычисления и уменьшая время ответа. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MERA имеет широкое применение в областях, требующих эффективного и контролируемого мышления. Это может включать такие домены, как автономные системы, робототехника, медицинские диагностические системы и другие области, где важна быстрая и точная обработка информации. Преимущества MERA включают в себя уменьшение вычислительных затрат, улучшение точности и увеличение скорости принятия решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ MERA представляет собой важный шаг в развитии контролируемых систем мышления. Он позволяет LRMs эффективно управлять своим процессом мышления, что может привести к значительным улучшениям в их практическом применении. Будущие исследования могут сосредоточиться на дальнейшем улучшении эффективности и точности таких систем, а также на их интеграции в различные практические приложения. ```
Annotation:
Large Reasoning Models (LRMs) have demonstrated a latent capacity for complex reasoning by spontaneously exhibiting cognitive behaviors such as step-by-step reasoning, reflection, and backtracking, commonly referred to as "Aha Moments". However, such emergent behaviors remain unregulated and uncontrolled, often resulting in overthinking, where the model continues generating redundant reasoning content even after reaching reliable conclusions. This leads to excessive computational costs and incre...
ID: 2508.04460v1 cs.AI
Авторы:

Claudius Gros

## КОНТЕКСТ И ПРОБЛЕМАТИКА Распространение технологий генеративного искусственного интеллекта в последнее время тесно связано с механизмом внимания, который лежит в основе архитектур трансформеров. Однако, несмотря на их успех в крупномасштабных задачах, не всегда трансформеры показывают преимущество над традиционными моделями, такими как многослойные персептроны (MLP) или рекуррентные сети (RNN), в малых задачах. Особенно это заметно в контексте **"таск-свитчинга" (task switching)** — задачи, где модели должны эффективно переключаться между различными подзадачами в рамках последовательных данных. В этой работе исследуется проблема эффективности трансформеров в таск-свитчинге, особенно в задачах, требующих высокой адаптивности к изменяющимся условиям. Основная мотивация заключается в том, чтобы оценить, могут ли трансформеры, основанные на механизме внимания, превосходить традиционные подходи в подобных сценариях. Исследуется специфическая модель задачи, основанная на арифметических операциях (IARC: increment, addition, reverse copy, context), в которой модели должны обрабатывать последовательности токенов, содержащие контрольные токены, определяющие текущую подзадачу. Изучение этого контекста важно, поскольку понимание ограничений и возможностей трансформеров в малых задачах может помочь улучшить их применение в реальных системах, требующих быстрого переключения между задачами. Также, это позволяет понять, как различные варианты механизма внимания влияют на производительность моделей в таких ситуациях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования были рассмотрены несколько вариантов архитектур, включая стандартные трансформеры, рекуррентные сети типа LSTM, и MLP. Кроме того, были предложены модификации архитектуры трансформера, такие как **cisformer** — расширенная версия трансформера, которая не является трансляционно-инвариантной, и **extensive attention** — альтернативный механизм внимания. Cisformer предлагает более гибкую структуру, позволяющую модели более эффективно обрабатывать последовательности с переключениями между задачами. Extensive attention, в свою очередь, модифицирует стандартный механизм внимания, обеспечивая более глубокое понимание контекста и повышая точность предсказаний. Ключевым моментом является то, что эти модификации позволяют преодолеть ограничения стандартных трансформеров в задачах с частыми переключениями контекста. Модели были тщательно оптимизированы для работы с последовательностями, где каждая подзадача требует различного подхода к обработке. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках экспериментов были использованы данные, содержащие последовательности токенов с контрольными токенами, определяющими текущую подзадачу. Модели были оценены по их способности к предсказанию следующих токенов в последовательности. Результаты показали, что стандартные трансформеры, MLP и LSTM достигают сравнительно низких точностей в задаче таск-свитчинга, не превышая 60-70%. Однако, комбинация cisformer с extensive attention показала значительно лучшие результаты, достигая точности около **95%**. Эти результаты демонстрируют, что модифицированные архитектуры трансформеров, особенно с использованием расширенного механизма внимания, могут значительно превосходить традиционные модели в задачах, требующих быстрого переключения контекста. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенные модификации трансформеров могут быть применены в областях, требующих быстрого переключения между различными задачами, таких как **робототехника**, **автоматизированные системы управления**, и **естественный язык обработки**. Например, в робототехнике, где робот должен выполнять различные задачи в зависимости от контекста, эффективное переключение между задачами критически важно. Достижение высокой точности в таких задачах может улучшить производительность систем, особенно в ситуациях, где необходимо быстрое адаптирование к новым условиям. Это может быть особенно полезно в системах, где нужно обрабатывать потоки данных в реальном времени. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показало, что модификации архитектуры трансформера, такие как cisformer и extensive attention, могут значительно повысить производительность в задачах таск-свитчинга. Это открывает перспективы для дальнейших исследований в области модификации механизма внимания и его применении в реальных системах. Будущие исследования могут фокусироваться на дальнейшем улучшении этих модификаций, а также на их применении в более широких областях, таких как мультизадачность и адаптивное обучение. Кроме того, эти результаты могут быть использованы для лучшего понимания того, как работает механизм внимания в различных контекстах.
Annotation:
The rapid progress seen in terms of large-scale generative AI is largely based on the attention mechanism. It is conversely non-trivial to conceive small-scale applications for which attention-based architectures outperform traditional approaches, such as multi-layer perceptrons or recurrent networks. We examine this problem in the context of 'task switching'. In this framework models work on ongoing token sequences with the current task being determined by stochastically interspersed control to...
ID: 2508.04461v1 cs.LG, cs.AI
Показано 33751 - 33760 из 34022 записей