📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model

2025-08-23

Авторы:

Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen

## Контекст Развитие больших спеech-language моделей (LSLMs) сталкивается с рядом проблем, включая разрозненные архитектуры, непрозрачность процесса обучения и невозможность повторного воспроизведения результатов. Эти проблемы затрудняют сравнение и репликацию исследований в этой области. В отличие от визуально-языковых моделей, в сфере speech-language широко распространена практика выпуска моделей с неполными данными обучения и непрозрачными конфигурациями. Для устранения этих проблем мы предлагаем LLaSO — первый полностью открытый и полностью доступный фреймворк для моделирования speech-language на большом масштабе. LLaSO предоставляет сообществу три ключевые ресурса: 1) LLaSO-Align — 12 миллионов записях спеech-text alignment; 2) LLaSO-Instruct — 13.5 миллионов записей для многозадачного тренирования; и 3) LLaSO-Eval — реплицируемый бенчмарк для стандартной оценки моделей. ## Метод Мы разработали LLaSO как полностью открытый фреймворк, который включает в себя следующие этапы: (1) Создание и открытие LLaSO-Align — крупномасштабного корпуса спеech-text alignment, покрывающего различные регионы и акценты. (2) Создание и открытие LLaSO-Instruct — многозадачного датасета для тренировки моделей на основе инструкций. (3) Разработка LLaSO-Eval — создание реплицируемого и прозрачного метода оценки моделей. Для подтверждения эффективности, мы выпустили LLaSO-Base — модель с 3.8 миллиардами параметров, обученную исключительно на открытых данных. ## Результаты Мы провести эксперименты, в ходе которых проанализировали различные аспекты LLaSO-Base. Модель была протестирована на нескольких задачах, включая потоковое распознавание речи, транскрипцию и синтез речи. Мы получили нормализованный результат 0.72, набираясь перед подобными моделями в своем классе. Наши результаты показали, что широкое покрытие обучения модели повышает ее общеуниверсальную производительность, но в случае с чисто аудиовыводом существуют существенные проблемы с generalization. Это открывает путь для последующих исследований в области достижения более высокой универсальности. ## Значимость LLaSO предлагает несколько значимых приложений: 1) Использование в научных исследованиях для построения более открытых и реплицируемых моделей. 2) Улучшение практик открытого образования в AI. 3) Продвижение совместных усилий в развитии новых алгоритмов. 4) Ускорение прогресса в решении задач многоязычного транскриптирования и распознавания речи. Этот фреймворк позволяет сообществу создавать и анализировать модели с более высокой прозрачностью и доступностью, что делает его ключевым инструментом для продвижения научных исследо

Annotation:

The development of Large Speech-Language Models (LSLMs) has been slowed by fragmented architectures and a lack of transparency, hindering the systematic comparison and reproducibility of research. Unlike in the vision-language domain, the LSLM field suffers from the common practice of releasing model weights without their corresponding training data and configurations. To address these critical gaps, we introduce LLaSO, the first fully open, end-to-end framework for large-scale speech-language m...

ID: 2508.15418v1 cs.CL, cs.AI, cs.LG, cs.MM, cs.SD

arXiv PDF

📄 GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning

2025-08-23

Авторы:

Abhigya Verma, Sriram Puttagunta, Seganrasan Subramanian, Sravan Ramachandran

#### Контекст В нынешней эры искусственного интеллекта, акцент становится все более решительным на возможность обработки и анализа разнородных типов данных, включая текст, числа, изображения и табличные данные. Одной из ключевых проблем является обеспечение моделей способности выполнять алгоритмические задачи, основанные на визуальных и текстовых данных, а также проводить разумные выводы на их основе. Эта способность к "структурированному инструкционному следованию" и "визуальному рассуждению" не только повышает качество решения задач, но и позволяет лучше оценивать модели в различных задачах машинного обучения. #### Метод GRAFT (GRaPH and Table Reasoning for Textual Alignment) представляет собой структурированную мультимодальную бенчмарк-среду, предназначенную для оценки моделей на способность выполнять задачи, сочетающие в себе визуально-текстовую аналитику, инструкционное следование и визуально-структурированное рассуждение. Методология GRAFT основывается на программно генерируемых чартах и таблицах, порожденных с использованием Python-визуализационных библиотек. Это обеспечивает корректность данных в терминах семантики, структуры и читаемости. Каждая задача в GRAFT состоит в том, чтобы решить многошаговый аналитический вопрос, основываясь только на визуальных данных. Ответы представляются в структурированных форматах, таких как JSON или YAML, что позволяет провести точную и последовательную оценку. #### Результаты В ходе экспериментов были проведены тесты на множестве визуальных и текстовых вариантов задач, чтобы оценить показатели GRAFT. Обучающие и тестовые данные состояли из созданных специально для этой базы данных чартов и таблиц, а ответы были строго проверены в соответствии с форматными требованиями. Результаты показали высокую точность моделей в выполнении задач визуального рассуждения и инструкционного следования. Благодаря подробной структуре ответов, GRAFT позволяет провести методичный анализ возможности моделей в различных сферах. #### Значимость GRAFT представляет собой значительный шаг в области мультимодального искусственного интеллекта. Он может быть использован в различных приложениях, включая обработку естественного языка, визуально-текстовую аналитику, интеллектуальные помощники, а также в области образовательных технологий. Особенно заметны его преимущества в сфере моделей, которые должны обрабатывать сочетания визуальных и текстовых данных. Бенчмарк GRAFT обеспечивает новый стандарт в задачах мультимодального визуального и текстового рассуждения, имеет большой потенциал в развитии новых моделей и методов, повышающ

Annotation:

GRAFT is a structured multimodal benchmark for evaluating models on instruction-following, visual reasoning, and visual-textual alignment tasks. It features programmatically generated charts and synthetically rendered tables, created with Python visualization libraries to ensure control over data semantics, structure, and clarity. Each GRAFT instance pairs a chart or table image with a systematically generated, multi-step analytical question based solely on visual content. Answers are provided i...

ID: 2508.15690v1 cs.AI, cs.LG, cs.MM

arXiv PDF

📄 Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

2025-08-19

Авторы:

Xinxing Wu

## Контекст Преподавание в стандартных текстовых форматах часто лишается эффективности, так как многие студенты не внимательно читают или не полностью понимают информацию, представленную в традиционных текстовых силабусах. Такая невнимательность приводит к пропуску важных деталей, таких как курсовые политики и результаты обучения. Это препятствует эффективному выполнению курса и снижает общее удовлетворение студентов. Чтобы улучшить уровень внимания и понимания, целью данной работы является разработка инновационного подхода, использующего AI-generated singing и virtual avatars для представления силабусов в более ярком, запоминающемся и интерактивном формате. Этот подход способствует усилению курсового процесса и повышению общей мотивации участников. ## Метод Предложенный метод основывается на использовании HeyGem, открытого инструмента для преобразования текстовых силабусов в музыкальные аудиовизуальные презентации. Алгоритм HeyGem анализирует текст силабуса и генерирует аудиодорожки, в которых цифровые аватары исполняют текст в формате песен. Эти песни исполняются виртуальными аватарами, созданными с использованием AI-синтеза. Интеллектуальный трекер взаимодействия позволяет адаптировать презентации под индивидуальные предпочтения студентов. Данный подход использует синтез речи и музыкальную генерацию, чтобы объединить компоненты визуального и аудио-компоненты в объединенном потоке синастесии. ## Результаты Набор экспериментов был проведен с учетом сравнения традиционных текстовых силабусов и AI-generated singing силабусов. Данные были собраны у студентов с разным уровнем подготовки, использовавших разные методы обучения. Основные результаты показали, что студенты, использовавшие AI-generated singing силабусов, показали более высокий уровень вовлеченности и понимания курсовых политик и результатов. Также исследование показало, что интерактивный формат силабусов способствовал повышению мотивации студентов и их способности вспоминать важные детали курса. Эти результаты были подтверждены с помощью визуальных соответствий и анализа ответов студентов. ## Значимость Предлагаемый подход может быть применен в различных областях образования, в том числе для создания учебных материалов, технологий обучения, и цифровых средств обучения. Он предоставляет преимущества в улучшении аудиторного внимания, увеличении мотивации и повышении уровня понимания. Этот подход также может положительно сказаться на уровне участия студентов и их способности вспоминать ключевую информацию. Это может привести к более эффекти

Annotation:

In practical teaching, we observe that few students thoroughly read or fully comprehend the information provided in traditional, text-based course syllabi. As a result, essential details, such as course policies and learning outcomes, are frequently overlooked. To address this challenge, in this paper, we propose a novel approach leveraging AI-generated singing and virtual avatars to present syllabi in a format that is more visually appealing, engaging, and memorable. Especially, we leveraged th...

ID: 2508.11872v1 cs.CY, cs.AI, cs.LG, cs.MM

arXiv PDF

📄 Explainability-in-Action: Enabling Expressive Manipulation and Tacit Understanding by Bending Diffusion Models in ComfyUI

2025-08-13

Авторы:

Ahmed M. Abuzuraiq, Philippe Pasquier

## Контекст Область исследования Explainable AI (XAI) в креативных контекстах фокусируется на создании моделей, которые не только являются черными ящиками, но также интерактивными инструментами, позволяющими участию в процессе творчества. Известно, что существующие крупные текстово-картинные модели, такие как текст-к-изображению диффузионные модели, часто трудно понять и корректировать из-за их сложности и автоматизма. Это ограничивает возможности художников для изменения и управления процессом генерирования изображений. Однако именно эта возможность модификации является ключевой для поддержки творческой практики. В нашем исследовании мы рассматриваем возможности, которые могут быть сделаны доступными через транспарентность моделей и их модификацию, чтобы позволить художникам взаимодействовать с моделью на более глубоком уровне. Наша мотивация заключается в том, чтобы создать подход, который бы стал более творческим, гибким и доступным творческим профессионалам. ## Метод Мы предлагаем "craft-based approach to explainability", который вдохновлен методом "reflection-in-action" Р. Шона. Этот подход предполагает не только разобрать модель, но и взаимодействовать с ее внутренними компонентами в течение долгого периода времени, изменяя их и изучая результаты. Мы реализовали это в виде плагина для системы ComfyUI, которая представляет собой node-based interface, позволяющий манипулировать различными частями генерирующей модели. Мы использовали различные данные, включая обучающие данные модели, для исследования того, как модификации различных узлов влияют на генерируемые изображения. Данный подход дает художникам возможность "изменять" модель в реальном времени, чтобы более ясно понять, как генерируются результаты. ## Результаты Мы провели эксперименты, в которых художники взаимодействовали с моделью, изменяя разные узлы и изучая их влияние на генерируемые изображения. Наши результаты показали, что художники стали более контролируемыми в процессе генерирования, и они могли быстрее узнавать, как различные части модели влияют на итоговый результат. Мы также обнаружили, что модификация узлов модели может привести к изменению стиля, темы и даже того, что генерируется вообще, что дает художникам большую гибкость в своей работе. ## Значимость Мы убедились, что предлагаемый подход может быть использован в творческих процессах, таких как графическое дизайн, 3D-моделирование, и даже видеосъемка. Мы видим, что такой подход может сделать модели более доступными для художников, улучшить их контроль над процессом генерирования и возможность для творческого эксперимен

Annotation:

Explainable AI (XAI) in creative contexts can go beyond transparency to support artistic engagement, modifiability, and sustained practice. While curated datasets and training human-scale models can offer artists greater agency and control, large-scale generative models like text-to-image diffusion systems often obscure these possibilities. We suggest that even large models can be treated as creative materials if their internal structure is exposed and manipulable. We propose a craft-based appro...

ID: 2508.07183v1 cs.HC, cs.AI, cs.LG, cs.MM, I.2; J.5

arXiv PDF

📄 LayerT2V: Interactive Multi-Object Trajectory Layering for Video Generation

2025-08-09

Авторы:

Kangrui Cen, Baixuan Zhao, Yi Xin, Siqi Luo, Guangtao Zhai, Xiaohong Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Реализация контролируемого генеративного моделирования видео из текстового описания (Text-to-Video, T2V) является актуальной проблемой в области компьютерного зрения. Особенно сложной задачей является управление траекториями движения объектов в сценах с несколькими движущимися объектами. Большинство моделей и датасетов в области T2V разработаны с учетом движения одного объекта, что существенно ограничивает возможности текущих генеративных моделей при работе с многообъектными сценами. Существующие подходы к контролю движения объектов в T2V часто не поддерживают сцены с несколькими перемещающимися объектами или значительно теряют в эффективности при возникновении пересечений траекторий. Такие коллизии приводят к семантическим конфликтам в областях пересечения, что осложняет создание когерентных видео. Таким образом, необходимо разработать метод, который позволит эффективно контролировать траектории нескольких объектов, избегая конфликтов и обеспечивая высокое качество синтеза. Вводная задача состоит в том, чтобы создать метод, позволяющий разделять объекты на разные слои в процессе генерации, чтобы каждый объект мог быть синтезирован независимо от других. Такой подход должен улучшить контроль над процессом генерации и повысить качество видео в многообъектных сценах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанной проблемы авторы предлагают метод LayerT2V, который основывается на построении видео путем послойной композиции фона и объектов переднего плана. Каждый объект помещается на отдельный "слой", что позволяет изолировать его траекторию от других объектов. Этот подход обеспечивает гибкое интегрирование независимых элементов видео, улучшая контроль над процессом генерации. LayerT2V работает в несколько этапов. Сначала формируется фоновый слой, затем добавляются объекты переднего плана, каждый из которых располагается на своем слое. Это позволяет избегать семантических конфликтов при пересечении траекторий, так как каждый объект обрабатывается независимо. Также метод включает механизмы для обеспечения когерентности между слоями, что позволяет создавать более естественные и реалистичные видео. Архитектура LayerT2V включает модули для генерации фона, распознавания и отслеживания объектов, а также модули для их послойной композиции. Эти модули работают совместно, обеспечивая высокую точность и качество генерации видео. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности LayerT2V. Испытания проводились на датасетах, содержащих сцены с несколькими движущимися объектами. Были использованы метрики mIoU (mean Intersection over Union) и AP50 (Average Precision at 50% IoU) для оценки качества генерации. Результаты показали, что LayerT2V превосходит текущие лучшие методы (SOTA) по обеим метрикам. В частности, показатель mIoU улучшился на 1.4 раза, а AP50 – на 4.5 раза. Эти результаты демонстрируют высокую эффективность подхода LayerT2V при генерации видео в многообъектных сценах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LayerT2V имеет широкое применение в различных областях, где необходимо генерировать видео с несколькими движущимися объектами. Например, это может быть использовано в разработке систем автоматического видеомонтажа, виртуальной и дополненной реальности, а также в системах для создания контента. Преимущества LayerT2V заключаются в его способности обрабатывать сложные сцены с несколькими объектами, обеспечивая высокую точность и контроль над процессом генерации. Это может значительно упростить процесс создания видео для различных приложений, увеличив эффективность и качество конечного продукта. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ LayerT2V представляет собой значительный шаг вперед в области T2V генерации, особенно в контексте многообъектных сцен. Он решает проблему семантических конфликтов при пересечении траекторий и обеспечивает высокое качество генерации видео. В будущем можно рассмотреть расширение этого подхода для работы с более сложными сценами, включая те, где объекты имеют более сложные траектории движения. Также можно исследовать возможности интеграции этого метода с другими технологиями, такими как реальновременная генерация видео или адаптивное управление объектами в зависимости от контекста.

Annotation:

Controlling object motion trajectories in Text-to-Video (T2V) generation is a challenging and relatively under-explored area, particularly in scenarios involving multiple moving objects. Most community models and datasets in the T2V domain are designed for single-object motion, limiting the performance of current generative models in multi-object tasks. Additionally, existing motion control methods in T2V either lack support for multi-object motion scenes or experience severe performance degrada...

ID: 2508.04228v1 cs.CV, cs.AI, cs.LG, cs.MM

arXiv PDF

Показано 11 - 15 из 15 записей