📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Draw Your Mind: Personalized Generation via Condition-Level Modeling in Text-to-Image Diffusion Models

2025-08-06

Авторы:

Hyungjin Kim, Seokho Ahn, Young-Duk Seo

**Резюме** Персонализированная генерация в моделях типа Text-to-Image (T2I) с диффузионными моделями направлена на то, чтобы учесть предпочтения конкретных пользователей в процессе генерации, при этом свести к минимуму необходимость их участия. Тем не менее, современные подходы зачастую основываются на моделировании на уровне текстовых запросов (prompt-level) с помощью крупномасштабных моделей, что ограничивает эффективность персонализации из-за ограниченной емкости входных токенов в моделях T2I. Чтобы решить эту проблему, была разработка метода DrUM, который интегрирует пользовательский профиль с помощью адаптера на базе трансформера для моделирования на уровне условий (condition-level) в латентном пространстве. Этот подход обеспечивает высокую эффективность на крупных датасетах и легко интегрируется с открытыми текстовыми декодерами, совместимыми с популярными фундаментальными моделями T2I, не требуя дополнительной файн-тюнинга.

Annotation:

Personalized generation in T2I diffusion models aims to naturally incorporate individual user preferences into the generation process with minimal user intervention. However, existing studies primarily rely on prompt-level modeling with large-scale models, often leading to inaccurate personalization due to the limited input token capacity of T2I diffusion models. To address these limitations, we propose DrUM, a novel method that integrates user profiling with a transformer-based adapter to enabl...

ID: 2508.03481v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 When Cars Have Stereotypes: Auditing Demographic Bias in Objects from Text-to-Image Models

2025-08-06

Авторы:

Dasol Choi Jihwan Lee, Minjae Lee, Minsuk Kahng

**Резюме:** В статье рассматривается проблема демографических предубеждений в объектах, генерируемых моделями text-to-image. Несмотря на то, что предыдущие исследования фокусировались в основном на биасе в демографической характеристике людей, авторы раскрывают более тонкую проблему — стереотипы в визуальных атрибутах объектов, таких как автомобили. Для этого был разработан новый фреймворк SODA (Stereotyped Object Diagnostic Audit), который позволяет систематически измерять такие биаси. Анализ 2700 изображений, сгенерированных тремя современными моделями (GPT Image-1, Imagen 4, Stable Diffusion) в пяти категориях объектов, показал сильную ассоциацию между демографическими признаками (такими как пол или этническая принадлежность) и визуальными чертами объектов. Обнаруженные стереотипы отражают и усиливают социально-культурные представления, в том числе самые тонкие и неочевидные. Также было выявлено, что некоторые модели генерируют менее разнообразные выходные данные, что усиливает различия в визуальных атрибутах. Результаты показывают, что SODA может стать эффективным инструментом для выявления и коррекции стереотипных биасов в моделях генеративного AI.

Annotation:

While prior research on text-to-image generation has predominantly focused on biases in human depictions, we investigate a more subtle yet pervasive phenomenon: demographic bias in generated objects (e.g., cars). We introduce SODA (Stereotyped Object Diagnostic Audit), a novel framework for systematically measuring such biases. Our approach compares visual attributes of objects generated with demographic cues (e.g., "for young people'') to those from neutral prompts, across 2,700 images produced...

ID: 2508.03483v1 cs.CV, cs.AI

arXiv PDF

📄 Semantic-aware Graph-guided Behavior Sequences Generation with Large Language Models for Smart Homes

2025-08-06

Авторы:

Zhiyao Xu, Dan Zhao, Qingsong Zou, Qing Li, Yong Jiang, Yuhang Wang, Jingyu Xiao

Проблема: модели «умного дома», обученные на статических данных, быстро деградируют при сезонных или образов-ных сдвигах поведения, а сбор новых реальных данных дорог и конфиденциален. Решение: фреймворк SmartGen, в котором LLM синтезирует реалистичные поведенческие последовательности. Он разбивает длинные логи на семантически цельные куски, компрессирует их кластеризацией в латентном пространстве, строит граф переходов и подаёт его в LLM как контекст, а затем двухступенчатым фильтром убирает аномальные сэмплы. Эксперименты на трёх датасетах: при поведенческом дрейфе точность детектирования аномалий выросла на 85,4 %, предсказания поведения — на 70,5 % относительно базовых моделей без дообучения.

Annotation:

As smart homes become increasingly prevalent, intelligent models are widely used for tasks such as anomaly detection and behavior prediction. These models are typically trained on static datasets, making them brittle to behavioral drift caused by seasonal changes, lifestyle shifts, or evolving routines. However, collecting new behavior data for retraining is often impractical due to its slow pace, high cost, and privacy concerns. In this paper, we propose SmartGen, an LLM-based framework that sy...

ID: 2508.03484v1 cs.AI

arXiv PDF

📄 BitsAI-Fix: LLM-Driven Approach for Automated Lint Error Resolution in Practice

2025-08-06

Авторы:

Yuanpeng Li, Qi Long, Zhiyuan Yao, Jian Xu, Lintao Xie, Xu He, Lu Geng, Xin Han, Yueyan Chen, Wenbo Duan

Увеличивающийся объём линтер-ошибок в корпоративных кодовых базах превысил возможности ручного исправления. Авторы предлагают BitsAI-Fix — автоматизированный пайплайн на базе LLM, который с помощью tree-sitter расширяет контекст, генерирует патчи в формате search-and-replace, перезапускает линтер и оставляет только прошедшие проверки изменения. Система обучается прогрессивным RL: на холодном старте формирует верифицируемые примеры, после развёртки собирает онлайн-фидбек по «code diff matching». Целевая функция сочетает корректность, минимальность изменений и правильность формата. В продакшене ByteDance решение обслуживает 5 000 инженеров, разрешило >12 000 ошибок с точностью 85 % и привлекает ~1 000 активных пользователей в неделю, демонстрируя жизнеспособность LLM-подхода для масштабного автоматического ремонта кода.

Annotation:

As enterprise codebases continue to grow in scale and complexity, the volume of lint errors far exceeds engineers' manual remediation capacity, leading to continuous accumulation of technical debt and hindered development efficiency. This paper presents BitsAI-Fix, an automated lint error remediation workflow based on Large Language Models (LLMs), designed to address this critical challenge in industrial-scale environments. BitsAI-Fix employs tree-sitter for context expansion and generates searc...

ID: 2508.03487v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 VQA support to Arabic Language Learning Educational Tool

2025-08-06

Авторы:

Khaled Bachir Delassi, Lakhdar Zeggane, Hadda Cherroun, Abdelhamid Haouhat, Kaoutar Bouzouad

Проблема бренности интерактивных средств преподавания арабского языка решается внедрением AI-системы, основанной на активном обучении через визуальные квизы VQA. Исследователи разработали инструмент, который на основе Vision-Language Pre-training моделей формирует описания реальных изображений, а крупная языковая модель, управляемая продуманным prompting, генерирует персонализированные задания для словаря, грамматики и понимания. Вручную размечены 1266 квизов; участники-эксперты подтвердили высокую точность и пользу. Работа демонстрирует, что VQA-подход на базе современных LLM эффективно закрывает пробел в арабском языковом образовании, предлагая масштабируемый, адаптивный и практико-ориентированный инструмент для начинающих и продолжающих.

Annotation:

We address the problem of scarcity of educational Arabic Language Learning tools that advocate modern pedagogical models such as active learning which ensures language proficiency. In fact, we investigate the design and evaluation of an AI-powered educational tool designed to enhance Arabic language learning for non-native speakers with beginner-to-intermediate proficiency level. The tool leverages advanced AI models to generate interactive visual quizzes, deploying Visual Question Answering as ...

ID: 2508.03488v1 cs.AI, cs.SE

arXiv PDF

📄 CF-RAG: A Dataset and Method for Carbon Footprint QA Using Retrieval-Augmented Generation

2025-08-06

Авторы:

Kaiwen Zhao, Bharathan Balaji, Stephen Lee

Авторы исследуют задачу ответов на вопросы о углеродном следе товаров по неструктурированным отчётам PDF. Предложен открытый набор CarbonPDF-QA: 1735 документов, 1000+ вопросов с разметкой. Показано, что GPT-4o плохо справляется с нестандартными таблицами и текстом. Решение — CarbonPDF: дообученная Llama-3 8B с RAG-модулем, учитывающим структуру таблиц и контекст. Эксперименты: +15 % точности по сравнению с SOTA (TableLlama, GPT-4o). Метод открыт и применим для автоматизированной оценки устойчивости продукции.

Annotation:

Product sustainability reports provide valuable insights into the environmental impacts of a product and are often distributed in PDF format. These reports often include a combination of tables and text, which complicates their analysis. The lack of standardization and the variability in reporting formats further exacerbate the difficulty of extracting and interpreting relevant information from large volumes of documents. In this paper, we tackle the challenge of answering questions related to c...

ID: 2508.03489v1 cs.CL, cs.AI

arXiv PDF

📄 Error Detection and Correction for Interpretable Mathematics in Large Language Models

2025-08-06

Авторы:

Yijin Yang, Cristina Cornelio, Mario Leiva, Paulo Shakarian

Современные LLM при пошаговом рассуждении часто допускают ошибки в промежуточных математических выражениях, что распространяется на финальный ответ и нарушает строгий формат вывода. Авторы предлагают метод EDCIM, который сначала заставляет модель породить систему уравнений, заданную естественным языком, а затем символьно проверяет каждый шаг, локализует ошибку и возвращает целевую обратную связь для LLM-дообучения. Для экономии ресурсов используется гибрид: лёгкий open-source LLM для рутинных операций и мощный проприетарный — для критичных участков; соотношение регулируется единственным гиперпараметром. На наборах математических задач EDCIM при правильной настройке снижает вычислительные и финансовые затраты до 3×, одновременно улучшая точность, что делает его практичным инструментом для интерпретируемого математического рассуждения.

Annotation:

Recent large language models (LLMs) have demonstrated the ability to perform explicit multi-step reasoning such as chain-of-thought prompting. However, their intermediate steps often contain errors that can propagate leading to inaccurate final predictions. Additionally, LLMs still struggle with hallucinations and often fail to adhere to prescribed output formats, which is particularly problematic for tasks like generating mathematical expressions or source code. This work introduces EDCIM (Erro...

ID: 2508.03500v1 cs.AI

arXiv PDF

📄 MoKA: Mixture of Kronecker Adapters

2025-08-06

Авторы:

Mohammadreza Sadeghi, Mahsa Ghazvini Nejad, MirHamed Jafarzadeh Asl, Yu Gu, Yuanhao Yu, Masoud Asgharian, Vahid Partovi Nia

Методы параметрически-эффективной дообучения (PEFT) снижают затраты адаптации LLM, но низкоранговые адаптеры теряют точность из-за ограниченной выразительности. Авторы предлагают Mixture of Kronecker Adapters (MoKA) — новый тип Kronecker-адаптера, где обновления весов представлены как смесь продуктов Кронекера с вентильным механизмом, оценивающим значение каждого сомножителя. Переформулировав вычисления Кронекера через стандартные матричные операции, авторы добились аппаратной эффективности на GPU. Эксперименты на дообучении инструкций и здравомысленном рассуждении при помощи квантованных LLaMA2-7B и LLaMA3-8B показали, что MoKA превосходит все PEFT-базовые методы, уменьшая число обучаемых параметров до 27× и обеспечивая новое SOTA соотношение точность/эффективность.

Annotation:

Parameter-efficient fine-tuning (PEFT) is essential for reducing the computational overhead of large language models (LLMs). Low-rank family adapters are commonly used to control the parameter size efficiently while maintaining the generative power of LLMs. However, their limited expressiveness due to the rank constraint often restricts their performance on complex tasks. We propose Mixture of Kronecker Adapters (MoKA), a new generation of Kronecker adapters that addresses this limitation by mod...

ID: 2508.03527v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Retinal Lipidomics Associations as Candidate Biomarkers for Cardiovascular Health

2025-08-06

Авторы:

Inamullah, Imran Razzak, Shoaib Jameel

Несмотря на признание ретинальной микрососудистой архитектуры как окна в системное здоровье, механизмы, связывающие её с липидным профилем крови, оставались неизученными. Авторы анализировали 10 DL-извлечённых вазографических признаков и 4 класса сывороточных липидов (FA, DAG, TAG, CE) в когорте 8 000 здоровых взрослых. Применив корреляционный анализ с FDR-регулировкой, они показали: свободные жирные кислоты предсказывают извилистость сосудов, холестериловые эфиры — средний диаметр артерий и вен, а DAG/TAG обратно коррелировали с шириной и сложностью артериолярной сети. Работа впервые демонстрирует, что ретинальные DL-трейты отражают конкретные липидные сигнатуры, что открывает путь к неинвазивному скринингу метаболического риска задолго до клинических проявлений.

Annotation:

Retinal microvascular imaging is increasingly recognised as a non invasive method for evaluating systemic vascular and metabolic health. However, the association between lipidomics and retinal vasculature remains inadequate. This study investigates the relationships between serum lipid subclasses, free fatty acids (FA), diacylglycerols (DAG), triacylglycerols (TAG), and cholesteryl esters (CE), and retinal microvascular characteristics in a large population-based cohort. Using Spearman correlati...

ID: 2508.03538v1 cs.CV, cs.AI

arXiv PDF

📄 EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering

2025-08-06

Авторы:

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

Современные TTS-модели управляют эмоциями грубо — при помощи дискретных меток или громоздких текстовых промптов, требуя при этом дорогостоящего дообучения. EmoSteer-TTS предлагает обходиться без дополнительного обучения, внедряя в предобученные flow-мatching TTS (F5-TTS, CosyVoice2 и др.) механизм activation steering: извлекается небольшой набор внутренних активаций, строятся векторы «эмо-токенов», а во время синтеза линейная интерполяция этих векторов позволяет плавно конвертировать, стирать или смешивать эмоции. На собранном много-спикерном датасете показано, что метод превосходит SOTA по точности и интерпретируемости, предоставляя непрерывное и тонкое управление эмоциональной окраской речи без переобучения модели.

Annotation:

Text-to-speech (TTS) has shown great progress in recent years. However, most existing TTS systems offer only coarse and rigid emotion control, typically via discrete emotion labels or a carefully crafted and detailed emotional text prompt, making fine-grained emotion manipulation either inaccessible or unstable. These models also require extensive, high-quality datasets for training. To address these limitations, we propose EmoSteer-TTS, a novel training-free approach, to achieve fine-grained sp...

ID: 2508.03543v1 cs.SD, cs.AI, eess.AS

arXiv PDF

1
2
3398
3399
3400
3401
3402
3403

Показано 33991 - 34000 из 34022 записей