📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 VQA support to Arabic Language Learning Educational Tool

2025-08-06

Авторы:

Khaled Bachir Delassi, Lakhdar Zeggane, Hadda Cherroun, Abdelhamid Haouhat, Kaoutar Bouzouad

Проблема бренности интерактивных средств преподавания арабского языка решается внедрением AI-системы, основанной на активном обучении через визуальные квизы VQA. Исследователи разработали инструмент, который на основе Vision-Language Pre-training моделей формирует описания реальных изображений, а крупная языковая модель, управляемая продуманным prompting, генерирует персонализированные задания для словаря, грамматики и понимания. Вручную размечены 1266 квизов; участники-эксперты подтвердили высокую точность и пользу. Работа демонстрирует, что VQA-подход на базе современных LLM эффективно закрывает пробел в арабском языковом образовании, предлагая масштабируемый, адаптивный и практико-ориентированный инструмент для начинающих и продолжающих.

Annotation:

We address the problem of scarcity of educational Arabic Language Learning tools that advocate modern pedagogical models such as active learning which ensures language proficiency. In fact, we investigate the design and evaluation of an AI-powered educational tool designed to enhance Arabic language learning for non-native speakers with beginner-to-intermediate proficiency level. The tool leverages advanced AI models to generate interactive visual quizzes, deploying Visual Question Answering as ...

ID: 2508.03488v1 cs.AI, cs.SE

arXiv PDF

📄 CF-RAG: A Dataset and Method for Carbon Footprint QA Using Retrieval-Augmented Generation

2025-08-06

Авторы:

Kaiwen Zhao, Bharathan Balaji, Stephen Lee

Авторы исследуют задачу ответов на вопросы о углеродном следе товаров по неструктурированным отчётам PDF. Предложен открытый набор CarbonPDF-QA: 1735 документов, 1000+ вопросов с разметкой. Показано, что GPT-4o плохо справляется с нестандартными таблицами и текстом. Решение — CarbonPDF: дообученная Llama-3 8B с RAG-модулем, учитывающим структуру таблиц и контекст. Эксперименты: +15 % точности по сравнению с SOTA (TableLlama, GPT-4o). Метод открыт и применим для автоматизированной оценки устойчивости продукции.

Annotation:

Product sustainability reports provide valuable insights into the environmental impacts of a product and are often distributed in PDF format. These reports often include a combination of tables and text, which complicates their analysis. The lack of standardization and the variability in reporting formats further exacerbate the difficulty of extracting and interpreting relevant information from large volumes of documents. In this paper, we tackle the challenge of answering questions related to c...

ID: 2508.03489v1 cs.CL, cs.AI

arXiv PDF

📄 Error Detection and Correction for Interpretable Mathematics in Large Language Models

2025-08-06

Авторы:

Yijin Yang, Cristina Cornelio, Mario Leiva, Paulo Shakarian

Современные LLM при пошаговом рассуждении часто допускают ошибки в промежуточных математических выражениях, что распространяется на финальный ответ и нарушает строгий формат вывода. Авторы предлагают метод EDCIM, который сначала заставляет модель породить систему уравнений, заданную естественным языком, а затем символьно проверяет каждый шаг, локализует ошибку и возвращает целевую обратную связь для LLM-дообучения. Для экономии ресурсов используется гибрид: лёгкий open-source LLM для рутинных операций и мощный проприетарный — для критичных участков; соотношение регулируется единственным гиперпараметром. На наборах математических задач EDCIM при правильной настройке снижает вычислительные и финансовые затраты до 3×, одновременно улучшая точность, что делает его практичным инструментом для интерпретируемого математического рассуждения.

Annotation:

Recent large language models (LLMs) have demonstrated the ability to perform explicit multi-step reasoning such as chain-of-thought prompting. However, their intermediate steps often contain errors that can propagate leading to inaccurate final predictions. Additionally, LLMs still struggle with hallucinations and often fail to adhere to prescribed output formats, which is particularly problematic for tasks like generating mathematical expressions or source code. This work introduces EDCIM (Erro...

ID: 2508.03500v1 cs.AI

arXiv PDF

📄 MoKA: Mixture of Kronecker Adapters

2025-08-06

Авторы:

Mohammadreza Sadeghi, Mahsa Ghazvini Nejad, MirHamed Jafarzadeh Asl, Yu Gu, Yuanhao Yu, Masoud Asgharian, Vahid Partovi Nia

Методы параметрически-эффективной дообучения (PEFT) снижают затраты адаптации LLM, но низкоранговые адаптеры теряют точность из-за ограниченной выразительности. Авторы предлагают Mixture of Kronecker Adapters (MoKA) — новый тип Kronecker-адаптера, где обновления весов представлены как смесь продуктов Кронекера с вентильным механизмом, оценивающим значение каждого сомножителя. Переформулировав вычисления Кронекера через стандартные матричные операции, авторы добились аппаратной эффективности на GPU. Эксперименты на дообучении инструкций и здравомысленном рассуждении при помощи квантованных LLaMA2-7B и LLaMA3-8B показали, что MoKA превосходит все PEFT-базовые методы, уменьшая число обучаемых параметров до 27× и обеспечивая новое SOTA соотношение точность/эффективность.

Annotation:

Parameter-efficient fine-tuning (PEFT) is essential for reducing the computational overhead of large language models (LLMs). Low-rank family adapters are commonly used to control the parameter size efficiently while maintaining the generative power of LLMs. However, their limited expressiveness due to the rank constraint often restricts their performance on complex tasks. We propose Mixture of Kronecker Adapters (MoKA), a new generation of Kronecker adapters that addresses this limitation by mod...

ID: 2508.03527v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Retinal Lipidomics Associations as Candidate Biomarkers for Cardiovascular Health

2025-08-06

Авторы:

Inamullah, Imran Razzak, Shoaib Jameel

Несмотря на признание ретинальной микрососудистой архитектуры как окна в системное здоровье, механизмы, связывающие её с липидным профилем крови, оставались неизученными. Авторы анализировали 10 DL-извлечённых вазографических признаков и 4 класса сывороточных липидов (FA, DAG, TAG, CE) в когорте 8 000 здоровых взрослых. Применив корреляционный анализ с FDR-регулировкой, они показали: свободные жирные кислоты предсказывают извилистость сосудов, холестериловые эфиры — средний диаметр артерий и вен, а DAG/TAG обратно коррелировали с шириной и сложностью артериолярной сети. Работа впервые демонстрирует, что ретинальные DL-трейты отражают конкретные липидные сигнатуры, что открывает путь к неинвазивному скринингу метаболического риска задолго до клинических проявлений.

Annotation:

Retinal microvascular imaging is increasingly recognised as a non invasive method for evaluating systemic vascular and metabolic health. However, the association between lipidomics and retinal vasculature remains inadequate. This study investigates the relationships between serum lipid subclasses, free fatty acids (FA), diacylglycerols (DAG), triacylglycerols (TAG), and cholesteryl esters (CE), and retinal microvascular characteristics in a large population-based cohort. Using Spearman correlati...

ID: 2508.03538v1 cs.CV, cs.AI

arXiv PDF

📄 EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering

2025-08-06

Авторы:

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

Современные TTS-модели управляют эмоциями грубо — при помощи дискретных меток или громоздких текстовых промптов, требуя при этом дорогостоящего дообучения. EmoSteer-TTS предлагает обходиться без дополнительного обучения, внедряя в предобученные flow-мatching TTS (F5-TTS, CosyVoice2 и др.) механизм activation steering: извлекается небольшой набор внутренних активаций, строятся векторы «эмо-токенов», а во время синтеза линейная интерполяция этих векторов позволяет плавно конвертировать, стирать или смешивать эмоции. На собранном много-спикерном датасете показано, что метод превосходит SOTA по точности и интерпретируемости, предоставляя непрерывное и тонкое управление эмоциональной окраской речи без переобучения модели.

Annotation:

Text-to-speech (TTS) has shown great progress in recent years. However, most existing TTS systems offer only coarse and rigid emotion control, typically via discrete emotion labels or a carefully crafted and detailed emotional text prompt, making fine-grained emotion manipulation either inaccessible or unstable. These models also require extensive, high-quality datasets for training. To address these limitations, we propose EmoSteer-TTS, a novel training-free approach, to achieve fine-grained sp...

ID: 2508.03543v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Supervised Dynamic Dimension Reduction with Deep Neural Network

2025-08-06

Авторы:

Zhanye Luo, Yuefeng Han, Xiufan Yu

Статья решает задачу прогнозирования многомерных временных рядов при очень большом количестве входов. Классические методы главных компонент не учитывают целевую переменную и теряют предиктивную информацию. Предложенный SDDP-фреймворк использует нейросеть, которая взвешивает исходные признаки пропорционально их полезности для прогноза; на полученных «таргет-ориентированных» данных затем применяется динамический PCA. Это делает латентные факторы одновременно компактными, интерпретируемыми и максимально предиктивными. Расширение на частично наблюдаемые признаки позволяет работать с реальными пропусками. На четырёх публичных наборах (макроэкономика, финансы, энергетика) SDDP существенно превосходит DR-методы и state-of-the-art модели по точности, а факторы легко интерпретируются экспертами.

Annotation:

This paper studies the problem of dimension reduction, tailored to improving time series forecasting with high-dimensional predictors. We propose a novel Supervised Deep Dynamic Principal component analysis (SDDP) framework that incorporates the target variable and lagged observations into the factor extraction process. Assisted by a temporal neural network, we construct target-aware predictors by scaling the original predictors in a supervised manner, with larger weights assigned to predictors ...

ID: 2508.03546v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Decoding and Engineering the Phytobiome Communication for Smart Agriculture

2025-08-06

Авторы:

Fatih Gulec, Hamdan Awan, Nigel Wallbridge, Andrew W. Eckford

Стремительный рост численности населения, загрязнение почвы и воды и изменение климата ставят сельское хозяйство перед потребностью в «умных» технологиях. Авторы предлагают рассматривать фитобиом — совокупность растения, микроорганизмов и окружающей среды — как полноценную коммуникационную сеть, в которой информация передаётся молекулярными и электрофизиологическими сигналами. В статье разработана многоуровневая модель на основе теории молекулярной связи и методов ИИ/МО, что позволяет декодировать диалог растение–среда и вносить управляемые «сообщения» (например, точечное внесение удобрений или точное орошение). Пилотные эксперименты с растениями подтвердили адекватность модели электрических сигналов. Подход открывает путь к ресурсоэффективному и экологичному земледелию, формируя концепцию «Интернета био-нано-вещей» для сельского хозяйства.

Annotation:

Smart agriculture applications, integrating technologies like the Internet of Things and machine learning/artificial intelligence (ML/AI) into agriculture, hold promise to address modern challenges of rising food demand, environmental pollution, and water scarcity. Alongside the concept of the phytobiome, which defines the area including the plant, its environment, and associated organisms, and the recent emergence of molecular communication (MC), there exists an important opportunity to advance...

ID: 2508.03584v1 eess.SP, cs.AI, cs.ET, cs.NI, q-bio.MN

arXiv PDF

📄 DeepFaith: A Domain-Free and Model-Agnostic Unified Framework for Highly Faithful Explanations

2025-08-06

Авторы:

Yuhan Guo, Lizhong Ding, Shihan Jia, Yanyu Ren, Pengqi Li, Jiarun Fu, Changsheng Li, Ye yuan, Guoren Wang

Существующие методы Explainable AI (XAI) измеряют faithfulness десятками разных метрик и не имеют единой «правильной» интерпретации, что затрудняет объективное сравнение и дальнейшие улучшения. Авторы предлагают DeepFaith — единую модель-агностичную рамку, которая теоретически выводит оптимальное объяснение, максимизирующеe faithfulness сразу по всем популярным метрикам. Обучение идёт на «супервайзере», собранном из лучших фрагментов существующих методов, и заканчивается одним forward-pass без доступа к целевой модели. На 12 задачах, 6 моделях и 6 датасетах DeepFaith показывает наивысшие средние значения по 10 фундаментальным метрикам, демонстрируя домен-независимую обобщаемость и практическую применимость.

Annotation:

Explainable AI (XAI) builds trust in complex systems through model attribution methods that reveal the decision rationale. However, due to the absence of a unified optimal explanation, existing XAI methods lack a ground truth for objective evaluation and optimization. To address this issue, we propose Deep architecture-based Faith explainer (DeepFaith), a domain-free and model-agnostic unified explanation framework under the lens of faithfulness. By establishing a unified formulation for multipl...

ID: 2508.03586v1 cs.LG, cs.AI

arXiv PDF

📄 MetaScope: Optics-Driven Neural Network for Ultra-Micro Metalens Endoscopy

2025-08-06

Авторы:

Wuyang Li, Wentao Pan, Xiaoyuan Liu, Zhendong Luo, Chenxin Li, Hengyu Liu, Din Ping Tsai, Mu Ku Chen, Yixuan Yuan

Современные миниатюрные эндоскопы ограничены миллиметровыми линзами. Метаповерхности позволяют уменьшить толщину до микрон, но создают качественный разрыв между физикой света и алгоритмами. Авторы строят первый набор данных для металинзовой эндоскопии и выявляют два ключевых искажения — затухание интенсивности и хроматическую аберрацию. Предложенная сеть MetaScope учитывает оптику двумя модулями: OIA корректирует затухание через оптические эмбеддинги, OCC устраняет аберрации через пространственную деформацию, обученную на распределении PSF. Градиент-направленная дистилляция переносит знания из базовой модели. Эксперименты показывают SOTA-результаты по сегментации и восстановлению изображений, а также успешную работу на реальных биомедицинских сценах.

Annotation:

Miniaturized endoscopy has advanced accurate visual perception within the human body. Prevailing research remains limited to conventional cameras employing convex lenses, where the physical constraints with millimetre-scale thickness impose serious impediments on the micro-level clinical. Recently, with the emergence of meta-optics, ultra-micro imaging based on metalenses (micron-scale) has garnered great attention, serving as a promising solution. However, due to the physical difference of meta...

ID: 2508.03596v1 cs.CV, cs.AI

arXiv PDF

1
2
1439
1440
1441
1442
1443

Показано 14401 - 14410 из 14425 записей