📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Cross-Model Semantics in Representation Learning

2025-08-06

Авторы:

Saleh Nikooroo, Thomas Engel

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область исследования, рассматриваемая в статье "Cross-Model Semantics in Representation Learning", сосредоточена на внутреннем представлении данных глубокими нейронными сетями. В последние годы глубокое обучение приобрело значительную популярность благодаря своей способности извлекать сложные закономерности из данных, однако возникает проблема стабильности и переносимости этих представлений между различными архитектурами моделей. Вопросы о том, насколько выученные представления устойчивы к архитектурным изменениям, становятся всё более актуальными, особенно в контексте их совместимости и применения в различных системах. Существующие проблемы включают в себя архитектурно-специфические решения, которые могут ограничивать их переносимость и совместимость. Мотивацией для исследования является необходимость разработки подходов, которые позволят улучшить совместимость и стабильность внутренних представлений, что может существенно повысить эффективность обучения и применения моделей в динамично меняющихся средах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают методологию, основанную на структурных ограничениях, таких как линейные операторы формовки и корректирующие пути, чтобы улучшить совместимость внутренних представлений между различными архитектурами. Они разработали рамочную систему для измерения и анализа выравнивания представлений в сетях, имеющих различные, но связанные архитектурные предпосылки. Методология сочетает в себе теоретические выводы, эмпирические исследования и контролируемые эксперименты по переносу, что позволяет оценить влияние структурных регулярностей на стабильность представлений при изменении архитектур. Это достигается путем введения определенных форм индуктивных смещений, которые не только поддерживают обобщение внутри модели, но и улучшают интероперабельность выученных признаков между моделями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе экспериментов были использованы различные наборы данных и архитектуры моделей для проверки гипотезы о том, что структурные регулярности способствуют более стабильной геометрии представлений при изменении архитектур. Эксперименты включали как теоретические моделирования, так и практические тестирования на различных архитектурах, таких как ResNet и VGG. Полученные результаты показали, что предложенные структурные ограничения действительно улучшают совместимость представлений между моделями, что подтверждается более высокой степенью выравнивания и стабильности представлений. Эти результаты указывают на то, что определенные формы индуктивных смещений могут значительно улучшить переносимость и стабильность внутренних представлений, что открывает новые возможности для создания более универсальных и устойчивых моделей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость исследования заключается в его потенциальном влиянии на области, связанные с дистилляцией моделей, модульным обучением и проектированием робастных систем обучения. Улучшенная совместимость представлений между различными архитектурами может способствовать более эффективному переносу знаний и уменьшению необходимости в повторном обучении моделей с нуля, что особенно актуально в условиях ограниченных вычислительных ресурсов. Преимущества предложенного подхода включают в себя более быструю адаптацию моделей к новым задачам и улучшение их обобщающей способности. Это может привести к созданию более гибких и адаптивных систем, способных быстро приспосабливаться к изменениям в данных и задачах, с которыми они сталкиваются. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основные достижения исследования включают демонстрацию того, что структурные регулярности могут значительно улучшить переносимость и стабильность внутренних представлений между различными архитектурами. Это открывает новые перспективы для создания более универсальных и устойчивых моделей, которые могут эффективно работать в разнообразных условиях и задачах. В будущем исследование может быть расширено за счет изучения других типов архитектур и более сложных структурных ограничений. Дополнительно, перспективными направлениями являются разработка новых методов для автоматизации процесса настройки структурных ограничений и исследование их влияния на более широкие классы задач в глубоких нейронных сетях.

Annotation:

The internal representations learned by deep networks are often sensitive to architecture-specific choices, raising questions about the stability, alignment, and transferability of learned structure across models. In this paper, we investigate how structural constraints--such as linear shaping operators and corrective paths--affect the compatibility of internal representations across different architectures. Building on the insights from prior studies on structured transformations and convergenc...

ID: 2508.03649v1 cs.LG, cs.AI

arXiv PDF

📄 Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired

2025-08-06

Авторы:

Ruei-Che Chang, Rosiana Natalie, Wenqian Xu, Jovan Zheng Feng Yap, Anhong Guo

Работа исследует применение живого видео-чата ChatGPT (режим Advanced Voice with Video) в качестве повседневного помощника для незрячих и слабовидящих (BVI) в реальных условиях. В эксперименте восемь участников BVI использовали систему для поиска предметов, ориентирования внутри и снаружи помещений и распознавания ориентиров. Выявлены две зоны разрыва: 1) статические сцены описываются точно и полезно, тогда как динамические ситуации требуют непрерывных, временно-критичных подсказок, которые модель выдаёт с запаздыванием; 2) сильные голосовые ответы вызывают ощущение «человечности», но приводят к галлюцинациям, неточностям в пространственных данных и сладкоречивым утверждениям, что повышает риск для безопасности. Авторы рекомендуют добавить внешние датчики, пересмотреть стратегию вмешательства и учитывать экологические и этические факторы при проектировании ассистивных видео-агентов.

Annotation:

Recent advancements in large multimodal models have provided blind or visually impaired (BVI) individuals with new capabilities to interpret and engage with the real world through interactive systems that utilize live video feeds. However, the potential benefits and challenges of such capabilities to support diverse real-world assistive tasks remain unclear. In this paper, we present findings from an exploratory study with eight BVI participants. Participants used ChatGPT's Advanced Voice with V...

ID: 2508.03651v1 cs.HC, cs.AI

arXiv PDF

📄 Automated Algorithmic Discovery for Gravitational-Wave Detection Guided by LLM-Informed Evolutionary Monte Carlo Tree Search

2025-08-06

Авторы:

He Wang, Liang Zeng

Существующие методы поиска гравитационных волн — согласованная фильтрация по шаблонам и «чёрные ящики» из нейросетей — либо слишком затратны по CPU, либо неинтерпретируемы и таят скрытые искажения. Авторы предлагают Evo-MCTS: гибридный поисковый фреймворк, который исследует пространство алгоритмов через дерево Монте-Карло, эволюционную оптимизацию и физико-информированные подсказки больших языковых моделей. На MLGWSC-1 новые варианты алгоритмов превзошли текущее SOTA на 20,2 % при сохранении человекочитаемости цепочек принятия решений. Подход переносим на другие задачи вычислительной науки.

Annotation:

Computational scientific discovery increasingly relies on algorithms to process complex data and identify meaningful patterns - yet faces persistent challenges in gravitational-wave signal identification. While existing algorithmic approaches like matched filtering (MF) and deep neural networks (DNNs) have achieved partial success, their limitations directly stem from fundamental limitations: MF's excessive computational demands arise from its reliance on predefined theoretical waveform template...

ID: 2508.03661v1 cs.AI, astro-ph.HE, astro-ph.IM, gr-qc

arXiv PDF

📄 Forest vs Tree: The $(N, K)$ Trade-off in Reproducible ML Evaluation

2025-08-06

Авторы:

Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan

Вопрос воспроизводимости оценки моделей ML осложняется тем, что эталонные метки собирают у людей, а люди расходятся во мнениях. При ограниченном бюджете чаще жертвуют числом аннотаций на пример (K) ради числа примеров (N). Авторы исследуют оптимальный компромисс (N, K) при фиксированном бюджете N×K. На 10 категориальных датасетах с множественной разметкой показано, что достаточный уровень надёжности достигается при N×K≤1000 и K>10. Чувствительные к распределению метрики (Brier, log-loss) требуют высокого K, а «жёсткие» (Accuracy, F1) — высокого N. Предложенный инструмент помогает практикам выбирать метрику и N, K для максимальной надёжности при заданном бюджете.

Annotation:

Reproducibility is a cornerstone of scientific validation and of the authority it confers on its results. Reproducibility in machine learning evaluations leads to greater trust, confidence, and value. However, the ground truth responses used in machine learning often necessarily come from humans, among whom disagreement is prevalent, and surprisingly little research has studied the impact of effectively ignoring disagreement in these responses, as is typically the case. One reason for the lack o...

ID: 2508.03663v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 A DbC Inspired Neurosymbolic Layer for Trustworthy Agent Design

2025-08-06

Авторы:

Claudiu Leoveanu-Condrei

Большие языковые модели генерируют убедительный текст, но не дают формальных гарантий корректности. Авторы переносят идею Design by Contract (DbC) на LLM, внедряя контрактный слой между вызывающим кодом и моделью. Каждый вызов сопровождается контрактом, задающим типовые и семантические ограничения на вход/выход; при нарушении запускается вероятностная дообработка, возвращающая результат в допустимое множество. Контракты декларируются как условия на строго типизированные структуры данных, а валидаторы пишет сам разработчик. Доказано, что два агента, удовлетворяющие одним и тем же контрактам, функционально эквивалентны в их рамках. Работа открывает путь к доверенным LLM-агентам без переобучения моделей.

Annotation:

Generative models, particularly Large Language Models (LLMs), produce fluent outputs yet lack verifiable guarantees. We adapt Design by Contract (DbC) and type-theoretic principles to introduce a contract layer that mediates every LLM call. Contracts stipulate semantic and type requirements on inputs and outputs, coupled with probabilistic remediation to steer generation toward compliance. The layer exposes the dual view of LLMs as semantic parsers and probabilistic black-box components. Contrac...

ID: 2508.03665v1 cs.LG, cs.AI, I.2.7; I.2.2; I.1.2; D.1.0

arXiv PDF

📄 Beyond risk: A proto-framework for assessing the societal impact of AI systems

2025-08-06

Авторы:

Willem Fourie

Статья критикует доминирующий риск-центричный подход к регулированию ИИ, ограничивающий анализ лишь снижением вреда. Автор предлагает «прото-фреймворк» оценки общественного влияния ИИ через категорию свободы (в духе Канта), противостоящей ответственности. Введены два измерения: свобода как способность (capability) и как возможность (opportunity). Эти измерения привязаны к Целям устойчивого развития ООН, что позволяет системно измерять, как ИИ усиливает или ограничивает свободу индивидов и обществ. Работа даёт первый шаг к операционализации свободы в политике и дополняет существующие риск-ориентированные методы оценки ИИ-систем.

Annotation:

In the discourse on AI regulation, 'responsible AI' is the dominant paradigm, with the focus on mitigating the risks related to AI systems. While this focus is important and necessary, it has limited use for a systematic consideration of AI's societal impact. This paper proposes a proto-framework for assessing the societal impact of AI systems by operationalising the concept of freedom. This proto-framework is intended as a step towards a fully operationalised framework to be used in policymakin...

ID: 2508.03666v1 cs.CY, cs.AI, cs.ET

arXiv PDF

📄 Agent Lightning: Train ANY AI Agents with Reinforcement Learning

2025-08-06

Авторы:

Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang

Современные методы дообучения LLM-агентов через RL требуют либо глубокой переработки кода агента, либо громоздкого конкатенирования последовательностей с маскированием. Авторы предлагают фреймворк Agent Lightning, который полностью развязывает исполнение агента от процесса обучения. Система представляет выполнение агента как марковский процесс принятия решений и через единый интерфейс преобразует любые траектории (LangChain, OpenAI Agents SDK, AutoGen или «самописные» агенты) в обучающие переходы без изменения кода агента. Введённый RL-алгоритм LightningRL с модулем кредитного присвоения справляется со сложными сценариями: мульти-агентные взаимодействия, динамические workflow. Эксперименты на задачах text-to-SQL, RAG и использовании математических инструментов показали стабильный рост качества, подтверждая пригодность фреймворка для практического дообучения и развёртывания агентов.

Annotation:

We present Agent Lightning, a flexible and extensible framework that enables Reinforcement Learning (RL)-based training of Large Language Models (LLMs) for any AI agent. Unlike existing methods that tightly couple RL training with agent or rely on sequence concatenation with masking, Agent Lightning achieves complete decoupling between agent execution and training, allowing seamless integration with existing agents developed via diverse ways (e.g., using frameworks like LangChain, OpenAI Agents ...

ID: 2508.03680v1 cs.AI, cs.LG

arXiv PDF

📄 Self-Questioning Language Models

2025-08-06

Авторы:

Lili Chen, Mihir Prabhudesai, Katerina Fragkiadaki, Hao Liu, Deepak Pathak

Исследование SQLM решает задачу самосовершенствования больших языковых моделей без внешних данных. Авторы предлагают асимметричный фреймворк самоигры, где «предлагающий» агент генерирует задачи по теме (умножение, алгебра, код), а «решающий» их решает. Обучение обеих сторон ведётся RL: предлагающий получает награду за «золотую середину» сложности, решающий — за согласие m-голосования или прохождение юнит-тестов. На трёх бенчмарках модель без кураторских данных улучшила точность, показывая, что генерация собственных задач и их решение позволяет LLM эффективно развивать рассуждения.

Annotation:

Can large language models improve without external data -- by generating their own questions and answers? We hypothesize that a pre-trained language model can improve its reasoning skills given only a single prompt specifying the topic (e.g., algebra word problems) and asking the model to generate its own questions. To do this, we propose Self-Questioning Language Models (SQLM): an asymmetric self-play framework where a proposer is given the topic and generates a question for a solver, who tries...

ID: 2508.03682v1 cs.LG, cs.AI

arXiv PDF

📄 CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

2025-08-06

Авторы:

Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen

Современные фреймворки оценки LLM полагаются на hand-crafted регулярные выражения или тяжёлые генеративные LLM, что ведёт к хрупкости и высоким расходам. Проблема усугубляется отсутствием систематического бенчмарка для верификаторов. Авторы представляют CompassVerifier — компактную (≤7B) специализированную модель-верификатор, обученную на новом бенчмарке VerifierBench, охватывающем математику, знания и логические задачи. Верификатор устойчив к edge-case ответам (мульти-подзадачи, формулы, бессмысленные вывода) и обобщается на разные домены без настройки. Эксперименты показывают, что CompassVerifier превосходит как rule-based, так и LLM-основанные подходы по точности и вычислительной эффективности, обеспечивая надёжную метрику для оценки и reward-модель для RL.

Annotation:

Answer verification is crucial not only for evaluating large language models (LLMs) by matching their unstructured outputs against standard answers, but also serves as the reward model to guide LLM optimization. Most evaluation frameworks rely on regularized matching or employ general LLMs for answer verification, which demands extensive, repetitive customization for regex rules or evaluation prompts. Two fundamental limitations persist in current methodologies: 1) the absence of comprehensive b...

ID: 2508.03686v1 cs.CL, cs.AI

arXiv PDF

📄 LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

2025-08-06

Авторы:

Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация видео является одной из актуальных задач в области компьютерного зрения и машинного обучения. Существующие методы, направленные на создание коротких видеоклипов, показывают хорошие результаты, однако они сталкиваются с серьезными трудностями при генерации продолжительных видео. К основным проблемам можно отнести временную несогласованность и визуальное ухудшение качества. Эти аспекты становятся особенно значительными, когда речь идет о генерации видео продолжительностью более одной минуты. Существующие подходы к контролируемой генерации видео, как правило, ориентированы на работу с однотипными данными и не учитывают сложности, возникающие при интеграции различных модальностей. В частности, недостаточная инициализация шума, независимая нормализация управляющих сигналов и ограниченность использования однородных данных приводят к ухудшению качества результатов. Поэтому существует настоятельная необходимость в разработке более эффективных методов, которые бы учитывали эти ограничения и обеспечивали бы высокое качество видео с сохранением временной согласованности. Данная статья представляет собой попытку решения этих проблем. Авторы изучают ключевые факторы, влияющие на качество генерации, и предлагают новый подход под названием LongVie, который направлен на создание контролируемого ультрадолгого видео с учетом уникальных характеристик данных и требований к качеству. ## ПРЕДЛОЖЕННЫЙ МЕТОД LongVie представляет собой автономную авторегрессионную архитектуру, которая включает в себя несколько ключевых компонентов, направленных на решение вышеупомянутых проблем. Во-первых, система использует унифицированную стратегию инициализации шума, которая обеспечивает однородность генерации во всех клипах. Это позволяет избежать проблем с временной несогласованностью, которые часто возникают в традиционных методах. Во-вторых, LongVie применяет глобальную нормализацию управляющих сигналов, что обеспечивает согласование в пространстве управления на протяжении всего видео. Это позволяет контролировать процесс генерации более эффективно и с наименьшими потерями качества. Для борьбы с визуальным ухудшением качества, LongVie использует многомодальную контрольную структуру, которая интегрирует как плотные (например, карты глубины), так и разреженные (например, ключевые точки) управляющие сигналы. Это позволяет системе адаптивно реагировать на изменения в визуальной информации и корректировать процесс генерации в реальном времени. Кроме того, LongVie включает в себя стратегию обучения, учитывающую деградацию, которая адаптивно балансирует вклад различных модальностей во времени, что позволяет поддерживать высокое визуальное качество на протяжении всего видео. Данные подходы в совокупности обеспечивают LongVie выдающиеся результаты в области контролируемой генерации длинных видеоклипов, что делает этот метод значительным шагом вперед в данной области. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования была проведена серия экспериментов, направленных на оценку эффективности LongVie. Для этих целей был разработан новый обширный бенчмарк LongVGenBench, который включает 100 высококачественных видеороликов, охватывающих разнообразные реальные и синтетические среды, каждый из которых длится более одной минуты. Это позволяет полноценно оценить возможности LongVie в различных условиях. Эксперименты продемонстрировали, что LongVie достигает состояния наилучшего искусства в таких аспектах, как долгосрочная контролируемость, согласованность и качество визуализации. Результаты показывают, что система способна генерировать видео с высокой степенью детализации, сохраняя при этом временную согласованность на протяжении всей длины клипа. Сравнение с существующими методами подтвердило, что LongVie превосходит аналогичные подходы по всем ключевым метрикам, включая субъективное качество видео и согласованность между кадрами. Эти результаты подчеркивают значимость предложенного метода и его потенциал для применения в практических задачах генерации видео. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LongVie имеет широкий спектр применения в различных областях, включая развлекательную индустрию, создание видеоигр, а также в образовательных и рекламных приложениях. Его способность генерировать длинные видеоклипы с высокой степенью контролируемости и качеством открывает новые возможности для креативных специалистов, позволяя им создавать уникальный контент с минимальными затратами времени и ресурсов. Кроме того, LongVie может быть использован в исследованиях, связанных с анализом и синтезом видео, а также в области виртуальной и дополненной реальности, где требуется создание реалистичных и динамичных окружений. Потенциальное влияние данного метода на индустрию может быть значительным, так как он позволяет значительно упростить процесс создания видеоконтента, который раньше требовал значительных усилий и времени. Также стоит отметить, что использование многомодальных сигналов в контроле генерации может привести к новым подходам в других областях, таких как робототехника и автономные системы, где визуальная информация и управление играют ключевую роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В статье представлены значимые достижения в области контролируемой генерации ультрадолгих видео с использованием метода LongVie. Авторы продемонстрировали, что предложенная архитектура успешно решает проблемы временной несогласованности и визуального ухудшения, обеспечивая высокое качество и согласованность при генерации длинных видеоклипов. Направления для будущих исследований включают дальнейшую оптимизацию модели, изучение дополнительных модальностей и улучшение адаптивных стратегий обучения. Также стоит рассмотреть возможность интеграции LongVie с другими технологиями, такими как генерация текста в видео или создание интерактивного контента. Все это открывает новые горизонты для улучшения и расширения возможностей автоматизированной генерации видео.

Annotation:

Controllable ultra-long video generation is a fundamental yet challenging task. Although existing methods are effective for short clips, they struggle to scale due to issues such as temporal inconsistency and visual degradation. In this paper, we initially investigate and identify three key factors: separate noise initialization, independent control signal normalization, and the limitations of single-modality guidance. To address these issues, we propose LongVie, an end-to-end autoregressive fra...

ID: 2508.03694v1 cs.CV

arXiv PDF

1
2
3400
3401
3402
3403

Показано 34011 - 34020 из 34022 записей