📊 Статистика дайджестов
Всего дайджестов: 35039 Добавлено сегодня: 432
Последнее обновление: сегодня
Авторы:
Dean Geckt, Melinda Fricke, Shuly Wintner
## Контекст
Цель исследования заключается в изучении стратегий кодообмена в интерактивных диалогах между людьми и машинами. Ученые изучают характеристики кодообмена, который широко распространен среди многоязычных людей, но еще не полностью понятен в своих языковых и дискурсивных аспектах. Особое внимание уделяется возможности использования многоязычных технологий для исследования билингвального языкового взаимодействия. Более того, в ходе исследования исследуются возможности создания машинных систем, которые могут эффективно взаимодействовать с человеком на нескольких языках и понимать кодообмен.
## Метод
Исследование основывается на разработке и тестировании бота, который умеет выполнять Map Task с человеком, используя кодообмен между испанским и английским языками. Бот программирован для продемонстрировать различные стратегии кодообмена, включая грамматически корректные стратегии и некоторые нестандартные, такие как неожиданные или нелогичные комбинации слов. Эксперименты проводились с участием человеков, которые общались с ботом в чате. Для этих экспериментов выбраны участники с уровнем понимания как английского, так и испанского. Результаты сравнивались с различными стратегиями кодообмена, чтобы определить, как поведение бота влияет на удовольствие участников и их успех в выполнении задачи.
## Результаты
Эксперимент показал, что участники, в целом, получили удовольствие от кодообмена с ботом, при условии, что кодообмен был предсказуемым и грамматически корректным. Однако если бот генерировал нелогичные или неожиданные комбинации (например, выражение `la fork` вместо `the fork`), участники испытывали больше стресса и сталкивались с большей сложностью в достижении целей задачи. Эта информация может быть использована для создания более эффективных многоязычных машинных систем, которые будут учитывать потребности пользователей и предотвращать негативные эффекты, вызванные некорректным кодообменом.
## Значимость
Исследование имеет практическое значение для создания новых многоязычных систем общения, которые могут быть применены в различных областях, включая обучение языкам, сервисы поддержки и оперативное взаимодействие с клиентами. Это также показывает, что кодообмен может играть важную роль в том, как люди взаимодействуют с машинами, и что правильный кодообмен может улучшить качество таких взаимодействий. Таким образом, это работа может способствовать развитию технологий, которые будут более внимательны к нуждам многоязычных пользователей.
## Выводы
В результате исследования выявлены
Annotation:
Most people are multilingual, and most multilinguals code-switch, yet the
characteristics of code-switched language are not fully understood. We
developed a chatbot capable of completing a Map Task with human participants
using code-switched Spanish and English. In two experiments, we prompted the
bot to code-switch according to different strategies, examining (1) the
feasibility of such experiments for investigating bilingual language use, and
(2) whether participants would be sensitive to vari...
Авторы:
Tuo Zhang, Ning Li, Xin Yuan, Wenchao Xu, Quan Chen, Song Guo, Haijun Zhang
## Контекст
Большие языковые модели (LLMs) достигли существенных успехов в области естественного языкового обработки и мультимодальных задач. Однако их эффективное развертывание на ресурс-ограниченных устройствах, таких как смартфоны или накопители, представляет собой значительную сложность. Это вызвано тем, что модели становятся все более объемными, что приводит к высоким затратам на память и вычислительные ресурсы. Например, Микситура 8*7B требует до 40 ГБ памяти для работы, что превышает ресурсы большинства ресурс-ограниченных устройств. Для компенсации этих трудностей, широко используется архитектура Mixture of Experts (MoE), которая позволяет увеличить модельную мощность с помощью весовой спарсивания. Однако, это подход имеет несколько проблем: (1) Использование многобитного представления активаций и весов приводит к высоким затратам на память и неэффективности; (2) Отклонения в распределениях активаций приводят к потерям точности при интерпретации модели. Наша мотивация заключается в разработке эффективного метода развертывания MoE на ресурс-ограниченных устройствах, который решает эти проблемы.
## Метод
Мы предлагаем метод, основанный на гессиан-сознательной квантообработке (Hessian-Aware Quantization, HAQ) и коллаборативном выполнении на CPU и GPU. Основные элементы этого метода: (1) **Гессиан-сознательная квантообработка**: Мы используем гессиан-сознательную квантообработку для объединенного 8-битного представления активаций и весов. Это позволяет уменьшить потерю точности, вызванную отклонениями в распределениях, и обеспечивает эффективный инструмент для работы на массовых устройствах. (2) **Коллаборативная оффлоадинг и инференс**: Мы разработали механизм специальной оффлоадинга и инференса моделей MoE на CPU и GPU. Этот механизм использует статистику потока активаций для оптимального распределения ресурсов между CPU и GPU, чтобы снизить задержки и использование памяти.
## Результаты
Мы проверили наш метод на основных моделях, таких как OPT и Mixtral 8*7B. Эксперименты проводились на датасетах Wikitext2 и C4. Наши результаты показывают, что: (1) Модель с 8-битным представлением показывает почти такую же точность, как полноточная модель; (2) Использование памяти GPU уменьшилось примерно на 60%; (3) Задержка инференса была значительно сокращена. Эти результаты подтверждают эффективность нашего метода в реализации эффективного развертывания MoE на ресурс-ограниченных устройствах.
## Значимость
Наш метод имеет значительные применения в следующих областях: (1) **Мобильные устройства**: Эф
Annotation:
With the breakthrough progress of large language models (LLMs) in natural
language processing and multimodal tasks, efficiently deploying them on
resource-constrained edge devices has become a critical challenge. The Mixture
of Experts (MoE) architecture enhances model capacity through sparse
activation, but faces two major difficulties in practical deployment: (1) The
presence of numerous outliers in activation distributions leads to severe
degradation in quantization accuracy for both activati...
📄 Hallucination as a Computational Boundary: A Hierarchy of Inevitability and the Oracle Escape
2025-08-13Авторы:
Quan Shi, Wang Xi, Zenghui Ding, Jianqing Gao, Xianjun Yang
## Контекст
Ложная информация, или "хэллуцинация", является основной проблемой в развитии бо LARGE LANGUAGE MODELS (LLMs). Это неопределенность в их прогностических выводах приводит к недоверию к их применению в реальной жизни. Несмотря на выдающиеся результаты в области генеративной лингвистики и глубокого обучения, нет ясного понимания того, почему ложная информация возникает и как её можно эффективно устранить. Бурно развивающиеся машинное обучение и искусственное интеллект поставляют новые возможности, но также и новые вызовы. Целью настоящего исследования является формализация проблемы ложной информации, изучение её основных причин и предложение решений.
## Метод
Мы прибегаем к методологии формализации ложной информации как проблемы бутстраппинга информации с использованием теории информации и теории игр. Рассматривается модель ложной информации в LLMs через теорию вероятностей и необходимости Тьюринга в силу необходимости знаний в алгоритмах обучения. Мы используем "ложную информацию" как целевую функцию в игровой теории, чтобы определить условия, при которых модель может вернуть ложные выводы. Также мы проводим эксперименты на множестве данных, включающих тексты на разных языках и специальные случаи, чтобы проверить эффективность теоретических моделей.
## Результаты
В результате исследования мы показали, что ложная информация возникает только в условиях определенного количества неопределенности в исходных данных. Мы провели эксперименты, показав, что если ложная информация возникает, она может быть обнаружена и устранена с помощью специальных методов, таких как модели Retrieval-Augmented Generations (RAGs). Мы также показали, что модели RAGs могут быть интерпретированы как "оракл-машины", которые могут предотвратить возникновение ложной информации, получая экстерных знаний. Использование теории игр позволяет формализовать поведение моделей и их взаимодействие с окружающей средой, что дает новый способ управления ложной информацией.
## Значимость
Наша работа имеет важное значение для обеспечения надежности и эффективности применения LLMs в реальной жизни. Она может быть применена в таких областях, как анализ текстов, генерация текста, медицинское применение, юридические исследования и другие, где ложная информация может привести к серьёзным последствиям. Также, мы установили, что модели RAGs могут быть использованы для устранения ложной информации и увеличения надежности систем. Наша работа также открывает новые пути к достижению устойчивости в LLMs, продвигая фо
Annotation:
The illusion phenomenon of large language models (LLMs) is the core obstacle
to their reliable deployment. This article formalizes the large language model
as a probabilistic Turing machine by constructing a "computational necessity
hierarchy", and for the first time proves the illusions are inevitable on
diagonalization, incomputability, and information theory boundaries supported
by the new "learner pump lemma". However, we propose two "escape routes": one
is to model Retrieval Enhanced Genera...
📄 ProteoKnight: Convolution-based phage virion protein classification and uncertainty analysis
2025-08-13Авторы:
Samiha Afaf Neha, Abir Ahammed Bhuiyan, Md. Ishrak Khan
#### Контекст
Фаговые вирусоны (PVP) являются ключевыми структурными элементами бактериальных фагов, играющими важную роль в их функционировании. Анализ и классификация этих белков является ключевым заданием в геномных исследованиях. Однако существующие методы, такие как фрактальные представления или преобразования Чаос-игр, часто неэффективно хранят пространственную информацию и требуют значительных ресурсов вычислений. Это приводит к необходимости развития более точных и эффективных методов классификации белков PVP.
#### Метод
Метод ProteoKnight строится на использовании изображений, кодирующих последовательности белков. Он адаптирует алгоритм DNA Walk для прогнозирования вирусонных белков, включая правила для кодирования последовательностей. Для улучшения представления информации в этих изображениях, дистанции шагов были адаптированы, и были добавлены пиксельные цвета. Эти кодированные изображения подавались на вход нескольким предварительно обученным сетям глубокого обучения. Для оценки неопределенности в предсказаниях использовалась Monte Carlo Dropout (MCD).
#### Результаты
Проведенные эксперименты показали, что ProteoKnight достигает аккуратности 90,8% в бинарной классификации PVP, что соответствует результатам лидирующих методов. Однако в многоклассовой классификации желаемые результаты пока не достигнуты. На основе анализа неопределенности было выявлено, что уровень уверенности в предсказаниях зависит от класса белка и его длины. Эта неопределенность может служить полезным индикатором того, что модель полагается на ненадежные предположения при классификации.
#### Значимость
Результаты ProteoKnight открывают путь к более точному классификации PVP и могут быть использованы в различных приложениях, включая диагностику инфекций и разработку новых фармацевтических микробанок. Выявленная неопределенность может помочь в оптимизации модели, улучшении ее надежности и понимании ее работы.
#### Выводы
ProteoKnight представляет собой эффективный подход к классификации PVP, который превосходит существующие методы в том числе представления Chaos-Game. Будущие исследования будут сосредоточены на улучшении модели для многоклассовой классификации и ее применении в реальных сценариях.
Annotation:
\textbf{Introduction:} Accurate prediction of Phage Virion Proteins (PVP) is
essential for genomic studies due to their crucial role as structural elements
in bacteriophages. Computational tools, particularly machine learning, have
emerged for annotating phage protein sequences from high-throughput sequencing.
However, effective annotation requires specialized sequence encodings. Our
paper introduces ProteoKnight, a new image-based encoding method that addresses
spatial constraints in existing t...
📄 Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach
2025-08-13Авторы:
Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li
## Контекст
Обучение и оценка доменно-специальных бо LLM (Large Language Models) являются ключевыми аспектами их применения в специализированных областях. Несмотря на то что многочисленные бенчмарки были разработаны для оценки этих моделей, существуют проблемы с эффективностью и эффективностью их построения. Большинство существующих бенчмарков фокусируются на масштабировании за счет огромных корпусов для подготовки или порождения обширных наборов вопросов для широкого покрытия. Однако не достаточно изучено влияние корпуса и набора вопросов-ответов (QA) на точность и полноту доменных LLMs. Мотивация для данного исследования заключается в изучении этих зависимостей и разработке более эффективного подхода к построению бенчмарков для доменных LLMs.
## Метод
Мы предлагаем Comp-Comp, новый фреймворк для построения бенчмарков, основанный на принципе сочетания полноты (comprehensiveness) и сжатости (compactness). Метод Comp-Comp работает в итеративном режиме, где полнота гарантирует комплексность семантического покрытия домена, а сжатость улучшает точность модели. Этот подход применяется как для построения корпуса, так и для создания набора вопросов и ответов. Мы используем методы семантической обработки текста, адаптированные для этих задач, которые позволяют эффективно отбирать и оценивать материалы на каждом этапе построения бенчмарка.
## Результаты
Мы провели эксперименты с XUBench, бенчмарком, созданным на основе Comp-Comp, используя домен академический. Эксперименты показали, что наш подход значительно улучшает точность и полноту доменных моделей LLMs по сравнению с традиционными методами. Мы также провели сравнение с другими бенчмарками, установив, что XUBench предоставляет более качественную оценку моделей, обеспечивая более точные результаты. Бенчмарк XUBench также продемонстрировал широкую эффективность в оценке моделей на различных доменах, не ограничиваясь только академическим.
## Значимость
Наша работа доказывает, что при построении бенчмарков для доменных LLMs не всегда эффективно следовать закону масштабирования. Метод Comp-Comp обеспечивает более компактный и эффективный подход, позволяющий повысить точность и полноту оценки моделей. Этот подход может быть распространен на различные сферы применения, включая медицину, юриспруденцию, и другие, помимо академии. Мы видим будущие направления исследований в расширении Comp-Comp для решения задач в новых областях и улучшении его адаптации к различным доменам.
## Выводы
Мы представили Comp-Comp, новый фреймворк для построения бенчмарков, который призван обеспечить более эффективную и точную оценку доменных LLMs. Мы продемонстрировали эффективность этого подхода на XUBench в до
Annotation:
Numerous benchmarks have been built to evaluate the domain-specific abilities
of large language models (LLMs), highlighting the need for effective and
efficient benchmark construction. Existing domain-specific benchmarks primarily
focus on the scaling law, relying on massive corpora for supervised fine-tuning
or generating extensive question sets for broad coverage. However, the impact
of corpus and question-answer (QA) set design on the precision and recall of
domain-specific LLMs remains unexp...
Авторы:
Yi Zhong, Hongchao Liu, Di ZHao
## Контекст
В современном программном обеспечении, требования к качеству и надежности программного обеспечения становятся все более высокими. Одним из ключевых аспектов гарантии качества является автоматическое генерирование ассертов, которые позволяют проверить соответствие программного кода заданным требованиям. Однако существуют существующие проблемы, такие как высокая стоимость развития и обслуживания автоматических систем тестирования, а также трудности в создании точных ассертов, которые полностью отражают логику жесткого диска. Эти проблемы мотивируют развитие эффективных систем генерирования ассертов, которые могут оптимизировать подход к тестированию и обслуживанию программного обеспечения.
## Метод
Методом генерирования ассертов, предложенным в статье, является сочетание методы трансформации языка (LLM) с методом генерирования ассертов на основе языка описания оборудования (HDL). Основной архитектурой является модель трансформации языка, которая была оптимизирована с помощью метода LoRA (Low-Rank Adaptation). Эта модель была применена к фреймворку Unsloth для автоматического генерирования ассертов. Фреймворк Unsloth обеспечивает интегрированный подход к генерированию ассертов, снижая стоимость развития и обслуживания, а также повышая точность и общеупотребительность.
## Результаты
В ходе экспериментов было показано, что модель AutoAssert 1 была успешно применена для автоматического генерирования ассертов, демонстрируя высокую точность и эффективность. Использовались данные из реальных проектов, включая тесты на различных типах оборудования. Результаты показали, что модель соответствует требованиям логики жесткого диска и имеет эффективность, которая позволяет значительно снизить стоимость тестирования и производства.
## Значимость
AutoAssert 1 может применяться в различных сферах, таких как тестирование программного обеспечения, тестирование оборудования, а также в области генерирования ассертов для автоматизации тестовых процессов. Одним из основных преимуществ является снижение затрат на разработку и обслуживание, а также увеличение точности и скорости генерирования ассертов. Это может привести к значительному повышению эффективности и доступности технологий тестирования и обслуживания.
## Выводы
Выводы AutoAssert 1 - это высокоэффективная и гибкая модель для автоматического генерирования ассертов, которая позволяет оптимизировать процесс тестирования и обслуживания программного обеспечения. Будущие исследования будут направлены на повышение точности, снижение стоимо
Annotation:
As the complexity of software systems continues to increase, the demand for
automated testing and maintenance tools is growing exponentially. To meet this
urgent need, we propose a new assertion generation method based on Hardware
Description Language (HDL). This method combines a lightweight,
parameter-adjustable large language model (LLM) with the Unsloth platform to
automatically generate test cases, thereby significantly reducing training
costs without sacrificing accuracy or generalization ...
Авторы:
He Kong, Die Hu, Jingguo Ge, Liangxiong Li, Hui Li, Tong Li
#### Контекст
Проблематика автоматизации подбора и тестирования уязвимостей систем широко известна в сфере кибербезопасности. Несмотря на развитие Large Language Models (LLMs), они всё ещё сталкиваются с рядом ограничений при использовании в penetration testing. Это включает неэффективность в реагировании на ошибки, недостаточную многошаговую рациональность и невозможность выполнения сложных задач в полной исчерпывающей формате. Эти ограничения приводят к необходимости развития более рациональных и адаптивных моделей для повышения эффективности.
#### Метод
Разработанный Pentest-R1 использует двухступенчатую схему работы на основе reinforcement learning. На первом этапе LLM проходит offline reinforcement learning с использованием большого набора данных, состоящего из реальных многошаговых walkthroughs. Это позволяет модели приобрести основные принципы атак. На втором этапе LLM участвует в interactive Capture The Flag (CTF), где она получает обратную связь от среды и изучает стратегии не только для решения задач, но и для самокоррекции ошибок. Это два этапа обеспечивают LLM с подробным пониманием задач и высокой степенью адаптивности.
#### Результаты
Проведенные эксперименты показали, что Pentest-R1 обеспечивает значительный прогресс в автоматизации penetration testing. На AutoPenBench он достиг 24.2% успешных попыток, приблизившись к стандарту Gemini 2.5 Flash и значительно превосходя другие модели. На Cybench Pentest-R1 показал 15.0% успешных задач в условиях неуправляемости, показав новую рабочую метку для open-source LLMs и совпадая с результатами топовых закрытых моделей. Анализы апбликации подтвердили важность сочетания обучения в оффлайн и онлайн стадиях.
#### Значимость
Pentest-R1 может иметь широкое применение в автоматизации безопасности и penetration testing. Он оптимизирует процессы, снижает зависимость от ручного участия экспертов и улучшает качество расчетов. Это может привести к более эффективному управлению уязвимостями и сокращению времени реакции в кибербезопасности.
#### Выводы
Результаты исследования подтверждают высокую эффективность Pentest-R1 в области penetration testing. Будущие исследования будут сосредоточены на улучшении моделей, интеграции с другими системами и расширении области применения.
Annotation:
Automating penetration testing is crucial for enhancing cybersecurity, yet
current Large Language Models (LLMs) face significant limitations in this
domain, including poor error handling, inefficient reasoning, and an inability
to perform complex end-to-end tasks autonomously. To address these challenges,
we introduce Pentest-R1, a novel framework designed to optimize LLM reasoning
capabilities for this task through a two-stage reinforcement learning pipeline.
We first construct a dataset of ove...
Авторы:
Zhaoyu Chen, Hongnan Lin, Yongwei Nie, Fei Ma, Xuemiao Xu, Fei Yu, Chengjiang Long
#### Контекст
В области интеллектуальных систем существует значительный интерес к задаче Temporal Video Grounding (TVG) — определению временных интервалов в видео, соответствующих текстовому запросу. Развитие этой области возникло в связи с ростом интереса к анализу видеоконтента, включая такие задачи, как активность, действия и умный поиск видео. Однако существующие методы TVG часто стремятся оптимизировать только метрики локализации, такие как Intersection-over-Union (IoU), что приводит к перенастройке моделей на метрики, но не на понимание семантики. Такое ограничение нарушает глубокое понимание видео и запроса, что является критическим для устойчивого и эффективного решения TVG. Данная работа нацелена на решение этой проблемы, обеспечивая более сбалансированный подход к локализации и семантическому пониманию.
#### Метод
Для решения вышеуказанной проблемы предложен фреймворк **Invert4TVG**, который использует **три ключевых инверсионных задачи**:
1. **Verb Completion**: Определение отсутствующих или замаскированных глаголов в текстовом запросе с использованием видео-сегментов.
2. **Action Recognition**: Задача распознавания действий, описанных в запросе, в видео.
3. **Video Description**: Создание текстовых описаний сегментов видео, которые эксплицитно включают ключевые действия, относящиеся к запросу.
Инверсионные задачи интегрируются в фреймворк через **реформулированный фреймворк оптимизации через реинфорсмент (Reinforcement Learning, RL)**, в котором добываются реверсивные сигналы для балансировки улучшения локализации и семантического понимания. Это позволяет в рамках одного фреймворка повысить качество двух ключевых аспектов TVG — локализации и понимания смысла.
#### Результаты
Результаты экспериментов проводились на двух известных датасетах: Charades-STA и ActivityNet Captions. Модель Invert4TVG показала существенный прирост в метрике [email protected] на Charades-STA, достигая **7.1%** улучшения по сравнению с Time-R1. Это достигается благодаря узкой интеграции инверсионных задач в главную задачу TVG, которая позволяет не только улучшить локализацию, но и повысить понимание видео с точки зрения семантического контента. Этот подход позволяет улучшить производительность без дополнительных данных и позволяет системе более точно привязывать видео-сегмент к текстовому запросу.
#### Значимость
**Приложения** нового подхода могут быть использованы в различных областях, таких как умный поиск, рекомендации видео, системы умнычгого дома и обработка видео-контента в реальном времени. Новизгой нового подхода является способность одновременно улучшить две ключевые задачи — локализацию и семантическое понимание, что увели
Annotation:
Temporal Video Grounding (TVG) seeks to localize video segments matching a
given textual query. Current methods, while optimizing for high temporal
Intersection-over-Union (IoU), often overfit to this metric, compromising
semantic action understanding in the video and query, a critical factor for
robust TVG. To address this, we introduce Inversion Tasks for TVG (Invert4TVG),
a novel framework that enhances both localization accuracy and action
understanding without additional data. Our approach ...
📄 Urbanite: A Dataflow-Based Framework for Human-AI Interactive Alignment in Urban Visual Analytics
2025-08-13Авторы:
Gustavo Moreira, Leonardo Ferreira, Carolina Veiga, Maryam Hosseini, Fabio Miranda
## Контекст
Область визуальных аналитических систем для городских приложений становится все более важной в свете роста доступности данных о городах и усложнения проблем, связанных с управлением городами. Тем не менее, анализ таких данных чрезвычайно сложен и итеративен, требующий широких знаний в различных областях. Проблема заключается в том, что руководство такими системами сопряжено с высокой барьерной сложностью для пользователей, не имеющих навыков в области управления данными, машинного обучения и визуализации. Выгоды, принятые широко, в области обучаемых языковых моделей могут помочь уменьшить эти барьеры, предоставив пользователям возможность выражать свои запросы в естественном языке вместо того, чтобы определять конкретные вычислительные операции. Однако универсальный шаблон, поддерживающий такие запросы, требует определенного механизма, чтобы защититься от несоответствий между пользовательским запросом, выполнением системы и результатом анализа. Эти проблемы становятся особенно заметными при работе с городскими приложениями, где требуется взаимодействие между разными сферами и экспертами. Мы предлагаем Urbanite — фреймворк для взаимодействия между человеком и искусственным интеллектом, построенный на модели данных, который позволяет пользователям управлять городскими анализами на различных уровнях, чтобы обеспечить лучшую взаимосвязь и понимание результатов.
## Метод
Urbanite основывается на модели данных "dataflow" (поток данных), которая позволяет пользователям управлять анализом на разных уровнях — от высокого уровня задач до низкого уровня параметров. Устройство фреймворка включает в себя несколько ключевых компонентов:
1. **Multi-scope intent specification** (Управление спецификацией на разных уровнях): пользователи могут задавать свои запросы в естественном языке или через интерактивные визуальные элементы, чтобы уточнять свои потребности в анализе.
2. **Multi-resolution definition** (Настройка по параметрам): пользователи могут определить различные резолюции в работе с данными, шаблонами, вычислениями и взаимодействиями.
3. **Explainability and provenance** (Объяснение и трассировка): Urbanite позволяет пользователям понимать, как система приходит к выводам, предоставляя подробные объяснения и протокол происходящих операций.
4. **Task flow integration** (Интеграция рабочего процесса): система объединяет различные шаблоны и данные в единое целое, позволяя пользователям легко переключаться между разными аналитическими задачами.
## Результаты
Мы проверили эффективность Urbanite в нескольких сценариях, в которых участвовали эксперты по городам. В этих сценариях были использованы различные данные, такие как кар
Annotation:
With the growing availability of urban data and the increasing complexity of
societal challenges, visual analytics has become essential for deriving
insights into pressing real-world problems. However, analyzing such data is
inherently complex and iterative, requiring expertise across multiple domains.
The need to manage diverse datasets, distill intricate workflows, and integrate
various analytical methods presents a high barrier to entry, especially for
researchers and urban experts who lack p...
Авторы:
Jun Li
## Контекст
Нейронные сети (NN) широко применяются в различных областях, от обработки естественного языка до диагностики медицинских изображений. Однако многие их свойства, такие как обучение, гибкость и общепринятость, еще не полностью поняты. Одной из основных проблем является нехватка методов для оценки структуры и поведения индивидуальных экземпляров нейронных сетей без задействования целых контекстов обучения. Отсутствие таких методов ограничивает возможность провести глубокий анализ и диагностику этих средств. Это влечет за собой риски, такие как незаметные уязвимости и недостаточность в ситуациях с плохим обучением. Необходимо развить методы, позволяющие легко оценивать структуру и поведение нейронных сетей на основе их индивидуальных свойств.
## Метод
Для исследования структуры нейронных сетей был предложен подход, основанный на статистической механике, а именно на явлении реплика-симметрии-разрыва (RSB) в спин-глазах. Этот подход предполагает конструирование модели типа Hopfield-spin-глаза из данной полносвязной нейронной сети (FNN). Отклики симуляций реплик служат основным дескриптором для FNN. Этот подход позволяет получить конечный спин-глаз, который характеризует FNN, используя для этого только информацию о структуре нейронной сети и без необходимости прохождения обучения. Это дает возможность выявить некоторые комплексные структурные свойства, не охваченные традиционными метриками, такими как потери и точность.
## Результаты
Полученные результаты показали, что этот подход может быть использован для выявления скрытых свойств FNN, таких как способность подгонки данных, гибкость и устойчивость к шумам. Экспериментальные исследования проводились на нескольких FNN, включая модели, обученные на различных датасетах. Результаты показали, что данный подход может выделять структуру FNN, которая не видна при использовании традиционных оценок, таких как потери или точность. Таким образом, это дает новые возможности для анализа и диагностики нейронных сетей в ситуациях, когда традиционные метрики не дают полного изображения.
## Значимость
Предложенный подход имеет большое значение в различных областях применения нейронных сетей. Он может быть применен для моделирования структуры и выявления уязвимостей в сетях, в том числе для зрелища и проверки моделей в ситуациях, когда данные недостаточно хорошо разделяются, или когда есть риск выхода за рамки обучения. Это также может помочь в ситуациях, где необходимо проверить модели на наличие незаметных уязвимостей, без необходимости проходить тяжелый процесс обучения. Это
Annotation:
This work presents a statistical mechanics characterization of neural
networks, motivated by the replica symmetry breaking (RSB) phenomenon in spin
glasses. A Hopfield-type spin glass model is constructed from a given
feedforward neural network (FNN). Overlaps between simulated replica samples
serve as a characteristic descriptor of the FNN. The connection between the
spin-glass description and commonly studied properties of the FNN -- such as
data fitting, capacity, generalization, and robustne...
Показано 14021 -
14030
из 14827 записей