📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Iason Ioannis Panagos, Giorgos Sfikas, Christophoros Nikou

## Контекст Визуальная распознавание речи (Visual Speech Recognition, VSR) — это система, которая распознает произносимые слова только на основе видеоданных. Такие системы находят применение в различных областях, в том числе в медицине, где они могут облегчать общение между пациентом и врачом, и в интерактивных технологиях, в комбинации с голосовым распознаванием для расширения возможностей взаимодействия с устройствами. Однако, существующие модели часто требуют высоких вычислительных ресурсов, что ограничивает их применение в сценариях с ограниченными ресурсами. Эта проблема мотивирует разработку моделей с низкими требованиями к ресурсам, которые были бы эффективными и применимыми в реальной жизни. ## Метод Мы разрабатываем новые модели VSR, основанные на двух-сетевой архитектуре. В этой постановке одна сеть отвечает за извлечение визуальных признаков, а другая — за классификацию последовательности. Мы используем эффективные модели из области классификации изображений для извлечения признаков, а затем применяем легкие блоки во временной коConvNets для классификации последовательностей. Это позволяет создавать модели с низкими требованиями к ресурсам, не отказываясь от высокой точности распознавания. ## Результаты Мы проводим эксперименты на крупнейшей доступной базе данных для распознавания английских слов. Наши модели показывают высокую точность распознавания, сопоставимую с традиционными моделями, но с значительно более низкими требованиями к вычислительным ресурсам. Это демонстрирует эффективность разработанных архитектур и их пригодность для реального применения. ## Значимость Разработанные модели могут быть применены во многих областях, включая медицину, где эффективность вычислений критична, и в интерактивных технологиях. Их низкое требование к ресурсам делает их привлекательными для использования на устройствах с ограниченными мощностями, таких как мобильные устройства. Это открывает путь к более широкому развертыванию VSR-систем в реальных сценариях. ## Выводы Мы разработали эффективные и практичные модели для визуального распознавания речи, которые обеспечивают высокую точность с минимальными требованиями к ресурсам. Наши результаты открывают новые возможности для развертывания VSR-систем в реальных сценариях. Мы также направляем свои усилия на дальнейшие исследования, нацеленные на дальнейшее сокращение требований к ресурсам и улучшение точности распознавания.
Annotation:
Visual speech recognition (VSR) systems decode spoken words from an input sequence using only the video data. Practical applications of such systems include medical assistance as well as human-machine interactions. A VSR system is typically employed in a complementary role in cases where the audio is corrupt or not available. In order to accurately predict the spoken words, these architectures often rely on deep neural networks in order to extract meaningful representations from the input sequen...
ID: 2508.17894v1 cs.CV, cs.AI, cs.CL
Авторы:

Shibingfeng Zhang, Giovanni Colavizza

#### Контекст Именная распознавательная сеть (NER) — это задача в области естественного языка, нацеленная на определение и классификацию именованных сущностей (таких как люди, организации, места, даты и другие) в тексте. Она является ключевым элементом для извлечения информации из неструктурированных текстов и подготовки данных для последующих приложений, таких как поиск информации. Однако, в случае исторических текстов, задача NER становится значительно сложнее ввиду нехватки или отсутствия достаточных объемов отмеченных данных, связанной с высокой стоимостью и требованиями к эксперту при ма MANUAL annotation. Более того, специфика языка исторических текстов, включая ковариацию стиля, архаический словарь и несогласованность в аппликации, создает дополнительные сложности для разработки эффективных систем NER для этих источников. #### Метод Мы исследуем возможность применения больших языковых моделей (LLM) для решения задачи NER в исторических текстах с помощью так называемых zero-shot и few-shot prompting стратегий. Эти подходы позволяют использовать готовые модели без необходимости повторной обучения для конкретной задачи, что экономит ресурсы и упрощает процесс. LLMs обладают универсальными свойствами, позволяющими им выполнять широкий спектр задач, включая NER. Мы применяем эти методы к датасету HIPE-2022 (Identifying Historical People, Places and other Entities), который содержит исторические тексты с разными сущностями, такими как люди, места и даты. Мы измеряем результаты, сравнивая их с супервизированными моделями, которые используют традиционные методы машинного обучения. #### Результаты В результате экспериментов, проведенных на HIPE-2022, мы обнаружили, что LLMs, использующие zero-shot и few-shot prompting, сумели достичь приемлемого уровня точности в NER, в пределах 80-90% в зависимости от сущности. Хотя они не достигли уровня традиционных моделей, обученных на конкретной тематике, результаты показали значительную эффективность в решении задач NER для исторических текстов. Это заметно в случаях, когда традиционные методы не могут быть применены из-за отсутствия данных для обучения. Мы также отметили, что LLMs показывают устойчивый результат при распознавании разных сущностей, но остаются недостатки в обработке текстов с высокой грамматической и стилистической переменой. #### Значимость Наша работа открывает новые перспективы для применения LLMs в сфере исторических исследований, где доступ к отмеченным данным ограничен. Эти модели могут быть использованы для извлечения информации из текстов, которые не были ранее проанализированы из-за проблем с данными. Кроме того, LLMs предоста
Annotation:
Large language models have demonstrated remarkable versatility across a wide range of natural language processing tasks and domains. One such task is Named Entity Recognition (NER), which involves identifying and classifying proper names in text, such as people, organizations, locations, dates, and other specific entities. NER plays a crucial role in extracting information from unstructured textual data, enabling downstream applications such as information retrieval from unstructured text. Tra...
ID: 2508.18090v1 cs.DL, cs.AI, cs.CL
Авторы:

Farkhad Akimov, Munachiso Samuel Nwadike, Zangir Iklassov, Martin Takáč

```markdown ## Контекст Область исследования связана с развитием и применением искусственного интеллекта (ИИ) в области анализа данных и знаний. Существующие проблемы включают затруднения в быстром понимании данных и своевременной получения рекомендаций на их основе. Традиционные рабочие процессы часто требуют многочасов работы аналитиков, чтобы выявить связи и предоставить рекомендации. Мотивация заключается в создании решения, которое существенно ускорит процесс научного анализа, при этом сохранив высокое качество рекомендаций. В этом контексте возникает потребность в автоматизированных системах, которые могут принимать решения на основе анализа данных, выявляя статистически значимые тенденции и предлагая обоснованные решения. ## Метод Авторская система, названная AI Data Scientist, является автономным агентом, основанным на технологиях больших языковых моделей (LLM). Она удаляет физическое расстояние между данными и решениями, предлагая конечные решения в течение нескольких минут. Основой системы является научный гипотезный подход. Агент выявляет статистически значимые тенденции в данных, оценивает их значимость и использует для моделирования прогнозов. Далее, результаты преобразуются в рекомендации, которые объяснены в доступной форме. Система состоит из специализированных подсистем-агентов, каждый отвечающий за отдельный этап обработки данных: чистка данных, выполнение статистических тестов, проверку целостности данных и вывод результатов в понятном виде. Эти подсистемы способны создавать свой собственный код, анализировать причинно-следственные связи и определять, когда требуется дополнительная информация для более точного анализа. ## Результаты Доказательство эффективности системы проводилось через ряд экспериментов на реальных данных. В качестве тестов использовались различные наборы данных, включая маркетинговые данные, данные побочных эффектов лекарств и данные по сельскохозяйственному производству. Для каждого набора данных были выполнены статистические тесты на значимость, проведены проверки целостности данных, а также произведены прогнозы. Результаты экспериментов показали, что система может выполнять в 10-20 раз быстрее сравнительные методы, при этом обеспечивая качественные рекомендации. ## Значимость Полученные результаты могут быть применены в различных сферах: бизнес-аналитике, финансах, здравоохранении и других областях, где требуется быстрая и качественная статистическая обработка данных. Особый потенциал имеет система в развитии более доступного и эффективного способа проведения аналитических работ. Отдельно отмечен
Annotation:
Imagine decision-makers uploading data and, within minutes, receiving clear, actionable insights delivered straight to their fingertips. That is the promise of the AI Data Scientist, an autonomous Agent powered by large language models (LLMs) that closes the gap between evidence and action. Rather than simply writing code or responding to prompts, it reasons through questions, tests ideas, and delivers end-to-end insights at a pace far beyond traditional workflows. Guided by the scientific tenet...
ID: 2508.18113v1 cs.AI, cs.CL, cs.LG
Авторы:

Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao

## Контекст Large Language Models (LLMs) отличились относительно недавно, но уже проявили возможность влиять на развитие науки, технологий и общества. Они применяются в различных областях, таких как медицина, наука и разработка чат-ботов. Однако, несмотря на их практическую полезность, лишь немногие из его "загадочных" механизмов понятны. Это порождает вопросы о том, как они обретают определенные знания и как они могут связать различные знания, когда решают задачи. Наша мотивация заключается в том, чтобы разобраться в логике этих моделей, чтобы получить более полное понимание, как они поступают при выполнении задач. ## Метод Мы использовали методологию, которая ставит целью построить сетевой фреймворк, чтобы установить связь между модулями LLM, способностями и данными. Метод заключается в сравнении способностей модели с логикой работы мозга и систем биологических систем. Нашим целым стремлением является выявить, как модули модели связаны друг с другом и какие знания они объединяют. Мы хотели понять, как можно проще связать концепции с тем, что происходит в модели, чтобы более эффективно отслеживать и менять его поведение. ## Результаты Исследователи определили, что некоторые модули модели выделяются в определенных областях, многие же связаны друг с другом, что позволяет модели объединять различные знания. Однако, исследователи заметили, что эти модули не так строго специализированы, как в организмах. Вместо этого, у них есть более сложный, динамический подход к обнаружению и обработке новых данных. Наши результаты показали, что эти модели могут "изучаться" и "изменяться" в процессе работы, что позволяет им оптимизировать свои результаты. Это, в свою очередь, открыло новые возможности для улучшения интерпретации и управления моделями. ## Значимость Мы показали, что наш подход может быть применим не только к LLMs, но и к другим моделям сетевых систем, которые будут расти в будущем. Это может помочь внедрить эти модели в новые области, такие как робототехника или цифровые персоны. Мы также отметили, что подобный подход может повысить эффективность работы моделей, предложив новые стратегии для их подготовки и применения. Наша работа также может способствовать развитию искусственного интеллекта в целом, предлагая новые способы интерпретации и контроля поведения моделей. ## Выводы Мы успешно разработали модель, которая помогает разобраться в "мышлении" LLMs, показав, что они не только специализируются, но и прекрасно справляются с динамическими ситуациями. Это открыло путь к новым интерпретациям и управлению моделями. Наша работа подтверждает, что будущи
Annotation:
Large Language Models (LLMs) have reshaped our world with significant advancements in science, engineering, and society through applications ranging from scientific discoveries and medical diagnostics to Chatbots. Despite their ubiquity and utility, the underlying mechanisms of LLM remain concealed within billions of parameters and complex structures, making their inner architecture and cognitive processes challenging to comprehend. We address this gap by adopting approaches to understanding eme...
ID: 2508.18192v1 cs.AI, cs.CL, cs.LG
Авторы:

Ahmed Allam, Youssef Mansour, Mohamed Shalan

#### Контекст Регистр-трансфер-уровень (RTL) — ключевая ступень в проектировании интегральных схем (ASIC). Существующие технологии, основанные на текстовых описаниях RTL, сталкиваются с рядом проблем. Ограниченные возможности встроенного кода, неэффективная настройка процессов и отсутствие возможности автоматического проектирования сложных систем требуют новых подходов. Большие языковые модели (LLMs) показали способность генерировать код RTL с высокой точностью, однако они не могут выполнять код, дебажить его и хранить долгосрочную память. Таким образом, требуется комбинация методов, которая могла бы вывести LLMs на новый уровень взаимодействия с процессом проектирования ASIC. #### Метод ASIC-Agent — автономная система, основанная на многоагентной архитектуре. Она включает в себя специализированные под-агенты, которые выполняют задачи RTG (RTL Generation), RTV (RTL Verification), OpenLane hardening и Caravel chip integration. Такой подход позволяет разделить универсальные задачи LLMs на более узкие, которые могут быть специализированы и выполняться в определенных областях. Основная цель — улучшить качество RTL-кода, ускорить процессы и обеспечить долгосрочную память и удобство работы. Для этого оптимизирована входная система с помощью текстовой интерфейса и векторной базы данных, включающей документацию, API-справочники, ошибки и советы от сообщества open-source silicon. #### Результаты Мы провели эксперименты, используя различные базы LLMs, включая Claude 4 Sonnet. Результаты показали, что ASIC-Agent успешно решает различные задачи проектирования ASIC, начиная от генерации RTL-кода до его верификации, гармонизации с OpenLane и интеграции в Caravel. Мы использовали ASIC-Agent-Bench, первый бенчмарк для оценки производительности агентских систем в сфере проектирования ASIC. Отчетленность результатов показала, что ASIC-Agent не только ускоряет процессы сборки и проверки, но и обеспечивает высокая точность в реализации задач. #### Значимость ASIC-Agent может применяться в разработке и промышленном производстве ASIC, а также в обучении новых инженеров, так как он экономит время на рутинных задачах. Он предоставляет высокую точность, ускорение процессов и удобство в использовании. В будущем, ASIC-Agent может быть расширен для включения дополнительных инструментов и задач, таких как анализ энергопотребления и оптимизация производительности. #### Выводы ASIC-Agent демонстрирует перспективу ускорения ASIC-проектирования, автоматизации рутинных задач и улучшения точности реализации. Наша работа раскрывает перспективы для дальнейшего исследования в области многоагентных систем, автоматизированных с
Annotation:
Large Language Models (LLMs) have demonstrated remarkable capabilities in Register Transfer Level (RTL) design, enabling high-quality code generation from natural language descriptions. However, LLMs alone face significant limitations in real-world hardware design workflows, including the inability to execute code, lack of debugging capabilities, and absence of long-term memory. To address these challenges, we present ASIC-Agent, an autonomous system designed specifically for digital ASIC design...
ID: 2508.15940v1 cs.AR, cs.AI, cs.CL, cs.DC, cs.MA
Авторы:

Sonish Sivarajkumar, Hang Zhang, Yuelyu Ji, Maneesh Bilalpur, Xizhi Wu, Chenyu Li, Min Gu Kwak, Shyam Visweswaran, Yanshan Wang

## Контекст Electronic health records (EHRs) представляют собой огромные клинические базы данных, содержащие разнообразные сведения о пациентах, включая структурированные элементы (например, демографические данные, результаты лабораторных исследований, данные по виталю) и неструктурированные клинические заметки. Однако использование этих данных для повышения качества медицинского обслуживания становится сложным из-за их гетерогенности и сложности. Недавние разработки в области больших языковых моделей (LLMs) дали возможность создания фундаментальных моделей, которые могут обучаться на нескольких модальностях данных, включая структурированные и неструктурированные, и применяться для решения клинических задач. Несмотря на эти успехи, большинство существующих моделей продолжают использовать неэффективные подходы, сериализуя цифровые данные EHR в текст, что приводит к утере важных контекстов, таких как временные характеристики и количественные изменения. Требуется разработка модели, которая могла бы одновременно обрабатывать множество модальностей данных, сохраняя все их характеристики, и давала бы высококачественные результаты. ## Метод Мы предлагаем **Generative Deep Patient (GDP)**, многомодальную фундаментальную модель, которая может обрабатывать и структурированные, и неструктурированные данные из EHR. Модель включает в себя: 1. **CNN-Transformer Encoder**: Она эффективно обрабатывает структурированные EHR в виде временных рядов (time-series) и кодирует их с учетом временных характеристик. 2. **Cross-Modal Attention Mechanism**: Он объединяет информацию из структурированных и неструктурированных данных, обеспечивая глубинный контекстный анализ. 3. **LLaMA-Based Decoder**: Этот декодер генерирует высококачественные клинические рекомендации и многомодальные клинические рассказы. GDP тренируется с помощью двух этапов: 1. **Generative Pretraining**: Модель научивается генерировать клинические рассказы, при этом применяя **Masked Feature Prediction (MFP)** и **Next Time-Step Prediction (NTP)** для улучшения понимания временных характеристик. 2. **Multi-Task Fine-Tuning**: Модель применяется для конкретных клинических задач, таких как предсказание заболеваний (например, сердечной недостаточности), рассчитывания риска передержания в больнице и других клинических показателей. ## Результаты Мы проверили эффективность GDP на большом наборе данных MIMIC-IV. Модель показала высокую точность в клинических предсказаниях: - **Heart Failure (Сердечная недостаточность)**: AUROC = 0.923 - **Type 2 Diabetes (Тип 2 диабет)**: AUROC = 0.817 - **30-Day Readmission (Передержание в больнице за 30 дней)**: AUROC = 0.627 Более того, GDP демонстрирует высокую качественную генерацию клинических рассказов: - **ROUGE
Annotation:
Electronic health records (EHRs) are rich clinical data sources but complex repositories of patient data, spanning structured elements (demographics, vitals, lab results, codes), unstructured clinical notes and other modalities of data. Harnessing this heterogeneity is critical for improving patient outcomes. Recent advances in large language models (LLMs) have enabled foundation models that can learn from multiple data modalities and support clinical tasks. However, most current approaches simp...
ID: 2508.16054v1 cs.AI, cs.CL
Авторы:

Zhuomin Chen, Dan Li, Jiahui Zhou, Shunyu Wu, Haozheng Ye, Jian Lou, See-Kiong Ng

## Контекст Временные ряды (TS) широко используются во многих областях приложений, что делает прогнозирование временных рядов (TSF) ключевой задачей. Недавние прорывы в области больших языковых моделей (LLMs) открыли новые возможности для их применения в прогнозировании временных рядов. Однако существующие подходы существенно ограничены глубиной интеграции временных рядов в модели. Большинство методов обрабатывают временные ряды только на входном уровне, что приводит к быстрому затуханию влияния этих данных в глубине модели. Это влечет за собой неэффективную адаптацию взаимодействия между текстовыми и временными сериями, что снижает качество прогнозирования. Данная работа адресует эту проблему, предлагая новую модель, которая позволяет LLMs эффективно интегрировать временные ряды на разных уровнях. ## Метод Предлагаемая модель, **Multi-layer Steerable Embedding Fusion (MSEF)**, обеспечивает глубокую интеграцию временных рядов в текстовые модели. MSEF использует фундаментальные модели временных рядов для извлечения семантически богатых временных рядов. Эти временные ряды затем встраиваются в текстовые слои модели через **steering vectors**, которые адаптируются на каждом уровне модели. Эти steering vectors стремятся максимизировать взаимодействие между временными рядами и текстовыми слоями, позволяя модели адаптироваться легко и эффективно в режиме few-shot. Эта архитектура позволяет LLMs более тонко рассматривать временные ряды на протяжении всего процесса обучения. ## Результаты Работа провела эксперименты на семь разных бенчмарковых датасетов, сравнив результаты с другими современными подходами. Модель MSEF показала существенную улучшенную точность среднего квадратичного отклонения (MSE), снизив его на среднем 31.8% по сравнению с базовыми моделями. Эти результаты указывают на эффективность MSEF в использовании временных рядов для улучшения прогнозирования. Данные эксперименты подтверждают, что новый подход сохраняет значимую информацию о временных рядах на всех уровнях текстовой модели, что делает его чрезвычайно эффективным в сложных задачах прогнозирования. ## Значимость Предлагаемый подход имеет широкие области применения, включая финансовый анализ, медицинское прогнозирование и мониторинг систем. Он предоставляет значительные преимущества перед существующими подходами, такими как улучшенное взаимодействие между модальностями и сохранение точности прогнозирования при малоизвестных данных. Это может привести к улучшению решений во многих технических и научных областях, где временные ряды играют ключевую роль. ## Выводы Результаты показываю
Annotation:
Time series (TS) data are ubiquitous across various application areas, rendering time series forecasting (TSF) a fundamental task. With the astounding advances in large language models (LLMs), a variety of methods have been developed to adapt LLMs for time series forecasting. Despite unlocking the potential of LLMs in comprehending TS data, existing methods are inherently constrained by their shallow integration of TS information, wherein LLMs typically access TS representations at shallow layer...
ID: 2508.16059v1 cs.AI, cs.CL, cs.LG
Авторы:

Zizhen Li, Chuanhao Li, Yibin Wang, Qi Chen, Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Kaipeng Zhang

## Контекст Область исследования связана с экспериментальным оцениванием возможностей large language models (LLMs) в понимании и применении индивидуальных стилей человеческого разума. Несмотря на то, что LLMs доказали сильную производительность в задачах, связанных с человеческим разумом, существуют пробелы в изучении индивидуальных разума, которые влияют на интерпретацию и действия в социальных контекстах. Для уточнения и изучения этого области вводится InMind, основанный на научных подходах и подходящий для тестирования методов распознавания и применения индивидуальных стилей. Это позволяет выявить ограничения LLMs в тех разделах, где необходим индивидуальный и адаптирующийся подход к обработке информации. ## Метод InMind представляет собой инновационный фреймворк, основанный на теоретических подходах к социальному моделированию. Он включает в себя ряд задач, основанных на естественных ситуациях социального взаимодействия. Эти задачи позволяют оценивать способность LLMs к статическому анализу и динамической адаптации в социальных играх (таких как Avalon). Основные элементы включают в себя: - **Структурированные данные игр**, собираемые в разных режимах (Observer и Participant), - **Трассировка стратегий во время игры**, - **Пост-игровые отражения**, собранные с участников. InMind расширяет подход к тестированию LLMs, включая как технические, так и когнитивные аспекты, для более полного понимания их возможностей в сфере социального разума. ## Результаты Исследование InMind проводилось с использованием 11 современных LLMs, включая GPT-4 и DeepSeek-R1. Оценки проводились на основе Avalon, где был проанализирован стиль разума каждого игрока. Наблюдалось, что широкоизвестные LLMs, такие как GPT-4, часто полагаются на лексические признаки, что не позволяет им добиться глубокой индивидуализации. В то же время, модели, специализированные на распознавании стилей, такие как DeepSeek-R1, показали положительные результаты в динамической адаптации и стилистической работе. Эти результаты подтверждают необходимость уточнения текущих моделей для более точного и индивидуального понимания человеческих разума. ## Значимость Полученные результаты имеют значительное значение в развитии новых подходов к социальным интеракциям с AI. InMind может применяться в областях, где требуется понимание индивидуальных стилей, таких как обучение, логистика, социальные сети. Он демонстрирует преимущества использования технологий, которые могут не только распознавать лексические признаки, но и адаптироваться к динамическим ситуациям. В будущем, InMind может стать основой для развития когнитивно-ориентированных моделей, которые б
Annotation:
LLMs have shown strong performance on human-centric reasoning tasks. While previous evaluations have explored whether LLMs can infer intentions or detect deception, they often overlook the individualized reasoning styles that influence how people interpret and act in social contexts. Social deduction games (SDGs) provide a natural testbed for evaluating individualized reasoning styles, where different players may adopt diverse but contextually valid reasoning strategies under identical condition...
ID: 2508.16072v1 cs.AI, cs.CL
Авторы:

Saransh Kumar Gupta, Rizwan Gulzar Mir, Lipika Dey, Partha Pratim Das, Anirban Sen, Ramesh Jain

## Контекст Мировой фуд-ландшафт насыщен сложными, многогранными и многоуровневыми культурными, научными и коммерческими утверждениями о пищевых продуктах. Они относятся к их составу, свойствам, потенциальным пользам и вредностям, а также к предпочтениям и традиционным убеждениям. Например, есть утверждения, основанные на научных исследованиях (пробиотики способствуют нормальной работе кишечника), такие как "содержатся в огнестрельном оружии", но также есть недостоверные (александр медведев генетиком) или туманные (суперфуды усиливают иммунитет). Подобные утверждения возникают в различных регионах с разными историческими, культурными и регулиаторными контекстами. Однако трудности в их проверке, контекстуализации и отслеживании остаются значительной проблемой. Наша мотивация заключается в разработке инфраструктуры, которая позволяла бы структурировать и проверять такие утверждения, повышая прозрачность, достоверность и удобство для потребителей, политиков и научного сообщества. ## Метод Мы предлагаем развить Food Claim Traceability Network (FCN), являющийся расширением FKG.in, знаний о индийской пищевой культуре. Эта система будет построена на основе графа знаний и использовать семиаутоматизированные процессы знаний для извлечения, валидации и проверки пищевых утверждений. Мы внедрили рабочий процесс, основанный на Large Language Models (LLMs), для целей доказательства концепта. Рабочий процесс включает сбор данных из источников, таких как Reddit, и их приведение к структурированному виду с использованием проверяемого стека технологий. Он также предусматривает проверку источников, автоматическую валидацию утверждений и возможность контекстуализации результатов. Архитектура FCN основывается на прозрачных интерфейсах и использует семиаутоматизированные процессы для поддержки повседневных потребителей, ученых и политических деятелей. ## Результаты Мы провели эксперименты с выборкой данных из Reddit, используя LLM для извлечения и структурирования пищевых утверждений. Процесс включал курение и проверку данных с использованием рабочего процесса FCN. Эксперименты показали, что система способна структурировать утверждения с высоким уровнем точности и предоставлять контексты, помогающие понимать их уникальность и достоверность. Мы показали, как рабочий процесс FCN может быть применен для проверки пищевых утверждений, извлечения их структурированных описаний и поддержки контекстуальных знаний. ## Значимость FCN может быть применено в различных областях, включая поиск знаний, политику в области питания и выбор потребителей
Annotation:
The global food landscape is rife with scientific, cultural, and commercial claims about what foods are, what they do, what they should not do, or should not do. These range from rigorously studied health benefits (probiotics improve gut health) and misrepresentations (soaked almonds make one smarter) to vague promises (superfoods boost immunity) and culturally rooted beliefs (cold foods cause coughs). Despite their widespread influence, the infrastructure for tracing, verifying, and contextuali...
ID: 2508.16117v1 cs.AI, cs.CL, cs.IR
Авторы:

Yicheng Ji, Jun Zhang, Heming Xia, Jinpeng Chen, Lidan Shou, Gang Chen, Huan Li

## Контекст Видео-большие языковые модели (Video Large Language Models, Vid-LLMs) отличаются сильными способностями в понимании видеоконтента. Однако их зависимость от детальных представлений видеотокенов приводит к значительным требованиям к памяти и вычислительным ресурсам в процессах заполнения и декодирования. Эта проблема становится актуальной при использовании Vid-LLMs в реальном времени, таких как гибридные модели, которые объединяют видео- и текстовые задачи. Необходимо уменьшить накладные расходы на заполнение и декодирование без потери точности. ## Метод SpecVLM представляет собой фреймворк для спекулятивного декодирования (SD), основывающийся на трёх основных компонентах: 1) **Staged Token Pruning (STP)**, 2) **Draft Model Pruning Sensitivity Analysis**, и 3) **Verifier-Guided Token Pruning (VGTP)**. Фреймворк использует нейросетевой декодер, сочетающий в себе модель спекулятивного декодирования и модель верификатора. Для эффективного уменьшения количества видеотокенов, SpecVLM проводит двухступенчатое удаление ненужных токенов: сначала выбираются токены, оптимальные для декодирования, а затем происходит удаление остальных токенов с помощью простого, но эффективного метода. ## Результаты Проведенные эксперименты показали, что SpecVLM эффективно ускоряет декодирование для ряда Vid-LLMs. Например, для модели LLaVA-OneVision-72B достигнут ускорение до **2.68×**, при этом не теряется точности. Также для модели Qwen2.5-VL-32B был получен ускорение **2.11×**. Эти результаты достигнуты благодаря удалению до 90% ненужных видеотокенов, что позволяет значительно сократить вычислительные затраты без потери качества. ## Значимость Видоизменённый SpecVLM открывает новые возможности для гибридных моделей, объединяющих видео- и текстовые задачи. Он предоставляет удачное решение для эффективного использования ресурсов, быстрого декодирования и обработки видеоконтента в реальном времени. SpecVLM может быть применён в различных областях, таких как видеоаналитика, реальном времени анализе, автоматическом применении моделей в области контента. ## Выводы SpecVLM доказывает его эффективность в ускорении декодирования Vid-LLMs, существенно сокращая требования к памяти и вычислительным ресурсам без потери точности. Дальнейшие исследования будут направлены на расширение SpecVLM для дополнительных моделей Vid-LLMs и улучшение его работы в более сложных задачах видео- и текстового анализа.
Annotation:
Video large language models (Vid-LLMs) have shown strong capabilities in understanding video content. However, their reliance on dense video token representations introduces substantial memory and computational overhead in both prefilling and decoding. To mitigate the information loss of recent video token reduction methods and accelerate the decoding stage of Vid-LLMs losslessly, we introduce SpecVLM, a training-free speculative decoding (SD) framework tailored for Vid-LLMs that incorporates st...
ID: 2508.16201v1 cs.CV, cs.AI, cs.CL
Показано 1101 - 1110 из 1292 записей