📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

2025-08-15

Авторы:

Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng

################################# ## Контекст ################################# Large Language Models (LLMs) представляют собой мощные инструменты для решения проблем в области естественного языка, включая моделирование, распространение и распознавание. Они обладают выдающимися свойствами в области генерации, рассуждения и обработки много modal'ных данных. Основанные на механизме трансформера, LLMs достигли необычного успеха в решении задач, но сопряжены с значительными требованиями к вычислительной мощности. Эта ситуация становится более сложной при масштабировании моделей и их развертывании в реальных системах. Таким образом, появилась необходимость развития более эффективных архитектур LLMs, которые могли бы снизить требования к вычислительным мощностям и оптимизировать их применение в практических задачах. ################################# ## Метод ################################# Данная статья предлагает подробный обзор новых архитектур LLMs, которые стремятся улучшить эффективность систем. Основной акцент делается на линейных и спарсе-моделях, включая различные варианты полного внимательного моделирования и смесей экспертов в эффективных структурах. Также рассматриваются гибридные модели, которые объединяют эти техники, и возникающие Diffusion-LLMs, которые используют различные подходы к моделированию. Авторы также обсуждают модификации этих технологий для других модальностей, таких как видео и мультимодальные модели, чтобы демонстрировать широкий потенциал этих новых архитектур. Эта систематизация помогает понять основные направления развития более эффективных моделей. ################################# ## Результаты ################################# В ходе исследования проведены сравнительные эксперименты с различными типами моделей. Были использованы стандартные датасеты для оценки эффективности и качества моделей. Например, проверено как линейные модели работают в задачах генерации текста и сравнение с традиционными моделями. Также были проведены эксперименты с многомодальными моделями, включая видео- и изображения-текст модели. Результаты показали, что новые структуры могут значительно сократить требования к вычислительным ресурсам, при этом сохраняя высокий уровень качества решения задач. ################################# ## Значимость ################################# Этот обзор имеет практическое значение для развития систем глубокого обучения, особенно в области LLMs. Новые эффективные архитектуры позволяют уменьшить требования к вычислительной мощности и энергопотреблению, что важно для развертывания моделей в реальных системах. Благодаря этому, модели могут быть применены в различных сферах, включая здравоохранение, финансы, энергетику и другие. Это также открывает путь к развитию скейлимых и ресурсо-оптими

Annotation:

Large Language Models (LLMs) have delivered impressive results in language understanding, generation, reasoning, and pushes the ability boundary of multimodal models. Transformer models, as the foundation of modern LLMs, offer a strong baseline with excellent scaling properties. However, the traditional transformer architecture requires substantial computations and poses significant obstacles for large-scale training and practical deployment. In this survey, we offer a systematic examination of ...

ID: 2508.09834v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

2025-08-15

Авторы:

Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei

#### Контекст Multimodal large language models (MLLMs) позволяют объединить процессы визуального и текстового понимания, но их возможности генерировать код на основе многомодальных входных данных до сих пор ограничены. Эта проблема в узком контексте генерации кода с графическими входными данными остается актуальной. Многие текущие модели страдают от лимитов в обработке разных модальностей, что приводит к неточностям в результатах. Наша мотивация заключается в создании модели, которая могла бы эффективно объединять визуальные и текстовые данные для генерации кода, обеспечивая высокую точность и универсальность. #### Метод VisCodex — это универсальная модель, которая объединяет сильные модели обработки текста и визуального содержимого. Мы внедрили стандартное моделирование задач (task vector-based model merging) для интеграции лучших свойств кодинговой модели с визуально-языковой моделью. Эта стратегия позволяет VisCodex успешно решать задачи, требующие как глубокого текстового анализа, так и визуальной интерпретации. Мы также представили Multimodal Coding Dataset (MCD), содержащий более 598 тысяч примеров, включая HTML-код, связи изображений-кода, а также задачи с изображениями для StackOverflow. Для оценки, мы предложили InfiBench-V — новый, сложный бенчмарк для оценки моделей на реальных программируемых задачах, требующих глубокого понимания текста и визуальных сценариев. #### Результаты Мы провели эксперименты на многочисленных многомодальных задачах, включая генерацию кода для HTML, интеграцию изображений с текстом, а также решение программируемых задач. Результаты показывают, что VisCodex выдает лучшие результаты среди открытых MLLMs и приближается к показателям закрытых моделей, таких как GPT-4o. Мы также демонстрируем, что наша модель эффективно решает задачи в InfiBench-V, которые требуют визуального и текстового анализа. Это показывает, что VisCodex может оптимизировать генерацию кода в разных контекстах. #### Значимость VisCodex может применяться в сферах, где необходима интеграция визуальных и текстовых данных для генерации кода, такие как разработка программного обеспечения, диагностика технических проблем и создание интерактивных систем. Ее преимущества заключаются в универсальности, повышенной точности и возможности использования в различных сценариях. Мы считаем, что VisCodex может стать ключевым инструментом для развития будущих моделей генерации кода, влияя на области AI, программирования и разработки. #### Выводы В результате нашей работы, мы создали VisCodex — модель, которая внедрила новые способы объединения визуальных и текстовых данных для генерации кода. Она показала высокую эфф

Annotation:

Multimodal large language models (MLLMs) have significantly advanced the integration of visual and textual understanding. However, their ability to generate code from multimodal inputs remains limited. In this work, we introduce VisCodex, a unified framework that seamlessly merges vision and coding language models to empower MLLMs with strong multimodal code generation abilities. Leveraging a task vector-based model merging technique, we integrate a state-of-the-art coding LLM into a strong visi...

ID: 2508.09945v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 InterChart: Benchmarking Visual Reasoning Across Decomposed and Distributed Chart Information

2025-08-13

Авторы:

Anirudh Iyengar Kaniyar Narayana Iyengar, Srija Mukhopadhyay, Adnan Qidwai, Shubhankar Singh, Dan Roth, Vivek Gupta

## Контекст В сфере обработки естественного языка и визуального распознавания существует значительный интерес к возможностям визуального логического мышления, которое заключается в том, чтобы выводить выводы на основе информации, представленной в виде графических данных, таких как графики и диаграммы. Одна из самых сложных задач в этой области заключается в том, чтобы оценить модели визуального логического мышления, которые могут работать с несколькими связанными графиками, которые встречаются в реальной жизни, например, в отчетах о научных исследованиях, финансовых анализах или панелях управления. Несмотря на то, что существуют бенчмарки, оценивающие модели визуального распознавания в отношении отдельных графиков, нет ни одного бенчмарка, который бы позволял оценивать их качество, работая с несколькими связанными графиками, которые требуют визуального и текстового понимания. Мы предлагаем **InterChart**, новый диагностический бенчмарк, который оценивает эти возможности, позволяя моделям работать с графиками, которые требуют не только интерпретации визуальных данных, но и интеграции информации из нескольких графиков. ## Метод **InterChart** состоит из трех типов задач, которые требуют визуального и текстового понимания, а также возможности работы с несколькими графиками. В первой задаче, **factual reasoning**, модели должны выполнять вывод на основе изображений отдельных графиков. Во второй задаче, **integrative analysis**, модели должны выполнять анализ, интегрируя информацию из нескольких синтетически связанных графиков. В третьей задаче, **semantic inference**, модели должны выполнять семантические выводы на основе визуально сложных графиков, которые требуют не только визуального, но и текстового понимания. Мы создали три уровня сложности, начиная с простых задач, которые требуют только визуального распознавания, и заканчивая сложными задачами, которые требуют визуального и текстового понимания, а также выполнения нескольких шагов логического мышления. Мы использовали данные, собранные из реальных графических данных, чтобы создать бенчмарк, который сильно отличается от предыдущих бенчмарков, ориентированных на отдельные графики. ## Результаты Мы проверили **InterChart** на нескольких существующих визуально-лингвистических моделях, включая те, которые считаются лидирующими в области. Мы обнаружили, что даже лучшие модели показывают существенную ухудшение качества, когда требуется интеграция информации из нескольких графиков. Мы также обнаружили, что модели показывают лучшие результаты, когда мы декомпозируем гра

Annotation:

We introduce InterChart, a diagnostic benchmark that evaluates how well vision-language models (VLMs) reason across multiple related charts, a task central to real-world applications such as scientific reporting, financial analysis, and public policy dashboards. Unlike prior benchmarks focusing on isolated, visually uniform charts, InterChart challenges models with diverse question types ranging from entity inference and trend correlation to numerical estimation and abstract multi-step reasoning...

ID: 2508.07630v1 cs.CL, cs.AI, cs.CV, I.2.7; I.2.10; I.4.10; I.7.5

arXiv PDF

📄 Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models

2025-08-09

Авторы:

Zizhan Ma, Wenxuan Wang, Guo Yu, Yiu-Fai Cheung, Meidan Ding, Jie Liu, Wenting Chen, Linlin Shen

**Резюме** Появление больших языковых моделей (LLMs) в области медицины открыло новые возможности, но остается спорным из-за недостатка надежности оценочных бенчмарков. Большинство таких бенчмарков либо недостаточно приближены к реальной клинической практике, либо страдают от проблем с данными, такими как попадание контролируемых случаев в обучающие выборки. Для устранения этих проблем авторы предлагают MedCheck — первую разработку, ориентированную на жизненный цикл бенчмарков, с целью глубокого анализа их качества. MedCheck включает 46 критериев, разделенных на 5 этапов жизненного цикла бенчмарков, начиная от разработки и заканчивая государственным управлением. Исследователи применяют MedCheck к 53 LLM-бенчмаркам, выявляя серьезные проблемы, включая отсутствие связи с клинической практикой, риски данных из-за негативного воздействия и недостаток оценки стойкости моделей и их понимания неопределенности. Результаты показывают, что MedCheck может стать мощным инструментом для оценки и улучшения бенчмарков, способствуя более надежной и транспаренной оценке AI в медицине.

Annotation:

Large language models (LLMs) show significant potential in healthcare, prompting numerous benchmarks to evaluate their capabilities. However, concerns persist regarding the reliability of these benchmarks, which often lack clinical fidelity, robust data management, and safety-oriented evaluation metrics. To address these shortcomings, we introduce MedCheck, the first lifecycle-oriented assessment framework specifically designed for medical benchmarks. Our framework deconstructs a benchmark's dev...

ID: 2508.04325v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Chain of Questions: Guiding Multimodal Curiosity in Language Models

2025-08-09

Авторы:

Nima Iji, Kia Dashtipour

**Резюме** В статье представлен фреймворк Chain of Questions (CoQ), расширяющий метод chain-of-thought для повышения логических и рациональных способностей в multimodal language models. Основная проблема заключается в том, что нынешние модели сталкиваются с трудностями при работе с multimodal data, не в состоянии активно выбирать и использовать информацию из разных модальностей (вид, звук, спациальная перцепция) для точного рассуждения. CoQ предлагает стратегию, в которой модель сама формирует и задает targeted questions, ориентируясь на потребности в конкретных модальностях для построения правильного решения. Результаты экспериментов на собственном multimodal датасете, объединяющем WebGPT, ScienceQA, AVSD и ScanQA, показали, что CoQ улучшает модельную точность, при этом увеличивая интерпретируемость и адекватность процесса рассуждения к задаче. Таким образом, CoQ демонстрирует свою эффективность в работе с multimodal сценариями, повышая качество интеллектуальных задач.

Annotation:

Reasoning capabilities in large language models (LLMs) have substantially advanced through methods such as chain-of-thought and explicit step-by-step explanations. However, these improvements have not yet fully transitioned to multimodal contexts, where models must proactively decide which sensory modalities such as vision, audio, or spatial perception to engage when interacting with complex real-world environments. In this paper, we introduce the Chain of Questions (CoQ) framework, a curiosity-...

ID: 2508.04350v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 Towards Robust Evaluation of Visual Activity Recognition: Resolving Verb Ambiguity with Sense Clustering

2025-08-09

Авторы:

Louie Hong Yao, Nicholas Jarvis, Tianyu Jiang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальная распознавательная система для распознавания действий является важной областью исследований в области компьютерного зрения и языковых технологий. Однако, оценка эффективности таких систем сталкивается с некоторыми проблемами, связанными с неоднозначностью семантики глаголов и разнообразием точек зрения на изображения. Например, одно и то же действие может быть описано разными синонимичными глаголами (например, "brushing" и "grooming") или может иметь различные описания в зависимости от контекста (например, "piloting" vs. "operating"). Традиционные методы оценки, основанные на точном совпадении с единственным "золотым" ответом, не могут учитывать эту неоднозначность, что приводит к неполной и неточной оценке производительности моделей. Данная проблематика становится особенно актуальной при работе с большими наборами данных, где изображения могут быть интерпретированы по-разному в зависимости от контекста или цели. Таким образом, необходимо разработать более гибкий и точный метод оценки, который учитывал бы различные толкования действий и обеспечил бы более корректную оценку моделей распознавания действий. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают использовать визуально-языковой кластеринговый фреймворк для решения проблемы неоднозначности семантики глаголов. Этот фреймворк построен на основе создания кластеров смыслов (sense clusters) для глаголов, которые представляют различные интерпретации действий. Каждый кластер соответствует определенному перспективному виду на действие, который может быть выражен разными глаголами. Метод включает в себя анализ набора данных imSitu, где для каждого изображения определяется среднее количество кластеров, соответствующих разным интерпретациям. Например, для одного изображения может быть определено 2,8 кластера, каждый из которых представляет отдельный взгляд на действие. Авторы также проводят сравнение различных моделей распознавания действий, используя кластеризацию смыслов в качестве более точного метода оценки, по сравнению с традиционными подходами. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов на базе данных imSitu. Результаты показали, что каждое изображение может быть описано с помощью нескольких кластеров, что подтверждает наличие неоднозначности в интерпретации действий. Авторы также провели сравнение результатов различных моделей распознавания действий, используя как традиционный подход, так и кластеризацию смыслов. Результаты показали, что кластеризация смыслов лучше согласуется с человеческим суждением, что делает этот подход более точным и надежным. Кроме того, авторы провели анализ выравнивания моделей с человеческим опытом, который показал, что кластеризация смыслов лучше отражает различные точки зрения на действия, чем традиционные методы оценки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод кластеризации смыслов имеет широкое применение в области распознавания действий, особенно в ситуациях, где необходимо учитывать неоднозначность семантики. Этот подход может быть использован в различных приложениях, таких как распознавание действий в реальном времени, автоматическая аннотация изображений, а также в системах поддержки принятия решений, где точное понимание контекста играет ключевую роль. Преимуществом данного подхода является его способность учитывать различные перспективы и толкования действий, что позволяет получить более точную и контекстуальную оценку. Это может привести к улучшению качества распознавания действий и увеличению доверия к таким системам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предложенный метод кластеризации смыслов для глаголов предлагает более гибкий и точный способ оценки моделей распознавания действий. Этот подход не только улучшает точность оценки, но также лучше согласуется с человеческим суждением. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода, включая расширение его применения на другие наборы данных и доработку алгоритмов кластеризации для еще более точного анализа. Также, можно рассмотреть возможность использования этого подхода в сочетании с другими методами оценки, такими как нейронные сети и глубокое обучение, для создания еще более надежных и точных систем распознавания действий.

Annotation:

Evaluating visual activity recognition systems is challenging due to inherent ambiguities in verb semantics and image interpretation. When describing actions in images, synonymous verbs can refer to the same event (e.g., brushing vs. grooming), while different perspectives can lead to equally valid but distinct verb choices (e.g., piloting vs. operating). Standard exact-match evaluation, which relies on a single gold answer, fails to capture these ambiguities, resulting in an incomplete assessme...

ID: 2508.04945v1 cs.CL, cs.AI, cs.CV

arXiv PDF

Показано 41 - 46 из 46 записей