📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Intelligent Neural Networks: From Layered Architectures to Graph-Organized Intelligence
2025-12-02Авторы:
Antoine Salomon
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Biological neurons exhibit remarkable intelligence: they maintain internal states, communicate selectively with other neurons, and self-organize into complex graphs rather than rigid hierarchical layers. What if artificial intelligence could emerge from similarly intelligent computational units? We introduce Intelligent Neural Networks (INN), a paradigm shift where neurons are first-class entities with internal memory and learned communication patterns, organized in complete graphs rather than s...
Авторы:
Bohan Yu, Yekun Chai
Эволюционная система кэширования ключей-значений (EvolKV) для компрессии кэша ключей-значений в интерпретации моделей с широким контекстом (LLM)
=========================================================================================================================================================
## Контекст
Задачи интерпретации моделей с широким контекстом (LLM), таких как кодирование кода и семантический поиск, требуют сложных вычислений и значительных ресурсов памяти. Одним из ключевых аспектов эффективной интерпретации является кэш ключей-значений (KV), который позволяет моделям быстро доступиться к предыдущим вычислениям. Однако разработка эффективных стратегий кэширования часто ограничивается радикальной зависимостью от неоптимальных техник, таких как универсальные правила распределения кэша или статические политики удаления кэша. Эти подходы не учитывают контекстные паттерны и зависимости между слоями модели, что приводит к ухудшению общей точности и эффективности. Таким образом, необходимо разработать более гибкие и адаптивные методы, которые могут динамически анализировать и адаптироваться к контексту и задаче.
## Метод
EvolKV представляет собой новую адаптивную систему кэширования ключей-значений, основанную на эволюционном поиске, для динамического присвоения бюджетов кэша на уровне слоев. Методология EvolKV основывается на нескольких ключевых компонентах:
1. **Преобразование задачи кэширования в задачу многоцелевого оптимизации.** Для того чтобы учесть различные задачи и контексты, EvolKV представляет задачу кэширования как многоцелевую оптимизацию, которая учитывает как эффективность памяти, так и качество решения задачи.
2. **Эволюционный поиск для динамического присвоения бюджетов кэша.** Эволюционный поиск позволяет EvolKV динамически настраивать бюджеты кэша для каждого слоя модели, учитывая контекстную сложность и задачу. Это позволяет адаптироваться к разным задачам и обеспечивает оптимальное использование ресурсов памяти.
3. **Оценка и максимизация динамической производительности.** EvolKV напрямую оптимизирует задачу LLM, используя результаты кэширования, чтобы максимизировать общую точность и эффективность.
## Результаты
Чтобы оценить эффективность EvolKV, авторы провели 11 экспериментов на различных задачах, включая кодирование кода и семантический поиск. Использовались различные бюджеты кэша, от 2% до 100% от полного размера кэша. Результаты показали, что EvolKV превосходит все базовые методы в кэше, включая универсальные и статические политики, на до 7% в задаче GSM8K. Более того, на задаче кодирования кода (Code Completion), EvolKV достиг того же уровня производительности, что и полный кэш, испо
Annotation:
Existing key-value (KV) cache compression methods typically rely on
heuristics, such as uniform cache allocation across layers or static eviction
policies, however, they ignore the critical interplays among layer-specific
feature patterns and task performance, which can lead to degraded
generalization. In this paper, we propose EvolKV, an adaptive framework for
layer-wise, task-driven KV cache compression that jointly optimizes the memory
efficiency and task performance. By reformulating cache a...