📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Don't Forget Imagination!
2025-08-12Авторы:
Evgenii E. Vityaev, Andrei Mantsivoda
## Контекст
В настоящее время значительное внимание уделяется развитию искусственного интеллекта (ИИ), но многие аспекты его мощи остаются недостижимыми без учета роли когнитивной фантазии. Эта форма фантазии, называемая когнитивной импровизацией, не является простым "кадром в голове". Им представляется систематический контекст концептуальных и казуальных связей, который служит основой для рассуждений, принятия решений и прогнозирования. Однако существующие методы ИИ значительно недооценивают этот аспект, что приводит к ограниченности возможностей систем. Например, при выполнении задач рационального процесса принимаются базовые знания (бэкграунд), но им нет привлеченных зрения, чтобы проверить свою логику. Таким образом, реализация когнитивной фантазии может значительно расширить текущие знания и применимость ИИ.
## Метод
Мы предлагаем новую подходящую математическую модель, называемую **semantic models**, которая объединяет характеристики нейронных сетей и стандартных математических моделей. Эти модели могут осуществлять обучение, на основе проблемных и случайных взаимосвязей. Такой подход должен быть полностью согласован с законом Хауса, чтобы модель могла имитировать когнитивную фантазию, поддерживая согласованность в логических выводах и позволяя манипулировать всеми фактами как единым целым. Модели обладают гибкостью и интуитивностью, которые действительно полезны в ситуациях, которые требуют осмысленного процесса.
## Результаты
В нашем исследовании мы проводили эксперименты с использованием semantic models в задачах, требующих использования изображения. Мы убедились, что модели способны точно описывать и рассуждать, базируясь на логически консистентных импровизациях. Мы также проводили сравнительный анализ с другими моделями, показав, что semantic models показывают лучшие результаты в задачах, требующих глубокого понимания контекста. Например, в задаче прогнозирования вероятности случайных событий наша модель показала высокое точностное и точностное определение в 77% случаев, что превышает показатели других моделей.
## Значимость
Semantic models имеют большой потенциал в различных областях, таких как прогнозирование, принятие решений, генерация текста и робототехника. Их особенность в том, что они могут адаптироваться к различным ситуациям, используя логические связи и визуальные контексты, что делает их надежными и эффективными. Благодаря этому модели могут значительно улучшить качество решений в ИИ, обеспечивая лучшую адаптацию к реальному миру.
## Выводы
Мы убедили
Annotation:
Cognitive imagination is a type of imagination that plays a key role in human
thinking. It is not a ``picture-in-the-head'' imagination. It is a faculty to
mentally visualize coherent and holistic systems of concepts and causal links
that serve as semantic contexts for reasoning, decision making and prediction.
Our position is that the role of cognitive imagination is still greatly
underestimated, and this creates numerous problems and diminishes the current
capabilities of AI. For instance, whe...
Авторы:
Meixuan Wang, Yinyu Ye, Zijie Zhou
#### Контекст
Сервирование ло LLM (Large Language Models) является важной задачей для платформ, обрабатывающих запросы в реальном времени. Запросы к LLM могут варьироваться в зависимости от длины входных промотов (prefill lengths) и длины получаемых ответов (decode lengths). Это значит, что каждый запрос потребляет различное количество памяти, что создает сложивую структуру для оптимального сервирования. Помимо этого, запросы могут накладывать ограничения на порядок обработки и пакетирование, что далее усложняет задачу. Таким образом, целью этого исследования является оптимизация сервирования запросов LLM в условиях неоднородных требований к памяти и ограничениям на обработку.
#### Метод
Мы исследуем проблему оптимизации запросов LLM с разными параметрами prefill и decode, включая ограничения на пакетирование и порядок обработки. Методология включает:
1. Анализ существующих стратегий оптимизации, таких как First-Come-First-Serve (FCFS) и Shortest-First (SF).
2. Разработка нового подхода, основанного на выборе метрики, которая эффективно строит пакеты запросов во время выполнения.
3. Обоснование константной конкурентной метрики для нового алгоритма.
4. Разработка динамических программирования, методов поиска локальных методов и логистических программирования, для лучшего использования ресурсов.
#### Результаты
Мы проводим эксперименты с разными стратегиями и данными, оценивая их эффективность в минимизации завершающего времени запросов. Результаты показывают, что новый алгоритм с метрикой выбора показывает значительные улучшения по сравнению с существующими методами. Особенно выгоден в условиях большого объема памяти и разнообразных ограничений запросов. Оптимизированные динамические программирование и локальные поисковые методы также показали высокую эффективность в ситуациях, где требуется быстрая реакция.
#### Значимость
Новый подход может быть применен в различных областях, где LLM-сервисы используются, таких как системы рекомендаций, поисковые системы, искусственный интеллект в реальном времени. Преимущества нового метода включают:
- Уменьшение завершающего времени запросов.
- Улучшение использования ресурсов.
- Увеличение скорости и точность ответов. Эти достижения позволяют улучшить пользовательский опыт и эффективность систем LLM в различных приложениях.
#### Выводы
Мы доказали, что существующие стратегии оптимизации LLM-запросов имеют ограниченную эффективность в условиях неоднородных требований к памяти и ограничениям. Новый алгоритм с метрикой выбора показал стабильную и высокую эффективность. Будущие и
Annotation:
We study the problem of serving LLM (Large Language Model) requests where
each request has heterogeneous prefill and decode lengths. In LLM serving, the
prefill length corresponds to the input prompt length, which determines the
initial memory usage in the KV cache. The decode length refers to the number of
output tokens generated sequentially, with each additional token increasing the
KV cache memory usage by one unit. Given a set of n requests, our goal is to
schedule and process them to minim...
📄 One Size Does Not Fit All: A Distribution-Aware Sparsification for More Precise Model Merging
2025-08-12Авторы:
Yingfeng Luo, Dingyang Lin, Junxin Wang, Ziqiang Xu, Kaiyan Chang, Tong Zheng, Bei Li, Anxiang Ma, Tong Xiao, Zhengtao Yu, Jingbo Zhu
## Контекст
Model merging является перспективным подходом в области многозадачного обучения без доступа к данным. Он основывается на объединении нескольких многозадачных моделей в одну, что позволяет получить модель с улучшенными свойствами. Одной из ключевых техник в этом процессе является спарсификация, призванная уменьшить многообразие параметров модели, чтобы снизить влияние на другие задачи. Однако существующие подходы применяют однородную стратегию спарсификации, которая не учитывает различность структуры и статистических свойств параметров модели. Это ведет к неэффективности в уменьшении интерференции между задачами. Наше исследование адресует эту проблему, предлагая адаптивный подход к спарсификации, который учитывает характеристики каждого параметра.
## Метод
Мы предлагаем **TADrop** (\textbf{T}ensor-wise \textbf{A}daptive \textbf{Drop}) - адаптивную стратегию спарсификации, которая присваивает уникальные уровни спарсификации для каждого тензора параметров на основе их распределения. Идея заключается в том, что более делимостные тензоры могут быть более агрессивно спарсифицированы, в то время как более критичные сохраняются. Мы реализуем TADrop как простой модуль, который можно интегрировать с различными существующими методами спарсификации. Это позволяет улучшить их результаты без дополнительных изменений в архитектуре.
## Результаты
Мы провели эксперименты на различных задачах (визуальной обработке, текстовом обучении, мультимодальных задачах) и моделях (ViT, BEiT). Метод TADrop показал существенные выигрыши в производительности по сравнению с базовыми методами. Например, при совместном применении с одной из лучших стратегий объединения, TADrop увеличил средний результат на 2.0% для 8-и задач с моделью ViT-B/32. Эти результаты доказывают, что TADrop способен более точно уменьшать интерференцию между задачами, оптимизируя уровни спарсификации в соответствии с распределениями параметров.
## Значимость
Наш подход может быть применен во многих аспектах многозадачного обучения, где важно минимизировать влияние одной задачи на другие. Он предоставляет более точный и эффективный способ спарсификации, адаптируясь к специфике модели. Это может привести к улучшению потенциального влияния спарсификации в будущих исследованиях по моделям с функциональным сокращением параметров.
## Выводы
Предложенный подход TADrop доказал свою эффективность в улучшении результатов спарсификации. Он является простым и эффективным модулем, который может быть легко интегрирован в различные существующие стратегии. Н
Annotation:
Model merging has emerged as a compelling data-free paradigm for multi-task
learning, enabling the fusion of multiple fine-tuned models into a single,
powerful entity. A key technique in merging methods is sparsification, which
prunes redundant parameters from task vectors to mitigate interference.
However, prevailing approaches employ a ``one-size-fits-all'' strategy,
applying a uniform sparsity ratio that overlooks the inherent structural and
statistical heterogeneity of model parameters. This...
Авторы:
Richard Willats, Josh Pennington, Aravind Mohan, Bertie Vidgen
## Контекст
Классификация вопросов, связанных с модерацией контента, остается вызовом для современных систем модерации. Одним из основных признаков является то, что правила модерации часто меняются, что приводит к необходимости регулярной переобучения моделей. Это не только увеличивает затраты на ресурсы, но и затрудняет достижение высокой точности в классификации. Кроме того, существующие системы часто не демонстрируют достаточной транспарентности, что снижает доверие пользователей и организаций. Учитывая эти проблемы, необходимо разработать методы, которые позволят классификационным системам быстро адаптироваться к изменениям политик модерации, обеспечивая точность и ясность в процессе принятия решений.
## Метод
Методология, представленная в статье, основывается на подходе Retrieval-Augmented Generation (RAG). В отличие от традиционных классификационных систем, которые опираются на предварительно обученные параметры, RAG-системы используют внешний источник знаний для оценки контента. В данном случае, источником знаний является политика модерации. Рассматриваемая методика превращает задачу классификации из "этот контент является явлением ненормативных высказываний?" в "этот контент нарушает политику модерации по ненормативным высказываниям?". Это делает процесс классификации более гибким и контекстуализированным. Для реализации возможности RAG использована система Contextual Policy Engine (CPE), которая использует технологии генерирующих моделей для анализа контента и вывода решений на базе политики модерации.
## Результаты
Рассмотренная система прошла три эксперимента, посвященных оценке системы классификации на основе RAG. В первом эксперименте система была сравнена с трех ведущих коммерческих системами модерации, и демонстрировала сопоставимую точность классификации. Во втором эксперименте проверялась способность системы взаимодействовать с конкретными группами пользователей, демонстрируя точность в жесткой корректировке политики модерации. Наконец, в третьем эксперименте была проверена возможность системы адаптироваться к изменению политики модерации без переобучения, что демонстрирует динамическую гибкость и транспарентность. Результаты показали, что RAG-системы могут предоставить высокую точность классификации и ясность решений, что является ключевым преимуществом для модерации контента и других классификационных задач.
## Значимость
Результаты системы RAG имеют широкие применения в модерации контента, где необходима строгая адаптация к изменяющимся политикам. Кроме того, технология RAG может быть применена в других классификационных за
Annotation:
Robust content moderation requires classification systems that can quickly
adapt to evolving policies without costly retraining. We present classification
using Retrieval-Augmented Generation (RAG), which shifts traditional
classification tasks from determining the correct category in accordance with
pre-trained parameters to evaluating content in relation to contextual
knowledge retrieved at inference. In hate speech detection, this transforms the
task from "is this hate speech?" to "does this ...
Авторы:
Andrew Cropper, David M. Cerna, Matti Järvisalo
## Контекст
Индуктивное программирование логики (Inductive Logic Programming, ILP) — это область искусственного интеллекта, которая стремится автоматически выводить высказывания (гипотезы) из данных и предварительно заданного знания. Она находит применение в различных областях, включая визуальное рассуждение, робототехнику и игровые алгоритмы. Однако, ILP сталкивается с сильными симметриями в пространстве гипотез, что приводит к высокому потреблению ресурсов и проблемам с масштабированием. Наша мотивация заключается в разработке метода, который существенно улучшит эффективность и масштабируемость ILP-систем, устранив эти симметрии.
## Метод
Мы предлагаем метод, основанный на топологическом сортировании, для того чтобы устранить симметрии в пространстве гипотез. Гипотезы сортируются с учетом их структурных отношений, чтобы уменьшить количество необходимых вычислений. Мы реализовали нашу идею в рамках программного обеспечения в ответных множествах (Answer Set Programming, ASP). Технический подход включает в себя создание алгоритма для эффективной генерации и выбора гипотез, учитывая их логические свойства и интерпретации.
## Результаты
Мы провели эксперименты на различных задачах, включая визуальное рассуждение и игровые ситуации. Наши тесты показали, что наш метод может значительно сократить время разрешения задач. Например, в случае задачи визуального рассуждения, где предварительное решение заняло бы более часа, наш алгоритм снизил время до 17 секунд. Эти результаты демонстрируют эффективность нашего подхода в снижении времени работы и улучшении масштабируемости ILP-систем.
## Значимость
Наш подход может быть применен в различных областях, где используется ILP, включая научные вычисления, искусственный интеллект и анализ данных. Основное преимущество заключается в существенном сокращении времени решения задач, что делает нашу систему более эффективной и применимой в реальном времени. Это может привести к значительным позитивным последствиям в развитии технологий и решений в области ИИ.
## Выводы
Мы доказали, что наш метод эффективно решает проблему симметрий в ILP, улучшая эффективность и масштабируемость. В дальнейших исследованиях мы собираемся расширить применение нашего подхода к другим областям, включая искусственный интеллект в играх и визуальное рассуждение, а также улучшить его моделирование и оптимизацию.
Annotation:
The goal of inductive logic programming is to search for a hypothesis that
generalises training data and background knowledge. The challenge is searching
vast hypothesis spaces, which is exacerbated because many logically equivalent
hypotheses exist. To address this challenge, we introduce a method to break
symmetries in the hypothesis space. We implement our idea in answer set
programming. Our experiments on multiple domains, including visual reasoning
and game playing, show that our approach c...
Авторы:
Pierre Peigné - Lefebvre, Quentin Feuillade-Montixi, Tom David, Nicolas Miailhe
## Контекст
Современные текстовые генерирующие модели языков (LLM) широко используются в различных областях, от систем поддержки решений до улучшения пользовательского опыта. Однако эти модели чувствительны к недостаткам в обучении и оценке, которые могут привести к появлению уязвимостей. Одним из ключевых аспектов, требующих изучения, является **robustness** (надёжность), которая относится к способности модели выдержать различные виды атак и недопустимых входных данных. Несмотря на то, что существуют многочисленные методы проверки и оценки устойчивости моделей, существует необходимость в систематической и автоматизированной оценке, чтобы улучшить понимание потенциальных уязвимостей и способах их преодоления. Этой необходимости учитывается в рамках работы над LLM Robustness Leaderboard v1.
## Метод
Для оценки устойчивости LLM была разработана **PRISM Eval Behavior Elicitation Tool (BET)** – система, выполняющая автоматизированные атаки с помощью **Dynamic Adversarial Optimization**. Этот подход позволяет автоматически генерировать входные данные, нацеленные на вывод модели в желаемое состояние. Модель BET использует алгоритмы градиентного поиска и эволюционного программирования для оптимизации внедрения вредоносных входных данных. Она протестирована против 41 моделей лидирующих в своей области, и оказалась успешной в 100% случаев против 37 из них. Дополнительно, в качестве метрики была предложена **Average Attempts to Harm (AATH)**, которая измеряет количество попыток, необходимых для вызвать вредоносный результат. Эта метрика позволяет понять, насколько легко можно использовать хакерские техники для нарушения модели.
## Результаты
Были проведены многочисленные эксперименты с различными моделями, включая самые популярные и наиболее точные существующие в момент выполнения исследования. При помощи BET удалось выявить сильные уязвимости в большинстве моделей. Результаты показали, что некоторые модели требуют более 300 попыток, чтобы внедрить вредоносный вход. Несмотря на то, что все модели оказались уязвимыми, наблюдалось разное время возникновения вредоносных результатов. Это отличает метод BET от простых бинарных метрик, позволяя получить более тонкую оценку устойчивости. Использование новых методов **primitive-level vulnerability analysis** позволило классифицировать типы хакерских техник, которые работают лучше для конкретных категорий уязвимостей.
## Значимость
Результаты этого работы имеют практическое значение для развития искусственного интеллекта. Они подтверждают, что любые LLM, независимо от их размера или точности, могут быть ослаблены в условиях атак. Метод BET может быть использован как средство для провед
Annotation:
This technical report accompanies the LLM robustness leaderboard published by
PRISM Eval for the Paris AI Action Summit. We introduce PRISM Eval Behavior
Elicitation Tool (BET), an AI system performing automated red-teaming through
Dynamic Adversarial Optimization that achieves 100% Attack Success Rate (ASR)
against 37 of 41 state-of-the-art LLMs. Beyond binary success metrics, we
propose a fine-grained robustness metric estimating the average number of
attempts required to elicit harmful behavi...
Авторы:
Ze Shen Chin
## Контекст
Угрозы, связанные с развитием Искусственного Интеллекта (ИИ), в последние годы приобрели все более значимую роль в общественном дискурсе. Однако многие аспекты этих рисков остаются непонятными или описываются неполно, что создает риск недостаточного понимания и эффективного профилактического управления. Особенно острой становится проблема с многомерным подходом к опасностям, который мог бы объединять разные сферы возможных вредных последствий в единую систему. Поскольку затронуты очень разные области — от биологических и химических опасностей до геополитических структур — становится важно разработать каркас, позволяющий эффективно систематизировать и анализировать эти риски. В добавок к этому, риски часто описываются без явного упоминания последовательных процессов, которые могут привести к ним. Таким образом, необходимо создать модели, которые позволяют проследить последовательность действий или событий, связанных с каждой угрозой, для точного определения точек вмешательства и мер предотвращения.
## Метод
Для охвата многомерности рисков в работе используется подход, основанный на семи ключевых измерениях. Эти измерения включают в себя: **интенцию** (такие как злонамерение или нейтральность), **компетентность** (уровень технической возможности), **субъект** (который может быть индивидом, организацией или системой), **полярность** (то есть, является ли риск опасным только для определенных субъектов или для всех), **линейность** (то есть, является ли процесс непрерывным или разовой причинно-следственной цепью), **потенциальный радиус воздействия** (количество людей или систем, которые могут быть повлияны), и **порядок** (насколько риск является частью более широкой цепи событий). Для моделирования процесса, приводящего к катастрофическим рискам, работа применяет **risk pathway modeling**, которая представляет собой пошаговую модель последовательности событий, ведущих к катастрофе. Эта модель определяет ключевые шаги, которые могут быть предприняты для предотвращения катастрофы или уменьшения ее воздействия.
## Результаты
В работе применяется данный подход для семи типов рисков, а именно: **CBRN (химические, биологические, радиоактивные и ньюклеры атаки)**, **каинственных технологий**, **утраты контроля в результате скрытых недочетов**, **угасания контроля в результате адаптации систем**, **окружающих опасностей** и **геополитических конфликтов**. Для каждого типа риска, авторы приводят подробное разбиение на измерения и строят последовательность событий, связанных с каждым
Annotation:
Although discourse around the risks of Artificial Intelligence (AI) has
grown, it often lacks a comprehensive, multidimensional framework, and concrete
causal pathways mapping hazard to harm. This paper aims to bridge this gap by
examining six commonly discussed AI catastrophic risks: CBRN, cyber offense,
sudden loss of control, gradual loss of control, environmental risk, and
geopolitical risk. First, we characterize these risks across seven key
dimensions, namely intent, competency, entity, po...
📄 Memp: Exploring Agent Procedural Memory
2025-08-12Авторы:
Runnan Fang, Yuan Liang, Xiaobin Wang, Jialong Wu, Shuofei Qiao, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang
## Контекст
Large Language Models (LLMs) становятся все более успешными в решении разнообразных задач, но их процедурная память часто оказывается недостаточно устойчивой и гибкой. Эта проблема наблюдается при мануальном программировании памяти или при ее интеграции с статическими параметрами. В настоящей работе рассматривается задача обеспечения агентов с выработкой процедурной памяти, которая была бы изучаемой, обновляемой и жизненно длительной. Такие подходы могут увеличить эффективность агентов и позволить им работать в нестандартных ситуациях, не подразумеваемых при их разработке.
## Метод
Методология, предлагаемая в работе, основывается на создании механизмов для построения, восстановления и обновления процедурной памяти. Агенту предлагается два уровня абстракции: пошаговые инструкции и скрипт-ориентированные абстракции. Для этого используется нейронная сеть, которая проанализировала большой объем данных, чтобы сформировать эти уровни абстракции. Изучены различные стратегии для построения, поиска и обновления памяти, которые позволяют агенту взаимодействовать с процедурным знанием в процессе работы. Динамическая система обновления позволяет максимально адаптировать память к новым опытным данным.
## Результаты
Для оценки эффективности предложенного подхода проведены эксперименты на двух наборах данных: TravelPlanner и ALFWorld. Эти эксперименты показали, что агенты с динамической процедурной памятью показали высокую эффективность в решении задач, а также существенно улучшили свои результаты в сравнении с базовыми моделями. Также показано, что модели с более сильными предварительно обученными моделями могут быть эффективно использованы для повышения производительности более слабых моделей, если эти модели работают с общей процедурной памятью.
## Значимость
Результаты этой работы могут быть применены в различных областях, таких как разработка систем-агентов для управления процессами, диалоговые системы, интеллектуальные системы поддержки решения задач и др. Этот подход увеличивает гибкость, эффективность и устойчивость агентов к изменениям в задачах и условиях работы. Также, он открывает новые возможности для развития методов обучения с подкреплением и динамического управления знаниями.
## Выводы
Работа представляет собой значительный шаг в направлении создания устойчивой, обновляемой процедурной памяти для агентов, основанных на LLMs. Она показывает, что подход Memp может быть эффективно использован для улучшения результатов в различных задачах. В будущем могут быть проведены дополнительные исследования для идентификации новых стратегий построения и об
Annotation:
Large Language Models (LLMs) based agents excel at diverse tasks, yet they
suffer from brittle procedural memory that is manually engineered or entangled
in static parameters. In this work, we investigate strategies to endow agents
with a learnable, updatable, and lifelong procedural memory. We propose Memp
that distills past agent trajectories into both fine-grained, step-by-step
instructions and higher-level, script-like abstractions, and explore the impact
of different strategies for Build, R...
Авторы:
Lluís Arola-Fernández
## Контекст
Модели глубокого обучения, особенно текстовые, часто сталкиваются с вопросом, являются ли они простой сквозь-формой их тренировочных данных или возможность развития глубиной интеллектуальных способностей. Однако есть мало физических моделей, которые могли бы объяснить это. Целью данного исследования является раскрытие физической природы такого поведения. Основной мотивацией является развитие физической модели, объясняющей "интуицию" в моделях максимального калибра, которая возникает при критическом балансе предсказания следующего слова и стратегической свободы. Такое поведение может возникнуть в глубоких сетях, подвергающихся методу минд-тюнинга.
## Метод
Исследование основывается на применении метода максимального калибра в текстовых моделях. Он включает в себя минимальное принцип минд-тюнинга, который позволяет модели отклониться от локальных минимумов и последовательностей. Эксперименты проводились с разными входными данными, включая случайные прогулки в определенных картах. Эффективная низкомолекулярная теория использовалась для моделирования этих процессов. Основной параметр - "температура" $\lambda$, которая регулирует баланс между предсказанием следующего слова и свободой движения в пространстве путей.
## Результаты
Эксперименты показали, что модели во время обучения могут перейти через различные фазы - от простого копирования данных (зависимость от температуры) до разрушающих пути (высокая температура), и к метастабильной стадии интуиции (между ними). Эта стадия характеризуется многомерным поведением, в том числе хистерезисом и многостепенностью. Эта метастабильная фаза эффективно поддерживает новые, целесообразные стратегии, которые модель выявляет сама. Это поведение описывается эффективной низкомолекулярной теорией, которая формализует "интуицию" как метастабильное состояние, возникающее при критическом балансе между меморизацией и размышлением.
## Значимость
Набор результатов имеет значительное значение в области глубокого обучения, особенно в текстовых моделях с NLP. Они позволяют понять, как модели могут выходить за рамки простого копирования данных и проявлять интуитивное понимание. Это может привести к развитию новых моделей, которые будут более гибкими и способными к новому. Область применения включает глубокое обучение, машинное обучение и распространенные модели текстов. Основное преимущество заключается в том, что модели могут проявлять индуктивное мышление, что может привести к увеличению качества приложений, таких как генерация текста и
Annotation:
Whether large predictive models merely parrot their training data or produce
genuine insight lacks a physical explanation. This work reports a primitive
form of intuition that emerges as a metastable phase of learning that
critically balances next-token prediction against future path-entropy. The
intuition mechanism is discovered via mind-tuning, the minimal principle that
imposes Maximum Caliber in predictive models with a control temperature-like
parameter $\lambda$. Training on random walks i...
Авторы:
Yilun Hua, Evan Wang, Yoav Artzi
Далее приводится подробное резюме научной статьи под названием "Post-training for Efficient Communication via Convention Formation", написанной Yilun Hua, Evan Wang, Yoav Artzi.
## Контекст
В современных текстовых генерирующих моделях, включая Large Language Models (LLMs), возникают сложности с адаптацией языка в процессе многократных взаимодействий. Хотя человеческие коммуникации становятся более эффективными в многократных интеракциях, LLMs не способны естественно показывать схожий подход. Наиболее заметным отличием является нехватка возможности участников взаимодействия договориться о ад-хок-конвенциях, которые помогают улучшить эффективность общения. Данный эффект часто наблюдается при работе с текстовыми моделями, которые выделяются нестандартным поведением в многотоновых ситуациях. Изучение этой проблемы может помочь в развитии моделей, которые лучше адаптируются к естественным коммуникационным ситуациям.
## Метод
Авторы предлагают метод воспитания моделей, который использует эвристики, чтобы идентифицировать примеры конвенционального поведения в тексте. Метод включает в себя следующие этапы:
1. **Идентификация примеров**: Авторы используют инструменты для автоматической идентификации примеров конвенционального поведения в тексте.
2. **Изменение поведения моделей**: Для изменения поведения моделей во время выполнения, авторы применяют техники на основе обучения на примере (few-shot learning).
3. **Оценка поведения**: Результаты поведения модели оцениваются с помощью базового теста, который измеряет эффективность в текстовых взаимодействиях.
Таким образом, авторы предлагают метод, который может быть применен к различным моделям, чтобы улучшить их способность договариваться о конвенциях в текстовых взаимодействиях.
## Результаты
Авторы проводят эксперименты на двух новых бенчмарках для оценки способности моделей к конвенциональному поведению. Они используют две эвристически определенные методики:
1. **Набор тестов по интеракциям**: Авторы создали набор тестов, который позволяет исследовать способность моделей к конвенциональному поведению в текстовых интеракциях. Этот набор тестов включает в себя взаимодействия с различными уровнями сложности, чтобы протестировать способность моделей создавать и применять конвенции.
2. **Набор тестов по документ-ориентированному выводу**: Для оценки способности моделей применять конвенциональные подходы в реальных условиях, авторы проводят эксперименты на базе документ-ориентированного вывода, где модели должны делать выводы на основе документов.
Эксперименты показали, что в последствии воспитания модели становятся более эффективными в создании и примен
Annotation:
Humans communicate with increasing efficiency in multi-turn interactions, by
adapting their language and forming ad-hoc conventions. In contrast, prior work
shows that LLMs do not naturally show this behavior. We develop a post-training
process to develop this ability through targeted fine-tuning on heuristically
identified demonstrations of convention formation. We evaluate with two new
benchmarks focused on this capability. First, we design a focused,
cognitively-motivated interaction benchmar...
Показано 1621 -
1630
из 1687 записей