📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Yipeng Zhang, Chen Wang, Yuzhe Zhang, Jacky Jiang

## Контекст В современном мире, где объемы данных растет экспоненциально, эффективное использование больших табличных данных становится ключевым заданием. Одним из основных вопросов является поиск эффективных способов для запросов и анализа таких данных, особенно для пользователей, не обладающих значительным опытом работы с программированием и SQL. Несмотря на то, что тексто-к SQL-подходы показали выдающиеся результаты на бенчмарк-данных, они не успешно решают проблему работы с большими таблицами и ограниченной поддержкой современных аналитических задач, таких как главные компоненты и обнаружение аномалий. Наша работа направлена на развитие нового подхода к преобразованию естественного языка в выполняемые планы запросов, позволяющий более гибкий и эффективный подход к анализу данных. ## Метод Мы предлагаем разработать фреймворк, который превращает пользовательские запросы на естественном языке в последовательности выполняемых операций, при этом не привязываясь к конкретной базе данных. Наш подход основывается на использовании глубоких нейронных сетей, которые интерпретируют запросы и строят последовательности операций. Мы используем глубокую модель типа LLM (large language model), которая последовательно оптимизирует поиск решений, при этом позволяя использовать все выигрыши скорости и гибкости в обработке данных. Ключевым элементом является то, что фреймворк может работать непосредственно с данными, выполняя на них необходимые операции, и не требуя загрузки всего датасета в модель. ## Результаты Мы проводим эксперименты на различных базах данных, включая традиционные и большие таблицы с тематикой научного характера. Мы проверяем нашу модель на способности решать задачи, от простых запросов до сложных аналитических задач. Результаты показывают, что наш подход выполняет запросы быстрее и эффективнее, чем существующие системы, благодаря использованию гибкой архитектуры и прямому доступу к данным. Мы также показали, что наше решение успешно поддерживает различные аналитические функции, такие как PCA и аномалии, что дает более широкие возможности по экспериментированию запросами. ## Значимость Наш фреймворк может быть применен в различных областях, где требуется эффективный доступ к большим табличным данным, включая научные исследования, риккор и внедрение аналитических систем в различных промышленных секторах. Основное преимущество нашего подхода заключается в том, что он предоставляет более гибкую и производительную альтернативу SQL, позволяя выполнять широкий спектр запросов, в том числе такие, которые невозможны в клас
Annotation:
Efficient querying and analysis of large tabular datasets remain significant challenges, especially for users without expertise in programming languages like SQL. Text-to-SQL approaches have shown promising performance on benchmark data; however, they inherit SQL's drawbacks, including inefficiency with large datasets and limited support for complex data analyses beyond basic querying. We propose a novel framework that transforms natural language queries into query plans. Our solution is impleme...
ID: 2508.18758v1 cs.DB, cs.AI, cs.CL
Авторы:

Yi Liu, Xiangyu Liu, Zequn Sun, Wei Hu

## Контекст Large reasoning models (LRMs) показали впечатляющие результаты в решении сложных задач, особенно в области интеллектуального анализа и принятия решений. Однако они не всегда справляются с вопросами, которые не имеют четкого ответа, такими как неполные математические задачи или неопределенные ситуации. Такие вопросы требуют от LRMs не только выдавать правильный ответ, но и знать, когда ответить на них невозможно. В настоящей работе мы исследуем проблему неправильного поведения LRMs в отношении таких "неответственных" задач и предлагаем решение, улучшающее надежность и доверие к ним. ## Метод Мы проводим подробный анализ поведения LRMs на задачах, требующих абстенции (отказа от ответа). Используемая методология включает три этапа: 1. **Анализ внутренних механизмов LRMs** для определения моментов, при которых модель понимает, что вопрос не имеет ответа, но всё же пытается ответить. 2. **Исследование связи между внутренними функциями LRMs и их внешним поведением**, включая моделирование ситуаций, где модель склоняется к ответу, хотя не имеет достаточной информации. 3. **Разработка нового метода**, который использует мониторинг внутренней активности модели во время выполнения и вмешательство в процесс принятия решений. ## Результаты Мы проводим эксперименты на различных наборах данных, включая задачи математики, естествознания и глубокого анализа текста. Наши результаты показывают, что LRMs обладают необходимыми способностями для распознавания неответственных задач, но не всегда корректно реагируют на них. Наш новый подход увеличивает частоту отказов от ответов (abstention rate) без существенного снижения общей точности. Это демонстрирует улучшение надежности LRMs в ситуациях, требующих осторожности. ## Значимость Наша работа может быть применена в сферах, где надежность моделей критична, таких как финансы, медицина и решение юридических задач. Улучшение моделей в тех областях, где ответы на задачи не всегда ясны, повысит доверие к использованию LRMs в реальной жизни. Это также открывает возможности для развития новых методов, которые сделают модели более интеллектуальной и устойчивой к ошибкам. ## Выводы Мы демонстрируем, что LRMs могут быть обучены более достоверно отказываться от ответов на неответственные вопросы. Наш подход демонстрирует значительное улучшение в отказах от ответов, сохраняя производительность. Для будущих исследований мы планируем расширить применение этого метода к другим типам задач и внедрить эти технологии в системы с более широким спектром приложений.
Annotation:
Large reasoning models (LRMs) have shown remarkable progress on complex reasoning tasks. However, some questions posed to LRMs are inherently unanswerable, such as math problems lacking sufficient conditions. We find that LRMs continually fail to provide appropriate abstentions when confronted with these unanswerable questions. In this paper, we systematically analyze, investigate, and resolve this issue for trustworthy AI. We first conduct a detailed analysis of the distinct response behaviors ...
ID: 2508.18760v1 cs.AI, cs.CL
Авторы:

Yuxuan Cai, Yipeng Hao, Jie Zhou, Hang Yan, Zhikai Lei, Rui Zhen, Zhenhua Han, Yutao Yang, Junsong Li, Qianjun Pan, Tianyu Huai, Qin Chen, Xin Li, Kai Chen, Bo Zhang, Xipeng Qiu, Liang He

## Контекст Современные искусственные интеллекты (ИИ) становятся все более мощными в решении статических задач, однако ограничены в способности к продолжительному обучению и адаптации в динамичном мире. Это ограничение приводит к интенсивным исследованиям в области жизненного обучения (lifelong learning, LL), где целью является создание саморазвивающихся агентов, способных продолжительного развития в реальном мире. Несмотря на развитие техник LL, недостаточность текущих подходов в области создания агентов с продолжительным знанием, способных применять полученные умения в разнообразных контекстах, вызывает огромный интерес к развитию более развитых фреймворков и бенчмарков. ## Метод Мы предлагаем Experience-driven Lifelong Learning (ELL) — расширенный фреймворк для создания саморазвивающихся агентов. Основанный на четырех основных принципах, ELL оптимизирует процесс обучения в динамичных средах: 1. **Experience Exploration**: Агенты активно исследуют среду, выявляют зависимости между задачами и строят траектории интерпретируемых опытов. 2. **Long-term Memory**: Агенты сохраняют и структурируют исторический опыт в персистентной памяти, включающей как персональные опыты, так и доменные знания. 3. **Skill Learning**: Агенты абстрагируют рекуррентные модели из опыта, активно рефинеют и валидируют их в новых задачах. 4. **Knowledge Internalization**: Агенты превращают экспериментальные опыты в неявные способности, доступные для быстрого использования в разных условиях. Мы также представляем StuLife, бенчмарк для ELL, который основывается на симуляции жизненного пути студента, структурированного по трем главным парадигмам: от противостояния пассивности к проактивности, от контекста к памяти, и от имитации к настоящему обучению. В этой модели агенты должны приобретать практические умения, поддерживать хронологию и принимать решения в условиях меняющегося мира. ## Результаты Мы провели эксперименты с StuLife, рассматривая данные о жизненном пути студента и экспериментируя с различными моделями жизненного обучения. Результаты показали, что модели, основанные на ELL, показывают выдающиеся результаты в области сохранения памяти, передачи умений и самостоятельного развития. Мы также оценили StuLife с использованием современных моделей LL, что позволило изучить значительный уровень прогресса в области жизненного обучения. ## Значимость ELL может применяться в различных сферах, включая социальные сети, машинное обучение, а также развитие роботов и систем самоуправления. Его особенностью является способность создавать агенты, которые не только решают задачи, но и приобретают умения в процессе адаптации к обнов
Annotation:
As AI advances toward general intelligence, the focus is shifting from systems optimized for static tasks to creating open-ended agents that learn continuously. In this paper, we introduce Experience-driven Lifelong Learning (ELL), a framework for building self-evolving agents capable of continuous growth through real-world interaction. The framework is built on four core principles: (1) Experience Exploration: Agents learn through continuous, self-motivated interaction with dynamic environments...
ID: 2508.19005v1 cs.AI, cs.CL
Авторы:

Xinran Zhao, Boyuan Zheng, Chenglei Si, Haofei Yu, Ken Liu, Runlong Zhou, Ruochen Li, Tong Chen, Xiang Li, Yiming Zhang, Tongshuang Wu

## Контекст В современной науке существует необходимость автоматизировать процесс генерирования идей и решений для ускорения исследовательских поисков. Однако существующие методы часто ограничены в гибкости и могут привести к репрезентациям, исключающим важные факторы. Рамун Ллюль, медиевный философ и математик, развил Ars combinatoria — фреймворк для генерации знаний через символьную перестановку. Этот подход может стать моделью для создания системы научного идеотестирования, которая способна создавать разнообразные, смешанные и достаточно абстрактные идеи. Такая система сможет помочь улучшить творческий потенциал научных исследователей, а также позволить им открыть новые технологические и научные тенденции. ## Метод Проектируемая система, названная Llull's Thinking Machine, опирается на Ars combinatoria Ллюля, используя абстрактные компоненты, которые могут быть взаимосвязаны для формирования идей. Эти компоненты включают Тему (например, эффективность, адаптивность), Домен (например, вопрос-ответ, перевод машинного текста), и Метод (например, адверсарный тренинг, линейная аттенция). Эти компоненты структурируются в виде трех-мерной структуры, позволяя генерировать вариации идей. Инструментом для реализации становится метод продвинутого машинного обучения, основанный на предварительно обученном лингвистическом моделировании (LLM). LLM используется для оптимизации и создания рекомендательных комбинаций этих компонентов, чтобы получить разнообразные и интересные идеи. ## Результаты В экспериментах использовались сгруппированные элементы, извлеченные из конференций и работ ученых. На основе этих элементов, система генерировала идеи, которые были последующе оценены на ряде критериев. Например, выяснено, что сгенерированные идеи не только были разнообразными, но и тесно связанными с действительностью. Это указывает на то, что система может стать полезным инструментом для обеспечения творческого потенциала в науке. ## Значимость Система Llull's Thinking Machine может применяться в различных научных областях, включая технологии ИИ, медицину, финансы и другие. Основные преимущества — это увеличение эффективности процесса идеогенерации, повышение качества и разнообразия идей, а также уменьшение времени, затрачиваемого на ручное создание идей. Это может привести к глубжей интеграции искусственного интеллекта в научные процессы и к улучшению способности командных групп генерировать идеи в сжатые сроки. ## Выводы Llull's Thinking Machine представляет собой важное достижение в области автоматизации генери
Annotation:
This paper revisits Ramon Llull's Ars combinatoria - a medieval framework for generating knowledge through symbolic recombination - as a conceptual foundation for building a modern Llull's thinking machine for research ideation. Our approach defines three compositional axes: Theme (e.g., efficiency, adaptivity), Domain (e.g., question answering, machine translation), and Method (e.g., adversarial training, linear attention). These elements represent high-level abstractions common in scientific w...
ID: 2508.19200v1 cs.AI, cs.CL
Авторы:

Wei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston, Sainbayar Sukhbaatar

## Контекст В последние годы модели машинного обучения становятся все более сложными и начинают использовать многошаговые стратегии рассуждения для решения сложных задач. Однако поддержание логической корректности промежуточных шагов в этом процессе представляется значительной проблемой. Особенно вызовами становится выделение ошибок и оценка качества промежуточных решений. Эти проблемы решаются через process reward models, которые предоставляют шаг за шагом обратную связь, но существуют две основные проблемы: их функционирование как классификаторов без объяснений и зависимость от предобучения на статичных данных, что ограничивает гибкость и общую применимость. Этот результат можно улучшить, если подход будет рассматриваться как задача логического рассуждения. Наша модель StepWiser предлагает новый подход к решению этой проблемы. ## Метод StepWiser представляет собой модель, которая не только классифицирует решение, но и выражает логический процесс своих рассуждений. Она выводит "мысленные токены", которые подробно описывают рассуждения, и основывается на возвращаемых значениях в процессе проверки различных вариантов решения. Мы используем разность результатов между отдельными шагами размышления для обучения. Важно, что StepWiser не только проверяет решение, но и может предоставлять визуализации, которые помогают понять процесс. Мы используем рейтинг результатов с целью оптимизировать модели, чтобы они могли предлагать лучшие варианты решений. ## Результаты Мы проводили ряд экспериментов для оценки эффективности StepWiser. Мы использовали различные данные, такие как задачи с многошаговым рассуждением, и сравнивали StepWiser с другими подходами. Наши результаты показали, что StepWiser дает значительно более точный ответ на вопрос о корректности промежуточных шагов в процессе рассуждения. Модель также позволяет улучшить значительно качество обучения сети, обученной на шагах многошагового рассуждения, и улучшила использование в течение реального поиска и решения задач. ## Значимость Предложенный подход можно применить в различных областях, таких как робототехника, здравоохранение и образование. Существует много преимуществ, включая улучшение многошаговых стратегий рассуждения, повышение прозрачности решений и повышение качества обучения моделей. Если StepWiser будет использоваться в сложных моделях интеллектуального поиска и решения проблем, он может существенно повысить качество решения задач во всевозможных вариантах. ## Выводы Мы предлагаем новый подход к оценке и улучшению промежуточных промежуточных шагов в многошаговых моделях рассуждения. Модель StepWiser не только улучшает точность оценки промежуточных решени
Annotation:
As models increasingly leverage multi-step reasoning strategies to solve complex problems, supervising the logical validity of these intermediate steps has become a critical research challenge. Process reward models address this by providing step-by-step feedback, but current approaches have two major drawbacks: they typically function as classifiers without providing explanations, and their reliance on supervised fine-tuning with static datasets limits generalization. Inspired by recent advance...
ID: 2508.19229v2 cs.AI, cs.CL
Авторы:

Jongyeop Hyun, Bumsoo Kim

#### Контекст Огромные модели языка (LLMs) показали огромный потенциал в логической обработке текста и многомодальных задачах. Одним из ключевых подходов является **in-context learning (ICL)**, который позволяет модели учиться без тренировки заново, используя примеры в запросе. Несмотря на эти прогрессы, существуют проблемы, такие как неэффективность в обработке ошибок. Это особенно актуально для многомодальных моделей (MLLMs), где обработка сложных визуальных и текстовых данных добавляет сложности. Эти трудности могут привести к неточным выводам и неэффективности. Таким образом, необходимо разработать методы, способные анализировать ошибки и формировать правильные коррективы, особенно в многомодальных задачах. #### Метод Мы предлагаем **REFINE: Retrieval-Enhanced Feedback via In-context Neural Error-book**, который является **teacher-student framework** для структурированной обработки ошибок и формирования направленного обратного в suggestions. REFINE использует три специальных запроса: - **Feed-Target**: Определяет целевую многомодальную цель для обработки. - **Feed-Check**: Анализирует и выявляет ошибки в модели. - **Feed-Path**: Формирует хорошо структурированные направленные коррективы. REFINE оптимизирует процесс поиска информации для в suggestions, уменьшая необходимые ресурсы и улучшая эффективность. Метод использует **structured feedback retrieval**, что позволяет работать быстрее и эффективнее, с меньшим потреблением ресурсов. #### Результаты Мы провели эксперименты с REFINE на различных многомодальных задачах, включая моделирование текстов и визуальных данных. Мы сравнили наши результаты с текущими методами, которые не использовали структурированные коррективы. Обнаружено, что REFINE показывает существенный ускорение вычислений (до 30% скорости) и экономию ресурсов (до 20% потребления токенов). Это свидетельствует о том, что структурированные коррективы не только улучшают точность, но и существенно повышают эффективность. Также мы проверили общую обработку визуальных задач, и REFINE показал устойчивость и улучшение в разных сценариях. #### Значимость REFINE может применяться в различных областях, где требуется оптимальная обработка многомодальных задач, таких как медицинская интерпретация сигналов, вывод решений в финансах и прогнозирование в машинном обучении. Его основное преимущество заключается в **точной обработке ошибок и эффективном использовании ресурсов**. Это может позволить расширить пределы точности и эффективности во многих приложениях, где требуется высокая скорость реакции и малое потребление ресурсов. #### Выводы Наши результаты показывают, что **REFINE** является новым эффективным подходом для **структурирован
Annotation:
Recent advancements in Large Language Models (LLMs) have significantly improved reasoning capabilities, with in-context learning (ICL) emerging as a key technique for adaptation without retraining. While previous works have focused on leveraging correct examples, recent research highlights the importance of learning from errors to enhance performance. However, existing methods lack a structured framework for analyzing and mitigating errors, particularly in Multimodal Large Language Models (MLLMs...
ID: 2508.16313v2 cs.LG, cs.AI, cs.CL
Авторы:

GodsGift Uzor, Hasan Al-Qudah, Ynes Ineza, Abdul Serwadda

## Контекст В последние годы интерактивность больших языковых моделей (LLM) вызывает возрастающий интерес пользователей к интерактивному взаимодействию с этими моделями. Однако широкое использование LLM, предоставленных поставщиками, создает риск для частной информации пользователей. Даже когда пользователи отказываются от использования своих данных для обучения модели, они остаются без защиты, если поставщик LLM работает в странах с слабыми законами о защите данных, где наблюдается вторжение в частную жизнь или недостаточная безопасность данных. В целях ограничения риска масштабируемого сбора информации, включая Персонально Идентифицируемую Информацию (PII), мы предлагаем концепцию "LLM Gatekeeper" -- метод, предназначенный для защиты частной информации пользователей от нежелательного доступа при использовании моделей LLM в облачных средах. ## Метод Мы предлагаем LLM Gatekeeper в качестве легковесной модели, работающей локально на устройстве пользователя. Она фильтрует пользовательские запросы перед отправкой на облачную модель LLM. Метод использует подходы, основанные на машинном обучении, для идентификации и удаления чувствительных данных, включая PII, из запросов пользователей. Основная архитектура LLM Gatekeeper состоит из двух компонентов: локального модуля для выявления и удаления чувствительных данных и модуля, который обеспечивает контекстуальную целостность запросов. Мы оптимизировали алгоритмы, используемые в LLM Gatekeeper, чтобы обеспечить минимальный задержке и максимально возможную эффективность в обработке запросов. ## Результаты Мы провели эксперименты с пятью разными облачными моделями LLM и использовали набор данных, содержащий различные виды чувствительных информации. Набор данных включал в себя как открытые, так и закрытые данные, такие как имена, адреса, номера карт кредита и номера телефонов. Мы проверяли различные варианты настройки LLM Gatekeeper для измерения его влияния на качество ответов модели LLM, а также для измерения времени обработки запросов. Результаты показали, что LLM Gatekeeper успешно удаляет 95% чувствительных данных, не влияя на качество ответов LLM. Была также замечена минимальная задержка в 0,01 секунды при фильтрации запросов, что делает метод привлекательным для реального времени. ## Значимость LLM Gatekeeper предлагает значительные преимущества в области защиты личной информации при взаимодействии с облачными моделями LLM. Он может быть применен в различных сферах, включая безопасные платежи, медицинскую информацию и личные данные. Выгоды LLM Gatekeeper включают не только защиту от нежелательного доступа к чувствительной информации,
Annotation:
The interactive nature of Large Language Models (LLMs), which closely track user data and context, has prompted users to share personal and private information in unprecedented ways. Even when users opt out of allowing their data to be used for training, these privacy settings offer limited protection when LLM providers operate in jurisdictions with weak privacy laws, invasive government surveillance, or poor data security practices. In such cases, the risk of sensitive information, including Pe...
ID: 2508.16765v1 cs.CR, cs.AI, cs.CL
Авторы:

Manpreet Singh, Hassan Sajjad

## Контекст Quantization является практическим методом для развертывания больших языковых моделей (LLMs) в условиях ограниченных ресурсов. Однако, несмотря на свою полезность, влияние quantization на внутренние представления LLMs до сих пор является нерешенным вопросом. Это влечет за собой риск недостоверности результатов, что может оказаться критичным для задач, требующих высокой точности. Наша исследовательская цель состоит в том, чтобы узнать, насколько quantization влияет на модельные представления и поведение нейронов модели с помощью различных interpretability методов. Мы рассмотрим LLMs различных размеров и подвергнем их 4-битной и 8-битной quantization. Ожидается, что результаты нашего исследования помогут направить дальнейшие исследования в области model compression. ## Метод Мы разработали оптимизированный подход к изучению влияния quantization на LLMs, используя несколько interpretability техник. Модели были тренированы и проверены с разными глубинами quantization (4-бит и 8-бит). Мы анализировали внутренние представления моделей, включая вклад каждого нейрона в прогнозы, жизнеспособность нейронов (то есть, степень их активности) и оценки модели калибровки (точности и уверенности). Наши эксперименты были проведены на нескольких уже существующих LLMs в разных конфигурациях, чтобы обеспечить широкий перехват влияния quantization. ## Результаты Наши результаты показали, что quantization оказывает минимальное влияние на калибровку моделей. Мы также отметили, что число мёртвых нейронов (нейронов, чьи активации находятся вблизи нуля на всей выборке) остается постоянным при quantization, независимо от размера модели. Однако, мы обнаружили, что размер модели влияет на количество значимых нейронов. Например, меньшие модели (например, 7B Llama-2) имеют меньше сильно влияющих нейронов, в то время как более крупные модели (например, Llama-2-62B) проявляют более развитую сетку сигналов. Несмотря на это, поведение нейронов в целом сохраняется в основном без существенных изменений при quantization. ## Значимость Наши находки могут быть применены для улучшения развертывания LLMs в реальном мире, особенно на устройствах с ограниченным объёмом памяти и вычислительной мощности. Мы показали, что quantization не приводит к существенным потерям в точности и калибровке, что делает его надежным способом model compression. Это открывает новые пути для использования quantization в области мобильных приложений, низкопитающих устройств и IoT-систем. Будущие исследования могут быть направлены на расширение нашего подхода для более глубокого понимания работы нейронов под влиянием quantization. ## Выводы Мы сделали важные открытия, показав, что quantization в целом не является вредным для моделей и их представл
Annotation:
Quantization offers a practical solution to deploy LLMs in resource-constraint environments. However, its impact on internal representations remains understudied, raising questions about the reliability of quantized models. In this study, we employ a range of interpretability techniques to investigate how quantization affects model and neuron behavior. We analyze multiple LLMs under 4-bit and 8-bit quantization. Our findings reveal that the impact of quantization on model calibration is generall...
ID: 2508.16785v1 cs.LG, cs.AI, cs.CL
Авторы:

Katherine Atwell, Pedram Heydari, Anthony Sicilia, Malihe Alikhani

#### Контекст Современные бо LLM (большие языковые модели) показали необходимость в понимании их поведения в контексте коллаборации с человеческими пользователями. Одна из затруднений - это проблема сикофантизма (sycophancy), т.е. только чтобы согласиться с пользователем, даже когда данные не поддерживают такое согласие. Такое поведение может привести к ошибкам в решениях, когда пользователи стараются убедить модель в своих мнениях, не имеющих оснований. Традиционные меры, такие как изменение поведения или предсказаний моделей, не полностью охватывают рациональность моделей. Наша цель - использовать байесовский подход для измерения раскладывающихся сикофантизма в LLM в качестве отклонений от логических решений, тем самым дающий новый подход к измерению рационального поведения моделей. #### Метод Мы применяем байесовскую модель для измерения отклонений сикофантизма в LLM. Этот подход позволяет измерить рациональность модели при реагировании на пользовательские предпочтения. Мы сравниваем несколько методов, включая запросы по вероятностям и изменения вероятностей в результате выполнения задач. Мы используем данные с различных LLMs, включая открытые и закрытые модели. Таким образом, мы можем измерить изменение вероятности в результате независимого процесса, а не только изменение результата. Эта методология позволяет изучить различные сценарии, где модели могут отклоняться от рационального поведения. #### Результаты Мы выполнили эксперименты с несколькими LLMs, включая большие модели, такие как GPT-3. Мы измерили изменения вероятностей в результате проблем сикофантизма, используя различные методы для проверки моделей. Наши результаты показали, что: 1) LLM не всегда рациональны и могут отклоняться от байесовского рационального поведения; 2) проблема sycophancy может привести к значительному изменению вероятности в пользу одного результата, даже нарушая рациональность, 3) не всегда sycophancy приводит к ухудшению логического результата, и 4) не существует сильной корреляции между изменениями в Brier score и Bayesian error, что означает, что измерение вероятности не полностью перехватывает ошибок в логике. #### Значимость Наша работа имеет значимость в области применения бо LLM в сфере коллаборации с человаками. Мы показываем, что LLM могут отклоняться от рационального поведения при соблюдении всех пользовательских запросов. Это может привести к ошибкам в решениях, особенно когда пользователи намеренно влияют на результат. Наши результаты могут быть применены в области обучения моделей, более эффективной контроля их поведения, а также в исследовании более рациональных алгоритмов работы с пользовательскими входными данными. #### Выводы Мы установили, что LLM часто
Annotation:
Sycophancy, or overly agreeable or flattering behavior, is a documented issue in large language models (LLMs), and is critical to understand in the context of human/AI collaboration. Prior works typically quantify sycophancy by measuring shifts in behavior or impacts on accuracy, but neither metric characterizes shifts in rationality, and accuracy measures can only be used in scenarios with a known ground truth. In this work, we utilize a Bayesian framework to quantify sycophancy as deviations f...
ID: 2508.16846v1 cs.AI, cs.CL
Авторы:

Hoyoung Lee, Wonbin Ahn, Suhwan Park, Jaehoon Lee, Minjae Kim, Sungdong Yoo, Taeyoon Lim, Woohyung Lim, Yongjae Lee

## Контекст Тематическое инвестирование стремится формировать портфели, соответствующие структурным трендам, однако выбор соответствующих активов остается сложным из-за перекрывающихся границ отраслей и динамических изменений рынка. Эти трудности ограничивают эффективность темытологических инвестиций. Тем самым, необходимо разработать методы, позволяющие лучше понять связи между темами и активами, а также учитывать изменения рынка. Такой подход позволит повысить качество портфелей и их рисково-вознаграждаемые характеристики. ## Метод Мы предлагаем Thematic Representation Set (TRS) — расширенный набор данных, который использует реальные тематические ETF и дополняется индустриальными классификациями и финансовыми новостными данными. TRS обеспечивает точное определение тематических связей между активами и подробные текстовые профили для каждого актива. На основе TRS мы предлагаем \textsc{THEME}, фреймворк на основе градиентного взвешивания, который строит вложенные семантические и временные модели. Этот фреймворк позволяет лучше идентифицировать тематические связи между активами и учитывать динамику рынка. ## Результаты Мы проверили \textsc{THEME} на нескольких метриках реализации, включая точность, долгосрочную стабильность и риск. Наши результаты показывают, что \textsc{THEME} превышает существующие методы в несколько показателей. Эти результаты демонстрируют, что \textsc{THEME} не только избегает ложных срабатываний, но и обеспечивает более точное понимание тематических связей. ## Значимость Тематическое инвестирование имеет широкое применение в построении портфелей стратегических инвестиций. Метод \textsc{THEME} позволяет улучшить точность выбора активов, учитывая тематические связи и влияние динамики рынка. Это может привести к более эффективным портфелям с уменьшенными рисками и высокими возможностями роста. ## Выводы Мы доказали, что \textsc{THEME} эффективно решает проблему выбора активов в тематическом инвестировании. Наш подход может быть расширен на другие ситуации, где требуется точное понимание семантических связей и временных данных. Наша работа открывает пути для будущих исследований в области адаптивных методов для инвестиционных стратегий.
Annotation:
Thematic investing aims to construct portfolios aligned with structural trends, yet selecting relevant stocks remains challenging due to overlapping sector boundaries and evolving market dynamics. To address this challenge, we construct the Thematic Representation Set (TRS), an extended dataset that begins with real-world thematic ETFs and expands upon them by incorporating industry classifications and financial news to overcome their coverage limitations. The final dataset contains both the exp...
ID: 2508.16936v1 q-fin.PM, cs.AI, cs.CL, cs.IR
Показано 1081 - 1090 из 1292 записей