📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Jongyeop Hyun, Bumsoo Kim

## Контекст В последние годы область машинного обучения стала сильно развиваться, в особенности благодаря возникновению Large Language Models (LLMs). Эти модели позволяют выполнять различные задачи, включая естественный язык обработки, логическое рассуждение и дальше. Одна из ключевых технологий, которая сделала это возможным, это in-context learning (ICL), которая позволяет моделям учиться во время работы, не прибегая к переносу знаний. Однако, несмотря на это, существующие модели по-прежнему сталкиваются с проблемами, в частности, с точностью решения задач. Одна из причин этого заключается в недостатке систематизированной обработки ошибок. Это особенно важно в случае Multimodal Large Language Models (MLLMs), где необходимо обрабатывать как текстовые, так и визуальные данные одновременно. Наша идея заключается в том, чтобы создать структурированный подход к обработке ошибок, который мог бы улучшить логические возможности моделей. ## Метод Мы предлатваем REFINE (Retrieval-Enhanced Feedback via In-context Neural Error-book) - методологию, которая использует технику ICL для улучшения обработки ошибок в MLLMs. Основоположником нашего подхода является введение трех видов структурированных запросов: Feed-Target, Feed-Check и Feed-Path. Эти запросы были разработаны, чтобы улучшить логику обработки входных данных. Feed-Target позволяет модели сосредоточиться на самом важном визуальном контенте, Feed-Check позволяет анализировать и определять наиболее важные точки множественных ошибок, а Feed-Path позволяет модели строить шаги, необходимые для корректировки. Мы также предлагаем оптимизированный подход к поиску ответов, который уменьшает необходимость в поиске и обработке ненужных данных. Это позволяет модели работать быстрее, эффективнее и с меньшими затратами ресурсов. ## Результаты Мы проверили наш подход на наборе данных, содержащих многомодальные задачи, включая логические задачи и обработку текста с визуальными изображениями. Мы сравнили REFINE с другими существующими подходами, и наши результаты показали, что у нас лучшая точность и скорость работы. Например, мы достигли скоростного ускорения на 30% без потери точности. Это значит, что наш подход существенно эффективнее и может быть легко интегрирован с любыми моделями, которые используют ICL. ## Значимость REFINE может быть применен в различных областях, таких как здравоохранение, образовательные системы и технические задачи. Его главное преимущество заключается в улучшенной точности и эффективности, что может привести к более продуктивному использованию моделей в реальной жизни. Мы считаем, что наш подход может стать ключевым инструментом для улучшения общих возможностей интеллектуальных систем.
Annotation:
Recent advancements in Large Language Models (LLMs) have significantly improved reasoning capabilities, with in-context learning (ICL) emerging as a key technique for adaptation without retraining. While previous works have focused on leveraging correct examples, recent research highlights the importance of learning from errors to enhance performance. However, existing methods lack a structured framework for analyzing and mitigating errors, particularly in Multimodal Large Language Models (MLLMs...
ID: 2508.16313v1 cs.LG, cs.AI, cs.CL
Авторы:

Xueyao Zhang, Junan Zhang, Yuancheng Wang, Chaoren Wang, Yuanzhe Chen, Dongya Jia, Zhuo Chen, Zhizheng Wu

#### Контекст Лингвистические функции голоса влияют на способность людей выражаться и узнаваться, особенно при выполнении творческих задач, таких как поющий голос. Существующие подходы к генерации голоса часто специализируются на одной области, такой как речь или поющий голос, что ограничивает их универсальность и гибкость. Это приводит к необходимости разработки универсальных моделей, которые могут эффективно обрабатывать и контролировать обоие режимы — речь и поющий голос. Кроме того, ограниченные объемы аннотированных данных, особенно для поющего голоса, и сложность контроля за стилем и прозоди создают дополнительные вызовы. В этом контексте Vevo2 предлагает решение, объединяя голоса в единую модель. #### Метод Vevo2 представляет собой новую архитектуру, которая позволяет генерировать голос в обоих режимах — речью и поющим — с помощью общей модели. Для этого разработаны два типа токенизаторов: (1) **токенизатор музыкальной нотации без мелодии**, который позволяет получать не только прозодь и мелодию, но и звучание от речи до поющего голоса и даже инструментальных звуков; (2) **токенизатор низкого кадрового разрешения (12.5 Гц)**, который кодирует текст, прозодь и стиль для обоих режимов, а также обеспечивает разделение голоса. Модель включает авторегрессионную стадию моделирования контента и стиля, которая обеспечивает контроль над текстом, прозоди и стилем, и аккустическую стадию с потоковым соответствием, которая позволяет контролировать голос. В ходе предварительного обучения авторегрессионной модели используются стратегии обучения прозоди, которые позволяют связывать речь и поющий голос. Для повышения учтивости и стиля используется многоцелевая задача постобучения. #### Результаты Эксперименты проводились на различных задачах генерации и преобразования голоса, включая речь и поющий голос. Модель Vevo2 демонстрирует высокую точность в задачах конвертации речи в поющий голос и наоборот, а также в задачах редактирования голоса. Использовались различные данные, включая голосовые сэмплы с разными стилями и акцентами. Результаты показывают, что Vevo2 обеспечивает качественное согласование текста, прозоди и стиля в обоих режимах и предлагает гибкие возможности контроля. Аудио-примеры доступны по ссылке. #### Значимость Данная работа имеет значимость в области генерации голоса, поскольку объединяет речь и поющий голос в единую модель, что повышает универсальность и применяемость. Она может применяться в развитии новых технологий для генерации голоса в развлекательных, медицинских и образовательных приложениях. В
Annotation:
Controllable human voice generation, particularly for expressive domains like singing, remains a significant challenge. This paper introduces Vevo2, a unified framework for controllable speech and singing voice generation. To tackle issues like the scarcity of annotated singing data and to enable flexible controllability, Vevo2 introduces two audio tokenizers: (1) a music-notation-free prosody tokenizer that captures prosody and melody from speech, singing, and even instrumental sounds, and (2) ...
ID: 2508.16332v1 cs.SD, cs.AI, cs.CL
Авторы:

Xinyu Yang, Chenlong Deng, Zhicheng Dou

## Контекст Область юридического предсказания (Legal Judgment Prediction, LJP) набирает важность в связи с ростом сложности законодательства и ростом объемов юридических данных. Существующие модели глубокого обучения, в том числе большие языковые модели (LLMs), часто сталкиваются с проблемой недостаточного рассуждающего рассуждающегося поведения из-за недостаточного закладывания юридического контекста и знаний. Это влечет за собой недостаточную точность и прозрачность решений. В свете этой проблемы, разработчики исследовательских групп предлагают новые подходы, нацеленные на улучшение человеческой субъективности и логической структуры в процессе предсказания юридических решений. ## Метод Метод GLARE (Agentic Reasoning for Legal Judgment Prediction) представляет собой развивающуюся систему, которая использует динамически вызовы различных модулей для получения ключевых юридических знаний. Этот подход сочетает в себе модели LLM с целенаправленными модулями, оптимизированными для юридических задач. Архитектура GLARE включает в себя модули для анализа документов, выделения ключевых фактов, рассуждающегося мышления и построения резолюции. Цель состоит в том, чтобы создать систему, которая не только предсказывает итоги юридических судебных процессов, но и обеспечивает прозрачность процесса решения. ## Результаты Исследовательская группа провела эксперименты на реальных юридических данных, которые позволили оценить эффективность GLARE. Метод показал высокую точность в предсказании итогов юридических судебных процессов по сравнению с текущими моделями. Более того, генерируемая цепь рассуждений позволяет лучше понять процесс принятия решений и обеспечивает возможность для практического применения в юридических процессах. ## Значимость Приложение GLARE может быть применено в различных юридических сферах, включая предсказание итогов судебных процессов, глубокую интерпретацию юридических документов и поддержку юридических процессов. Одним из основных преимуществ является улучшение прозрачности и точности предсказаний, что может повысить доверие к судебным решениям. Этот подход может иметь значительное влияние на сферу юридического анализа и толкает границы технологий в этой области. ## Выводы Представленная работа GLARE представляет собой надежное решение для улучшения юридического предсказания, предоставляя способность динамически приобретать и использовать юридические знания. Будущие исследования будут сфокусированы на улучшении модулей рассуждающегося мышления, оптимизации процесса вызова модулей и расширении применимости системы к другим юридическим системам и регулирующи
Annotation:
Legal judgment prediction (LJP) has become increasingly important in the legal field. In this paper, we identify that existing large language models (LLMs) have significant problems of insufficient reasoning due to a lack of legal knowledge. Therefore, we introduce GLARE, an agentic legal reasoning framework that dynamically acquires key legal knowledge by invoking different modules, thereby improving the breadth and depth of reasoning. Experiments conducted on the real-world dataset verify the ...
ID: 2508.16383v1 cs.AI, cs.CL, cs.CY
Авторы:

Adil Bahaj, Mohamed Chetouani, Mounir Ghogho

#### Контекст В последние годы большое внимание уделяется развитию здравоохранения через искусственный интеллект (ИИ). Одной из ключевых областей применения ИИ является медицина, где ИИ применяется для диагностики, решения медицинских вопросов и повышения справочного обслуживания. Однако существуют серьезные проблемы, особенно в отношении моделей большого языкового моделирования (LLM) и визуального моделирования (VLMs). Эти модели часто демонстрируют систематическую предрасположенность, в том числе возрастную предрасположенность, что снижает их достоверность и справедливость. Это особенно важно в области педиатрии, где здоровье детей часто остается забытым или менее изученным, несмотря на высокий бремен детских заболеваний. Для решения этой проблемы был представлен новый бенчмарк PediatricsMQA, предлагающий новые возможности для тестирования ИИ в области педиатрии. #### Метод Представленный бенчмарк PediatricsMQA является многомерным и включает 3,417 текстовых вопросов с множественным выбором (MCQ), покрывающих 131 педиатрических тем в разных стадиях развития, от предпородного развития до подросткового возраста. Бенчмарк также включает 2,067 визуальных вопросов, использующих 634 педиатрических изображений в различных модальностях и охватывающих 256 анатомических регионов. Методология создания бенчмарка включала в себя сочетание ручных и автоматизированных подходов. Использовались данные из периодической педиатрической литературы, валидированные банки вопросов, существующие бенчмарки и другие ресурсы. Это позволило создать богатый набор данных, который покрывает широкий спектр педиатрических вопросов и изображений. Этот подход обеспечивает высокую разнообразность и глубину вопросов, чтобы обеспечить точную и эффективную оценку моделей. #### Результаты Были проведены эксперименты с использованием современных моделей ИИ, включая LLM и VLMs. Результаты показали, что производительность этих моделей существенно снижается при работе с вопросами, касающимися моложества. Это особенно заметно в младших возрастных группах, где модели демонстрируют на порядок выше старших групп. Эти результаты подтверждают существующие проблемы с возрастной предрасположенностью в AI-моделях и подчеркивают необходимость развития адаптивных методов, которые могут учитывать различия в возрасте. Бенчмарк также показал существенные различия в производительности в зависимости от типа вопроса (текст vs. визуальное изображение), что дает дополнительные возможности для расширения ИИ в пе
Annotation:
Large language models (LLMs) and vision-augmented LLMs (VLMs) have significantly advanced medical informatics, diagnostics, and decision support. However, these models exhibit systematic biases, particularly age bias, compromising their reliability and equity. This is evident in their poorer performance on pediatric-focused text and visual question-answering tasks. This bias reflects a broader imbalance in medical research, where pediatric studies receive less funding and representation despite ...
ID: 2508.16439v2 cs.CY, cs.AI, cs.CL, cs.GR, cs.MM
Авторы:

Parker Seegmiller, Kartik Mehta, Soumya Saha, Chenyang Tao, Shereen Oraby, Arpit Gupta, Tagyoung Chung, Mohit Bansal, Nanyun Peng

## Контекст Методы улучшения технологий глубокого обучения, основанных на языковых моделях (LLM), часто используют синтетические данные для обучения моделей математического рассуждения. Однако существуют значительные проблемы, связанные с оценкой качества и эффективностью данных. Особенно непонятно, как разные факторы в процессе синтеза данных (например, фильтрация низкокачественных задач) влияют на окончательный результат. Большинство имеющихся исследований применяют уникальные методологии, что мешает сравнению различных подходов. Это подрывает понимание роли отдельных компонентов в синтетической системе данных. Наша работа позволяет устранить эти проблемы, обеспечив новый подход к оценке и оптимизации синтетических стратегий математического рассуждения. ## Метод Мы представляем FLAMES — Framework for LLM Assessment of Math rEasoning Data Synthesis, открытую систему для систематического исследования различных стратегий синтеза данных. FLAMES позволяет проводить подробные эксперименты, оценивая 10 различных стратегий синтеза данных и их влияние на математическое рассуждение моделей. Методология включает в себя анализ качества, сложности и разнообразия синтетических данных. Мы разработали новые меры для оценки этих факторов, чтобы получить более точный отчет о влиянии синтеза на модели. Эти системы добавляются в FLAMES, чтобы обеспечить повторяемость исследований и формировать новые стратегии. ## Результаты Наши эксперименты показали, что синтетическая система данных FLAMES выполняет лучшую оценку моделей по многим математическим метрикам. Мы обнаружили, что стратегии, нацеленные на увеличение сложности задач, показывают наибольший уровень улучшения результатов. Также мы выявили, что при фиксированном ограничении ресурсов, покрытие меньшего числа задач с высоким качеством превышает важность широкого покрытия. Мы также показали, как GSM8K- и MATH-синтетическая система может улучшить результаты на высокоуровневых конкурсных бенчмарках. Наши результаты показали, что FLAMES может способствовать обобщению моделей с легкого к трудному. ## Значимость Полученные результаты могут быть применены в области создания моделей математического рассуждения, чтобы улучшить их общие возможности. FLAMES дает понимание того, как наилучшие стратегии синтеза могут быть выбраны, чтобы расширить удостоверение моделей вне домена и улучшить их устойчивость. Наши полученные данные позволяют повысить эффективность LLM в зоне математического анализа. Это дает новый подход для повышения качества и эффективности синтетических данных, который может быть применен в различных областях, где необходима математическая модель.
Annotation:
Recent works improving LLM math reasoning with synthetic data have used unique setups, making comparison of data synthesis strategies impractical. This leaves many unanswered questions about the roles of different factors in the synthetic data pipeline, such as the impact of filtering low-quality problems. To address this gap, we introduce FLAMES, a Framework for LLM Assessment of Math rEasoning Data Synthesis, and perform a systematic study of 10 existing data synthesis strategies and multiple ...
ID: 2508.16514v1 cs.LG, cs.AI, cs.CL
Авторы:

David Chanin, Adrià Garriga-Alonso

## Контекст Sparse Autoencoders (SAEs) являются важной компонентой машинного обучения, предназначенными для извлечения представлений из внутренних активаций глубоких нейронных сетей. Идея заключается в том, что каждое извлеченное представление должно соответствовать отдельному понятию. Однако, для того чтобы достичь этой цели, необходимо тщательно подобрать гиперпараметр L0, который определяет среднее число активирующихся функций на каждый токен. Несмотря на важность этого параметра, существующие работы обычно оценивают различные алгоритмы SAE только по трейдофу между спарсингом и реконструкцией, без учета правильного подбора L0. Наша мотивация заключается в том, чтобы раскрыть важность L0 и показать, что его неправильное значение приводит к некорректному извлечению признаков. ## Метод Мы изучаем характеристики BatchTopK SAEs, в которых L0 определяет число активирующихся функций. Мы проводим эксперименты с разными значениями L0 и изучаем их влияние на способность SAE выучить функции, на которые сосредоточены внутренние активации глубоких нейросетей. Для построения изображений используются данные типа "word embeddings" из распространенных моделей, а результаты экспериментов анализируются с помощью метрик, отражающих точность извлечения функций. Мы также предлагаем метод для определения корректного L0, который основывается на оценке спарсингового и реконструкционного характеристик в ходе обучения. ## Результаты Наши эксперименты показывают, что если L0 неправильно подобрано, SAE не сможет правильно извлечь признаки. Если L0 слишком мал, то SAE будет смешивать похожие признаки, чтобы улучшить реконструкцию. Если L0 слишком большой, то могут быть найдены дегенеративные решения, приводящие к смешению признаков. Мы также демонстрируем, что наш метод для определения идеального L0 дает правильные результаты на генерируемых данных и совпадает с точкими значениями, при которых SAE достигает максимальной производительности в тестировании на глубоких нейросетях. ## Значимость Полученные результаты имеют большое значение для понимания и применения SAE. Они показывают, что правильное значение L0 не только влияет на качество реконструкции, но и на фактический вывод корректных признаков. Это означает, что недостаточно лишь корректно реализовать SAE, необходимо также аккуратно подобрать L0. Этот результат может быть применен в области извлечения функций из внутренних моделей, таких как текстовые модели с глубокими нейросетями. Это также может помочь улучшить представления, которые используются в визуализации и анализировании данных. ## Выводы Мы показали, что неправиль
Annotation:
Sparse Autoencoders (SAEs) extract features from LLM internal activations, meant to correspond to single concepts. A core SAE training hyperparameter is L0: how many features should fire per token on average. Existing work compares SAE algorithms using sparsity--reconstruction tradeoff plots, implying L0 is a free parameter with no single correct value. In this work we study the effect of L0 on BatchTopK SAEs, and show that if L0 is not set precisely, the SAE fails to learn the underlying featur...
ID: 2508.16560v1 cs.LG, cs.AI, cs.CL
Авторы:

Maarten Buyl, Yousra Fettach, Guillaume Bied, Tijl De Bie

## Контекст В последние годы большие языковые модели (LLM) начали широко использоваться в различных областях, включая общение, помощь в решении задач и системы управления. Благодаря их мощи, LLMs могут провести диалоги, выполнять задачи и даже координировать свои действия в рамках многоагентных систем. Однако одной из наиболее важных проблемой в таких системах является доверительные отношения между моделями. Хотя люди часто развивают доверительные отношения друг с другом, существует недостаточно исследований, касающихся способами формирования доверия между LLMs и оценки этого доверия. Это проблема становится еще более актуальной в свете того, что LLMs все чаще используются в командных задачах, где доверие является ключевым фактором успеха. Цель данного исследования — изучить способы строительства доверия между LLMs и разработать методы его измерения. ## Метод Мы разработали архитектуру для изучения и измерения доверия между LLMs. Для этого использовались три основные подхода: 1. **Динамическое строительство отношений доверия**: Модели динамически строят доверие друг к другу в ходе взаимодействия, аналогично тому, как люди формируют отношения в ходе диалогов. 2. **Использование предварительно написанных скриптов**: Мы использовали скрипты, в которых явно происходит доверительное воздействие, чтобы изучить, как модели реагируют на уже сформированные отношения. 3. **Адаптация системных пропусков**: Мы изменяли системные пропуски в моделях, чтобы изменить их поведение в процессе взаимодействия. Для измерения доверия мы применяли два подхода: - **Имплицитные меры**: Мы изучали, насколько модели влияют друг на друга, например, степень убежденности одной модели другой, или степень сотрудничества в финансовых действиях. - **Эксплицитные меры**: Мы применяли тесты, аналогичные психологическим тестам доверия, в которых модели отвечают на вопросы о том, насколько они доверяют друг другу. ## Результаты Мы провели ряд экспериментов, в ходе которых измеряли уровень доверия между моделями. Нашли, что имплицитные меры доверия, такие как убежденность и сотрудничество, часто не соответствуют эксплицитным мерам доверия, которые были измерены с помощью тестов в опросном формате. Например, модели, которые отображали высокий уровень доверия в имплицитных тестах, могли отображать низкий уровень доверия в эксплицитных тестах. Это указывает на то, что LLMs могут иметь разные способности воспринимать доверие в зависимости от контекста и подхода к измерению. ## Значимость Наши результаты имеют значительную значимость в област
Annotation:
As large language models (LLMs) increasingly interact with each other, most notably in multi-agent setups, we may expect (and hope) that `trust' relationships develop between them, mirroring trust relationships between human colleagues, friends, or partners. Yet, though prior work has shown LLMs to be capable of identifying emotional connections and recognizing reciprocity in trust games, little remains known about (i) how different strategies to build trust compare, (ii) how such trust can be m...
ID: 2508.15858v1 cs.MA, cs.AI, cs.CL
Авторы:

Tadahiro Taniguchi

#### Контекст Область исследования, сосредоточенная на понимании памяти, внимания и языка, широко распространена в научных исследованиях. Традиционно эти феномены рассматривались с точки зрения индивидуального мозга или системы. Однако существуют проблемы с этим подходом: одиночный мозг может ограничиваться своими ресурсами и возможностями, что не позволяет полностью объяснить процессы, связанные с групповым поведением и языковым обменом. Это мотивирует исследователей изучить эти феномены с точки зрения коллектива, сформировавшегося в результате совместной деятельности. Одним из подходов является Collective Predictive Coding (CPC), который предлагает расширить понимание памяти и внимания на уровень группы, делая этот подход оригинальным и новым для изучения этих феноменов. #### Метод Методология CPC основывается на идее того, что люди взаимодействуют между собой, обмениваясь информацией и формируя совместные представления о мире. Это включает в себя моделирование системы, в которой каждый участник получает информацию от других и обновляет свои представления о мире на основе этих данных. Формализм определяется с помощью математических моделей, которые описывают взаимодействия между участниками и их развитие. Технические решения включают моделирование сетей, где каждый узел представляет собой индивидуального участника, а связи между узлами — интеракции. Эта архитектура позволяет исследовать, как группа образовывает общую модель мира и каким образом это влияет на развитие языка и коммуникации. #### Результаты Эксперименты, проводимые в рамках этого подхода, показали, что когда люди взаимодействуют, они действительно формируют общие модели мира, которые могут быть выражены через язык. Использование следующего слова в процессе коммуникации во многом определяется ранее действиями и представлениями в группе. На основе этих данных, полученных в экспериментах, было показано, что параметры, определяющие взаимодействия в группе, могут влиять на возникновение новых слов и структур языка. Эти результаты подтверждают, что группа может формировать общее понимание, которое является более глубоким и совершенным, чем модели, которые могут быть построены индивидуальным участником. #### Значимость Этот подход имеет широкие области применения. Он может быть использован в области искусственного интеллекта для разработки моделей, которые могут учитывать взаимодействия множества агентов, а не только индивидуальных. Благодаря этому, можно построить более эффективные системы, которые могут работать в группе, обмениваясь информацией и разви
Annotation:
This commentary extends the discussion by Parr et al. on memory and attention beyond individual cognitive systems. From the perspective of the Collective Predictive Coding (CPC) hypothesis -- a framework for understanding these faculties and the emergence of language at the group level -- we introduce a hypothetical idea: that language, with its embedded distributional semantics, serves as a collectively formed external representation. CPC generalises the concepts of individual memory and attent...
ID: 2508.15859v1 q-bio.NC, cs.AI, cs.CL
Авторы:

Terry Jingchen Zhang, Wenyuan Jiang, Rongchuan Liu, Yisong Wang, Junran Yang, Ning Wang, Nicole Ni, Yinya Huang, Mrinmaya Sachan

## Контекст Теоретическое компьютерное научное исследование (TCS) является ключевым компонентом в развитии широкого спектра компьютерных технологий. Одним из важных аспектов TCS является автоматизированное доказательство теорем (FTP), которое позволяет легко проверять различные вычислительные задачи. Однако существуют значительные проблемы в этой области, включая нехватку качественных данных и высокую стоимость их ручного создания. Эти проблемы ограничивают прогресс в развитии методов автоматической проверки математических доказательств. Мы предлагаем использовать TCS как источник строго структурированных проблем для вывода автоматических доказательств, который может быть легко масштабирован для генерации трудных задач с подтвержденными формально-историческими соответствиями. ## Метод Мы разработали фреймворк для автоматического генерирования теорем-проблем с формальными (Lean4) и информальными (Markdown) заданиями. Этот подход основывается на теоретических компьютерных науках, включая задачи типа Busy Beaver (доказательство границы жизнедеятельности Тьюринговых машин) и Mixed Boolean Arithmetic (комбинирование логических и арифметических выводов). Наша методика состоит в автоматической синтезировании проблем, которые могут быть проверены с помощью мощных теоретических методов и сравниваться с информальными описаниями задач. Это позволяет создать масштабируемую систему для генерирования доказательств с высоким уровнем сложности и строгой формальной гарантией качества. ## Результаты Мы провели исследование, используя широкий спектр теоретических задач и моделей глубокого обучения. Наши результаты показывают, что хотя модель DeepSeekProver-V2-671B демонстрирует внушительные результаты на задачах Busy Beaver (57.5% успеха), она имеет значительно меньший успех на задачах Mixed Boolean Arithmetic (только 12% успеха). Это показывает, что даже для простоты проверок, сложность генерации трудных доказательств остается высокой. Эти результаты демонстрируют значение TCS в создании новых проблем для тестирования моделей в области автоматического доказательства теорем. ## Значимость Наш подход открывает новые возможности для проверки моделей машинного обучения в сфере теоретических доказательств. Мы показали, что TCS может стать основой для создания новых вызовов в области автоматического доказательства, что может привести к новым решениям в AI, проверке логики и программной инженерии. Этот подход широко может использоваться в области развития новых методов для проверки теорем и развития теоретического компьютерного научного исследования. ## Выводы Мы усп
Annotation:
Formal theorem proving (FTP) has emerged as a critical foundation for evaluating the reasoning capabilities of large language models, enabling automated verification of mathematical proofs at scale. However, progress has been constrained by limited datasets due to the high cost of manual curation and the scarcity of challenging problems with verified formal-informal correspondences. We propose leveraging theoretical computer science (TCS) as a scalable source of rigorous proof problems, where al...
ID: 2508.15878v1 cs.LO, cs.AI, cs.CL, cs.LG
Авторы:

Romain Lacombe, Kerrie Wu, Eddie Dilworth

## Контекст Одна из ключевых проблем в области знаний-интенсивных задач, таких как ответы на вопросы, является обеспечение точной калибровки уверенности. Несмотря на то, что текущие тест-тайм скалируемые модели языка (LLMs) показывают высокую точность в тестировании, они часто превращаются в значительное переоценивание своей уверенности. Это негативно сказывается на качестве решений, особенно в области клинического мониторинга и управления здоровьем планеты. Существуют многочисленные попытки улучшить калибровку уверенности, но они часто ограничиваются только тест-тайм скалированием. Наша мотивация заключается в изучении, насколько вкладываемость и логическая работа моделей влияют на калибровку уверенности, а также в поиске новых подходов, которые могут позволить значительно улучшить показатели калибровки. ## Метод Мы использовали данные ClimateX (Lacombe et al., 2023) для оценки калибровки уверенности, расширив датасет на области здоровья людей и планеты. Мы провели эксперименты с моделями Reasoning LLMs, предлагая ими различные уровни бюджета рассуждений. Для сравнения, мы также оценили подходы, основанные на поиске игенгенерации. Методология включала в себя сравнение точности калибровки уверенности в зависимости от различных моделей и интенсивности рассуждений. Мы также исследовали влияние внедрения дополнительных ресурсов, таких как семантический поиск и контекстное восстановление. ## Результаты Наши эксперименты показали, что 48.7% процентов точности калибровки уверенности моделей Reasoning LLMs в нашей исследовательской среде. Однако, увеличение бюджета для рассуждений приводит к значительному ухудшению калибровки уверенности, а не к его улучшению. Модели, основанные на поиске и игенгенерации, показали более высокую точность, достигнув 89.3%, примерно. Этот результат подтверждает, что доступ к информации, а не глубина рассуждений или бюджет рассуждений, является критичным фактором для улучшения калибровки уверенности в знаний-интенсивных задачах. Мы также отметили, что повышение бюджета рассуждений приводит к систематическому преувеличению уверенности, которое только ухудшается при длительных бюджетах. ## Значимость Наши результаты имеют значительное значение для области калибровки уверенности в LLMs. Они показывают, что доступ к информации и семантический поиск могут значительно улучшить калибровку уверенности, даже при меньшем бюджете рассуждений. Эти подходы могут быть применены в различных областях, включая клинический мониторинг и управление здоровьем планеты, где точность и уверенность решений к
Annotation:
Large Language Models deployed as question answering tools require robust calibration to avoid overconfidence. We systematically evaluate how reasoning capabilities and budget affect confidence assessment accuracy, using the ClimateX dataset (Lacombe et al., 2023) and expanding it to human and planetary health. Our key finding challenges the "test-time scaling" paradigm: while recent reasoning LLMs achieve 48.7% accuracy in assessing expert confidence, increasing reasoning budgets consistently i...
ID: 2508.15050v1 cs.AI, cs.CL
Показано 1111 - 1120 из 1292 записей