📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Principled Detection of Hallucinations in Large Language Models via Multiple Testing

2025-08-28

Авторы:

Jiawei Li, Akshayaa Magesh, Venugopal V. Veeravalli

#### Контекст Large Language Models (LLMs) являются мощными инструментами, решающими множество задач, однако часто страдают от проблемы "генерации сведений", или "халлуцинаций", — когда модель выдает ответы, которые выглядят убедительными, но являются неверными или даже бессмысленными. Эта проблема влияет на надежность приложений, основанных на LLMs, и требует эффективных методов для обнаружения таких недостоверных ответов. Наше исследование адресует эту проблему, поскольку точность и надежность LLMs необходимы для их распространенного применения в реальных условиях. #### Метод Мы сформулировали проблему обнаружения халлуцинаций как проблему нескольких гипотез. Для этого использовали разметку данных, где каждый ответ модели сравнивается с меткой достоверности. Метод основывается на множественных тестах, которые позволяют определять ответы, которые выходят за допустимые пределы достоверности. Мы использовали архитектуру, адаптированную для нескольких гипотез, чтобы обнаруживать потенциальные халлуцинации. Эта множественно-тестовая постановка допускает оценку вероятности того, что ответ модели является халлуцинацией, а не корректным. #### Результаты Мы провели многочисленные эксперименты, используя различные данные, включая тексты, в которых встречаются халлуцинации, и стандартные наборы данных для сравнения. Наши результаты показали, что метод оказался эффективнее, чем существующие методы, такие как только один тест или простые классификаторы. Наши модели демонстрировали высокую точность в обнаружении халлуцинаций, особенно когда ответы модели были достаточно уверенны, но неверны. Мы также проанализировали точность и скорость работы нашего метода, чтобы подтвердить его устойчивость в различных условиях. #### Значимость Метод может быть применен во многих областях, где нужна точность и надежность ответов LLMs, таких как помощь в решении задач, обработка юридических документов, медицинские приложения и другие задачи, требующие высоких стандартов достоверности. Его основное преимущество заключается в том, что он не только обнаруживает халлуцинации, но и учитывает множественные модели в процессе. Это может повысить уровень доверия к моделям, когда они применяются в критически важных задачах. #### Выводы Мы успешно разработали метод для обнаружения халлуцинаций в LLMs, основанный на множественных тестах. Наши результаты показали, что этот подход значительно превышает текущие методы по точности и устойчивости. В будущем, мы планируем расширить этот подход, чтобы улучшить точность в задачах с более сложными данными и последовательно затрагивать дополнительные области применения LLMs.

Annotation:

While Large Language Models (LLMs) have emerged as powerful foundational models to solve a variety of tasks, they have also been shown to be prone to hallucinations, i.e., generating responses that sound confident but are actually incorrect or even nonsensical. In this work, we formulate the problem of detecting hallucinations as a hypothesis testing problem and draw parallels to the problem of out-of-distribution detection in machine learning models. We propose a multiple-testing-inspired metho...

ID: 2508.18473v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Scaling Laws for Task-Stratified Knowledge in Post-Training Quantized Large Language Models

2025-08-28

Авторы:

Chenxi Zhou, Pengfei Cao, Jiang Li, Jun Zhao, Kang Liu

## Контекст Large language models (LLMs) являются сложными и большими системами, способными обрабатывать и генерировать текст с высоким качеством. Однако их развертывание сталкивается с значительными проблемами, включая высокую стоимость и ресурсоемкость, особенно при работе на устройствах с ограниченным памятью и вычислительной мощностью. Post-training quantization (PTQ), или пост-тренировочный преобразование в низкого разрядности, предлагается как эффективный метод для уменьшения размера и повышения производительности моделей без значительного потери качества. Тем не менее, существуют ограниченные знания о том, как PTQ влияет на различные аспекты знаний модели, такие как память и использование. Более того, существующие модели знаний не учитывают специфических для PTQ параметров и задач. Целью данной работы является развитие точечных знаний о том, как PTQ влияет на LLM, и разработка таблиц знаний, которые позволят создавать более эффективные стратегии квантования. ## Метод Для изучения влияния PTQ на знания LLMs была разработана методология, которая включает в себя несколько ключевых этапов. Вначале был проведен тщательный эмпирический анализ различных моделей LLMs с разным количеством параметров и уровнями PTQ. Для каждой модели были измерены различные показатели, включая меморизацию и использование знаний. Далее, для оценки того, как PTQ влияет на каждый показатель, были разработаны метрики, которые позволяют измерить степень влияния PTQ на каждый из них. Наконец, был разработан объединенный фреймворк, который интегрирует модельный размер, эффективную бит-ширину, размер калибровочного набора и размер группы, чтобы предоставить комплексное понимание PTQ-специфических характеристик в различных задачах. ## Результаты Исследования показали, что PTQ значительно влияет на различные аспекты знаний моделей. Было выявлено, что уровень меморизации знаний очень чувствителен к изменениям в эффективной бит-ширине, размеру калибровочного набора и модельному размеру. Напротив, уровень использования знаний оказался намного менее чувствительным к этим изменениям. Это позволяет сделать вывод, что PTQ оказывает большее влияние на восприятие знаний, чем на их применение. Эти результаты были подтверждены экспериментально с помощью различных моделей и задач, подтверждая достоверность определенных тенденций. ## Значимость Полученные результаты имеют высокую значимость в различных областях применения LLMs. В первую очередь, они позволяют лучше понять, как PTQ влияет на различные аспекты знаний моделей и как эти изменения могут быть учитываны при разработке стратегий кван

Annotation:

Large language models (LLMs) present significant deployment challenges due to their scale, with post-training quantization (PTQ) emerging as a practical compression solution. However, a comprehensive understanding of how PTQ precisely impacts diverse LLM knowledge capabilities remains elusive, and existing scaling laws for quantized models often overlook crucial PTQ-specific parameters and task-specific sensitivities. This paper addresses these gaps by conducting an extensive empirical investiga...

ID: 2508.18609v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 ROSE: Remove Objects with Side Effects in Videos

2025-08-28

Авторы:

Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao

## Контекст Объектное удаление в видео становится все более важной задачей в области компьютерного зрения, особенно с увеличением объемов видеоконтента. Несмотря на прогресс, достигнутый в последнее время за счет развития видео-генерирующих моделей, существуют значительные проблемы. Особенно сложно удалять не только объект, но и все его побочные эффекты, такие как тени, отражения, свет, прозрачность и зеркальные отражения. Эти эффекты часто остаются незаметными в моделях, требуя более тонких подходов. В этом контексте важно развить методы, которые могут адекватно справляться с этими задачами, учитывая ограниченность доступных данных для обучения. ## Метод РОСЕ (Remove Objects with Side Effects) представляет собой инновационный подход к удалению объектов с эффектами, окружающих его в видео. Данная модель основывается на идее искусственного интеллекта и синтетической ситуации для создания парных данных. Используя 3D-реndеринг, проект сформировал большую выборку синтетических данных, включающую различные сцены, объекты, углы кадров и движения камеры. Модель ROSE опирается на технологию diffusion transformer, алгоритм, который базируется на распространении сигналов и глубоком обучении. Ключевым элементом является возможность локализовать объекты и их побочные эффекты в кадре. Для этого вводится дополнительная супервизия, которая позволяет определять активные зоны, влияющие на окружающую среду. ## Результаты С помощью тщательного экспериментального подхода было проанализировано поведение модели на разных сценах. Для этого была создана выборка ROSE-Bench, включающая в себя не только типичные сцены, но и сцены с указанными специфическими побочными эффектами. Результаты указывают на значительное превосходство модели ROSE по сравнению с другими моделями видео-инпинтинга. Она способна добротно удалять не только объект, но и все его побочные эффекты, предоставляя результаты, которые хорошо адаптируются к реальным видео. ## Значимость Модель ROSE может быть применена в различных областях, где необходимо удаление объектов с побочными эффектами, таких как видеоредактирование, монтаж, а также видео-анализ и синтез. Она показала свою мощь в том, чтобы обеспечивать точность и качество в решении сложных задач, нацеленных на создание продуктивных, реалистичных видео. Более того, этот подход может быть расширен на другие задачи, связанные с обработкой видео и визуальным анализом. ## Выводы РОСЕ достигла значительных успехов в решении проблемы удаления объектов с побочными эффектами в видео. Основные достижения состоят в развитии новой технологии

Annotation:

Video object removal has achieved advanced performance due to the recent success of video generative models. However, when addressing the side effects of objects, e.g., their shadows and reflections, existing works struggle to eliminate these effects for the scarcity of paired video data as supervision. This paper presents ROSE, termed Remove Objects with Side Effects, a framework that systematically studies the object's effects on environment, which can be categorized into five common cases: sh...

ID: 2508.18633v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Skill-Aligned Fairness in Multi-Agent Learning for Collaboration in Healthcare

2025-08-28

Авторы:

Promise Osaine Ekpo, Brian La, Thomas Wiener, Saesha Agarwal, Arshia Agrawal, Gonzalo Gonzalez-Pumariega, Lekan P. Molu, Angelique Taylor

## Контекст В области мульти-агентного обучения с подкреплением (MARL) важность создания систем, обеспечивающих справедливость и эффективность, несомненна. В работе акцент делается на значимости справедливости в контексте медицинских систем, где необходимо сбалансировать рабочую нагрузку и учитывать уровень экспертизы медицинских работников. В ситуациях, где недостаточно внимания уделяется навыкам и экспертизе, возможны загруженность опытных специалистов и их перегрузка, что может привести к усталости и ухудшению качества услуг. Текущие метрики справедливости часто ориентированы только на равномерное распределение нагрузки, не учитывая уровень навыков и знаний сотрудников. Таким образом, авторы статьи поставили перед собой задачу разработать метод, который учитывал бы взаимосвязь уровня навыков и распределения задач. ## Метод Авторы представили **FairSkillMARL**, рамфреймворк, определяющий справедливость как двойной объектив: равномерное распределение нагрузки и корректное соотнесение навыков и задач. Метод использует методы агентного обучения с подкреплением, чтобы сбалансировать вклад каждого агента, учитывая их экспертизу. Также был разработан **MARLHospital**, полностью настраиваемая среда, которая моделирует работу медицинского коллектива, учитывая знания и энергосбережение. Эта модель позволяет анализировать различные сценарии взаимодействия медицинских работников, включая зависимость задач от уровня их навыков. Эта инновационная модель позволяет лучше понять, как различные стратегии мульти-агентного обучения влияют на справедливость и эффективность в коллективе. ## Результаты Авторы провели эксперименты, сравнивая **FairSkillMARL** с четырьмя стандартными MARL-методами и двумя метриками справедливости. Они показали, что стратегии, основывающиеся только на равномерном распределении задач, могут привести к несоответствию между навыками и задачами, что в свою очередь приводит к ухудшению качества работы. Метод **FairSkillMARL** демонстрирует эффективность в снижении таких несоответствий и способствует созданию более гармоничного распределения нагрузки в зависимости от уровня навыков и экпертизы сотрудников. Это приводит к более эффективной работе коллектива и снижению истощения опытных работников. ## Значимость Предложенный подход имеет широкие применения в сфере медицины, где требуется эффективное и справедливое распределение задач между специалистами. Особенно он важен для ситуаций, где нужна энергосберегающая стратегия и высокий уровень экспертизы, чтобы избежать перегрузки опытных работников. **FairSkillMARL**

Annotation:

Fairness in multi-agent reinforcement learning (MARL) is often framed as a workload balance problem, overlooking agent expertise and the structured coordination required in real-world domains. In healthcare, equitable task allocation requires workload balance or expertise alignment to prevent burnout and overuse of highly skilled agents. Workload balance refers to distributing an approximately equal number of subtasks or equalised effort across healthcare workers, regardless of their expertise. ...

ID: 2508.18708v1 cs.MA, cs.AI, cs.LG

arXiv PDF

📄 ReflectivePrompt: Reflective evolution in autoprompting algorithms

2025-08-28

Авторы:

Viktor N. Zhuravlev, Artur R. Khairullin, Ernest A. Dyagin, Alena N. Sitkina, Nikita I. Kulin

## Контекст Autoprompting, или автоматическое выборочное оптимизации подсказок для моделей языка, уже давно отталкивается от развития систем технологий языковых моделей. С появлением больших моделей языка (LLM), этот направленный подход к обучению стал играть важную роль в решении сложных задач, которые традиционные модели не могут подступиться. Однако, недостатки методов поиска лучших подсказок в зависимости от контекста заставляют искать более эффективные методы. Этот труд направлен на развитие методологии, которая расширяет возможности поиска оптимальных подсказок. Точнее, мы предлагаем ReflectivePrompt - метод, основанный на эволюционных алгоритмах, который включает в себя новую концепцию отражения (reflection) для улучшения точности и гибкости поиска. ## Метод ReflectivePrompt — это эволюционный подход, который использует элементы зеркального зеркала (reflection) в работе с подсказками. Основная идея заключается в том, чтобы работать с двумя уровнями отражения: короткосрочным (шорт-терм) и долгосрочным (лонг-терм). Это позволяет ReflectivePrompt накапливать знания о процессе расширения подсказок во время оптимизации. Кросс-овер и мутации, которые обычно используются в эволюционных методах, здесь поддерживаются новыми операциями отражения, которые улучшают модификации. Эти операции работают с каждой классификационной и генерирующей задачей по отдельности, что дает более точное управление задачами. Кроме того, в ReflectivePrompt включен раздел знаний, которым затем добавляются новые результаты при каждой эпохе. ## Результаты Мы проверили ReflectivePrompt на 33 различных датасетах, включающих задачи классификации и генерации текста. Мы тестировали наши результаты с открыто доступными LLM: t-lite-instruct-0.1 и gemma3-27b-it. На трех отдельных тестах по сравнению с EvoPrompt, наш метод показал улучшение на 28% в метриках на BBH датасете. Эти результаты указывают на то, что ReflectivePrompt — одна из самых эффективных реализаций эволюционных методов в рамках autoprompting. ## Значимость ReflectivePrompt может применяться в различных областях: от текстовой генерации до систем автоматического ответа. Он расширяет возможности эволюционных методов и интегрирует интуитивную парадигму отражения, что позволяет улучшить качество решений. Этот подход демонстрирует преимущество в точности и скорости, что делает его привлекательным для автоматизированных систем, где качество и быстродействие критичны. ## Выводы ReflectivePrompt показал свою эффективность в работе с LLM, подтвердив свое преимущество в сравнении с лучшими методами. Отражение (reflection) здесь играет ключевую роль в улучшении точности.

Annotation:

Autoprompting is the process of automatically selecting optimized prompts for language models, which has been gaining popularity with the rapid advancement of prompt engineering, driven by extensive research in the field of large language models (LLMs). This paper presents ReflectivePrompt - a novel autoprompting method based on evolutionary algorithms that employs a reflective evolution approach for more precise and comprehensive search of optimal prompts. ReflectivePrompt utilizes short-term a...

ID: 2508.18870v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Optimization of Latent-Space Compression using Game-Theoretic Techniques for Transformer-Based Vector Search

2025-08-28

Авторы:

Kushagra Agrawal, Nisharg Nargund, Oishani Banerjee

## Контекст Системы векторного поиска на основе трансформеров становятся важным средством для модернизации информационных систем. Они позволяют выполнять точный поиск похожих документов или объектов в больших корпусах данных. Однако высокая размерность ло LATEX_LATEXテーブル的ных представлений, используемых в таких системах, приводит к затруднениям в скалярной эффективности и емкости хранения. Эти проблемы чрезвычайно важны в сегменте систем, основанных на трансформерах, где эффективность и точность играют ключевую роль. Наша мотивация заключается в развитии уникального подхода, который позволит совмещать высокую точность поиска с эффективным использованием ресурсов. ## Метод Мы предлагаем инновационную модель, основанную на игровых теориях, для оптимизации компрессии в пространстве латентного вектора. Наша модель рассматривает компрессию как игру с целью баланса между точностью поиска и эффективностью хранения. Эта модель состоит из двух ключевых этапов: 1) идентификации стратегий, которые минимизируют убытки точности при поиске, при этом снижая цену хранения, и 2) использование геометрических оптимизационных приемов для максимизации семантической схожести в ограниченном пространстве. Мы также использовали адаптивные методы, чтобы обеспечить совместимость с текущими трансформер-ориентированными системами поиска. ## Результаты Были проведены эксперименты для сравнения нашей модели с широко используемой библиотекой FAISS. Мы замерили схожесть в поиске и эффективность поиска в разных сценариях. Наши результаты показали, что наш подход достиг средней точности поиска 0.9981 в сравнении с 0.5517 для FAISS. Была также достигнута высокая эффективность, с увеличением времени запроса на 10%, что свидетельствует о балансе между точностью и скоростью. Эти результаты подтвердили преимущество нашей модели в трансформер-ориентированных системах поиска. ## Значимость Наш подход может быть применен в различных приложениях, таких как моделирование языка, видео- и изображенческий поиск, а также в системах анализа больших данных. Он предоставляет высокую точность в поиске, эффективное использование ресурсов, а также способность работать с трансформер-ориентированными системами. Это сочетание преимуществ делает нашу модель привлекательной для повышения эффективности и точности в системах баз данных и поисковых систем. ## Выводы Мы представили модель оптимизации компрессии пространства латентного вектора с помощью игровых теорий, которая достигает высокой точност

Annotation:

Vector similarity search plays a pivotal role in modern information retrieval systems, especially when powered by transformer-based embeddings. However, the scalability and efficiency of such systems are often hindered by the high dimensionality of latent representations. In this paper, we propose a novel game-theoretic framework for optimizing latent-space compression to enhance both the efficiency and semantic utility of vector search. By modeling the compression strategy as a zero-sum game be...

ID: 2508.18877v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 Interpretable Decision-Making for End-to-End Autonomous Driving

2025-08-28

Авторы:

Mona Mirzaie, Bodo Rosenhahn

## Контекст Автоматизированная система управления автомобилями является ключевым элементом развития дорожного транспорта. Однако для распространенного применения таких систем необходимо обеспечить доверие к их решениям. Это особенно важно в современных городских условиях, где необходимо адекватное восприятие сложных сценариев. Несмотря на продвижение технологий, особенно в области глубокого обучения, не всегда возможно понять, что влияет на решения моделей. Это проблема становится еще более актуальной при использовании неглубоких моделей, которые не всегда могут выделять ключевые области в изображении, отвечающие за прогнозирование движения. Наша модель стремится решить эту проблему, обеспечивая лучшую прозрачность в автоматизированных системах управления. ## Метод Мы предложили новую архитектуру нейронной сети, нацеленную на улучшение интерпретируемости решений в автономном вождении. Наша модель основывается на глубоких нейронных сетях с применением специальных функций потерь, которые поощряют спарсинг и локализованные активации фич. Это позволяет модели определять именно те области изображения, которые подпитывают прогноз движения. Мы также внедрили методы абляционных исследований, чтобы определить, как различные этапы модели влияют на интерпретируемость и на целевые показатели производительности. Наши эксперименты проводились на бенчмарке CARLA, что дало возможность оценить модель в сложных городских условиях. ## Результаты Мы провели обширные эксперименты, включая абляционные исследования, которые показали, что наша модель более эффективно выделяет значимые области изображения, что в свою очередь повышает надежность и безопасность автономного вождения. Наша модель показала самые низкие показатели нарушений правил дорожного движения и самую высокую степень прохождения маршрутов в среднем, что демонстрирует ее превосходство по сравнению с другими моделями на CARLA Leaderboard. Благодаря использованию только одного монитора, что важно для реального применения, высокая прозрачность наших решений стала достижением, которое дополнительно повысило безопасность на дорогах. ## Значимость Наша модель может быть применена в автономных системах управления, где важно понимать причины прогнозируемых решений. Она предоставляет новые возможности для глубокого понимания и доверия к моделям, что может быть применено в дорожной безопасности и управлении транспортом. Этот подход может иметь потенциал для улучшения доверия к AI в сфере автоматизированного вождения, что может привести к ее более широкому применению в реальной жизни. ## Выводы Мы предложили модель, которая обеспечивает лучшую про

Annotation:

Trustworthy AI is mandatory for the broad deployment of autonomous vehicles. Although end-to-end approaches derive control commands directly from raw data, interpreting these decisions remains challenging, especially in complex urban scenarios. This is mainly attributed to very deep neural networks with non-linear decision boundaries, making it challenging to grasp the logic behind AI-driven decisions. This paper presents a method to enhance interpretability while optimizing control commands in ...

ID: 2508.18898v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 HOTSPOT-YOLO: A Lightweight Deep Learning Attention-Driven Model for Detecting Thermal Anomalies in Drone-Based Solar Photovoltaic Inspections

2025-08-28

Авторы:

Mahmoud Dhimish

#### Контекст Тепловые аномалии в солнечных панелях, такие как горячие точки (hotspots), являются критически важной проблемой в операционном эксплуатации солнечных энергетических систем. Они могут привести к снижению эффективности системы, повышению энергозатрат и увеличению технических расходов на ремонт. Для обеспечения надежности и эффективности таких систем необходимо развитие систем автоматической детектирования таких аномалий. Существующие методы часто страдают от низкой точности детекции, высокой вычислительной нагрузки и ограниченной устойчивости в различных условиях окружающей среды. Это показывает необходимость разработки более эффективных и надежных моделей для детекции горячих точек. #### Метод Модель HOTSPOT-YOLO основывается на свёрточных нейронных сетях (Convolutional Neural Networks, CNN) с внедрением механизмов внимания (attention mechanisms). Бэкбон модели — EfficientNet, известный своей эффективностью и низкой вычислительной нагрузкой. Используемый альтернативный видеокодек (AVC) вместе с аттенционным модулем позволяет фокусироваться на ключевых областях изображения, улучшая точность детекции. Модель обучена на обширном наборе данных, включающем различные изображения с горячими точками и нормальными панелями. Для оптимизации работы в реальном времени, алгоритм был оптимизирован с использованием декомпрессии изображений в реальном времени и уменьшения размера рабочего пространства. #### Результаты Опытные исследования проводились на наборе данных, содержащем тысячи изображений с горячими точками и нормальными модулями. Модель HOTSPOT-YOLO достигла максимальной точности детекции средней среди всех сравниваемых моделей, при этом обеспечивая высокую скорость работы. В результате, HOTSPOT-YOLO показала максимальную значимость в области краткосрочного мониторинга и детектирования горячих точек. Эксперименты показали, что модель обладает высокой точностью (90,8%) и низким вычислительным временем, что делает её пригодной для использования в реальных условиях. #### Значимость Модель HOTSPOT-YOLO идеально подходит для широкого спектра задач, включая видеомониторинг и анализ видеопотоков, а также распознавание изображений в среде с многочисленными деталями. Она имеет преимущество перед существующими моделями, такими как YOLOv8 или Tiny-YOLOv5, благодаря улучшенной точности и уменьшенной нагрузке на процессор. Эта модель может быть применена в различных сферах, таких как распознавание тепловых аномалий в других системах, автоматическое мониторинг в индустрии и автоматизированные дорожные инспекции. #### Выводы Результаты показывают,

Annotation:

Thermal anomaly detection in solar photovoltaic (PV) systems is essential for ensuring operational efficiency and reducing maintenance costs. In this study, we developed and named HOTSPOT-YOLO, a lightweight artificial intelligence (AI) model that integrates an efficient convolutional neural network backbone and attention mechanisms to improve object detection. This model is specifically designed for drone-based thermal inspections of PV systems, addressing the unique challenges of detecting sma...

ID: 2508.18912v1 eess.IV, cs.AI, cs.LG

arXiv PDF

📄 Interpretable by AI Mother Tongue: Native Symbolic Reasoning in Neural Models

2025-08-28

Авторы:

Hung Ming Liu

## Контекст Одним из главных задач в области искусственного интеллекта является создание моделей, способных проводить интуитивное логическое обоснование задач. Несмотря на прогресс в нейросетевых моделях, существуют проблемы с их транспарентностью и удовлетворительным оправданием решений. Многие модели используют непонятные для людей выводы, что снижает доверие к ним. Необходимая модель должна обладать транспарентными способами обоснования, чтобы обеспечить лучшую взаимосвязь с пользователями и повысить надежность решений. ## Метод Мы предлагаем фреймворк, где нейросетевые модели развивают AI Mother Tongue — собственный символический язык, который позволяет проводить интуитивное логическое обоснование. Данный язык поддерживает не только четкость и понятность в выводах, но и способность работы с несколькими слоями значений и удобную интеграцию в нейронные модели. Метод использует подход с интегрированной тренировкой для повышения чистоты символов и спаривания решений, а также стратегию последовательной специализации, начиная с общего понимания, а затем уточняя уровень интуитивных оценок. ## Результаты В экспериментах на разных задачах, таких как логические упражнения и задачи классификации, AI Mother Tongue показала свою эффективность. Наблюдалось высокое уровне детерминированности в выводах, что позволяло легко проверить и понять их. Модель не только демонстрировала высокую точность решения задач, но также предоставляла интерпретируемые символы и пути решения, что повысило уверенность в ее моделировании. ## Значимость Фреймворк может быть применен в различных областях, таких как медицина, юриспруденция, финансы, где важно объяснять решения. Этот подход не только повышает транспарентность и интуитивность, но и обеспечивает гибкость действий моделей в сложных задачах. Основное преимущество — возможность понятного объяснения решений, что может способствовать повышению доверия к модели и лучшей принятию решений. ## Выводы Мы доказали, что AI Mother Tongue может стать ключевым элементом для создания интуитивных и транспарентных нейронных моделей. Ранее не было подобных подходов, которые были бы так же эффективны в объединении транспарентности, интуитивности и символического моделирования. Мы планируем продолжить исследования в этой области, устанавливая новые цели для улучшения моделей и их применения в реальной жизни.

Annotation:

We present a framework where neural models develop an AI Mother Tongue, a native symbolic language that simultaneously supports intuitive reasoning, compositional symbol chains, and inherent interpretability. Unlike post-hoc explanation methods, our approach embeds reasoning directly into the model's representations: symbols capture meaningful semantic patterns, chains trace decision paths, and gated induction mechanisms guide selective focus, yielding transparent yet flexible reasoning. We intr...

ID: 2508.18988v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Automatic Prompt Optimization with Prompt Distillation

2025-08-28

Авторы:

Viktor N. Zhuravlev, Artur R. Khairullin, Ernest A. Dyagin, Alena N. Sitkina, Nikita I. Kulin

## Контекст Современная информатика сталкивается с вопросами улучшения качества работы языковых моделей (LLMs), которые являются ключевым инструментом в машинном обучении и многих приложениях, таких как синтез речи, генерация текста и представление знаний. Одна из наиболее актуальных проблем является автоматическая оптимизация триггеров (prompts) для языковых моделей. Достоверные и эффективные триггеры являются критически важными для повышения точности и надежности моделей в решении задач NLP. Несмотря на развитие методов, включая градиентные подходы и методы без градиентов, существуют значительные ограничения в сфере эффективности и универсальности существующих алгоритмов. Мотивация для разработки DistillPrompt постулируется тем, что текущие решения часто либо недостаточно эффективны, либо требуют объемных вычислений, что не приемлемо для работы на больших объемах данных. ## Метод DistillPrompt представляет собой инновационный подход к автоматической оптимизации триггеров, основанный на многоэтапном интегрировании задач-специфической информации в процесс тренировки моделей. Основываясь на технологиях дистилляции, сжатия и агрегации, метод позволяет проводить более глубокую исследовательскую работу в пространстве триггеров. Используются любительские языковые модели, оснащенные слоями сжатия, которые позволяют получать более точные и оптимальные триггеры. Эта архитектура включает множество этапов обучения, при этом каждый этап производится с учетом конкретной задачи, что дает значительные выгоды в точности и универсальности решений. ## Результаты В ходе экспериментов DistillPrompt был протестирован на различных датасетах с обучением на текстах, включая задачи текстового классификации и генерации. Используемая модель — t-lite-instruct-0.1. Результаты показали существенное улучшение ключевых метрик по сравнению с существующими методами. Например, продемонстрировано 20.12% увеличение точности в целом датасете относительно Grips в задачах текстового классификации. Эти результаты подтверждают эффективность DistillPrompt в контексте неградиентных подходов к оптимизации триггеров. ## Значимость Разработанный подход имеет широкие перспективы применения в области NLP, включая текстовую генерацию, классификацию и анализ отзывов. Он предоставляет значительные преимущества по сравнению с другими методами, включая улучшенную эффективность, простоту реализации и универсальность применения. Это может способствовать развитию более точных и надежных языковых моделей, а также повлиять на развити

Annotation:

Autoprompting is the process of automatically selecting optimized prompts for language models, which is gaining popularity due to the rapid development of prompt engineering driven by extensive research in the field of large language models (LLMs). This paper presents DistillPrompt -- a novel autoprompting method based on large language models that employs a multi-stage integration of task-specific information into prompts using training data. DistillPrompt utilizes distillation, compression, an...

ID: 2508.18992v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
140
141
142
143
144
168
169

Показано 1411 - 1420 из 1687 записей