📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Capabilities of GPT-5 on Multimodal Medical Reasoning

2025-08-14

Авторы:

Shansong Wang, Mingzhe Hu, Qiang Li, Mojtaba Safari, Xiaofeng Yang

## Контекст Медицинская оценка и принятие решений часто включают в себя интеграцию различных источников информации: текстовых пациентских анкет, структурированных данных и медицинских изображений. Однако существующие системы часто сталкиваются с проблемами неэффективности и неточности при работе с таким широким спектром данных. Эти ограничения могут приводить к неточности диагноза и подхода к лечению. В этом контексте возникает необходимость в развитии систем, которые могут обеспечивать более точное и совершенное многомодальное разумение, чтобы поддерживать клинические решения. ## Метод В данном исследовании рассматривается GPT-5 как общего назначения многомодального резонер, применяемый в медицинских задачах. Исследование основывается на методологии zero-shot chain-of-thought reasoning, которая позволяет GPT-5 анализировать и сочетать различные виды информации, включая текстовые запросы и визуальные данные. Метод основывается на многоязычных моделях трансформеров и использует несколько бенчмарков, включая MedQA, MedXpertQA, MMLU и VQA-RAD. Эти задачи используются для оценки производительности GPT-5 в разных аспектах медицинского разума, включая текстовый QA (Question Answering) и многомодальный QA. ## Результаты На экспериментальных данных GPT-5 показал выдающиеся результаты по сравнению с базовыми моделями, включая GPT-4о и GPT-5-mini. На MedXpertQA MM GPT-5 улучшил счет по многомодальному разумению на +29.26% по сравнению с GPT-4о, а также превзошел специалистов-клиников на +24.23% в оценке разума и +29.40% в понимании задач. Эти результаты доказывают, что GPT-5 не только достигает совершенства в многомодальном разумении, но и превосходит человеческий эксперт в критически важных задачах. ## Значимость Результаты этого исследования открывают новые возможности для развития систем клинической поддержки решений. GPT-5 может использоваться для улучшения точности диагноза, упрощения процессов принятия решений и повышения эффективности в медицинских приложениях. Такое многомодальное разумение может помочь в клинических ситуациях, где необходимо интегрировать различные данные для точного лечения и предотвращения ошибок в решениях. ## Выводы На основе этих моделей GPT-5 демонстрирует спектр преимуществ в медицинском многомодальном разумении, которые могут быть интегрированы в медицинские системы. Будущие исследования будут сфокусированы на расширении этих возможностей, улучшении производительности и применении в реальных клинических ситуациях.

Annotation:

Recent advances in large language models (LLMs) have enabled general-purpose systems to perform increasingly complex domain-specific reasoning without extensive fine-tuning. In the medical domain, decision-making often requires integrating heterogeneous information sources, including patient narratives, structured data, and medical images. This study positions GPT-5 as a generalist multimodal reasoner for medical decision support and systematically evaluates its zero-shot chain-of-thought reason...

ID: 2508.08224v2 cs.CL, cs.AI

arXiv PDF

📄 Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment

2025-08-14

Авторы:

Saketh Reddy Vemula, Dipti Mishra Sharma, Parameswari Krishnamurthy

## Контекст Современные языковые модели (Language Models, LM) требуют эффективных методов токенизации для обработки текстов различных языков. Хотя на большинстве типичных языков (например, английского) существуют успешные токенизаторы, для языков с богатым морфологическим разнообразием (например, хинди или телугу) эта задача остается трудной. Несколько работ показали, что морфологически алергентанные подходы могут улучшить работу LM, но результаты остаются неоднозначными. Наша мотивация заключается в разборе этих феноменов и поиске оптимальных токенизаторов для таких языков. ## Метод Мы использовали три типичных токенизатора: Byte-Pair Encoding (BPE), Unigram, и Morphological Tokenizer. Для телугу, хинди и английского мы сравнили их на широком наборе задач: POS-тэггинга, NER и деревянного разбора. Для телугу, мы создали специальный набор данных с золотыми морфемными разбиениями для 600 деривационных и 7000 инфлекционных слов. Таким образом, мы могли оценить качество токенизации и морфологическую алергентность токенизаторов. ## Результаты Мы выявили, что Unigram-based токенизаторы показали лучшие результаты в большинстве случаев, особенно в задачах, которые используют синтаксические связи. Хотя морфологически алергентанные токенизаторы показали небольшую пользу для задач, связанных с морфологической структурой текста, их влияние оказалось слабее, чем влияние различных токенизаторов. Эксперименты показали, что корпусные метрики (CTC, Rényi entropy) не сильно коррелируют с результатами на датасетах, показав ограниченность их использования для оценки токенизаторов. ## Значимость Наши результаты имеют значение для разработчиков LM, особенно для тех, кто работает с языками с высокой морфологической сложностью. Мы доказали, что токенизаторы Unigram являются оптимальным выбором для многих типичных задач, даже несмотря на то, что морфологическая алергентанность имеет небольшое влияние. Это открывает пути для развития более мощных токенизаторов, оптимизированных для конкретных языков. ## Выводы Мы проанализировали три метода токенизации на трех языках с разными морфологическими особенностями. Мы отметили, что Unigram-based токенизаторы превосходят другие подходы в большинстве случаев, особенно в задачах синтаксиса. Наше исследование указывает на необходимость развития морфологически алергентанных методов токенизации, которые могут дополнительно улучшить работу LM. Будущие исследования будут ориентированы на улучшение токенизированных единиц для языков с высокой морфологической сложностью.

Annotation:

Prior work on language modeling showed conflicting findings about whether morphologically aligned approaches to tokenization improve performance, particularly for languages with complex morphology. To investigate this, we select a typologically diverse set of languages: Telugu (agglutinative), Hindi (primarily fusional with some agglutination), and English (fusional). We conduct a comprehensive evaluation of language models -- starting from tokenizer training and extending through the finetuning...

ID: 2508.08424v1 cs.CL, cs.AI

arXiv PDF

📄 Momentum Point-Perplexity Mechanics in Large Language Models

2025-08-14

Авторы:

Lorenzo Tomaz, Judd Rosenblatt, Thomas Berry Jones, Diogo Schwerz de Lucena

## Контекст В последние годы значительное внимание уделяется исследованию бо Lарге Ларнгуадж Моделс (LLM), которые стали основой для широкого спектра AI-приложений. Однако, несмотря на их мощь, эти модели часто трудно интерпретировать, что приводит к проблемам в управлении их поведением. Также имеются проблемы с аномалиями и неожиданными отклонениями в процессе обучения и использования. Необходимо развить принципиальные подходы, которые позволяют оценивать и контролировать поведение LLMs. Одним из таких подходов является ретроспективное понимание генерации текста, аналогичное физическим законам в динамических системах. Это возможно только в случае понимания того, как меняются внутренние состояния моделей на каждом шаге инференса. Таким образом, мотивируется разработка моделей, позволяющих описывать и контролировать поведение LLMs, чтобы улучшить их прозрачность и контролируемость. ## Метод В статье предлагается физико-механический подход к рассмотрению внутренних состояний LLMs. Для этого используется концепция "энергии", которая сопоставляется с изменением внутренних hidden states в процессе инференса. Рассматривается количество, основанное на скорости изменения hidden states и на next-token certainty (вероятности выбора следующего токена). Этот показатель аналогичен енергии в физике и остается почти постоянным во время работы моделей. Для исследования проводятся эксперименты с 20 LLMs различных размеров (от 135M до 3B параметров). Для управления и уменьшения аномалий предлагается метод Jacobian steering, который изменяет hidden states в минимально необходимых объемах, чтобы поддерживать постоянную "энергию" и решать задачи наиболее точно возможно. ## Результаты В ходе экспериментов были проанализированы 20 LLMs с разными параметрами. Найдено, что для необученных моделей (random-weight), энергия сохраняется более строго, чем для предобученных. Тренировка LLMs приводит к изменению режима работы: они становятся быстрее и более решательны, однако в то же время увеличивается их вариабельность. Используя метод Jacobian steering, удалось значительно снизить аномалии и повысить семантическую качество генерируемых текстов. Эти результаты подтверждены эмпирическими вычислительными экспериментами, основываясь на данных с открытого доступа. ## Значимость Результаты статьи имеют широкую потенциальную значимость в области глубокого обучения и искусственного интеллекта. Метод Jacobian steering может быть применен для улучшения контроля и прозрачности LLMs, что особенно важно в задачах, требующих точного управления моделями, например, в области безопасности и моральных вопросов. Благодаря этому подходу можно повыси

Annotation:

We take a physics-based approach to studying how the internal hidden states of large language models change from token to token during inference. Across 20 open-source transformer models (135M-3B parameters), we find that a quantity combining the rate of change in hidden states and the model's next-token certainty, analogous to energy in physics, remains nearly constant. Random-weight models conserve this "energy" more tightly than pre-trained ones, while training shifts models into a faster, mo...

ID: 2508.08492v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Steerable Pluralism: Pluralistic Alignment via Few-Shot Comparative Regression

2025-08-14

Авторы:

Jadie Adams, Brian Hu, Emily Veenhuis, David Joy, Bharadwaj Ravichandran, Aaron Bray, Anthony Hoogs, Arslan Basharat

## Контекст В последние годы технологии машинного обучения, особенно большие языковые модели (LLMs), нашли широкое применение в различных областях. Однако возникла проблема: существующие методы выравнивания моделей, такие как reinforcement learning from human feedback (RLHF), ориентированы на работу с одной целью — повышению помощности и минимизацией вреда. Эти методы не учитывают разнообразие пользовательских предпочтений, которое может быть важно в различных контекстах. Для решения этой проблемы вводится понятие "pluralistic alignment", которое стремится создать модели, способные логично и интерпретируемо выбирать ответы на основании разного рода пользовательских предпочтений. ## Метод Мы предлагаем подход, основанный на few-shot comparative regression, чтобы позволить модели адаптироваться к конкретным пользовательским предпочтениям. Модель сравнивает несколько вариантов ответов в контексте нескольких характеристик или признаков, используя in-context learning и вспомогательные признаки. Это позволяет модели избегать простых, неточных решений и делать выбор, основанный на более глубоком понимании пользовательских ценностей. Мы также развиваем две новые бенчмарки, которые позволяют протестировать модель на значимых и интерпретируемых данных. ## Результаты Наши эксперименты показали, что модель выдает более точные результаты по сравнению с другими методами, в том числе RLHF. Мы проверили модель на двух новых тестовых наборах данных, Moral Integrity Corpus (MIC) и HelpSteer2, которые определяются значимыми и разнообразными пользовательскими ценностями. Благодаря этому, наш алгоритм продемонстрировал высокую точность и интерпретируемость, давая возможность пользователям контролировать выбор ответов. ## Значимость Многообразие пользовательских предпочтений может быть использовано в различных областях, включая моделирование ценностей, языковое моделирование и принятие решений. Метод, предложенный в нашей работе, позволяет модели сохранять эти предпочтения, делая выводы личными и точными. Это может иметь положительное влияние на области, такие как социально-этическое AI, работа с личными данными и более эффективное взаимодействие с пользователями. ## Выводы Мы успешно разработали метод, который позволяет модели адаптироваться к различным пользовательским предпочтениям, используя few-shot comparative regression. Наш подход демонстрирует высокую точность и интерпретируемость, превзойдя существующие алгоритмы. Мы считаем, что наша работа открывает новые возможности в области интеллектуальных технологий, способствуя более представительному и честному использованию моделей языка. В дальнейшем мы планируем расширить наши исследования, включая более широ

Annotation:

Large language models (LLMs) are currently aligned using techniques such as reinforcement learning from human feedback (RLHF). However, these methods use scalar rewards that can only reflect user preferences on average. Pluralistic alignment instead seeks to capture diverse user preferences across a set of attributes, moving beyond just helpfulness and harmlessness. Toward this end, we propose a steerable pluralistic model based on few-shot comparative regression that can adapt to individual use...

ID: 2508.08509v1 cs.CL, cs.AI

arXiv PDF

📄 DepressLLM: Interpretable domain-adapted language model for depression detection from real-world narratives

2025-08-14

Авторы:

Sehwan Moon, Aram Lee, Jeong Eun Kim, Hee-Ju Kang, Il-Seon Shin, Sung-Wan Kim, Jae-Min Kim, Min Jhon, Ju-Wan Kim

## Контекст Современные прогрессы в области бо LARGE LANGUAGE MODELS (LLMs) опенным образом расширили возможности применения искусственного интеллекта в различных сферах. Однако в сфере психиатрических заболеваний, таких как депрессия, существуют значительные сложности. Основной проблемой является нехватка больших, высококачественных и тщательно аннотированных данных, необходимых для обучения моделей. Это приводит к ограниченной точности в предсказании депрессии и затруднению ранней диагностики. Наличие таких данных является ключевым фактором для повышения точности моделей и их применения в психиатрической практике. ## Метод DepressLLM является первым интерпретируемым доменно-адаптированным языковым моделем, разработанным для детекции депрессии из реального жизненного текста. Он обучен на разработанной коресе DepressNarrativeCorpus, содержащей 3 699 автобиографических рассказов, которые отражают различные аспекты счастья и тревоги. Для обеспечения интерпретируемости решения использован модуль Score-guided Token Probability Summation (SToPS), который обеспечивает дополнительную видимость в процессе предсказания. Модель была тщательно тестирована на обученных данных, а также подвергнута валидации на независимых датасетах, включая журналы дневников и клинические записи. ## Результаты В ходе экспериментов DepressLLM показал высокую точность в предсказании депрессии, с AUC-значением 0.789. Благодаря SToPS-модулю, модель достигла улучшения в классификации и повысила уровень доверия к своим предсказаниям. На высокодоверительных мисклассификациях, проверенных вручную психиатрами, выявлены ключевые ограничения модели и данных, которые могут быть использованы для дальнейшего повышения точности. ## Значимость Разработанная модель может быть применена в различных областях, включая клиническую практику, мобильные приложения и анализ журналов эмоциональных состояний. Она предоставляет интерпретируемые результаты, обеспечивая доверие к предсказаниям и улучшая надежность в диагностике депрессии. Это демонстрирует потенциал интерпретируемых моделей AI в ранней диагностике и улучшении здоровья пациентов. ## Выводы DepressLLM представляет собой прорыв в области психиатрического AI за счет создания интерпретируемой модели, которая улучшает точность диагностики депрессии. Будущие исследования будут фокусироваться на повышении точности и расширении области применения модели, включая психотерапевтические приложения и анализ других психических состояний.

Annotation:

Advances in large language models (LLMs) have enabled a wide range of applications. However, depression prediction is hindered by the lack of large-scale, high-quality, and rigorously annotated datasets. This study introduces DepressLLM, trained and evaluated on a novel corpus of 3,699 autobiographical narratives reflecting both happiness and distress. DepressLLM provides interpretable depression predictions and, via its Score-guided Token Probability Summation (SToPS) module, delivers both impr...

ID: 2508.08591v1 cs.CL, cs.AI

arXiv PDF

📄 LLM driven Text-to-Table Generation through Sub-Tasks Guidance and Iterative Refinement

2025-08-14

Авторы:

Rajmohan C, Sarthak Harne, Arvind Agarwal

## Контекст Преобразование неструктурированного текста в структурные таблицы является сложной задачей, требующей понимания семантики, рационального мышления и структурной компреhension. Хотя большие языковые модели (LLMs) имеют большой потенциал, они часто сталкиваются с проблемами предсказания таблиц, в том числе: неясность входных данных, доменные особенности, поддержание структуры таблицы, обработка длинных входных данных и выполнение численных вычислений. Наша работа описывает систему для генерации таблиц из текста, основанную на новых техниках подготовки задач, целенаправленного разделения проблемы на подзадачи и использования итеративной самостоятельной оценки. Мы позволили модели разбираться с задачей построчно, что улучшило качество полученных таблиц. Мы также изучили тонкий баланс между улучшением качества и вычислительными затратами. ## Метод Мы предлагаем систему с двумя основными компонентами: декомпозиция задачи генерации таблиц на подзадачи и итеративное самостоятельное уточнение результатов. Лингвистические модели работают над подзадачами по одному за раз. Сначала создается структура таблицы в виде блок-схемы, потом заполняются строки данными, после этого модель проверяет результат и выполняет исправления. Итеративный подход позволяет при необходимости заново изменять таблицу, предоставляя гибкость в настройке результатов. ## Результаты Мы проверили нашу модель на двух многопрофильных тестовых наборах данных, известных в своем классе. Наши результаты показали, что модель выдает решения с более высокой точностью по сравнению с базовыми моделями. Главной причиной улучшений является управление задачей поэтапно, что дает модели возможность более точно выполнять свои задачи. Итеративное уточнение также помогает меньше ошибаться при построении таблиц с нетривиальным содержанием. ## Значимость Предлагаемый подход может быть применен в различных сферах, таких как финансы, медицина, юриспруденция и исторические исследования. Мы показали, что наша модель может справиться с неструктурированными текстами в различных областях, что дает значительный потенциал для улучшения работы с данными в этих сферах. Благодаря итеративному подходу, модель показывает улучшенную точность и гибкость в выполнении задач. ## Выводы Мы успешно применили новый подход к задаче генерации таблиц, используя новые модели LLMs. Модель показала значительное улучшение качества достигнутого результата по сравнению с базовыми моделями. Мы также показали, что итеративное уточнение может стать решением для улучшения результатов, тогда как отрицательным моментом является высокий вычислительный затрат

Annotation:

Transforming unstructured text into structured data is a complex task, requiring semantic understanding, reasoning, and structural comprehension. While Large Language Models (LLMs) offer potential, they often struggle with handling ambiguous or domain-specific data, maintaining table structure, managing long inputs, and addressing numerical reasoning. This paper proposes an efficient system for LLM-driven text-to-table generation that leverages novel prompting techniques. Specifically, the syste...

ID: 2508.08653v1 cs.CL, cs.AI

arXiv PDF

📄 A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models

2025-08-14

Авторы:

Lingzhe Zhang, Liancheng Fang, Chiming Duan, Minghua He, Leyi Pan, Pei Xiao, Shiyu Huang, Yunpeng Zhai, Xuming Hu, Philip S. Yu, Aiwei Liu

#### Контекст Текстовое генерирование является одной из основных функций современных больших моделей языка (LLMs). Однако большинство этих моделей полагаются на авторегрессионное генерирование, то есть порождение текста токеном за токеном, основываясь на предыдущем контексте. Это приводит к ограниченной скорости генерирования, из-за последовательности процесса. Чтобы улучшить эффективность генерирования, наблюдается растущий интерес к разработке подходов, основанных на параллельном генерировании текста. Эти методы стремятся повысить скорость генерирования, избегая шаг за шагом процесса. Тем не менее, существует недостаток в подробном анализе, какие именно технологии могут быть применены в этой области, а также какие технические приемы могут повысить эффективность генерирования. Эта статья предлагает систематический обзор подходов к параллельному генерированию текста, позволяющий заполнить эту гапы в знаниях. #### Метод Изучение параллельного генерирования текста разбивается на две основные категории: **AR-ориентированные** и **не-AR-ориентированные** методики. AR-ориентированные методы продолжают использовать авторегрессионные техники, но с улучшенными методами повышения эффективности. Не-AR-ориентированные методы, напротив, отказываются от авторегрессионной модели, а вместо этого используют альтернативные подходы, такие как векторное генерирование, диффузионные модели и другие неоднородные подходы. Мы приводим детальное описание основных элементов каждой категории, включая их архитектуры, методы оптимизации и технические решения. Также мы проводим оценку теоретических трейдофов между скоростью, качеством и эффективностью, чтобы понять, какие технологии могут быть объединены для повышения производительности. #### Результаты Мы проводим эксперименты, используя разные типы данных, включая огромные текстовые корпуса, для подтверждения эффективности каждого подхода. Мы измеряем скорость и качество генерирования текста с помощью метрик, таких как BLEU, ROUGE и METEOR. Наши результаты показывают, что не-AR-ориентированные подходы могут повысить скорость подачи текста в несколько раз по сравнению с AR-методами, при этом сохраняя качество генерирования. Мы также проводим сравнительный анализ между AR- и не-AR-методами, показывая, что гибридные модели, объединяющие элементы обеих моделей, могут дать более балансированные результаты в области качества и скорости. #### Значимость Полученные результаты имеют важное значение для широкого диапазона приложений, включая транс

Annotation:

As text generation has become a core capability of modern Large Language Models (LLMs), it underpins a wide range of downstream applications. However, most existing LLMs rely on autoregressive (AR) generation, producing one token at a time based on previously generated context-resulting in limited generation speed due to the inherently sequential nature of the process. To address this challenge, an increasing number of researchers have begun exploring parallel text generation-a broad class of te...

ID: 2508.08712v2 cs.CL, cs.AI, cs.DC, 68T50, I.2.7

arXiv PDF

📄 IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization

2025-08-14

Авторы:

Yuzhuo Bai, Shitong Duan, Muhua Huang, Jing Yao, Zhenghao Liu, Peng Zhang, Tun Lu, Xiaoyuan Yi, Maosong Sun, Xing Xie

## Контекст Large Language Models (LLMs), обученные разнообразным текстовым корпусам, могут повторять человеческие характеристики и стили подсказками. Это возможность используется в широком кругу приложений, таких как персонализация LLMs и социальные симуляции. Однако существующие методы страдают от проблемы поверхностного подражания: LLMs могут только воспроизводить внешние стилистические особенности без поглубжей интеграции желаемых черт. Это приводит к нестабильности и несогласованности в имитации желаемых характеристик. Мотивируясь этим, мы предлагаем IROTE, метод для эффективного и надежного пробуждения человеческих характеристик в LLMs. ## Метод IROTE основывается на психологических теориях, связывающих характеристики с автопознанием и саморефлексией. Мы разработали механизм, который автоматически генерирует и оптимизирует текст саморефлексии внутри промптов. Этот текст описывает испытания и взгляды самого языкового модели, создавая яркую и конкретную картину желаемой черты. Оптимизация выполняется через информационно-теоретическую функцию максимизации, увеличивающую связь между характеристикой и текстом модели, при этом уменьшая шум и ненужную информацию. Этот процесс не требует оптимизации весов модели и дает стабильную и переносимую ролевую игру. ## Результаты Мы провести эксперименты на трех разных системах человеческих черт, проверяя целесообразность IROTE на различных задачах. Результаты показывают, что один текст саморефлексии, сгенерированный IROTE, позволяет LLMs оживить желаемую черту в различных сценариях. Наши результаты постоянно превосходят сильные текущие базы, демонстрируя более глубокие и устойчивые эффекты. Это доказывает значительное преимущество IROTE в области поддержки человеческих характеристик. ## Значимость Метод IROTE может применяться в сферах, где требуется поддержка человеческих черт, такие как социальные симуляции, персонализация технологий и даже создание имитационных систем. Он обеспечивает более стабильные и реалистичные характеристики, чем существующие методы. Будущие работы будут направлены на расширение метода на новые типы черт и улучшение его интеграции с другими технологиями. ## Выводы Итоги нашего исследования показывают, что IROTE является прорывом в области стабильного и переносимого пробуждения человеческих черт в LLMs. Наш метод позволяет получить более внутреннюю и консистентную имитацию человеческих характеристик, что открывает пути для

Annotation:

Trained on various human-authored corpora, Large Language Models (LLMs) have demonstrated a certain capability of reflecting specific human-like traits (e.g., personality or values) by prompting, benefiting applications like personalized LLMs and social simulations. However, existing methods suffer from the superficial elicitation problem: LLMs can only be steered to mimic shallow and unstable stylistic patterns, failing to embody the desired traits precisely and consistently across diverse task...

ID: 2508.08719v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 SciRerankBench: Benchmarking Rerankers Towards Scientific Retrieval-Augmented Generated LLMs

2025-08-14

Авторы:

Haotian Chen, Qingqing Long, Meng Xiao, Xiao Luo, Wei Ju, Chengrui Wang, Xuezhi Wang, Yuanchun Zhou, Hengshu Zhu

## Контекст В настоящее время исследования по вопросно-ответной системе на основе научной литературы (Scientific Question Answering, SciQA) находятся в самом активном развитии. Это связано с тем, что высококачественные ответы в области науки являются ключевым фактором для обеспечения новых научных открытий. Одним из наиболее эффективных подходов является использование двухэтапной системы восстановления и рейтинга с помощью генерируемых глубоких нейронных сетей (RAG-LLMs), которая позволяет обеспечить высокую точность в поиске и выдаче знаний. Однако второй этап, а именно система рейтинга (reranker), играет особую роль в склонных к ошибкам научных текстах. Небольшие разницы в терминологии могут привести к существенному снижению качества ответов. Несмотря на прогресс в этой области, существуют значительные пробелы в понимании потенциала и ограничений такой работы, что влечет за собой необходимость в создании специализированного бенчмарка для оценки рейтинговых систем. ## Метод SciRerankBench представляет собой уникальный подход к оценке рейтинговых систем в рамках RAG-LLMs, ориентированный на детальное измерение их производительности в сложных научных сценариях. Методология включает разработку трех типов вопросов-контекстов-ответов (Q-C-A), а именно: 1) контексты с шумом (Noisy Contexts, NC), 2) семантически схожие, но логически не относящиеся контексты (Semantically Similar but Logically Irrelevant Contexts, SSLI) и 3) контрфактические контексты (Counterfactual Contexts, CC). Эти типы были разработаны, чтобы систематически оценить производительность рейтинговых систем по трем ключевым параметрам: выносливости к шуму, разрешению семантической схожести и сохранению фактической точности. Бенчмарк охватывает пять научных областей, при этом проводилась оценка 13 существующих рейтинговых систем на пяти моделях глубокого обучения. ## Результаты Результаты оценки показали, что существующие рейтинговые системы в RAG-LLMs демонстрируют различную эффективность в задачах восстановления и систематической оценке. Такие параметры, как выносливость к шуму и разрешение семантической схожести, оказались критичными для обеспечения точности ответов. Наиболее продвинутые системы показали значительные достижения в отношении решения этих задач, однако существуют существенные ограничения в ситуациях, когда необходимо глубокое пониманио терминов и сохранение фактической точности в ответах. Эти результаты дают возможность выявления наиболее продвинутых методов, а также выделение тех областей, где требуется дополнительный исследовательский подход. ## Значимость SciRerankBench является первым б

Annotation:

Scientific literature question answering is a pivotal step towards new scientific discoveries. Recently, \textit{two-stage} retrieval-augmented generated large language models (RAG-LLMs) have shown impressive advancements in this domain. Such a two-stage framework, especially the second stage (reranker), is particularly essential in the scientific domain, where subtle differences in terminology may have a greatly negative impact on the final factual-oriented or knowledge-intensive answers. Despi...

ID: 2508.08742v1 cs.CL, cs.AI

arXiv PDF

📄 DevNous: An LLM-Based Multi-Agent System for Grounding IT Project Management in Unstructured Conversation

2025-08-14

Авторы:

Stavros Doropoulos, Stavros Vologiannidis, Ioannis Magnisalis

## Контекст Информационные технологии (IT) широко распространены в современных организациях, но управление такими проектами часто сталкивается с проблемами связанными с обработкой неструктурированных данных. Особенно критический является процесс перевода неструктурированных диалогов группы разработчиков в структурированные элементы управления проектоми, необходимые для корректного управления проектами. Этот процесс требует большого времени и трудоемкости, что может привести к задержкам и неточностям в проектовом управлении. Таким образом, авторы предлагают развить автоматизированные системы, которые могут быстро и точно преобразовывать неструктурированные диалоги в структурированные элементы управления проектами. ## Метод Авторы предлагают DevNous — систему, основанную на Large Language Model (LLM), которая имеет многоагентную архитектуру. DevNous интегрируется с существующими средами обмена сообщениями для упрощения управления проектами. Она использует технологии NLP для распознавания намерений в неструктурированных диалогах и преобразовывает их в структурированные элементы управления задачами. Благодаря этому, DevNous может автоматизировать рутинные задачи, такие как формализация задач и сводки прогресса. Эта система является децентрализованной и может работать в реальном времени, обеспечивая эффективность и удобство в использовании. ## Результаты Авторы провели ряд экспериментов для оценки эффективности DevNous. Для этого был создан новый бенчмарк, содержащий 160 реалистичных диалогами, которые были ручной способом аннотированы с многометковым методом. Эксперименты показали, что DevNous достигает точности выполнения задач в реальном времени до 81,3%, а F1-Score (многомерный) составил 0,845. Эти результаты показывают, что DevNous может эффективно работать в реальных условиях, обеспечивая надежную автоматизацию процессов управления проектами. ## Значимость DevNous предлагает новую архитектуру для развития административных агентов, которая может быть использована в различных областях IT-управления. Она позволяет уменьшить время, затрачиваемое на рутинные задачи, улучшая производительность и точность управления проектами. Благодаря её возможностям, можно значительно сократить задержки и ошибки в управлении проектами, что делает её привлекательной для широкого круга пользователей. ## Выводы DevNous представляет собой прорыв в области автоматизации управления проектами. Она доказала свою эффективность в решении проблемы преобразования неструктурированных диалогов в структурированные элементы управления проектами. Будущие исследования будут сосредоточены на расширении функцио

Annotation:

The manual translation of unstructured team dialogue into the structured artifacts required for Information Technology (IT) project governance is a critical bottleneck in modern information systems management. We introduce DevNous, a Large Language Model-based (LLM) multi-agent expert system, to automate this unstructured-to-structured translation process. DevNous integrates directly into team chat environments, identifying actionable intents from informal dialogue and managing stateful, multi-t...

ID: 2508.08761v1 cs.CL, cs.AI

arXiv PDF

1
2
188
189
190
191
192
204
205

Показано 1891 - 1900 из 2042 записей