📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Reem Abdel-Salam, Mary Adewunmi, Modinat A. Abayomi

#### Контекст В последние годы большой языковые модели (LLMs) доказали свою эффективность в понимании и генерации текста в различных областях, включая биомедицинский домен. Однако повышенное внимание уделяется их подтверждению на задачах многошагового вопроса-ответа (QA), требующих сложного понимания текста и выделения точных ответов. В области биомедицинских вопросов-ответов это становится особенно важной задачей, так как необходимо обеспечить точность и достоверность ответов, которые могут повлиять на клинические решения. Несмотря на прогресс в обучении LLMs, оценка их качества на сложных задачах QA в биомедицине остается недостаточно тщательной. В данной работе мы применяем LLaMA 3 8B для адресации задачи MedHopQA в рамках BioCreative IX. Эта задача состоит в том, чтобы решать многошаговые вопросы, включающие связи между болезнями, генами и химическими веществами. Наша цель — изучить, насколько LLMs могут обеспечить точные и структурированные ответы на сложные биомедицинские вопросы, а также выявить проблемы в подходе к их оценке. #### Метод Мы использовали стратегию супервизированного оптимизатора, нацеленную на то, чтобы улучшить качество ответов модели LLaMA 3 8B. Для обучения и оценки использовались данные из таких источников, как BioASQ, MedQuAD и TREC. Мы разработали три разных стратегии fine-tuning: на комбинированные ответы (короткие и длинные), только на короткие ответы и только на длинные ответы. Это позволило нам исследовать различные направления в понимании языка и выдачи ответов. Для улучшения точности и структурированности ответов, мы применили двухэтапную модель оценки, которая стремится уменьшить громоздкость ответов и сделать их более соответствующими метрикам BioCreative IX. Эта модель включает в себя два этапа: проверку контекстной аккуратности и выделение точного ответа в соответствии с ожиданиями задачи. #### Результаты На этапе обучения, модели LLaMA 3 8B показали высокий уровень понимания биомедицинских концептов, достигнув до 0.8 в accuracy понятий. Однако точность Exact Match (EM) оставалась значительно ниже, особенно на этапе тестирования. Мы обнаружили, что даже когда модель понимает суть вопроса, структурированность и точность ответов остаются проблемными. Для улучшения работы модели, мы ввели подход с двухэтапной оценкой в процессе интерпретации. Это позволило сократить громоздкость ответов и повысить точность поиска коротких ответов. Тем не менее, мы выявили, что сложности в подготовке строго структурированных ответов для высокоточных метрик остаются, что определяет необходимость будущих исследований в области гибкого контроля вывода
Annotation:
Large language models (LLMs) are increasingly evident for accurate question answering across various domains. However, rigorous evaluation of their performance on complex question-answering (QA) capabilities is essential before deployment in real-world biomedical and healthcare applications. This paper presents our approach to the MedHopQA track of the BioCreative IX shared task, which focuses on multi-hop biomedical question answering involving diseases, genes, and chemicals. We adopt a supervi...
ID: 2509.00806v1 cs.CL, cs.AI, cs.LG
Авторы:

Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan

## Контекст В последние годы Large Language Models (LLM) проявили великолепные возможности в области понимания и генерации текстов, благодаря их способности использовать богатые внешние источники знаний. Одна из применимых областей использования LLM — это Retrieval-Augmented Generation (RAG), где модели объединяют генерирование ответов с внедрением специфической информации, извлекаемой из внешних источников. Однако, внедрение больших контекстов в LLM приводит к значительным задержкам в обработке запросов и высоким потреблением памяти. Эти проблемы становятся особенно актуальными при работе с длинными документами и многоключевыми задачами. Особенность RAG заключается в том, что часть контекста, полученная в результате поиска, содержит низкую семантическую связность и часто низкоудобственную информацию. Это приводит к нетипичным для стандартных задач генерации нерегулярным шаблонам внимания в моделях. Наше исследование направлено на решение этих проблем и повышение эффективности моделей в RAG-приложениях. ## Метод Мы предложили REFRAG — новую эффективную систему для улучшения обработки длинных контекстов в RAG. Наша методология основывается на трех основных компонентах: сжатии контекста, дальновидного сенсорного режима и расширении контекста. В первом этапе мы сокращаем ненужную часть контекста, используя специальные алгоритмы сжатия. Во втором этапе, мы применяем умножение матриц, что позволяет выделить и обработать только семантически значимые части контекста. В третьем этапе мы расширяем контекст модели, добавляя дополнительные семантически связанные фрагменты. Это позволяет увеличить общую эффективность за счет повышения семантической связности и снижения затрат на вычисления. ## Результаты Мы провели эксперименты на различных датасетах и задачах, включая многоключевую генерацию, многоключевые диалоги и длинную документ-суммаризацию. Наши результаты показали, что REFRAG обеспечивает скорость обработки запросов, которая 30,85 раз быстрее, чем базовые LLM-модели, с удержанием точности результатов на уровне стандартных моделей. Благодаря упрощению вычислительных процессов, мы удалось увеличить контекст на 16, не нарушая качество ответов. Это значительно повышает скорость и эффективность в RAG-приложениях, позволяя моделям обрабатывать большие контексты за меньшее время. ## Значимость Наша работа показала, что REFRAG может применяться в различных областях, включая системы поиска, системы диалогов и генерацию ответов на запросы. Особенно она полезна в задачах, требующих быстрого и точного обращения к большим объемам информации.
Annotation:
Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long...
ID: 2509.01092v1 cs.CL, cs.AI, cs.LG
Авторы:

Wei Huang, Huang Wei, Yinggui Wang

#### Контекст Large language models (LLMs) показывают выдающиеся результаты при решении общих задач, но сталкиваются с трудностями при применении к доменно-конкретным задачам. Для эффективного использования LLMs в таких ситуациях необходимо их приспособить к конкретным данным и задачам. Эта процедура, известная как fine-tuning, требует значительных ресурсов и времени. Одной из основных проблем является выбор наиболее подходящего модели для fine-tuning. Набор доступных моделей все чаще разнообразится, что делает выбор еще более сложным. Было выдвинуто много работ по оптимизации процесса выбора модели и уменьшению расходов ресурсов. Однако в статье DaMoC: Efficiently Selecting the Optimal Large Language Model for Fine-tuning Domain Tasks Based on Data and Model Compression предлагается новый подход, который использует данные и сжатие моделей для эффективного выбора и применения моделей. #### Метод Система DaMoC решает проблему выбора модели для fine-tuning с помощью двух ключевых компонентов: сжатие данных и сжатие моделей. В первом компоненте, **дата-уровень**, используется систематическая категоризация методов фильтрации данных. Эти методы разделяются на три парадигмы: (1) distribution-aware methods, (2) quality-aware methods, и (3) hybrid approaches. Методы эти способствуют повышению точности и эффективности. Также в рамках DaMoC введена технология **token compression**, которая увеличивает плотность ключевых токенов в тексте. Второй компонент, **модель-уровень**, включает процесс оценки важности слоёв модели с помощью **layer similarity scores**. Менее значимые слои удаляются, и для оставшихся слоёв применяется **sparse merging paradigm** для сохранения возможностей модели. #### Результаты Исследования проводились на четырёх датасетах, связанных с задачами специализированной обработки текста: medical Q&A, financial Q&A, general Q&A и reading comprehension. Эксперименты показали, что DaMoC позволяет выбирать наиболее подходящую модель с издержками в 20 раз меньше времени по сравнению с традиционными методами. Это выигрыш достигается благодаря эффективному сжатию данных и моделей, которое приводит к повышенной точности и уменьшению ресурсоемкости. #### Значимость Решение, предложенное в DaMoC, имеет широкие применения в сферах, где требуется эффективное использование LLMs, например, в медицинской области, финансовой сфере и общем текстовом понимании. Оно позволяет не только экономить ресурсы, но и повысить точность и быстродействие при применении моделей. DaMoC открывает пути для будущих исследований в области сжатия моделей и данных, в том числе развития новых алгоритмов для улучшения точности и эффективности. #### Выводы Работа DaMoC: Efficiently Selecting the Optimal Large Language Model for Fine-tuning Domain Tasks Based on Data and Model Compression демонстрирует значительные достижения в сфере выбора и применения LLMs для доменных задач.
Annotation:
Large language models (LLMs) excel in general tasks but struggle with domain-specific ones, requiring fine-tuning with specific data. With many open-source LLMs available, selecting the best model for fine-tuning downstream tasks is challenging, primarily focusing on how to quickly identify the optimal LLM. We introduce a Data and Model Compression Framework (DaMoC) that addresses this challenge by: 1) Data Level: A systematic categorization of data filtering methodologies for LLMs is first esta...
ID: 2509.01221v2 cs.CL, cs.AI, cs.LG
Авторы:

Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin

## Контекст В последние годы широко распространена идея, что большие языковые модели (LLM) страдают значительной чувствительностью к стилю выражения (prompt sensitivity), т. е. что подмена формулировок в задании приводит к существенным изменениям в их поведении и результатах. Эта проблема часто приводит к допущению, что LLM имеют недостаточную глубину понимания и гибкости в обработке языка. Однако появились сигналы, что это может быть не только исходной особенностью моделей, но и следствием ограниченности текущих методов оценки. Мотивация для данного исследования кроется в понимании, насколько сильно эта чувствительность связана с моделями, а не с техниками оценки. ## Метод Для данного исследования были использованы 7 языковых моделей, включая GPT и Gemini, оцененные на 6 различных бенчмарках, которые включали опен-эндж и множественно-выборочные задачи. Эти задачи были проанализированы с использованием 12 различных шаблонов выражения. Авторы использовали две основные техники оценки: традиционную (log-likelihood scoring и rigid answer matching) и новую (LLM-as-a-Judge), чтобы измерить как традиционную, так и новую степень чувствительности к стилю выражения. ## Результаты Исследование показало, что значительная часть чувствительности к стилю выражения (prompt sensitivity) является следствием традиционных техник оценки. Например, log-likelihood scoring и rigid answer matching часто пропускают семантически корректные ответы, выраженные через альтернативные формулировки (такие как синонимы или парафразы). Когда авторы применяли LLM-as-a-Judge, они обнаружили значительную снижение вариативности показателей, а также увеличение согласованности рейтингов моделей по всем шаблонам. Эти результаты указывают на то, что модели LLM более жизнеспособны по отношению к разнообразию выражений, чем было предполагалось ранее. ## Значимость Нахождения данного исследования имеют значительные последствия для области глубокого обучения и оптимизации технологий обработки естественного языка. В частности, они показывают, что традиционно принятая мнение о чувствительности LLMs к выражению заданий может быть значительно переоценена. Подход LLM-as-a-Judge может стать более объективным методом оценки, который может быть использован в будущих исследованиях. Эти результаты также открывают новые возможности для улучшения технологий обучения и работы LLM, устраняя существующие ограничения. ## Выводы В целом, исследование выводит, что значительная часть чувствительности к стилю выражения является следствием ограничений текущих методов оценки, а не недостатков моделей LLM. Это открывает новый взгляд на область оценки языковых
Annotation:
Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e., repeating something written or spoken using different words) leads to significant changes in large language model (LLM) performance, has been widely accepted as a core limitation of LLMs. In this work, we revisit this issue and ask: Is the widely reported high prompt sensitivity truly an inherent weakness of LLMs, or is it largely an artifact of evaluation processes? To answer this question, we systematically evaluate 7 LL...
ID: 2509.01790v1 cs.CL, cs.AI, cs.LG
Авторы:

Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin

#### Контекст Reinforcement Learning from Verifiable Rewards (RLVR) является продвинутым подходом для улучшения логических возможностей больших языковых моделей. Однако существующие методы, такие как GRPO, часто сталкиваются с проблемой нулевых градиентов, что связано с фиксированными граничными значениями для падающих правдоподобий токенов и стандартизацией одинаковых наград. Эти факторы приводят к неэффективным обновлениям градиента и недостатку использования произведенных ответов. Данные ограничения становятся причиной неэффективного использования полученных данных в процессе обучения. #### Метод Чтобы устранить эти проблемы, в DCPO (Dynamic Clipping Policy Optimization) предложена динамическая стратегия урезания, которая адаптивно изменяет границы урезания для падающих правдоподобий токенов в зависимости от их предварительных индивидуальных вероятностей. Это позволяет увеличить границы для токенов с низкой вероятностью, чтобы повысить их эксплореризацию, и уменьшить для токенов с высокой вероятностью, чтобы избежать лишнего урезания. Также в DCPO введена техника сглаживания для стандартизации наград, которая объединяет информацию об ответах за весь тренировочный процесс. Это улучшает уровень эффективности использования ответов в ходе обучения. #### Результаты Данный подход был проверен на четырёх реальных бенчмарках с использованием трёх разных языковых моделей (Qwen2.5-Math-7B, Qwen2.5-14B). DCPO показал значительное улучшение производительности по сравнению с GRPO и DAPO. На AIME24 он достиг значений Avg@1 (46.7) и Avg@32 (38.8), превосходя GRPO (36.7/31.6) и DAPO (36.7/32.1). На бенчмарке AIME25 DCPO создал рекорды (23.3/19.0), превосходя GRPO (13.3/10.5) и DAPO (20.0/15.3). Была также заметна снижение количества нулевых наград на 28% по сравнению с GRPO и увеличение эффективности обучения в два раза по сравнению с DAPO. #### Значимость DCPO доказывает свою ценность в области больших моделей языкового моделирования, в частности в RLVR. Он эффективно использует данные, полученные от моделей, уменьшает число нулевых наград и увеличивает обучаемую стабильность. Это приводит к более эффективным выводам, улучшению качества ответов и увеличению общей эффективности обучения. #### Выводы DCPO демонстрирует новый этап в развитии RLVR, позволяя большим моделям языкового моделирования улучшить свою логическую структуру и эффективность. Основным направлением будущих исследований является дополнительное улучшение динамической стратегии урезания и её применение в различных областях, включая контекстные моделирования и по
Annotation:
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a promising framework for enhancing the reasoning capabilities of large language models. However, existing approaches such as GRPO often suffer from zero gradients. This problem arises primarily due to fixed clipping bounds for token-level probability ratios and the standardization of identical rewards, which can lead to ineffective gradient updates and underutilization of generated responses. In this work, we propose Dynamic C...
ID: 2509.02333v1 cs.CL, cs.AI, cs.LG
Авторы:

Dani Roytburg, Matthew Bozoukov, Matthew Nguyen, Jou Barzdukas, Simon Fu, Narmeen Oozeer

## Контекст В последние годы large language models (LLMs) становятся все более популярными как автоматизированные оценщики, используемые для различных задач, включая принятие решений и оценку качества. Однако эти модели часто страдают от "самопредпочтения" — склонности предпочитать свои собственные ответы другим моделям или данным. Эта проблема называется "self-preference bias" и является критическим недостатком для их использования в таких областях, как приемление предпочтений и маршрутизация моделей. Это может привести к несправедливости и нестабильности в результатах. Наша мотивация заключается в изучении и устранении этого биаса с использованием легких методов, которые могут быть применены непосредственно во время выполнения без необходимости переучивать модель. ## Метод Мы привлекли двухмерную методологию для точечного определения и контроля самопредпочтения. Основной фокус был на методике **Contrastive Activation Addition (CAA)**, которая включает в себя добавление мелких векторов направлений в пространство представлений модели. Мы также использовали оптимизационный подход, нацеленный на нахождение наилучших векторов направлений, которые могут снизить самопредпочтение без необходимости переучивать модель. Мы применили эти методы к данным, полученным из наших экспериментов с разными моделями и задачами, чтобы измерить эффективность нашего подхода. ## Результаты Мы провели эксперименты на curated dataset, разделенном на две категории: "justified" и "unjustified" self-preference. Наши результаты показали, что CAA и оптимизационный подход могут снизить незаконное самопредпочтение до 97%, что значительно превосходит базовые подходы, такие как prompting и direct preference optimization. Тем не менее, мы обнаружили, что steering vectors оказываются нестабильными при работе с безупречным самопредпочтением и безубезумными согласиями, что подчеркивает линейную или многомерную природу самопредпочтения. ## Значимость Наш подход продемонстрировал сильный потенциал в решении проблемы self-preference bias в LLM-based evaluators. Это может быть применено в области принятия решений, где необходимо обеспечить нейтральность и объективность. Кроме того, наша работа может способствовать развитию более справедливых и надежных систем оценки. ## Выводы Мы убедились, что steering vectors могут значительно снизить самопредпочтение в LLM-моделях, но они не являются идеальным решением для всех видов самопредпочтения. Наша работа открывает новые трудности и направления для будущих исследований, включая развитие более сложных методов для более точного детектирования и устранения различных типов самопредпочтения в моделях.
Annotation:
Large language models (LLMs) increasingly serve as automated evaluators, yet they suffer from "self-preference bias": a tendency to favor their own outputs over those of other models. This bias undermines fairness and reliability in evaluation pipelines, particularly for tasks like preference tuning and model routing. We investigate whether lightweight steering vectors can mitigate this problem at inference time without retraining. We introduce a curated dataset that distinguishes self-preferenc...
ID: 2509.03647v1 cs.CL, cs.AI, cs.LG
Авторы:

Seyedali Mohammadi, Bhaskara Hanuma Vedula, Hemank Lamba, Edward Raff, Ponnurangam Kumaraguru, Francis Ferraro, Manas Gaur

## Контекст Сложные нейронные сети, такие как генеративные модели и семантические локальные модели (LLM), достигли впечатляющих результатов в области обработки естественного языка. Однако поведение этих моделей часто остается непредсказуемым, особенно когда им предлагаются внешние данные или определения. Это становится критически важной проблемой при использовании таких моделей в критически важных задачах, таких как генерация медицинских отчетов или юридических документов. Насколько хорошо LLM прислушиваются к внешним определениям, а не доверяют своим внутренним представлениям? Этот вопрос приобретает ключевое значение при поиске решений, которые могут обеспечить более транспарентное и предсказуемое взаимодействие с моделями. Мотивирует эти рассмотрения актуальность задачи глубокого понимания и контроля поведения моделей в различных условиях. ## Метод Для изучения влияния внешних определений на модели LLM проводятся контролируемые эксперименты с использованием нескольких тестовых наборов данных, охватывающих общие и домен-специфические задачи. Модели подвергаются тестированию в условиях различных определений ярлыков (labels), включая экспертно-подготовленные, генерируемые LLM, подложенные (perturbed) и замененные ярлыки. Это позволяет оценивать, насколько эффективно модели интегрируют внешние определения в свое решающее процесс, и тщательно рассматриваются результаты с точки зрения точности и понятности. Далее, проводятся аналитические процедуры для изучения относительного вклада внешних определений в работу модели, а также для выявления мотивов, по которым модели могут прибегать к их внутренним представлениям вместо внешних определений. ## Результаты Эксперименты показали, что LLM могут существенно повысить точность и понятность решений при использовании внешних определений, но это не гарантируется во всех случаях. На общих задачах модели часто прибегают к внутренним представлениям, в то время как в домен-специфических задачах внешние определения демонстрируют более выраженный эффект. Однако, даже в случае домен-специфических задач, LLM могут придерживаться внутренних представлений, если они считают, что внешние определения недостаточно точные или неполные. Это подтверждает, что модели, несмотря на внешние вклады, часто остаются зависимыми от своих предварительно обученных структур. ## Значимость Полученные результаты имеют большое значение в сфере глубокого обучения и применений моделей в критически важных областях, таких как медицина, право и финансы. Исследование показывает, что внешние определения могут не только улуч
Annotation:
Do LLMs genuinely incorporate external definitions, or do they primarily rely on their parametric knowledge? To address these questions, we conduct controlled experiments across multiple explanation benchmark datasets (general and domain-specific) and label definition conditions, including expert-curated, LLM-generated, perturbed, and swapped definitions. Our results reveal that while explicit label definitions can enhance accuracy and explainability, their integration into an LLM's task-solving...
ID: 2509.02452v1 cs.CL, cs.AI, cs.LG
Авторы:

Yue Li, Xin Yi, Dongsheng Shi, Yongyi Cui, Gerard de Melo, Xiaoling Wang, Linlin Wang

## Контекст Современные бо LARGE LANGUAGE MODELS (LLMs) являются ценными интеллектуальными свойствами, требующими эффективных методов защиты. Одним из популярных подходов является внедрение специальных отпечатков (fingerprints) в модели с помощью инструкционного тюнинга. Однако этот подход имеет недостатки: он сильно снижает эффективность модели, требует больших вычислительных ресурсов и чувствителен к модификациям модели, что приводит к быстрому удалению отпечатков. Наша мотивация заключается в поиске более эффективного и устойчивого подхода для защиты интеллектуальной собственности LLMs. Мы предлагаем использовать редактирование знаний (knowledge editing) в качестве более гибкого и эффективного способа внедрения отпечатков. ## Метод Мы применяем редактирование знаний для внедрения отпечатков в LLMs впервые. Наш первый вклад — Fingerprint Subspace-aware Fine-Tuning (FSFT), метод, который снижает деградацию отпечатков в ходе тюнинга, ограничивая обновление фингерпринт-субспейса. Мы используем scrambled text (рассортированный текст) в качестве отпечатков для уменьшения риска их перезаписи в процессе тюнинга. Также мы выявляем, что модели с отпечатками сталкиваются с проблемой различения отпечатков от похожих текстов из-за высокой схожести их фич, что делает необходимым развитие более тонких и устойчивых методов внедрения отпечатков. ## Результаты Мы проводим эксперименты для оценки эффективности FSFT по сравнению с традиционным тюнингом. Используемые данные включают различные текстовые коллекции, а результаты показывают, что FSFT обеспечивает до 10% улучшения производительности в сравнении с тюнингом в крайней случае. Мы также проводим анализ того, как отпечатки влияют на модели, и продемонстрировали, что низкая точность различения отпечатков от похожих текстов является основной проблемой. Эти результаты подтверждают необходимость развития мощных, тонких и устойчивых методов внедрения отпечатков. ## Значимость Наш подход имеет широкое применение в области защиты интеллектуальной собственности для LLMs. Он позволяет значительно снизить негативное воздействие на модели, обеспечивая устойчивый отпечаток с меньшим риском перезаписи. Это делает нашу методику более экономичной и эффективной по сравнению с традиционными подходами. Мы также выявляем потенциальные области развития, включая развитие методов, позволяющих более точно различать отпечатки от похожих текстов для увеличения уровня защиты. ## Выводы Мы представили первый подход к внедрению отпечатков в LLMs с помощью редактирования знаний. Наши экспери
Annotation:
The intellectual property (IP) protection of Large Language Models (LLMs) is increasingly critical. Injecting specialized fingerprints into LLMs through instruction tuning is a common IP protection technique. However, this may significantly degrade model performance, requires substantial computational resources, and exhibits poor persistence under model modifications. We argue that knowledge editing offers a lightweight alternative that is more suitable for fingerprint injection. Accordingly, we...
ID: 2509.03122v1 cs.CL, cs.AI, cs.LG
Авторы:

Shubham Sharma, Sneha Tuli, Narendra Badam

#################### ## Контекст #################### Large Language Models (LLMs) являются ключевым инструментом в развитии искусственного интеллекта и находят применение в различных областях, включая чатботы, кодирование, здравоохранение, образование и проектирование. Однако их разработка и развертывание связаны с значительными вызовами, такими как трудности с обучением, эффективностью использования ресурсов, адаптацией к конкретным задачам и адресацией этических вопросов. Несмотря на эти сложности, LLMs показывают огромный потенциал для улучшения текущих процессов и создания новых возможностей в различных сферах. Эта статья сосредоточена на основных вызовах развития и применения LLMs, а также на сравнении двух современных моделей: GPT-4o от OpenAI и DeepSeek-V3-0324 от DeepSeek, которые проявляют различные подходы к решению этих вызовов. #################### ## Метод #################### Для изучения проблем и применений LLMs, а также сравнения GPT-4o и DeepSeek-V3-0324, проводится обширный обзор литературы, анализ конкретных технических решений и экспериментальные исследования. GPT-4o представляет собой закрытую модель, характеризующуюся высокой надежностью и гибкостью в файн-тюнинге. С другой стороны, DeepSeek-V3-0324 является открытой моделью, основанной на архитектуре Mixture-of-Experts (MoE), которая обеспечивает эффективность и гибкость в адаптации к различным задачам. Методология сравнения включает в себя оценку производительности, эффективности ресурсов, качества результатов и адаптации к различным сценариям применения. #################### ## Результаты #################### Проведенные эксперименты показали, что GPT-4o превосходит в области точности и надежности, особенно при файн-тюнинге для конкретных задач. В то же время, DeepSeek-V3-0324 демонстрирует высокую эффективность и гибкость в адаптации к различным сценариям, благодаря своей архитектуре MoE. Данные эксперименты были проведены на широком спектре данных, включая тексты, коды, медицинские данные и другие. Результаты показали, что GPT-4o отличается более высоким качеством выдачи для задач, требующих высокой точности, в то время как DeepSeek-V3-0324 показал лучший результат при работе с большими наборами данных и необходимости быстрой адаптации. #################### ## Значимость #################### Полученные результаты имеют большое значение для разных областей применения LLMs. GPT-4o лучше подходит для задач, требующих высокой точности и надежности, таких как государственные сервисы, финансовые услуги и здравоохранение. Другой стороны, DeepSeek-V3-0324 является предпочтительным выбором для эффективных задач, таких как разработка систем чатботов, систем поддержки принятия решений и образовательные
Annotation:
Large Language Models (LLMs) are transforming AI across industries, but their development and deployment remain complex. This survey reviews 16 key challenges in building and using LLMs and examines how these challenges are addressed by two state-of-the-art models with unique approaches: OpenAI's closed source GPT-4o (May 2024 update) and DeepSeek-V3-0324 (March 2025), a large open source Mixture-of-Experts model. Through this comparison, we showcase the trade-offs between closed source models (...
ID: 2508.21377v1 cs.CL, cs.AI, cs.LG, 68T50, 68T07, I.2.7; I.2.6; H.3.3
Авторы:

Sara B. Coutinho, Rafael M. O. Cruz, Francimaria R. S. Nascimento, George D. C. Cavalcanti

#### Контекст Fake news, особенно на платформах социальных медиа, становится все более важной проблемой в связи со своим потенциалом для воздействия на общественное мнение, в том числе в сферах опасности, таких как здравоохранение и политика. Человеческие биазы, такие как проверенный биаз (confirmation bias), делают людей уязвимыми к верификации и распространению ложной информации. Машинное обучение используется для автоматизации процессов факт-чеккинга, чтобы сделать их эффективнее. Одним из эффективных подходов являются методы пакетного классификатора (ensemble methods), которые объединяют несколько моделей классификации для улучшения точности и устойчивости результатов. Однако проблема в том, что подобные системы часто страдают от недостатка разнообразия (diversity) между классификаторами, что приводит к повторению шаблонов и ухудшению их общей точности. Наша работа стремится решить эту проблему, создав метод, оптимизирующий разнообразие в ensemble-классификаторах. #### Метод В нашей работе предлагается новая методика для выбора классификаторов, основанная на принципе разнообразия (diversity) и производительности (performance). Метод начинает с вычисления парных разнообразий (pairwise diversity) между классификаторами, затем применяет группировку в иерархическом кластеринге (hierarchical clustering) для разделения классификаторов на группы на разных уровнях детализации. Отдельная группа классификаторов, каждая из которых представляет собой максимальное разнообразие внутри группы (intra-pool diversity), выбирается на каждом уровне иерархии. Данный процесс повторяется до тех пор, пока не будет выбрана одна группа классификаторов на всей иерархии. Таким образом, метод формирует пул классификаторов, который обеспечивает максимальное разнообразие. Для того, чтобы гарантировать хорошую общую точность ensemble, к каждому классификатору применяется метрика, отражающая его производительность (performance). #### Результаты Мы провести эксперименты с 40 различными классификаторами, работающими на шести разных наборах данных из различных областей применения и с разным количеством классов. Наша методика сравнивалась с двумя основными подходами: геометрическим георгиевым алгоритмом (Elbow heuristic) и современными стандартными методами (state-of-the-art baselines). Результаты показали, что наш подход достиг лучшей точности на двух из шести наборов данных, что демонстрирует его эффективность в создании ensemble-классификаторов с высоким разнообразием и производительностью. Исходный код и подробности имплементации доступны на GitHub: [https://github.com/SaraBCoutinho/HSFN](https://github.com/SaraBCoutinho/HSFN). #### Значимость Наш подхо
Annotation:
Psychological biases, such as confirmation bias, make individuals particularly vulnerable to believing and spreading fake news on social media, leading to significant consequences in domains such as public health and politics. Machine learning-based fact-checking systems have been widely studied to mitigate this problem. Among them, ensemble methods are particularly effective in combining multiple classifiers to improve robustness. However, their performance heavily depends on the diversity of t...
ID: 2508.21482v1 cs.CL, cs.AI, cs.LG
Показано 291 - 300 из 370 записей