📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Aakash Kumar Agarwal, Saprativa Bhattacharjee, Mauli Rastogi, Jemima S. Jacob, Biplab Banerjee, Rashmi Gupta, Pushpak Bhattacharyya
## Контекст
Многочисленные исследования показали, что социальные сети могут стать ценным источником данных для диагностики и мониторинга различных психиатрических расстройств. Однако, несмотря на большой интерес к детекции депрессии с помощью анализа социальных медиа, детекция релапса депрессии остается большой недостиженностью. Это связано с отсутствием клинически валидированных данных и сложностью отделять пользователей, страдающие релапсом, от тех, кто просто пережил депрессию. Наша работа стремится заполнить эту лакуну, предлагая первую клинически валидированную систему для детекции релапса депрессии на основе анализа социальных медиа.
## Метод
Мы предлагаем ReDepress, новый клинически валидированный датасет, состоящий из 204 пользователей из Reddit, каждый из которых был аннотирован клиническими специалистами. Аннотация основывается на теоретических подходах к депрессии, включая такие когнитивные факторы, как зрительный, интерпретирующий и памятный биас, а также рогательство (rumination). Мы используем эти когнитивные факторы как признаки для аннотации датасета и вводим их в машинное обучение для детекции. Основная часть нашего подхода заключается в использовании трансформеров с поддержкой временных данных, что позволяет учитывать последовательность постов пользователя и выделять ключевые паттерны.
## Результаты
Мы проводили статистический анализ и машинное обучение, чтобы оценить эффективность наших признаков. Мы показали, что когнитивные признаки значительно отличают релапс-пользователей от тех, кто не имеет релапса. Трансформер-базированные модели, включающие эти признаки, демонстрируют высокую точность (F1-меру 0.86). Это показывает, что наши результаты не только сравнимы с лучшими результатами в области детекции депрессии, но и превзойдут их в случае релапса.
## Значимость
Помимо детекции депрессии, наша работа также может иметь значительное применение в области мониторинга психического здоровья и предотвращения релапса. Наш подход может быть использован в качестве эффективного инструмента для раннего выявления риска релапса, чтобы предоставить медицинским работникам возможность предпринять профилактические меры. Это также открывает путь к новым, более сложным методам в области психического здоровья, основанных на технологиях машинного обучения.
## Выводы
Мы представили ReDepress, первый клинически валидированный датасет для детекции релапса депрессии, а также предложили методологию, использующую ключевые когнитивные признаки для улучшения детекции. Наши результаты показали высокую эфф
Annotation:
Almost 50% depression patients face the risk of going into relapse. The risk
increases to 80% after the second episode of depression. Although, depression
detection from social media has attained considerable attention, depression
relapse detection has remained largely unexplored due to the lack of curated
datasets and the difficulty of distinguishing relapse and non-relapse users. In
this work, we present ReDepress, the first clinically validated social media
dataset focused on relapse, compris...
📄 Variation in Verification: Understanding Verification Dynamics in Large Language Models
2025-09-24Авторы:
Yefan Zhou, Austin Xu, Yilun Zhou, Janvijay Singh, Jiang Gui, Shafiq Joty
#### Контекст
Тестирование на высоком распределении вычислительных ресурсов (Test-Time Scaling, TTS) позволяет бо LLM генераторам генерировать множество вариантов ответов, которые потом оцениваются БВ на основании своего знания, без использования ответов-справочников. Одним из подходов является использование генерирующих БВ, которые производят цепочку рассуждений (Chain-of-Thought, CoT) и делают окончательное суждение. Текущие исследования направлены на изучение динамики процесса верификации и его зависимости от сложности задачи, способности генератора и БВ. Наша статья посвящена углубленному анализу этих динамик, на основе 12 бенчмарков в сферах математического рассуждения, навыка знаний и естественных языковых задач, используя 14 моделей с параметрами от 2B до 72B.
#### Метод
Мы проводили подробные эксперименты для изучения динамики процесса верификации в бо LLM. Мы измеряли три основных фактора: сложность задачи, способность генератора и БВ. Для этого мы использовали 14 моделей, открытые исходные коды и модель GPT-4o. Мы изучали различные типы задач, включая математический анализ, знания и естественно-языковые тесты. Наши эксперименты позволяли измерить, насколько эффективны разные типы БВ в зависимости от сложности задачи и способности генератора. Мы также проверили, насколько соотношение генератора-верификатор может повлиять на полученные результаты.
#### Результаты
Наши эксперименты показали, что сложность задачи имеет сильное влияние на возможность БВ успешно проверить ответы. Из 12 бенчмарков, мы обнаружили, что БВ могут достигать высоких результатов в простых задачах, но в более сложных случаях их эффективность снижается. Мы также обнаружили, что слабые генераторы, которые производят ошибки, легче определить, чем сильные генераторы, которые могут производить более сложные ошибки. Мы также видим, что увеличение верификатора не всегда приводит к улучшению, так как некоторые БВ, даже слабые, могут выдавать почти тот же результат, что и сильные БВ.
#### Значимость
Наши находки имеют важное значение в развитии технологии БВ. Мы показали, что TTS может быть оптимизировано для различных типов задач, включая математический анализ и естественно-языковые тесты. Мы также обнаружили, что некоторые БВ могут быть оптимизированы для более эффективной работы в зависимости от сложности задачи. Эти результаты могут помочь в развитии более эффективных стратегий верификации, которые могут быть использованы в развитии более продвинутых моделей беспроводной связи. Мы также отме
Annotation:
Recent advances have shown that scaling test-time computation enables large
language models (LLMs) to solve increasingly complex problems across diverse
domains. One effective paradigm for test-time scaling (TTS) involves LLM
generators producing multiple solution candidates, with LLM verifiers assessing
the correctness of these candidates without reference answers. In this paper,
we study generative verifiers, which perform verification by generating
chain-of-thought (CoT) reasoning followed by...
Авторы:
William Fleshman, Benjamin Van Durme
## Контекст
Появление Low-Rank Adaptation (LoRA) превратилось в стандартный подход для эффективного подготовки к работе больших языковых моделей с помощью низкоранжевых адаптеров. Этот подход позволяет создавать большие библиотеки LoRA, каждый из которых нацелен на конкретную задачу или домен. Однако эффективное выбор адаптера для заданного входных данных остается проблемой, особенно в защищенных средах, где настройка рутеров на основе супервизированного обучения может вызывать проблемы в области конфиденциальности. Ранее предложенные подходы, основывающиеся на принципах самостоятельного обучения и активации нормы, предполагали лишь решение частичных задач, не удовлетворяя полностью требованиям по гибкости и безопасности в широком круге применений. Мы рассмотрим новый подход, основывающийся на теоретической модели, которая обеспечивает безопасность и эффективность в работе с LoRA.
## Метод
Мы предлагаем SEQR, алгоритм самостоятельного выбора адаптеров LoRA, который оптимизирует выбор путем активации нормы. Наша методология основывается на теореме о максимальной норме, которая позволяет проверить идею, что норма активации может быть использована для выбора наиболее подходящего адаптера. Мы применяем эту теорию для формализации целей рутера LoRA, который не только должен выбирать адаптер, но и должен обеспечивать уверенность в том, что адаптер будет выбран с минимальными затратами на вычисления. Мы разработали SEQR, который использует законность нормы активации для эффективного выбора адаптера, и предоставили архитектуру, которая обеспечивает высокую производительность и гибкость в различных сценариях применения.
## Результаты
Мы проверили работу SEQR на различных наборах данных, включая задачи с разным количеством адаптеров и различной сложностью. Мы сравнили SEQR с другими существующими методами, такими как LoRA-Router и традиционные методы самостоятельного обучения. Наши эксперименты показали, что SEQR обеспечивает более точный выбор адаптера, чем другие методы, с меньшими затратами на вычисления и более высокой скоростью обработки. Кроме того, мы проверили наши результаты на защищенных данных и показали, что SEQR обеспечивает безопасность не только в области гибкости, но и в области конфиденциальности.
## Значимость
SEQR может быть применен в различных сферах, включая безопасные и эффективные системы рутера для языковых моделей, защищенных приложений, где конфиденциальность и безопасность являются ключевыми аспектами. Наш подход предоставляет более эффективный и надежный способ выбора адаптеров, чем существующие решения. Это может привести к более бы
Annotation:
Low-Rank Adaptation (LoRA) has become a standard technique for
parameter-efficient fine-tuning of large language models, enabling large
libraries of LoRAs, each for a specific task or domain. Efficiently selecting
the correct LoRA adapter for a given input remains a challenge, particularly in
secure environments where supervised training of routers may raise privacy
concerns. Motivated by previous approaches, we formalize the goal of
unsupervised LoRA routing in terms of activation norm maximiza...
Авторы:
Siyang Wu, Zhewei Sun
#### Контекст
Языковые модели (LLMs) становятся все более эффективными в целях понимания и генерации информации, включая информализированные языковые формы, такие как сленг. Однако сленг, широко используемый в разговорной речи, представляет собой сложную структурную проблему для NLP-систем. Несмотря на то, что LLMs показали качественные результаты в задачах сленговой детекции и интерпретации, их общействовательная значимость определяется точностью и глубиной хранящейся ими информации о сленге. Мы сравниваем гуманные и машиннойсgenerated slang usages (сленговые формы), чтобы изучить соответствие генерируемых моделями сленга типичным гуманным употреблениям.
#### Метод
Мы использовали два типа данных: сленговые формы из Online Slang Dictionary (OSD) и генерируемые моделями GPT-4 и Llama-3. Для сравнения анализировали три основных аспекта: 1) систематические ошибки в осмыслении LLMs, которые отражаются в сленговых формах; 2) творческой потенциал моделей, отображаемый в новых терминах и использований слов, а также 3) информативность моделей, использованных для моделирования и улучшения генерации сленга.
#### Результаты
Наше анализируемое сравнение показало, что LLMs эффективно генерируют сленг со структурными сходствами с гуманным сленгом, но существуют заметные ошибки в структуре и ранжировании сленга. Модели хорошо работают в генерации новых терминов, но не достигают полного соответствия лингвистическим моделям, требуемым для анализа. Испытания показали, что LLMs не достаточно многообразны и не отображают социальных и культурных контекстов, которые являются ключевыми для понимания сленга.
#### Значимость
Наш результат имеет значительное значение во многих областях, включая дизайн языковых моделей, моделирование социальных процессов в машинном обучении и создание более гибких инструментов для интерпретации информализированных текстов. Мы показываем, что LLMs могут расширять свои знания сленга, но для приложениив реальной жизни требуется повышение точности и учет социокультурных контекстов.
#### Выводы
Наше исследование показало, что, хотя LLMs широко используемы в задачах сленга, они еще не достигли совершенства в генерации и разборе сленга. Будучи ограничены структурными моделями, LLMs не могут выходить за рамки тренировочных данных. Наше исследование указывает на необходимость добавления более широкой социальной и культурной компоненты в обучение моделей, чтобы улучшить их генерацию и анализ сленга
Annotation:
Slang is a commonly used type of informal language that poses a daunting
challenge to NLP systems. Recent advances in large language models (LLMs),
however, have made the problem more approachable. While LLM agents are becoming
more widely applied to intermediary tasks such as slang detection and slang
interpretation, their generalizability and reliability are heavily dependent on
whether these models have captured structural knowledge about slang that align
well with human attested slang usages...
📄 DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models
2025-09-23Авторы:
Tsz Ting Chung, Lemao Liu, Mo Yu, Dit-Yan Yeung
## Контекст
Логическое разумение естественным языком является ключевым аспектом измерения человеческого интеллекта с помощью Больших Лингвистических Моделей (LLM). Однако существующие бенчмарки, оценивающие логическое разумение, часто склеивают множество разных логических навыков, что приводит к недостоверным оценкам отдельных навыков. Более того, эти бенчмарки ограничены в разнообразии языка и не соответствуют распределению, которое должно иметь идеальный бенчмарк для логического разума. Это может привести к смещенным оценкам производительности. Наша цель — изучить эти проблемы и предложить новый классический бенчмарк для логического разума, который будет более разнообразным и достоверным.
## Метод
Мы предлагаем **DivLogicEval** — новый классический логический бенчмарк, состоящий из природных предложений, которые включают разнообразные утверждения, поднимающие вопросы логики. Данные были созданы с учетом разнообразия языка и логических структур, чтобы обеспечить более достоверный анализ. Также представлен новый метод оценки, который уменьшает влияние биаса и случайности, присущих LLM. Мы проводим эксперименты с различными популярными LLM, чтобы оценить их производительность в логическом разумении.
## Результаты
Мы провели эксперименты с DivLogicEval, использовав разные LLM. Наши результаты показывают, насколько трудно для этих моделей выполнять логический разум, особенно когда задачи требуют изящного логического рассуждения. Мы сравнили результаты различных моделей и выявили сильные и слабые стороны каждой из них. Наш оптимизированный метод оценки позволил избежать биаз и случайности, обеспечив более точные результаты.
## Значимость
Бенчмарк DivLogicEval может быть применен в различных областях, таких как оценка логического разума в LLM, развитие новых логических моделей и исследование новых методов оценки. Он предлагает более разнообразное и достоверное окружение для тестирования логических навыков. Это может привести к улучшению LLM в разделе логического разума и дать новые идеи для будущих исследований в этой области.
## Выводы
Предложенный бенчмарк DivLogicEval демонстрирует значительные достижения в области логического разума для LLM. Он предоставляет более достоверный и разнообразный пример для тестирования логических навыков. В будущем мы планируем расширить DivLogicEval, включив более сложные задачи и продолжить исследовать новые методы оценки для LLM.
Annotation:
Logic reasoning in natural language has been recognized as an important
measure of human intelligence for Large Language Models (LLMs). Popular
benchmarks may entangle multiple reasoning skills and thus provide unfaithful
evaluations on the logic reasoning skill. Meanwhile, existing logic reasoning
benchmarks are limited in language diversity and their distributions are
deviated from the distribution of an ideal logic reasoning benchmark, which may
lead to biased evaluation results. This paper t...
Авторы:
Baichuan Huang, Ananth Balashankar, Amir Aminifar
#### Контекст
В последние годы языковые модели (LLMs) стали основополагающим элементом в многих областях искусственного интеллекта, предоставляя мощные инструменты для обработки естественного языка. Однако одной из вызовов, с которыми сталкиваются разработчики, является эффективное адаптирование этих моделей к конкретным задачам с минимальным потреблением ресурсов. Адаптация моделей часто включает трудоемкие этапы обучения, требующие больших объемов данных и высокой вычислительной мощности. Биазы моделей, или bias terms, являются ключевым элементом в их архитектуре, отвечая за взаимосвязи между словами и фразами. Несмотря на то, что биазы могут быть гибко переобучены для достижения лучшей производительности, существуют ограничения в понимании каких именно биазных элементов нужно изменять для эффективного решения конкретной задачи. Это создает мотивацию для разработки методов, позволяющих выбирать наиболее эффективные биазные элементы для переобучения, повышая таким образом эффективность и экономичность тренировочных процессов.
#### Метод
Методом решения данной проблемы является подход, основанный на выборе наиболее эффективных биазных элементов для переобучения. Мы предлагаем модель, которая определяет наиболее важные биазные термины для задачи, используя метрики, такие как значимость биаза для понимания конкретных классов или примеров. Метод включает в себя несколько этапов:
1. **Идентификация релевантных биазных терминов**: Мы применяем анализ значимости для каждого из биазных элементов, чтобы определить, какие из них влияют на понимание задачи.
2. **Оптимизация параметров биазных терминов**: Используя виджеты, мы переобучаем только подмножество биазных терминов, которые имеют наибольшее влияние на задачу.
3. **Оценка производительности**: Мы используем широкий спектл задач, включая классификацию и генерацию, чтобы проверить эффективность наших методов.
Процесс выбора биазных терминов основывается на объеме данных, а также на специфике задачи, чтобы максимизировать производительность модели с минимальным потреблением ресурсов.
#### Результаты
Мы провели исследования, тренируя модели с различными биазными терминами (query, key, value) и сравнивая их по результатам на разных задачах. Мы выполнили эксперименты на 110M до 6.7B параметров, используя LLMs в различных архитектурах (encoder-only и decoder-only). Результаты показали, что наш подход существенно выигрывает по производительности в сравнении с другими методами, особенно в условиях ограниченных данных. Например, при использовании нашего метода с 110M параметра
Annotation:
Fine-tuning all-bias-terms stands out among various parameter-efficient
fine-tuning (PEFT) techniques, owing to its out-of-the-box usability and
competitive performance, especially in low-data regimes. Bias-only fine-tuning
has the potential for unprecedented parameter efficiency. However, the link
between fine-tuning different bias terms (i.e., bias terms in the query, key,
or value projections) and downstream performance remains unclear. The existing
approaches, e.g., based on the magnitude of...
Авторы:
Claudio Benzoni, Martina Langhals, Martin Boeker, Luise Modersohn, Máté E. Maros
## Контекст
Область исследования — искусственный интеллект в сфере медицины, а именно — автоматическая суммирования радиологических отчетов. Этот вопрос приобретает важность в связи с ростом количества данных в области радиологии, что создает необходимость в эффективных инструментах для автоматического суммирования медицинских текстов. Несмотря на прогресс в области глубокого обучения, абстрактное суммирование всё ещё представляет собой вызов, особенно в ситуациях, когда данные ограничены и потребность в точности высока. Целью данной работы является исследование и анализ процесса адаптации нейронных сетей семейства PEGASUS к специализированной области — радиологическим отчетам. Ещё одной целью является определение оптимальных параметров моделей и изучение рисков переобучения и недообучения при малом объёме данных.
## Метод
Для решения поставленных задач использовались модели PEGASUS и PEGASUS-X. Подход к адаптации заключался в гибком модифицировании этих моделей, включая fine-tuning с использованием специально подготовленной медицинской выборки. Для оценки моделей использовались метрики семантической и лексической точности, включая BLEU, ROUGE, METEOR. Модели тренировались на данных, содержащих 230 тысяч реальных радиологических отчетов. Выборка данных была разделена на train/validation/test в соотношении 80/10/10. Для каждой модели проводился эксперимент с разными размерами моделей, чтобы изучить влияние размера на обучение.
## Результаты
PEGASUS демонстрировал различные этапы тренировки, включая "двойное убывание" и "пика, падение и восстановление". PEGASUS-X, при использовании большего размера модели, показал снижение производительности по сравнению с меньшим размером модели. Семантические и лексические метрики показали, что при малом объёме данных модель PEGASUS-X в ситуациях ошибочного размера модели может работать хуже, чем PEGASUS. Эта ситуация подчёркивает острость проблемы в случае недостатка данных и высокой выразительности моделей.
## Значимость
Результаты имеют практическое применение в сфере медицины, особенно в автоматизации суммирования радиологических отчетов. Модели PEGASUS могут быть применены для создания эффективных систем, которые уменьшают время, затрачиваемое на ручное суммирование клинических данных. Благодаря этому можно улучшить качество и эффективность работы врачей. Это также открывает пути для дальнейшего исследования методов fine-tuning моделей с высоким уровнем выразительности в ситуациях с ограниченным количеством данных.
## Выводы
Данная работа показывает, что адаптация моделей PEGASUS к специализированным данным мож
Annotation:
Regardless of the rapid development of artificial intelligence, abstractive
summarisation is still challenging for sensitive and data-restrictive domains
like medicine. With the increasing number of imaging, the relevance of
automated tools for complex medical text summarisation is expected to become
highly relevant. In this paper, we investigated the adaptation via fine-tuning
process of a non-domain-specific abstractive summarisation encoder-decoder
model family, and gave insights to practitio...
Авторы:
Karan Dua, Puneet Mittal, Ranjeet Gupta, Hitesh Laxmichand Patel
#### Контекст
Тренировка высококачественных Text-to-Speech (TTS) моделей требует обширных и разнообразных наборов текстовых и звуковых данных. Однако приобретение таких данных из реальных источников становится сложной задачей из-за проблем, таких как доменная специфичность, лицензирование и масштабируемость. Большие языковые модели (LLMs) могут генерировать текстовые данные, однако часто создают повторяющийся текст с недостаточной разнообразностью во входных запросах. Другой важный аспект в TTS-тренировке — это нормализация текста. Инструменты нормализации могут вводить аномалии или пропускать ценные шаблоны, что влияет на качество данных. Большие масштабы синтезированных речевых данных становятся недоступными без использования голоса артистов для рекординга, что становится выгодным для только определенных моделей TTS. Для решения этих проблем мы предлагаем SpeechWeave — современный подход к генерированию синтетических данных для подготовки моделей TTS.
#### Метод
SpeechWeave — это современная многоязычная система генерирования синтетических текстов и аудио, разработанная для эффективной подготовки моделей TTS. Методология использует генеративные модели LLMs, специально настроенные для создания разнообразных текстов и звуковых сигналов. Основные этапы методики включают: 1) генерацию текста с учетом языковой и доменной специфики; 2) добавление разнообразия в текст с помощью процедур нормализации и синтеза; 3) генерацию аудио с помощью автоматизированных синтезирующих моделей. SpeechWeave сочетает в себе технологии нормализации текста и генерации синтетического звука, обеспечивая высококачественные и разнообразные данные для тренировки моделей TTS.
#### Результаты
В экспериментах был использован набор данных с различными языками и доменами. SpeechWeave сгенерировал текстовые и аудио данные, показав разнообразие от 10% до 48% по метрикам языковой разнообразности и графемо-фоноемисования. Обнаружено, что нормализация текста достигла 97% точности, с минимальным количеством аномалий. Также, синтетические аудио данные были генерированы с высоким уровнем согласованности в речевых характеристиках, что важно для улучшения качества моделей TTS. Эти результаты иллюстрируют мощь SpeechWeave в создании производительных и качественных синтетических данных для TTS.
#### Значимость
SpeechWeave может применяться в различных сферах, включая образовательные ресурсы, коммерческие системы TTS и лингвистические исследования. Основные преимущества — это увеличение разнообразия в текстовых и аудио данных, нормализация
Annotation:
High-quality Text-to-Speech (TTS) model training requires extensive and
diverse text and speech data. It is challenging to procure such data from real
sources due to issues of domain specificity, licensing, and scalability. Large
language models (LLMs) can certainly generate textual data, but they create
repetitive text with insufficient variation in the prompt during the generation
process. Another important aspect in TTS training data is text normalization.
Tools for normalization might occasi...
Авторы:
Roman Kovalchuk, Mariana Romanyshyn, Petro Ivaniuk
#### Контекст
Граматическое исправление ошибок (GEC) является важной областью искусственного интеллекта, нацеленной на автоматическое исправление грамматических и пунктуационных ошибок в текстах. Несмотря на то, что имеются развитые решения для английского языка, проблематичностью для текущих исследований является недостаток качественных многоязычных данных для обучения и оценки GEC-систем. Данная проблема становится особенно заметной при попытке адаптировать англоязычные модели GEC к другим языкам, где данных для обучения относительно мало. Мотивируя нашу работу, наша цель заключается в создании многоязычного датасета, который может помочь решить эту проблему и улучшить развитие многоязычных моделей GEC.
#### Метод
Для решения этой проблемы мы предлагаем OmniGEC, коллекцию многоязычных датасетов для GEC, охватывающую 11 языков: Чешский, Английский, Эстонский, Немецкий, Греческий, Исландский, Итальянский, Латышский, Словенский, Шведский и Украинский. Тексты в этих датасетах были получены из трех источников: 1) Изменения в Википедии на 11 языках, 2) Различные подredditы на этих языках, а также 3) Украинский социально-медийный корпус UberText 2.0. Записи из Википедии были созданы через ручное исправление ошибок, тогда как данные из Reddit и UberText 2.0 были автоматически исправлены с использованием модели GPT-4o-mini. Мы также провели эVALУАЦИЮ КАЧЕСТВА исправленных данных, как автоматически, так и вручную, чтобы гарантировать их качество.
#### Результаты
Мы использовали данные OmniGEC для оценки и файн-тюнинга двух моделей: Aya-Expanse (8B) и Gemma-3 (12B). Эти модели были обучены на многоязычных данных OmniGEC, и результаты показали состояние технологии (SOTA) для задачи многоязычного GEC на уровне абзацев. Мы также провели автоматическую валидацию, чтобы убедиться в постоянном улучшении качества исправлений по сравнению с другими существующими моделями.
#### Значимость
Область применения OmniGEC широка. Этот датасет может быть использован для развития новых многоязычных моделей GEC, а также для адаптации англоязычных моделей к другим языкам. Одним из преимуществ является то, что OmniGEC помогает устранить недостаток качественных многоязычных данных, который характерен для многих языков. Это ведет к повышению точности и общей эффективности GEC-систем. Потенциальное влияние этого исследования заключается в том, что оно может привести к более точным и доступным решениям для GEC в многоязычных средах.
#### Выводы
В ходе этой работы мы представили OmniGEC, первый много
Annotation:
In this paper, we introduce OmniGEC, a collection of multilingual
silver-standard datasets for the task of Grammatical Error Correction (GEC),
covering eleven languages: Czech, English, Estonian, German, Greek, Icelandic,
Italian, Latvian, Slovene, Swedish, and Ukrainian. These datasets facilitate
the development of multilingual GEC solutions and help bridge the data gap in
adapting English GEC solutions to multilingual GEC. The texts in the datasets
originate from three sources: Wikipedia edits...
Авторы:
Yihan Cao, Yanbin Kang, Zhengming Xing, Ruijie Jiang
#### Контекст
Современные модели естественного обучения моделируют знания сложными нейронными сетями, которые требуют больших ресурсов для обучения и работы. Для облегчения этих моделей используется техника знаний классификации (Knowledge Distillation, KD). Она позволяет передавать знания от большой модели-учителя (teacher) к меньшей модели-ученице (student). В контексте больших моделей естественного языка (LLM), метод минимизации количества приближения (KL-divergence) между распределениями выходов учителя и ученицы стал одним из стандартных подходов. Однако, при этом существует предположение, что выходные распределения учителя и ученицы должны иметь один и тот же оптимальный представительный пространство, что может быть неверно в реальных ситуациях. Это ограничение может привести к неэффективному обучению ученицы. Для решения этой проблемы предлагается Delta Knowledge Distillation (Delta-KD), что позволяет ученице аппроксимировать более точно оптимальное пространство знаний учителя.
#### Метод
Delta-KD является расширением токенного метода классификации знаний (token-level KD). Он применяет дополнительное преобразование, позволяющее ученице аппроксимировать не только распределение учителя, но и использовать шаг преобразования (Delta), который возникает в процессе супервизованного оптимизационного процесса учителя. Идея заключается в том, чтобы ученица не только запоминала распределение учителя, но и адаптировалась к представительному пространству, которое возникает в ходе обучения учителя. Этот подход учитывает различия в распределениях между учителем и ученицей и позволяет ученице более эффективно учиться на примере учителя.
#### Результаты
Проведенные эксперименты показывают, что Delta-KD существенно повышает производительность ученицы на задачах генерации текста, основанных на метрике ROUGE. Эти результаты показывают, что Delta-KD не только повышает точность генерации ученицы, но и сохраняет больше знаний учителя, чем традиционный подход токенов-KD. Это подтверждается сравнением результатов на нескольких датасетах, где Delta-KD показывает значительное преимущество по метрике ROUGE в сравнении с другими методами.
#### Значимость
Delta-KD может быть применено в различных областях, где необходимо масштабировать модели естественного языка, например, в области генерации текста, моделирования диалогов и анализа текста. Он предоставляет более эффективный способ передачи знаний от учителя к ученице, что делает модели более удобными для использования в реальных сценариях. Важное преимущество Delta-KD заключается в том, что он улучшает качество генерируемого текста без потери значительных знаний от учителя, что делает его выгодным для разработки мелких моделей, которые
Annotation:
Knowledge distillation (KD) is a widely adopted approach for compressing
large neural networks by transferring knowledge from a large teacher model to a
smaller student model. In the context of large language models, token level KD,
typically minimizing the KL divergence between student output distribution and
teacher output distribution, has shown strong empirical performance. However,
prior work assumes student output distribution and teacher output distribution
share the same optimal represen...
Показано 251 -
260
из 370 записей