📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Yueyi Wang, Qiyao Wei
#### Контекст
Область исследования связана с использованием бо LLM (large language model) для автоматической аннотации твитов по компаниям, с целью выявления сигналов для стратегий альфа-трейдинга. Данная область имеет важное значение в связи с ростом интереса к неструктурированным данным, таким как социальные медиа, как источник новых сигналов для финансового прогнозирования. Несмотря на значительный прогресс в области обработки естественного языка, существуют сложности при трансформации неструктурированного текста в упорядоченные множественные меток событий. Выявление этих событий, а также их связь с финансовыми показателями, является ключевым заданием для создания новых альфа-сигналов. Еще одна проблема заключается в том, что многие существующие подходы недостаточно транспаренты, что ограничивает их научную значимость и применяемость.
#### Метод
Методология основывается на следующих этапах:
1. **Извлечение и подготовка данных**: Используется корпус твитов, относящихся к компаниям, в который внедрен теггинг на основе лингвистических моделей для выявления ключевых слов и фраз, относящихся к сентименту.
2. **Автоматическая аннотация с помощью LLM**: Используется модель, которая автоматически ставит множественные метки событий для твитов с высоким уровнем сентимента.
3. **Трансформация данных**: Метки событий сопоставляются с данными о ценах активов за периоды времени от 1 до 7 дней.
4. **Оценка эффективности**: Данные связываются с финансовыми показателями, включая нормированные нормальные возвраты (normalized forward returns), Sharpe ratio и информационные коэффициенты (IC).
5. **Прозрачность и репликабильность**: Весь код и методология, использованные в исследовании, доступны в открытом доступе, чтобы обеспечить исчерпывающую проверку результатов.
#### Результаты
Проведены эксперименты, на основе которых выявлены следующие результаты:
1. **Аннотация событий**: Большая часть твитов была успешно трансформирована в множественные метки событий (например, "earnings", "mergers", "product launches").
2. **Статистическая связь**: Несколько событий, связанных с отрицательным альфа, были выявлены с высокой статистической значимостью (например, Sharpe ratio -0.38 и IC > 0.05).
3. **Торговаемость**: Определены ситуации, в которых некоторые событийные метки демонстрируют значительный потенциал для торговых стратегий.
4. **Прозрачность**: Все методы, результаты и код доступны в открытом доступе, чтобы обеспечить репликацию исследования.
#### Значимость
Исследование продемонстрировало значительный потенциал Бо LLM в области
Annotation:
In this study, we wish to showcase the unique utility of large language
models (LLMs) in financial semantic annotation and alpha signal discovery.
Leveraging a corpus of company-related tweets, we use an LLM to automatically
assign multi-label event categories to high-sentiment-intensity tweets. We
align these labeled sentiment signals with forward returns over 1-to-7-day
horizons to evaluate their statistical efficacy and market tradability. Our
experiments reveal that certain event labels cons...
Авторы:
Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, Graham Neubig
## Контекст
В последние годы технологии многоязычных эллиптичных текстов (LLMs) постепенно вносят изменения в области искусственного интеллекта. Однако существуют заметные проблемы, особенно в сфере многомодальных моделей. Эти модели часто сталкиваются с трудностями при работе с редкими культурными сущностями, поскольку им недостаточно культурной информации для точного понимания и интерпретации. Это приводит к ошибкам в обработке информации в низкоресурсных языках и культурах, что снижает доверие к подобным системам.
Причина этого заключается в том, что многие многомодальные модели обучаются на ограниченном количестве данных, которые часто не представляют собой полное или точное представление реального мира. Это особенно важно в контексте культурных сущностей, так как понимание культурных традиций, символов и терминов необходимо для точного интерпретирования ими модели.
Мотивация для этого исследования лежит в том, чтобы улучшить модели таким образом, чтобы они могли более точно интерпретировать культурные сущности и работать эффективно в низкоресурсных средах. Это является ключевым шагом для создания более включающих и универсальных многомодальных систем.
## Метод
Чтобы улучшить точность интерпретации культурных сущностей, авторы предлагают ввести систему, которая позволяет моделям более глубоко понимать культурные явления. Основной идеей является создание целых культурных знаний, которые машина могла бы использовать для понимания интерпретации редких культурных сущностей.
В этой работе используется большой граф культурных данных, полученный из Wikidata. Этот граф позволяет собирать изображения, представляющие культурные сущности, а также генерировать синтетические данные для визуальных задач вопросов-ответов (VQA). Эти данные построены таким образом, чтобы включать различные культурные сущности из разных стран и языков.
Основная методика состоит в использовании многоязычных данных для тренировки модели, что позволяет модели не только работать с визуальными данными, но и понимать текст в разных языках. Это позволяет модели добиться более широкого спектра интерпретаций, учитывая как визуальные, так и текстовые аспекты культурных сущностей.
## Результаты
Для экспериментов использовались различные многоязычные базы данных, включая данные из Wikidata и синтетические данные VQA. Эксперименты показали, что модель, обученная на этих данных, показала значительные улучшения в понимании культурных сущностей по сравнению с предыдущими моделями.
В частности, модель существенно улучшила свои резуль
Annotation:
Multimodal Large Language Models excel in high-resource settings, but often
misinterpret long-tail cultural entities and underperform in low-resource
languages. To address this gap, we propose a data-centric approach that
directly grounds MLLMs in cultural knowledge. Leveraging a large scale
knowledge graph from Wikidata, we collect images that represent culturally
significant entities, and generate synthetic multilingual visual question
answering data. The resulting dataset, CulturalGround, com...
📄 Assessing LLM Text Detection in Educational Contexts: Does Human Contribution Affect Detection?
2025-08-13Авторы:
Lukas Gehring, Benjamin Paaßen
## Контекст
Одной из ключевых проблем в современной осуществленности образования является использование технологий ИИ для генерации текстов. Развитие бо Large Language Models (LLMs) позволило студентам автоматически создавать работы, способствуя новым вызовам в области научного честного ведения исследований. В связи с этим, возникает необходимость развития методов локализации LLM-текстов в образовательных контекстах. Эти методы помогают обеспечить строжайшую академическую ценность и поддерживать индивидуальное образовательное процесс студентов. Но новые методы требуют подробного исследования, так как определение того, какие тексты были созданы с использованием LLMs, также дает проблемы в том числе относительно ложного положительного результата, который может серьезно повлиять на общую жизнь студентов.
## Метод
Для работы по оценке LLMs использована методика создания нового датасета Generative Essay Detection in Education (GEDE). Датасет включает 900+ студенческих работ и 12,500+ LLM-текстов, созданных в различных сферах. Для лучшего охвата практик использования LLMs для генерации текстов, введены понятия "уровней участия", описывающие уровень участия студента в создании текста. Эти уровни включают тексты, созданные только студентами, тексты, которые были чуть-чуть улучшены с помощью LLMs, тексты, созданные полностью с помощью LLMs, и тексты, которые были изменены студентами для активного противодействия детекторам.
## Результаты
В результате экспериментов проводилось оценка различных детекторов текстов, созданных с использованием LLMs. Обнаружено, что большинство детекторов испытывают трудности в точном классификации текстов средних уровней участия студента, например, текстов, которые были чуть улучшены с помощью LLMs. Это приводит к частым ложным положительным результатам, что может оказаться непозволительно для образовательных организаций, так как ложное обвинение может иметь серьезные последствия для студентов.
## Значимость
Результаты имеют значимость для различных областей, в том числе образования, технологий, исследования критических аспектов ИИ. Этот подход может помочь в обеспечении честного ведения исследований и поддержке студентов в их образовательных усилиях. Наиболее важно, что данный мониторинг может помочь предотвратить чрезмерное использование ИИ в образовательных процессах.
## Выводы
На основе полученных результатов можно сделать вывод, что хотя LLM-тексты могут быть сложными для детектирования, возникают ложные положительные результаты, которые могут негативно сказаться на образовательных
Annotation:
Recent advancements in Large Language Models (LLMs) and their increased
accessibility have made it easier than ever for students to automatically
generate texts, posing new challenges for educational institutions. To enforce
norms of academic integrity and ensure students' learning, learning analytics
methods to automatically detect LLM-generated text appear increasingly
appealing. This paper benchmarks the performance of different state-of-the-art
detectors in educational contexts, introducing ...
Авторы:
Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
## Контекст
Поиск и сортировка актуальной информации является важной задачей в различных областях, от поисковых систем до рекомендательных систем. Несмотря на успех глубоко обученных моделей, проблемы с недостаточной силой логического моделирования и ограниченным доступом к качественному обучающему данным существуют. Эти проблемы сказываются на качестве результатов поиска, особенно при работе с сложными запросами. Обеспечение сильной логической модели и создание методологии, позволяющей улучшить качество рейтинга, являются целями этого исследования.
## Метод
Разработана модель ReasonRank, которая использует широкомасштабное моделирование слов с помощью Large Language Models (LLM) для выполнения рейтинга. Для повышения модели силами логического моделирования, разработана методика автоматического синтеза тренировочных данных на основе DeepSeek-R. Данные подвергаются фильтрации с помощью системы самоконсистентности, чтобы обеспечить их качество. Далее, применена последовательная постобучениевая методика. В первой стадии используется супервизированное тренирование для выделения шаблонов успешного логического моделирования. Во второй стадии применяется развитие модели через глубокое обучение с подкреплением (RL), где используется многообзорная оценка результатов для повышения рейтинга.
## Результаты
Реализованная модель протестирована на нескольких наборах данных, в том числе BRIGHT. Эксперименты показали, что ReasonRank превосходит существующие модели по метрикам качества рейтинга. На BRIGHT leaderboard ReasonRank достиг рекордного результата 40.6, показав значительное превосходство по сравнению с другими решениями. Благодаря использованию многообзорной оценки, модель достигла лучшего баланса между точностью и скоростью работы.
## Значимость
Предложенная модель ReasonRank устанавливает новый стандарт в области развития логического моделирования в пассаж-рейтинге. Она применима не только в поисковых системах, но и в рекомендательных системах, во временной динамике. Модель отличается низкой задержкой, что делает её привлекательной для реального времени. Будущие исследования будут фокусированы на расширении модели для более сложных сценариев и улучшении её универсальности для различных приложений.
Annotation:
Large Language Model (LLM) based listwise ranking has shown superior
performance in many passage ranking tasks. With the development of Large
Reasoning Models, many studies have demonstrated that step-by-step reasoning
during test-time helps improve listwise ranking performance. However, due to
the scarcity of reasoning-intensive training data, existing rerankers perform
poorly in many complex ranking scenarios and the ranking ability of
reasoning-intensive rerankers remains largely underdevelop...
Авторы:
Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg
## Контекст
Улучшение качества речевого распознавания является ключевым заданием в машинном обучении, особенно в задачах ASR (Automatic Speech Recognition). Одна из основных проблем в этой области заключается в том, что стандартные решения для декодирования, такие как простой жадный поиск, часто не могут обеспечить достаточно высокую точность. Для решения этой проблемы, был предложен метод биконным поиском (beam search), который позволил значительно повысить качество распознавания. Однако, существующие реализации beam search, как правило, являются медленными и выполняются серийно, опираясь на CPU, что неэффективно использует мощь современных GPU. Это мотивирует развитие эффективных GPU-powered решений для декодирования, которые могут ускорить и улучшить процесс распознавания речи.
## Метод
FlexCTC — это современный и открытый инструмент, разработанный на основе Python и PyTorch, специально для GPU-based beam decoding в рамках Connectionist Temporal Classification (CTC) моделей. Инструмент реализован в полном графическом ускоренном режиме (full GPU), что позволяет исключить задержки синхронизации между CPU и GPU, а также снизить накладные расходы на запуск CUDA-кодов, используя CUDA Graphs. Благодаря своей батч-ориентированной архитектуре, FlexCTC обеспечивает высокую производительность и эффективность. Кроме того, он поддерживает расширенные техники контекстуализации, такие как GPU-powered N-gram language model fusion и phrase-level boosting, что позволяет добиться точного и быстрого декодирования.
## Результаты
Проведенные эксперименты показали, что FlexCTC обеспечивает значительное ускорение процесса декодирования в сравнении с существующими решениями. Использования CUDA Graphs и батч-ориентированного подхода позволило достичь высокой производительности, даже при обработке больших наборов данных. Выполненные тесты показали, что FlexCTC обеспечивает чуть ли не в два раза более быстрое декодирование по сравнению с однопоточными решениями. Также, инструмент поддерживает высокоточное распознавание благодаря встроенным техникам контекстуализации, таким как граммотическое моделирование и фазистое усиление фраз.
## Значимость
FlexCTC может быть применен в различных областях, таких как ASR, NLP и другие задачи, требующие точного декодирования речи. Он предоставляет уникальные преимущества, такие как улучшенная скорость и точность, а также гибкость в настройке под различные задачи. Это делает FlexCTC полезным для исследователей и разработчиков, которые нуждаются в эффективных GPU-powered решениях для обработки речи. Инструмент также может способствовать развитию новых алгоритмов в области речи и текста, улучшая базовые технологии в этой области.
## Выводы
FlexCTC — это мощный и эффективный инструмент для GPU-based beam decoding, разработанный с учетом современных
Annotation:
While beam search improves speech recognition quality over greedy decoding,
standard implementations are slow, often sequential, and CPU-bound. To fully
leverage modern hardware capabilities, we present a novel open-source FlexCTC
toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal
Classification (CTC) models. Developed entirely in Python and PyTorch, it
offers a fast, user-friendly, and extensible alternative to traditional C++,
CUDA, or WFST-based decoders. The toolk...
📄 Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach
2025-08-13Авторы:
Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li
## Контекст
Обучение и оценка доменно-специальных бо LLM (Large Language Models) являются ключевыми аспектами их применения в специализированных областях. Несмотря на то что многочисленные бенчмарки были разработаны для оценки этих моделей, существуют проблемы с эффективностью и эффективностью их построения. Большинство существующих бенчмарков фокусируются на масштабировании за счет огромных корпусов для подготовки или порождения обширных наборов вопросов для широкого покрытия. Однако не достаточно изучено влияние корпуса и набора вопросов-ответов (QA) на точность и полноту доменных LLMs. Мотивация для данного исследования заключается в изучении этих зависимостей и разработке более эффективного подхода к построению бенчмарков для доменных LLMs.
## Метод
Мы предлагаем Comp-Comp, новый фреймворк для построения бенчмарков, основанный на принципе сочетания полноты (comprehensiveness) и сжатости (compactness). Метод Comp-Comp работает в итеративном режиме, где полнота гарантирует комплексность семантического покрытия домена, а сжатость улучшает точность модели. Этот подход применяется как для построения корпуса, так и для создания набора вопросов и ответов. Мы используем методы семантической обработки текста, адаптированные для этих задач, которые позволяют эффективно отбирать и оценивать материалы на каждом этапе построения бенчмарка.
## Результаты
Мы провели эксперименты с XUBench, бенчмарком, созданным на основе Comp-Comp, используя домен академический. Эксперименты показали, что наш подход значительно улучшает точность и полноту доменных моделей LLMs по сравнению с традиционными методами. Мы также провели сравнение с другими бенчмарками, установив, что XUBench предоставляет более качественную оценку моделей, обеспечивая более точные результаты. Бенчмарк XUBench также продемонстрировал широкую эффективность в оценке моделей на различных доменах, не ограничиваясь только академическим.
## Значимость
Наша работа доказывает, что при построении бенчмарков для доменных LLMs не всегда эффективно следовать закону масштабирования. Метод Comp-Comp обеспечивает более компактный и эффективный подход, позволяющий повысить точность и полноту оценки моделей. Этот подход может быть распространен на различные сферы применения, включая медицину, юриспруденцию, и другие, помимо академии. Мы видим будущие направления исследований в расширении Comp-Comp для решения задач в новых областях и улучшении его адаптации к различным доменам.
## Выводы
Мы представили Comp-Comp, новый фреймворк для построения бенчмарков, который призван обеспечить более эффективную и точную оценку доменных LLMs. Мы продемонстрировали эффективность этого подхода на XUBench в до
Annotation:
Numerous benchmarks have been built to evaluate the domain-specific abilities
of large language models (LLMs), highlighting the need for effective and
efficient benchmark construction. Existing domain-specific benchmarks primarily
focus on the scaling law, relying on massive corpora for supervised fine-tuning
or generating extensive question sets for broad coverage. However, the impact
of corpus and question-answer (QA) set design on the precision and recall of
domain-specific LLMs remains unexp...
Авторы:
Jesse Ponnock
## Контекст
Генерируемое искусственное интеллектуальное обеспечение (Generative Artificial Intelligence, GAI) получило огромное распространение в сфере технических и профессиональных услуг, где Аппаратное Интеллектуальное Обеспечение (AI) ранее считалось невозможным для автоматизации. Это новаторский подход обеспечивает значительные повышения эффективности и уменьшение расходов в многомерной сфере, в том числе в разработке стратегических планов для крупных организаций. Однако существуют вызовы в технической реализации и эффективном использовании GAI в таких контекстах. Большая часть работы, основывающихся на генерируемом искусственном интеллекте, остается недокументированной или закрытой, что ограничивает комплексное понимание способности GAI в разработке стратегических планов. Данная статья проводит оценку текущих возможностей и модели, а также определяет возможности использования таких моделей в процессе разработки стратегических планов.
## Метод
Для разработки стратегических планов в крупных организациях, таких как правительственные органы, предлагается модульная модель, позволяющая использовать GAI. Одна из модулей, концентрирующаяся на тематическом моделировании (topic modeling) для генерирования тем, представляющих "видения" в рамках стратегического плана, была выбрана для подробного анализа. Для этого были применены методы BERTopic и Non-negative Matrix Factorization (NMF) к большому объему отчетов, предоставленных Government Accountability Office (GAO). Использование этих методов позволило генерировать темы, которые позже были сравнены с "видениями", изложенными в стратегических планах. Экспериментальная часть включала обучение моделей, оценку полученных результатов и сравнение их с исходными данными.
## Результаты
Было определено, что оба исследованные методы — BERTopic и NMF — способны генерировать темы, представляющие собой подходящие "видения" в рамках стратегического плана. Однако BERTopic показал более высокую эффективность, с корреляцией более чем половины тем с "видениями", определенными в стратегических планах. Это означает, что BERTopic может лучше адаптироваться для генерирования тем, отражающих стратегические цели и подходы. Эти результаты подтверждают, что генерируемое искусственное интеллектуальное обеспечение может быть эффективно использовано в процессе разработки стратегических планов.
## Значимость
Результаты этого исследования имеют практическое значение для многомильных-долларовой отрасли стратегического планирования и поддержки правительственных органов. Этот подход может существенно снизить затраты, уменьшить время, необходимое для разработки планов, и обеспечить
Annotation:
Given recent breakthroughs in Generative Artificial Intelligence (GAI) and
Large Language Models (LLMs), more and more professional services are being
augmented through Artificial Intelligence (AI), which once seemed impossible to
automate. This paper presents a modular model for leveraging GAI in developing
strategic plans for large scale government organizations and evaluates leading
machine learning techniques in their application towards one of the identified
modules. Specifically, the perfo...
📄 CP-Agent: Agentic Constraint Programming
2025-08-13Авторы:
Stefan Szeider
## Контекст
Constraint Programming (CP) является мощным подходом к решению разнообразных задач, особенно тех, которые могут быть представлены в виде ограничений. Однако главной проблемой этого подхода является трудность перевода проблем, описанных на человеческом языке, в обобщенные модели ограничений. Эта задача требует глубоких знаний в области задачи и навыков моделирования в CP. На сегодняшний день существуют стандартные рабочие процессы для автоматизации этой задачи, однако они часто ограничиваются фиксированными пайплайнами и не могут успешно решить многие реальные задачи. Наша мотивация заключается в разработке нового подхода, который бы старался решить проблему с использованием гибкого, agent-based подхода без использования фиксированного pipeline.
## Метод
Мы предлагаем **CP-Agent**, который основывается на принципе **ReAct (Reason and Act)**. Этот pure agent-based подход не требует фиксированной модели для решения задач. Основным инструментом является общего назначения Python-based кодинговый agent, работающий в сочетании с **IPython kernel**, что обеспечивает stateful code execution и iterative development. Агент не встраивает никакого constraint programming logic в свою структуру. Вместо этого он получает достаточное количество domain-specific knowledge через специально сконструированное project prompt. Этот prompt включает в себя все необходимые модели, формат и ограничения, которые требуются для решения задачи. Агент также имеет доступ к файловой системе, а также способен выполнять код, тестировать гипотезы и верифицировать решения. Такой подход позволяет ему быть гибким и адаптироваться к различным задачам без нужды в предварительном определении логики.
## Результаты
Мы проверили наше решение на **CP-Bench**, который содержит 101 задач constraint programming. CP-Agent успешно решил все эти задачи, показывая высокую гибкость и эффективность. Мы также провели анализ качества решений и заметили, что агент не только смог решить задачи, но и адаптировался к различным форматам и ограничениям. Это доказывает, что данный подход эффективен и может быть применен в различных областях, где требуется моделирование ограничений.
## Значимость
Предлагаемый подход имеет большое количество областей применения, включая сферы, где требуется автоматизация моделирования ограничений, такие как логистика, распределение ресурсов, проектирование и даже в области AI-based decision-making. В отличие от других методов, CP-Agent предлагает более гибкий и адаптивный подход, который не требует предварительного определения моделей или рабочих процессов. Это делает его применимым в ситуациях, где задачи могут быть разнообразными и нестандартными.
## Выводы
Мы доказали, что constraint modeling может быть эффективно решено с помощью agentic подходов, которые не требуют фиксированных моде
Annotation:
Translating natural language problem descriptions into formal constraint
models remains a fundamental challenge in constraint programming, requiring
deep expertise in both the problem domain and modeling frameworks. Previous
approaches to automating this translation have employed fixed workflows with
predetermined modeling steps, failing on a significant number of benchmark
problems. We present a new approach using a pure agentic strategy without any
fixed pipeline. We developed a general-purpos...
Авторы:
Aswin RRV, Jacob Dineen, Divij Handa, Md Nayem Uddin, Mihir Parmar, Chitta Baral, Ben Zhou
#### Контекст
Современные тестируемые широковезучные языковые модели (LLMs) обладают способностью выполнять многошаговую мысль и саморефлексию. Однако многие из этих моделей не обладают исходной способностью мыслить и анализировать. Вместо этого они так называемые "мыслящие" способности приобретают, опираясь на результаты работы генетического алгоритма. Это означает, что возможности мыслить не формируются действительно внутри модели, а просто обнаруживаются и используются. Поэтому, возникает вопрос: можно ли научить модели, которые не обладают естественной способностью мыслить, развить эту способность самостоятельно? В нашем исследовании мы предлагаем ThinkTuning — метод, основанный на подкреплении взаимодействия с целью развития модели не только саморазвития, но и рационального мышления.
#### Метод
ThinkTuning предлагает интерактивный подход для обучения модели с использованием градиентного подкрепления на основе политик (GRPO). Мы используем метод обучения, который подобен занятиям с учителем. Учитель (teacher-model) предлагает задачу, позволяет ученику (student-model) попробовать решить ее самостоятельно, а затем предоставляет корректирующую информацию, указывая на правильный путь. Эта корректировка помогает модели раскрыть внутреннее потенциальное мышление, которое позволяет правильно решить задачу. Итак, мы используем градиентный подкрепление для учителя, а затем используем его для улучшения модели-ученика. Метод был протестирован на различных данных, в том числе на бенчмарках MATH-500, AIME и GPQA-Diamond, показав положительные результаты по сравнению с базовым GRPO.
#### Результаты
Мы провели эксперименты для оценки ThinkTuning на нескольких датасетах, в том числе на MATH-500, AIME и GPQA-Diamond. Наша модель показала средний выигрыш в производительности в 3,85% по сравнению с нулевым шагом (zero-shot). На MATH-500, AIME и GPQA-Diamond, ThinkTuning показала поимки в 2,08%, 2,23% и 3,99% соответственно по сравнению с базовым GRPO. Эти результаты показали, что ThinkTuning позволяет модели без начальной способности мыслить развить этот навык, а также повысить свои результаты на задачах, требующих многошаговой логической работы.
#### Значимость
Развитие моделей, которые могут мыслить и саморефлексироваться, имеет значимую значимость в области ИИ. Например, такие модели могут быть использованы в преподавании, диагностике, и сложных задачах, требующих комплексного анализа. ThinkTuning предлагает новый подход к развитию этих способностей, не зависящий от предварительного создания базы знаний, что может упростить развитие новых моделей, которые могут выполнять сложные рассуждения
Annotation:
Recent advances in test-time scaling have led to the emergence of thinking
LLMs that exhibit self-reflective behaviors and multi-step reasoning. While RL
drives this self-improvement paradigm, a recent study (Gandhi et al., 2025)
shows that RL alone does not truly instill these new reasoning abilities - it
merely draws out behaviors already present in the base models. This raises a
question: How can we train the models that don't exhibit such thinking behavior
to develop it in the first place? T...
Авторы:
Weitai Kang, Weiming Zhuang, Zhizhong Li, Yan Yan, Lingjuan Lyu
## Контекст
В последние годы многомодальные большие языковые модели (MLLMs) стали центром внимания в искусственном интеллекте, особенно в сфере обработки текста и визуальной информации. Одной из ключевых задач, с которой сталкиваются эти модели, является **визуальная граундинг (Visual Grounding, VG)** — техника, которая позволяет модели ассоциировать текстовые запросы с конкретными объектами на изображениях. Несмотря на то, что существующие модели показали значительные улучшения в этой области, они часто используют различные и несогласованные подходы к оптимизации моделей для VG. Это существенно сковывает их потенциал и затрудняет правильные сравнения между подходами. В данном исследовании мы определились на полной исследовательской диаграмме, чтобы изучить, как различные дизайн-решения влияют на возможности MLLMs в области VG.
## Метод
Исследование включает детальный анализ различных дизайн-решений, влияющих на результаты VG в MLLMs. Мы выбрали **LLaVA-1.5** — одну из самых известных моделей MLLMs — для всех экспериментов, чтобы обеспечить выводы, которые могут быть распространены на другие архитектуры. Мы исследовали два главных вопроса:
1. **Изучение визуальных граундинговых парадигм**: Мы оценили разные подходы к визуальной граундинг-оптимизации MLLM, выявив максимально эффективные решения и получив полезные рекомендации для дальнейшей работы.
2. **Оптимизация данных для VG**: Мы проводили абляционные исследования для оптимизации тренировочных данных в VG, чтобы определить, как желательно изменять модель в ходе тренировки.
## Результаты
Наши эксперименты показали, что управление различными дизайн-решениями может значительно влиять на результаты VG моделей. Мы обнаружили, что наша оптимизированная модель LLaVA-1.5 показала улучшение в +5.6% / +6.9% / +7.0% на RefCOCO/+/g общих данных по сравнению с исходной версией. Эти результаты указывают на значительный вклад нашего исследования в улучшение качества визуальных граундинговых моделей.
## Значимость
Наша работа имеет широкие применения в области многомодального обучения и визуальной граундинг-оптимизации. Она может заинтересовать исследователей, работающих в сфере мультимодальных моделей и технологий обработки текста и изображений. Наши рекомендации могут помочь сократить разрыв между теоретическим потенциалом и практическим применением визуальной граундинг-технологии в MLLMs. Кроме того, наши результаты открывают возможности для дальнейшего исследования в этих областях, в том числе разработки более сложных моделей и улучшения существующих архитектур.
## Вы
Annotation:
Fine-grained multimodal capability in Multimodal Large Language Models
(MLLMs) has emerged as a critical research direction, particularly for tackling
the visual grounding (VG) problem. Despite the strong performance achieved by
existing approaches, they often employ disparate design choices when
fine-tuning MLLMs for VG, lacking systematic verification to support these
designs. To bridge this gap, this paper presents a comprehensive study of
various design choices that impact the VG performance...
Показано 531 -
540
из 573 записей