📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Anton Changalidis, Yury Barbitoff, Yulia Nasykhova, Andrey Glotov

## Контекст Генетика и геномика человека являются ключевыми областями исследований, стремящимися раскрыть причины, естественные проявления и лечение генетических заболеваний. Однако высоконапряженные данные, характерные за эти дисциплины, часто представляют трудности для традиционных статистических методов и машинного обучения. На сегодняшний день, новаторские глубокие нейронные сети, например трансформерные модели (LLMs), показали свою эффективность в обработке таких данных, особенно в сфере научных и практических задач генетической диагностики. Изучение этой области имеет решающее значение для продвижения научных достижений и улучшения здравоохранения, увеличивая точность диагностики, качество лечения и обучение медицинских работников. Необходимо подробно изучить возможности и ограничения использования LLMs в генетике, чтобы определить их потенциал в решении актуальных проблем данной области. ## Метод Методология заключается в проведении классического систематического обзора научных исследований. Исследователи выполнили автоматизированный поиск по ключевым словам в базах данных PubMed, bioRxiv, medRxiv и arXiv, ориентируясь на исследования, связанные с применением LLMs в генетике. Особое внимание было уделено моделям, опубликованным в последние 5 лет, чтобы выделить современные тенденции. Были исключены статьи, относящиеся к устаревшим или неактуальным моделям. В результате было собрано и проанализировано 172 исследований, охватывающих применение LLMs в таких областях, как идентификация и анализ генетических вариантов, занятия по генетике и консультации, а также в области медицинской иммунологии. ## Результаты Основные результаты экспериментов показали, что трансформерные модели LLMs сильно повышают эффективность в таких задачах, как генетическая диагностика, в том числе для определения генетических вариантов и их интерпретации, а также в области медицинского импульса с помощью трансформеров-видения. Они также демонстрируют выдающиеся результаты в обнаружении и оценке рисков наследственных заболеваний. Однако, несмотря на эти достижения, существуют значительные вызовы, такие как объединение многомодальных данных (генетических последовательностей, клинических записей и импульсов) в единое и клинически применимое решение. Наблюдается недостаток в обучении моделей на многочисленных и разнородных данных, что ограничивает их применение в реальных клинических условиях. ## Значимость Полученные результаты имеют высокую значимость для генетических исследований и клинического применения. Модели LLMs находят применение в различных сфера
Annotation:
Although traditional statistical techniques and machine learning methods have contributed significantly to genetics and, in particular, inherited disease diagnosis, they often struggle with complex, high-dimensional data, a challenge now addressed by state-of-the-art deep learning models. Large language models (LLMs), based on transformer architectures, have excelled in tasks requiring contextual comprehension of unstructured medical data. This systematic review examines the role of LLMs in the ...
ID: 2508.20275v1 cs.LG, cs.CL, q-bio.QM
Авторы:

Zhibang Yang, Xinke Jiang, Rihong Qiu, Ruiqing Li, Yihang Zhang, Yue Fang, Yongxin Xu, Hongxin Ding, Xu Chu, Junfeng Zhao, Yasha Wang

## Контекст Federated Retrieval (FR) является кллячейчным подходом для решения проблемы халлуцинаций в значительности задач вострого развития лингвистических моделей генерирующих текст. Когда знания внешнего характера обладают внешними характеристиками, FR позволяет логично предоставить качественный ответ на запрос, путем использования федеративного поиска. Однако существующие FR-методы сталкиваются с трудностями при работе с неясными или всплывающими запросами. Это особенно актуально в кросс-доменных сценариях. Более того, стандартные подходы не всегда подходят для тонкой адаптации к контексту и идентификации подходящих подходов. Таким образом, необходимо разработать более точный и многообразный подход к FR, который может справиться с подробными запросами и сложными сценариями в кросс-доменных задачах. ## Метод DFAMS — это новая модель, основанная на механизме динамического потока информации (DIF), которая использует алгоритмы градиентного подсчета для анализа сигналов в трансформерах. Для того, чтобы улучшить точность поиска, DFAMS использует Shapley-значение для анализа активации нейронов, связанных с пониманием запроса и разграничением границ подсфер. Модель состоит из двух основных компонентов: (i) проба DIF для идентификации логических целей запроса и (ii) модуль нормализации, который строит семантические пространства для взаимодействия представлений знаний по всем источникам. Эта модель обеспечивает тонкую оценку внутри-источника и взаимодействие между-источниками, что улучшает эффективность в хорошо сформулированных запросах. ## Результаты Для оценки эффективности DFAMS проводились эксперименты на пяти различных базах данных, включая задачи классификации, восстановления и добавочного QA. Результаты демонстрируют, что DFAMS преобразовал теорию в практику, показав выигрыш в аккуратности классификации до 14.37%, в восстановлении до 5.38% и в дополнительной задаче QA до 6.45%. Эти результаты показали, что DFAMS превосходит ранее разработанные методы в плане точности и релевантности в хорошо сформулированных FR-задачах. ## Значимость DFAMS может быть применен в различных областях, включая генерацию текста, восстановление информации и новые технологии в области знаний. Одним из главных преимуществ является улучшенная точность в сложных сценариях, включая кросс-доменные задачи. Это может привести к новым возможностям в области глубокого понимания текстов и структур. Будущие исследования могут ориентироваться на улучшение сложности модели, расширение многоязыковой поддержки и расширение
Annotation:
Federated Retrieval (FR) routes queries across multiple external knowledge sources, to mitigate hallucinations of LLMs, when necessary external knowledge is distributed. However, existing methods struggle to retrieve high-quality and relevant documents for ambiguous queries, especially in cross-domain scenarios, which significantly limits their effectiveness in supporting downstream generation tasks. Inspired by dynamic information flow (DIF), we propose DFAMS, a novel framework that leverages D...
ID: 2508.20353v1 cs.LG, cs.CL
Авторы:

Weitao Feng, Lixu Wang, Tianyi Wei, Jie Zhang, Chongyang Gao, Sinong Zhan, Peizhuo Lv, Wei Dong

## Контекст Большие языковые модели (LLMs) становятся все более сильными, но при этом растут и риски их злоупотребления. Одним из наиболее опасных направлений злоупотребления является их художественная финейрования с помощью роботов быстрого обучения (RL). Несмотря на то, что большинство ранее проведенных исследований считают, что атакующие лица полагаются на супервизированное художественное обучение (SFT) для таких целей, авторы этой работы показали, что RL дает злоумышленникам более эффективные способы сбить модели с безопасного тренда и помогать исполнению угрожающих задач, при одинаковых бюджетах вычислений. Чтобы предотвратить это новое рискованное направление, разработано TokenBuncher — первую эффективную защиту, ориентированную на RL-based harmful fine-tuning. ## Метод Решение TokenBuncher основывается на том, чтобы подавить основу, на которой полагается RL — неопределенность модели в ответах. Для этого «токен-нойзер» (Token Noiser) мешает системе определять четко свои модели, а затем используется энтропия в качестве награды в RL (Entropy-as-Reward RL). Эта методика ограничивает возможность модели сформировать лучшую стратегию для выполнения уже готовых злоумышленников планов. Это защита работает, начиная с ограничения на экспертной сфере злоумышленников, и продвигается к более сложным задачам. ## Результаты Эксперименты проводились на нескольких моделях и RL-алгоритмах. Результаты показали, что TokenBuncher успешно ликвидирует мошеннические цели RL-финейрования, без потери полезности для бенгинаных задач и возможности в дальнейшем финейровании. Кроме того, он эффективно снижает бюджет награды для злоумышленников, делая их задачи более сложной и менее выгодной. Эти результаты подтверждают, что RL-based harmful fine-tuning создает большую системный риск, чем SFT, и что TokenBuncher является эффективным средством защиты. ## Значимость TokenBuncher можно применить в различных областях, где есть риск злоупотребления языковыми моделями. Он предотвращает распространение угрозы, ускоряя достижение безопасных результатов и гарантируя универсальную защиту. Эта защита позволяет LLMs более эффективно и безопасно использоваться в различных сферах, включая медицину, финансы и образование. ## Выводы Выводы работы показывают, что RL-based harmful fine-tuning является значительно более рискованным, чем SFT, и что TokenBuncher является эффективным средством для защиты LLMs от таких атак. Будущие исследования будут фокусироваться на расширении этой защиты на более широкий набор моделей и сценариев, а также на улучшении ее эффективности и объема.
Annotation:
As large language models (LLMs) continue to grow in capability, so do the risks of harmful misuse through fine-tuning. While most prior studies assume that attackers rely on supervised fine-tuning (SFT) for such misuse, we systematically demonstrate that reinforcement learning (RL) enables adversaries to more effectively break safety alignment and facilitate advanced harmful task assistance, under matched computational budgets. To counter this emerging threat, we propose TokenBuncher, the first ...
ID: 2508.20697v1 cs.LG, cs.CL
Авторы:

Junxuan Wang, Xuyang Ge, Wentao Shu, Zhengfu He, Xipeng Qiu

## Контекст Transformers обладают выдающимися способностями в обработке текстов благодаря своёму эффективному использованию пространств высоких размерностей. Однако в статье предлагается точка зрения, что attention outputs в многих случаях живут в значительно низкоразмерных подпространствах. Это не только развеивает общепринятые убеждения, но и вызывает вопросы о почему transformer модели так эффективны в своём пространстве операций. Это также подчёркивает важность оптимизации и моделирования в ограниченном пространстве, который может быть упрощён специальными методами для повышения эффективности. ## Метод Авторы предлагают метод, основывающийся на том, что attention outputs живут в низкоразмерном пространстве. Метод заключается в использовании сабспейса-ограниченного обучения, где новые фичи инициализируются в низкоразмерных пространствах, где активации transformer моделей фактически живут. Этот подход решает проблему "dead features" в sparse dictionary learning, когда неактивные фичи не вносят никакого вклада в обучение. Алгоритм использует методы, аналогичные sparse autoencoders (SAEs), но с учётом низкоразмерной структуры attention. Он также может расширяться на другие методы спарсингового обучения. ## Результаты В экспериментах показано, что при использовании этого метода в sparse autoencoders с 1 миллионом фичей, количество "dead features" уменьшилось с 87% до менее 1%. Это показывает, что алгоритм эффективно использует низкоразмерные пространства, уменьшая субдуктивные неэффективности в обучении. Эксперименты проводились на различных моделях и данных, подтверждая значительное улучшение по сравнению с безучётным использованием пространства. ## Значимость Результаты этой работы имеют широкое применение в машинном обучении. В частности, это помогает улучшить sparse dictionary learning, который широко используется в различных задачах, таких как feature selection и dimensionality reduction. Метод также может быть применён в transformer-based моделях для сокращения размерности и повышения эффективности. Это даёт новые возможности в сжатии моделей и уменьшении ресурсоемкости. ## Выводы Предложенный метод демонстрирует, что attention outputs не всегда живут в высокоразмерных пространствах, как считалось ранее. Это подкрепляет нужду исследований в области низкоразмерного моделирования и оптимизации transformer моделей. Будущие исследования могут быть направлены на поиск других низкоразмерных структур в transformer моделях и расширение этого подхода на другие задачи, такие как обучение с подкреплением.
Annotation:
While transformer models are widely believed to operate in high-dimensional hidden spaces, we show that attention outputs are confined to a surprisingly low-dimensional subspace, where about 60\% of the directions account for 99\% of the variance--a phenomenon that is induced by the attention output projection matrix and consistently observed across diverse model families and datasets. Critically, we find this low-rank structure as a fundamental cause of the prevalent dead feature problem in spa...
ID: 2508.16929v1 cs.LG, cs.CL
Авторы:

Yizhi Li, Qingshui Gu, Zhoufutu Wen, Ziniu Li, Tianshun Xing, Shuyue Guo, Tianyu Zheng, Xin Zhou, Xingwei Qu, Wangchunshu Zhou, Zheng Zhang, Wei Shen, Qian Liu, Chenghua Lin, Jian Yang, Ge Zhang, Wenhao Huang

## Контекст В последние годы методы политической оптимизации (Policy Optimization, PO), основанные на теории игр, получили широкое распространение в области работы с большими языковыми моделями. Они позволяют эффективно решать задачи, требующие углубленного понимания языка. Несмотря на это, имеются значительные проблемы. Например, требование к дорогостоящим он-политическим роллаутам и ограниченной исследовательской ловкости приводят к высоким затратам на вычисления и неэффективности. Для решения этих проблем необходимо разработать методы, которые обеспечат оптимизацию и эффективность вывода в рамках требований к сложности и стоимости. ## Метод Мы предлагаем TreePO, новый подход, который объединяет динамическое деревовые поисковые методы с декодированием по сегментам фиксированной длины. Этот подход построен на трёх ключевых компонентах. Во-первых, мы предлагаем сегментный алгоритм выбора, который уменьшает нагрузку на KV-кеш, работая с последовательностями, и позволяет сформировать новые ветви поиска с возможностью преждевременного останова. Во-вторых, мы вводим деревовое оценивание взвешенных анализов, которое учитывает как глобальные, так и локальные аспекты политической оптимизации. И наконец, мы анализируем эффективность пробного распространения и стратегии возврата на основе вероятности и качества. ## Результаты Мы проводили эксперименты на нескольких наборах данных для оценки производительности и эффективности TreePO. Наши результаты показали, что данный подход уменьшает расходы на вычисления по сравнению с существующими методами. Например, использование TreePO приводит к сокращению издержек на обучение моделей от 22% до 43%. Благодаря эффективному использованию семантических сегментов и раннего останова ненужных разветвелений, TreePO позволяет улучшить качество решений и сократить трассировки. ## Значимость Данный подход может быть применен в различных задачах, требующих глубокого обработки языка, таких как генерация текста, поиск решений и диагностика. Он обеспечивает более быструю и эффективную обработку запросов, особенно в сценариях с ограниченным вычислительным бюджетом. Также TreePO открывает путь к более сильной интеграции RL-подходов в обучение моделей, снижая общую стоимость и сложность. ## Выводы Мы представили TreePO, новый подход к оптимизации политик, который эффективно сочетает динамическое деревовое поисковое моделирование с уменьшением расходов на вычисления. Этот подход показал свою эффективность в сравнении с другими подходами, а также открыл новые возможности для развития RL-подходов в обучении моделей.
Annotation:
Recent advancements in aligning large language models via reinforcement learning have achieved remarkable gains in solving complex reasoning problems, but at the cost of expensive on-policy rollouts and limited exploration of diverse reasoning paths. In this work, we introduce TreePO, involving a self-guided rollout algorithm that views sequence generation as a tree-structured searching process. Composed of dynamic tree sampling policy and fixed-length segment decoding, TreePO leverages local un...
ID: 2508.17445v1 cs.LG, cs.CL
Авторы:

ZeMing Gong, Chuanqi Tang, Xiaoliang Huo, Nicholas Pellegrino, Austin T. Wang, Graham W. Taylor, Angel X. Chang, Scott C. Lowe, Joakim Bruslund Haurum

## Контекст Таксономическая классификация — основной аспект биологических исследований, включающий классификацию биологических образцов в иерархические структуры на основе различных видов доказательств, таких как генетические данные и изображения. Эта задача является важной для таких областей, как экологический мониторинг, выявление новых видов и консервация. Однако существуют сложности с обработкой многомодальных данных и точной классификацией видов, особенно в условиях открытого мира и для выделения тонких различий между видами. Наша мотивация заключается в исследовании возможностей гиперболических сетей для повышения точности и эффективности таксономической классификации, учитывая сложности, связанные с многомодальным пространством. ## Метод Мы предлагаем протокол обучения, основанный на гиперболических сетях, для создания объединенного пространства для многомодальных данных. Наша модель состоит из двух основных компонент: **а) контрастирующий механизм**, объединяющий изображения и генетические данные в единое пространство, и **б) стековая модель стандартности**, которая учитывает тело знаний и вариации между видами. Мы используем гиперболическую проекцию для эмбединга данных, что позволяет сохранить естественные иерархии в пространстве. Этот подход обеспечивает представление видов, которое учитывает как гетерогенные типы данных, так и структуру таксономической иерархии. ## Результаты Наши эксперименты проводились на большом датасете BIOSCAN-1M, включающем изображения, генетические данные и текстовые метки для множества видов. Мы сравнили нашу гиперболическую модель с традиционными моделями на основе Евклидова пространства. Наша модель показала высокую точность в классификации большинства видов, а также достигла особенно высокого результата при классификации новых видов, используя DNA-баркоды. Мы также проверили модель на условиях открытого мира, показав, что у нее есть компромиссы в тонкой классификации и в общей гибкости. Однако, гиперболическое пространство демонстрирует более естественное представление иерархии, что улучшает общую точность. ## Значимость Наш подход имеет широкие применения в области биологии и экологии, включая экологический мониторинг, выявление новых видов и консервационные мероприятия. Он предоставляет более точное и структурированное представление данных, что помогает улучшить выявление новых видов и отслеживание экосистем. Хотя у нас есть ограничения в тонкой классификации и в открытом мире, наш подход является прорывным в построении пространств для таксономических моделей. М
Annotation:
Taxonomic classification in biodiversity research involves organizing biological specimens into structured hierarchies based on evidence, which can come from multiple modalities such as images and genetic information. We investigate whether hyperbolic networks can provide a better embedding space for such hierarchical models. Our method embeds multimodal inputs into a shared hyperbolic space using contrastive and a novel stacked entailment-based objective. Experiments on the BIOSCAN-1M dataset s...
ID: 2508.16744v1 cs.LG, cs.CL, cs.CV
Авторы:

Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang

## Контекст Искусственный интеллект (ИИ), основанный на Больших Лингвистических Моделях (LLM), проявляет выдающиеся возможности в области обработки естественного языка. Однако, традиционные методы тренировки этих моделей требуют больших объемов вычислительных ресурсов и данных, что ограничивает их применение в ситуациях, требующих реакции на изменения в реальном времени. Более того, существующие подходы к адаптации LLMs, такие как методы fine-tuning, требуют не только высокой стоимости, но и создают возможность "застрять" в определенном состоянии, не включая реальное развитие. Данная работа формулирует новую модель обучения для LLM-агентов, которая предлагает эффективный и гибкий подход к обучению без необходимости в методе fine-tuning. ## Метод Предлагаемый подход, обозначенный как Memory-augmented Markov Decision Process (M-MDP), является новым парадигмой для адаптивных LLM-агентов. Он предлагает непрерывный процесс обучения с использованием нейронной системы вспомогательного памяти. Эта система кэширует информацию о прошлых опытах в виде нелинейной, оптимизированной структуры. Для возможности выбора действий используется оптимизированный политический механизм, который определяет, какие данные из памяти должны быть задействованы для решения задачи. Эта структура позволяет лишь частично обновлять память, не требуя пересчета всей модели, что делает процесс эффективным с точки зрения вычислительных затрат. ## Результаты Для проверки эффективности предлагаемого подхода, авторы внедрили его в систему Memento. Эксперименты проводились на двух основных наборах данных: GAIA и DeepResearcher. Результаты показали, что Memento достиг оценки Pass@3 на GAIA с процентом $87.88\%$, что является самой высокой результатом среди экспериментов. На данных DeepResearcher, Memento показал F1-меру $66.6\%$ и PM-меру $80.4\%$, превосходя существующие методы. Особенно заметны выигрыши в случае задач, которые требуют обучения вне диапазона исходных данных. Таким образом, новый подход предоставляет способ эффективного обучения LLM-агентов в сценариях, требующих регулярного обновления информации. ## Значимость Предлагаемый подход открывает новые возможности в применении LLM-агентов в сценариях, требующих решения задач в режиме реального времени. Он демонстрирует гибкость и эффективность, не требуя полной тренировки модели. Метод как раз и предлагает выход за рамки статических, трудоёмких и высокозатратных методов fine-tuning. Он имеет широкое применение в сценариях, где необходимо постоянное совершенствование, например,
Annotation:
In this paper, we introduce a novel learning paradigm for Adaptive Large Language Model (LLM) agents that eliminates the need for fine-tuning the underlying LLMs. Existing approaches are often either rigid, relying on static, handcrafted reflection workflows, or computationally intensive, requiring gradient updates of LLM model parameters. In contrast, our method enables low-cost continual adaptation via memory-based online reinforcement learning. We formalise this as a Memory-augmented Markov D...
ID: 2508.16153v2 cs.LG, cs.CL
Авторы:

Lei Bai, Zhongrui Cai, Yuhang Cao, Maosong Cao, Weihan Cao, Chiyu Chen, Haojiong Chen, Kai Chen, Pengcheng Chen, Ying Chen, Yongkang Chen, Yu Cheng, Pei Chu, Tao Chu, Erfei Cui, Ganqu Cui, Long Cui, Ziyun Cui, Nianchen Deng, Ning Ding, Nanqing Dong, Peijie Dong, Shihan Dou, Sinan Du, Haodong Duan, Caihua Fan, Ben Gao, Changjiang Gao, Jianfei Gao, Songyang Gao, Yang Gao, Zhangwei Gao, Jiaye Ge, Qiming Ge, Lixin Gu, Yuzhe Gu, Aijia Guo, Qipeng Guo, Xu Guo, Conghui He, Junjun He, Yili Hong, Siyuan Hou, Caiyu Hu, Hanglei Hu, Jucheng Hu, Ming Hu, Zhouqi Hua, Haian Huang, Junhao Huang, Xu Huang, Zixian Huang, Zhe Jiang, Lingkai Kong, Linyang Li, Peiji Li, Pengze Li, Shuaibin Li, Tianbin Li, Wei Li, Yuqiang Li, Dahua Lin, Junyao Lin, Tianyi Lin, Zhishan Lin, Hongwei Liu, Jiangning Liu, Jiyao Liu, Junnan Liu, Kai Liu, Kaiwen Liu, Kuikun Liu, Shichun Liu, Shudong Liu, Wei Liu, Xinyao Liu, Yuhong Liu, Zhan Liu, Yinquan Lu, Haijun Lv, Hongxia Lv, Huijie Lv, Qitan Lv, Ying Lv, Chengqi Lyu, Chenglong Ma, Jianpeng Ma, Ren Ma, Runmin Ma, Runyuan Ma, Xinzhu Ma, Yichuan Ma, Zihan Ma, Sixuan Mi, Junzhi Ning, Wenchang Ning, Xinle Pang, Jiahui Peng, Runyu Peng, Yu Qiao, Jiantao Qiu, Xiaoye Qu, Yuan Qu, Yuchen Ren, Fukai Shang, Wenqi Shao, Junhao Shen, Shuaike Shen, Chunfeng Song, Demin Song, Diping Song, Chenlin Su, Weijie Su, Weigao Sun, Yu Sun, Qian Tan, Cheng Tang, Huanze Tang, Kexian Tang, Shixiang Tang, Jian Tong, Aoran Wang, Bin Wang, Dong Wang, Lintao Wang, Rui Wang, Weiyun Wang, Wenhai Wang, Jiaqi Wang, Yi Wang, Ziyi Wang, Ling-I Wu, Wen Wu, Yue Wu, Zijian Wu, Linchen Xiao, Shuhao Xing, Chao Xu, Huihui Xu, Jun Xu, Ruiliang Xu, Wanghan Xu, GanLin Yang, Yuming Yang, Haochen Ye, Jin Ye, Shenglong Ye, Jia Yu, Jiashuo Yu, Jing Yu, Fei Yuan, Yuhang Zang, Bo Zhang, Chao Zhang, Chen Zhang, Hongjie Zhang, Jin Zhang, Qiaosheng Zhang, Qiuyinzhe Zhang, Songyang Zhang, Taolin Zhang, Wenlong Zhang, Wenwei Zhang, Yechen Zhang, Ziyang Zhang, Haiteng Zhao, Qian Zhao, Xiangyu Zhao, Xiangyu Zhao, Bowen Zhou, Dongzhan Zhou, Peiheng Zhou, Yuhao Zhou, Yunhua Zhou, Dongsheng Zhu, Lin Zhu, Yicheng Zou

## Контекст В последние годы, огромное количество основных моделей научных исследований появилось, достигнув заметных успехов в области выполнения задач базового решения вопросов. Однако, в области высокоточных научных профессиональных областей, таких как физика, химия, биология, искусственный интеллект, обычно используются специализированные модели. Однако, эти модели либо являются специальными, либо, как и в случае общей фундаментальной модели, имеют существенную проблему с недостатком в этих высокоточных профессиональных областях. Это приводит к значительным проблемам в течение процесса технологических прогрессов в науке. Чтобы устранить этот проблемный момент, мы предлагаем Intern-S1 - модель, которая приносит значительные улучшения в решение задач, связанных с научными данными, выполняя задачи по расчету и расчету сложных научных моделей. ## Метод Intern-S1 является многомодальной моделью, которая имеет 28 миллиардов активированных параметров и общие 241 миллиардов параметров. Она использует систему Множественной Оценки (Mixture-of-Experts, MoE) для повышения точности и скорости выполнения задач. Модель была продолжительно предобучена на базе 5 триллионов токенов, включая 2.5 триллионов токенов из научных областей. В последнем этапе обучения, Intern-S1 прошла офлайн и онлайн-обучение в InternBootCamp, где мы предлагаем новую систему рефлексного обучения - Mixture-of-Rewards (MoR), которая позволяет модели решать сразу несколько задач. ## Результаты Проведенные эксперименты показали, что Intern-S1 показала высокую степень точности в решении задач, связанных с научными моделями. Она была протестирована на нескольких научных задачах, включая расчет химических реакций, прогнозирование термодинамических свойств кристаллов, планирование синтеза молекул. В результате, Intern-S1 не только показала высокую точность в решении научных задач, но и отличилась по сравнению с другими аналогичными моделями. ## Значимость Модель Intern-S1 может применяться в различных научных областях. Она улучшает процессы прогнозирования и анализа в химии, физике, биологии и других науках. Этот модельный подход предлагает новый подход к традиционным способам решения научных задач, повышая уровень точности, скорость и эффективность работы. Это позволяет оптимизировать работу в научных исследованиях и внести значительные улучшения в профессиональные задачи. ## Выводы Модель Intern-S1 достигла топового уровня эффективности в профессиональных научных задачах. Она предлагает новый подход к расчетам и моделированию в науке. Будущие исследования будут сконцентрированы на дальнейшем высокопро
Annotation:
In recent years, a plethora of open-source foundation models have emerged, achieving remarkable progress in some widely attended fields, with performance being quite close to that of closed-source models. However, in high-value but more challenging scientific professional fields, either the fields still rely on expert models, or the progress of general foundation models lags significantly compared to those in popular areas, far from sufficient for transforming scientific research and leaving sub...
ID: 2508.15763v2 cs.LG, cs.CL, cs.CV
Авторы:

Bin Wen, Tien-Ping Tan

## Контекст Задача многомодального анализа тональности — одна из ключевых задач в области естественного языка. Она состоит в выявлении и оценке тональности выражения по отношению к конкретному объекту (например, продукту, услуге или концепции). Традиционные подходы часто сталкиваются со сложностями в учете нескольких модальностей (текст, звук и видео), что приводит к снижению точности и понимания смысла. Недостаточность эффективности и интерпретируемости подходов стала мотивацией для разработки PGF-Net, который предлагает новый подход к решению этой проблемы. ## Метод PGF-Net (Progressive Gated-Fusion Network) использует прогрессивный подход для многомодального анализа тональности. Основная концепция заключается в создании прогрессивного взаимодействия между модальностями в глубоких слоях с помощью Cross-Attention. Это позволяет модели просматривать данные в разных модальностях и формировать контекстные связи. Более того, в PGF-Net используется Adaptive Gated Arbitration, который динамически контролирует вклад каждой модальности, уменьшая влияние шума и повышая стабильность интеграции. Для тонкой настройки используется Parameter-Efficient Fine-Tuning (PEFT), комбинируя глобальную настройку LoRA и локальную регулировку Post-Fusion Adapters. Это уменьшает количество признаков, что делает модель более эффективной с точки зрения ресурсов. ## Результаты Для оценки PGF-Net был использован датасет MOSI. Модель достигла значительных результатов: Mean Absolute Error (MAE) составил 0.691, а F1-Score — 86.9%. Это означает, что PGF-Net не только достиг стандарта лидеров, но и показал эффективность в плане параметров: с 3.09M trainable parameters, что делает ее оптимальной для ресурсораспределенных задач. ## Значимость Преимущества PGF-Net заключаются в следующем: эффективность в анализе многомодальных данных, высокая интерпретируемость результатов, и центральное место, отдаваемое сбалансированному вкладу каждой модальности. Эти качества делают PGF-Net подходящим для приложений в здравоохранении, образовании и маркетинге. Будущие исследования могут сфокусироваться на улучшении модели для новых модальностей (например, текстурных данных) и расширении ее для мультиязычного анализа. ## Выводы PGF-Net представляет собой перспективный подход в многомодальном анализе тональности. Он достиг стабильных результатов на датасете MOSI, комбинируя инновационные методы для улучшения эффективности и точности. Однако, поскольку задача многомодального анализа постоянно развивается, будущие исследования могут сфокусироваться на расширении PGF-Net для новых типов данных и разных сценариев применения.
Annotation:
We introduce PGF-Net (Progressive Gated-Fusion Network), a novel deep learning framework designed for efficient and interpretable multimodal sentiment analysis. Our framework incorporates three primary innovations. Firstly, we propose a Progressive Intra-Layer Fusion paradigm, where a Cross-Attention mechanism empowers the textual representation to dynamically query and integrate non-linguistic features from audio and visual streams within the deep layers of a Transformer encoder. This enables a...
ID: 2508.15852v1 cs.LG, cs.CL
Авторы:

Haji Gul, Abul Ghani Naim, Ajaz Ahmad Bhat

## Контекст Исследование сложности знаний графов (Knowledge Graphs, KGs) является ключевым элементом в оценке и сравнении моделей связывания связей (link prediction). Одним из значимых показателей сложности является Cumulative Spectral Gradient (CSG), основанный на разности классов в рамках спектрального кластеринга. Хотя CSG утверждается как классификатор-независимый и стабильный метрика, его применимость к KGs не была ранее проверена. Наша мотивация заключается в том, чтобы провести критический анализ CSG в контексте многомерного связывания связей и проверить его связь с классическими метриками производительности, такими как Mean Reciprocal Rank (MRR) и Hit@1. ## Метод Для оценки сложности знаний графов мы применяем метод кластеринга на основе спектра, заключающийся в использовании CSG. Эта метрика определяется по проблеме вертикального разделения классов в спектральном пространстве. Мы также используем семантические представления, полученные с помощью трансформеров, для добавления контекстной информации. Для более широкого анализа мы вводим дополнительные метрики, включая Relation Entropy, Maximum Relation Diversity и Relation Type Cardinality, которые охватывают глобальные и локальные аспекты сложности. Для сравнения мы используем метрики, такие как Average Degree, Degree Entropy, PageRank и Eigenvector Centrality, измеряющие графовую связность. ## Результаты Наши эксперименты показали, что CSG весьма чувствителен к параметрам и не способен гарантировать стабильность или робастность при изменении количества классов. Данные показатели не сильно коррелируют с MRR и Hit@1, что означает, что CSG не удается хорошо отразить сложность задачи. Однако метрики типа Relation Entropy и Maximum Relation Diversity сильно коррелируют с MRR и Hit@1, показывая свою надежность в оценке сложности знаний графов. Метрики типа PageRank и Eigenvector Centrality, определяющие связность графа, сильно коррелируют с Hit@10, что указывает на их важность для задач, где требуется учитывать глобальную структуру. ## Значимость Наши результаты имеют практическое значение для развития моделей связывания связей. Мы показали, что CSG, несмотря на его теоретическую привлекательность, не является надежной метрикой для оценки сложности KGs. Вместо этого мы предлагаем использовать метрики, такие как Relation Entropy и Maximum Relation Diversity, которые более точно отражают сложность задачи. Эти метрики могут помочь в оптимизации моделей и сравнении их производительности. Эти результаты также имеют значение для изучения сложности данных в других задачах, где спектральные методы используются для классификации. ## Выводы Мы установили, что CSG не является достаточно устойчивой и интерпретируемой метрикой для оценки сложности знаний графов в
Annotation:
Understanding dataset complexity is fundamental to evaluating and comparing link prediction models on knowledge graphs (KGs). While the Cumulative Spectral Gradient (CSG) metric, derived from probabilistic divergence between classes within a spectral clustering framework, has been proposed as a classifier agnostic complexity metric purportedly scaling with class cardinality and correlating with downstream performance, it has not been evaluated in KG settings so far. In this work, we critically e...
ID: 2508.15291v1 cs.LG, cs.CL
Показано 201 - 210 из 233 записей