📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens

2025-08-09

Авторы:

Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev

**Резюме** Проблема: Недавно представленная Large Concept Model (LCM) генерирует текст путем предсказания последовательности семантических объемов предложений и обучения с помощью метрик mean-squared error или diffusion. Однако этот подход сложности с эффективностью и семантической абстракцией. Решение: Мы предлагаем SONAR-LLM, декодерно-только трансформер, который "думает" в семантическом пространстве SONAR, но обучается с помощью кросс-энтропии на уровне токенов, что обеспечивает точную линейную связь между начальным обучением и поведением во время генерации. Основные выводы: SONAR-LLM поддерживает высокую семантическую абстракцию LCM, но без встроенных ограничений diffusion. Он демонстрирует состязательную генерационную качество по всему диапазону параметров (от 39M до 1.3B) и предоставляет полный код обучения и предобученные модели для дальнейшей исследовательской работы.

Annotation:

The recently proposed Large Concept Model (LCM) generates text by predicting a sequence of sentence-level embeddings and training with either mean-squared error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer that "thinks" in the same continuous SONAR embedding space, yet is supervised through token-level cross-entropy propagated via the frozen SONAR decoder. This hybrid objective retains the semantic abstraction of LCM while eliminating its diffusion sampler and restor...

ID: 2508.05305v1 cs.CL

arXiv PDF

📄 Evaluation of a Sign Language Avatar on Comprehensibility, User Experience \& Acceptability

2025-08-09

Авторы:

Fenya Wasserroth, Eleftherios Avramidis, Vera Czehmann, Tanja Kojic, Fabrizio Nunnari, Sebastian Möller

Научная статья посвящена оценке воздействия добавления регулируемых настроек на качество взаимодействия с знакомствующим сигнальным языком (СЗЯ) аватаром на Hololens 2. Исследование проведено с участием экспертов в германском знакомствующем языке (ДЗЯ), которые взаимодействовали с аватарами, имеющими разные функции регулирования. Основной проблемой является несостоятельность существующих СЗЯ-аватаров для эффективного общения, что определяется отсутствием важных элементов языка (например, фассолей и лицевых выражений) и проблемами реализации (неясные жесты рук, отсутствие обратной связи и неудобное расположение меню). Решение, предложенное в статье, заключается в добавлении регулируемых настроек, однако их влияние на улучшение UX и понятности оказалось незначительным. Основные проблемы остались, включая недостаточное развитие анимации лица и рук, неудобство пользовательского интерфейса и невысокий уровень hedonic quality. Хотя понятность и принятие регулируемых аватаров были оценены положительно, их успешность сильно зависит от удобства и качества анимации. Основные выводы: адаптивность по se заключается не в добавлении настроек, а в обеспечении понятности и эффективности системы с ходом. Рекомендации: улучшить анимацию лица и рук, добавить обратную связь, улучшить пользовательский интерфейс и применять частичную конструктивную разработку.

Annotation:

This paper presents an investigation into the impact of adding adjustment features to an existing sign language (SL) avatar on a Microsoft Hololens 2 device. Through a detailed analysis of interactions of expert German Sign Language (DGS) users with both adjustable and non-adjustable avatars in a specific use case, this study identifies the key factors influencing the comprehensibility, the user experience (UX), and the acceptability of such a system. Despite user preference for adjustable setti...

ID: 2508.05358v1 cs.CL, cs.HC

arXiv PDF

📄 Can Language Models Critique Themselves? Investigating Self-Feedback for Retrieval Augmented Generation at BioASQ 2025

2025-08-09

Авторы:

Samy Ateia, Udo Kruschwitz

**Резюме** В статье "Can Language Models Critique Themselves? Investigating Self-Feedback for Retrieval Augmented Generation at BioASQ 2025" рассматривается проблема применения Agentic Retrieval Augmented Generation (RAG) и deep research систем в сфере биомедицинского исследования. Эти системы, основанные на Large Language Models (LLMs), предназначены для автоматизации процессов поиска, но часто снижают уровень участия пользователя и не соответствуют информационным потребностям экспертов. Для решения этих проблем предложен самокорректирующийся подход, где LLMs генерируют, оценивают и улучшают свои выводы для запросов с различными типами ответов (да/нет, фактоид, список, идеальный). Основными моделями, исследованными в работе, являются Gemini-Flash 2.0, o3-mini, o4-mini и DeepSeek-R1. Авторы проводили эксперименты с использованием задач BioASQ CLEF 2025, основанных на вопросах, сформулированных экспертами. Результаты показали, что самокорректирующаяся стратегия имеет разные эффекты в зависимости от модели и задачи, что делает важной интеграцию LLM-generated feedback с прямым вкладом экспертов. Эти выводы инспирируют дальнейшее исследование эффективности самокорректирующихся LLM-систем в сфере domain-specific professional search.

Annotation:

Agentic Retrieval Augmented Generation (RAG) and 'deep research' systems aim to enable autonomous search processes where Large Language Models (LLMs) iteratively refine outputs. However, applying these systems to domain-specific professional search, such as biomedical research, presents challenges, as automated systems may reduce user involvement and misalign with expert information needs. Professional search tasks often demand high levels of user expertise and transparency. The BioASQ CLEF 2025...

ID: 2508.05366v1 cs.CL

arXiv PDF

📄 The TUB Sign Language Corpus Collection

2025-08-09

Авторы:

Eleftherios Avramidis, Vera Czehmann, Fabian Deckert, Lorenz Hufe, Aljoscha Lipski, Yuni Amaloa Quintero Villalobos, Tae Kwon Rhee, Mengqian Shi, Lennart Stölting, Fabrizio Nunnari, Sebastian Möller

Трудность в изучении некоторых языков, включая знаковые (sign languages), часто возникает из-за недостатка качественных данных для обучения и оценки моделей. В статье "The TUB Sign Language Corpus Collection" представлен коллекция параллельных корпусов 12 знаковых языков, собранных из записей новостных телеканалов, веб-ресурсов правительств и образовательных интернет-ресурсов. Эти корпуса включают более 1,300 часов видео и 14 миллионов токенов в подписях на 12 языках, что является значительным ресурсом для изучения знаковых языков. Особенностью коллекции является первый полностью согласованный параллельный корпус для 8 латинскоамериканских знаковых языков и в тенфолд большей коллекции немецкого знакового языка по сравнению с предыдущими коллекциями. Эта коллекция является важной ресурсом для глубокого понимания и изучения знаковых языков, а также для развития технологий узнавания и анализа знаковых сигналов.

Annotation:

We present a collection of parallel corpora of 12 sign languages in video format, together with subtitles in the dominant spoken languages of the corresponding countries. The entire collection includes more than 1,300 hours in 4,381 video files, accompanied by 1,3~M subtitles containing 14~M tokens. Most notably, it includes the first consistent parallel corpora for 8 Latin American sign languages, whereas the size of the German Sign Language corpora is ten times the size of the previously avail...

ID: 2508.05374v1 cs.CL

arXiv PDF

📄 LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

2025-08-09

Авторы:

Ming Zhang, Yujiong Shen, Jingyi Deng, Yuhui Wang, Yue Zhang, Junzhe Wang, Shichun Liu, Shihan Dou, Huayu Sha, Qiyuan Peng, Changhao Jiang, Jingqi Tong, Yilong Wu, Zhihao Zhang, Mingqi Wu, Zhiheng Xi, Mingxu Chai, Tao Liang, Zhihui Fei, Zhen Wang, Mingyang Wan, Guojun Ma, Tao Gui, Qi Zhang, Xuanjing Huang

Научная статья LLMEval-3 предлагает рамку для динамической оценки моделей текстового понимания и построения ответов (LLMs), которая преодолевает ограничения статических бенчмарков, связанные с заражением данными и переобучением. Основной проблемой является то, что статические бенчмарки не могут тщательно отслеживать изменения моделей в реальном времени, что приводит к неточности оценки. LLMEval-3 решает эту проблему путем использования большого проприетарного банка вопросов уровня колледжа и динамического создания невидимых наборов тестовых данных для каждой оценки. Рамка включает протоколы, обеспечивающие честность, с помощью журналинга LLM-ас-a-judge и системы рейтинга, обеспечивающих справедливую оценку. Длительное 20-месячное исследование показало, что LLMEval-3 обеспечивает стабильность и четкость результатов, выявив ограничения моделей в запоминании знаний и открыв проблемы с заражением данными. Это динамическое решение предлагает надежный и эффективный подход для более точной оценки LLM-ов.

Annotation:

Existing evaluation of Large Language Models (LLMs) on static benchmarks is vulnerable to data contamination and leaderboard overfitting, critical issues that obscure true model capabilities. To address this, we introduce LLMEval-3, a framework for dynamic evaluation of LLMs. LLMEval-3 is built on a proprietary bank of 220k graduate-level questions, from which it dynamically samples unseen test sets for each evaluation run. Its automated pipeline ensures integrity via contamination-resistant dat...

ID: 2508.05452v1 cs.CL

arXiv PDF

📄 TASE: Token Awareness and Structured Evaluation for Multilingual Language Models

2025-08-09

Авторы:

Chenzhuo Zhao, Xinda Wang, Yue Huang, Junting Lu, Ziqian Liu

Несмотря на выдающиеся результаты на высокоуровневых задачах, большинство LLMs сталкиваются с трудностями при тонкой, токен-уровневой обработке и структурном рассуждении — важных для приложений, требующих точности и контроля. Для решения этой проблемы предложен TASE, комплексный бенчмарк, оценивающий возможности LLMs по токен-уровневому восприятию и структурному анализу в китайском, английском и корейском. TASE включает 10 задач в 2 категории: токен-осознанность и структурное понимание, используя 35,927 экземпляров для тестирования и синтетическую генерацию данных для обучения. Задачи включают графическое числование, выравнивание токенов, парсинг синтаксических структур и соблюдение длинных ограничений. Оценка 30 лидирующих LLMs показала, что людские результаты превышают их результаты, демонстрируя слабые места в токен-уровневой обработке. Этот бенчмарк становится новым диагностическим средством для улучшения мелкоуровневой понимания языка и кросс-языковой общности. Данные и код доступны по ссылке.

Annotation:

While large language models (LLMs) have demonstrated remarkable performance on high-level semantic tasks, they often struggle with fine-grained, token-level understanding and structural reasoning--capabilities that are essential for applications requiring precision and control. We introduce TASE, a comprehensive benchmark designed to evaluate LLMs' ability to perceive and reason about token-level information across languages. TASE covers 10 tasks under two core categories: token awareness and st...

ID: 2508.05468v1 cs.CL

arXiv PDF

📄 Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations

2025-08-09

Авторы:

Li-Chun Lu, Miri Liu, Pin-Chun Lu, Yufei Tian, Shao-Hua Sun, Nanyun Peng

Метрики творчества, такие как индекс творчества, perplexity, синтаксические шаблоны и ЛМ-как-судья, часто используются для оценки творческих продуктов в различных областях, включая литературу, решение нестандартных задач и идеогенез. Однако исследование "Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations" показало, что эти метрики обладают ограниченной консистентностью и плохо воспринимаются людьми как показатели творчества. Так, индекс творчества ориентируется на лексическую разнообразие, perplexity зависит от уверенности модели, а синтаксические шаблоны не учитывают концептуальную составляющую творчества. ЛМ-как-судья, в свою очередь, проявляет непостоянство и биазы. Основной вывод авторов — необходимость развития более гармоничных и универсальных фреймворков оценки творчества, которые более точно согласовывались бы с человеческими оценками.

Annotation:

We systematically examine, analyze, and compare representative creativity measures--creativity index, perplexity, syntactic templates, and LLM-as-a-Judge--across diverse creative domains, including creative writing, unconventional problem-solving, and research ideation. Our analyses reveal that these metrics exhibit limited consistency, capturing different dimensions of creativity. We highlight key limitations, including the creativity index's focus on lexical diversity, perplexity's sensitivity...

ID: 2508.05470v1 cs.CL

arXiv PDF

📄 CoCoLex: Confidence-guided Copy-based Decoding for Grounded Legal Text Generation

2025-08-09

Авторы:

Santosh T. Y. S. S, Youssef Tarek Elkhayat, Oana Ichim, Pranav Shetty, Dongsheng Wang, Zhiqiang Ma, Armineh Nourbakhsh, Xiaomo Liu

В Legal domain широко распространена проблема недостоверности и необоснованности текстов, генерируемых подходами Large Language Models (LLMs). Это ограничивает применение LLMs в задачах генерирования юридических текстов, где точность и надежность ключевые. В статье предлагается новый подход CoCoLex — Confidence-guided Copy-based Decoding for Legal Text Generation. Данная стратегия динамически взаимодействует с моделью и контекстом, гибко учитывая уровень уверенности модели в своем выводе. CoCoLex значительно повышает точность и надежность генерируемых текстов, особенно в условиях трудной юридической тематики. Эксперименты на 5 юридических баз исследований показали, что CoCoLex превосходит другие стратегии контекстно-активного декодирования, особенно при работе с длинными юридическими документами.

Annotation:

Due to their ability to process long and complex contexts, LLMs can offer key benefits to the Legal domain, but their adoption has been hindered by their tendency to generate unfaithful, ungrounded, or hallucinatory outputs. While Retrieval-Augmented Generation offers a promising solution by grounding generations in external knowledge, it offers no guarantee that the provided context will be effectively integrated. To address this, context-aware decoding strategies have been proposed to amplify ...

ID: 2508.05534v1 cs.CL

arXiv PDF

📄 Do Political Opinions Transfer Between Western Languages? An Analysis of Unaligned and Aligned Multilingual LLMs

2025-08-09

Авторы:

Franziska Weeber, Tanise Ceron, Sebastian Padó

**Резюме** В этой работе исследованы кросс-культурные различия в политических представлениях между западными языками и возможность их передачи между языками с помощью многоязычных больших языковых моделей (МЛЛМ). Авторы оценили, передаются ли политические представления между языками или же существуют отдельные политические позиции для каждого языка в МЛЛМ, исследуя модели разных размеров на пяти западных языках. Оценки проводились с помощью предложений из викторина по политическим вопросам. Для расширения понимания взаимодействия между языками модели анализировались как до, так и после их скорректированной политической ориентации (более левой или правой), использовав технику direct preference optimization и внешние данные для выравнивания. Наблюдались только незначительные кросс-языковые различия до выравнивания, но политическое выравнивание значительно изменило положения моделей почти во всех языках. Таким образом, в Западных языках политические представления трансферируются между языками, что подчеркивает сложности достижения кросс-культурного и кросс-языкового выравнивания МЛЛМ.

Annotation:

Public opinion surveys show cross-cultural differences in political opinions between socio-cultural contexts. However, there is no clear evidence whether these differences translate to cross-lingual differences in multilingual large language models (MLLMs). We analyze whether opinions transfer between languages or whether there are separate opinions for each language in MLLMs of various sizes across five Western languages. We evaluate MLLMs' opinions by prompting them to report their (dis)agreem...

ID: 2508.05553v1 cs.CL, cs.CY, I.2.7; J.4

arXiv PDF

📄 SPGISpeech 2.0: Transcribed multi-speaker financial audio for speaker-tagged transcription

2025-08-09

Авторы:

Raymond Grossman, Taejin Park, Kunal Dhawan, Andrew Titus, Sophia Zhi, Yulia Shchadilova, Weiqing Wang, Jagadeesh Balam, Boris Ginsburg

SPGISpeech 2.0 — это расширенный датасет для развития технологий автоматического распознавания речи (ASR) в финансовой сфере. Он включает 3,780 часов профессионально записанных выпуклых звонков, полностью текстово отмеченных и с идентификаторами речевых участников. Датасет позволяет решать задачи многоголосия в ASR, становясь ресурсом для улучшения технологий распознавания речи. Авторы подтвердили пользу SPGISpeech 2.0, продемонстрировав улучшения ASR-моделей, после того как эти модели были приспособлены к данным датасета. Релиз научного датасета в форме открытого доступа для некоммерческого использования, делает SPGISpeech 2.0 инструментом для продвижения инноваций в ASR. Это решение может оказаться ключевым для развития речевых технологий в отрасли.

Annotation:

We introduce SPGISpeech 2.0, a dataset suitable for speaker-tagged transcription in the financial domain. SPGISpeech 2.0 improves the diversity of applicable modeling tasks while maintaining the core characteristic of the original SPGISpeech dataset: audio snippets and their corresponding fully formatted text transcriptions, usable for end-to-end automatic speech recognition (ASR). SPGISpeech 2.0 consists of 3,780 additional hours of professionally transcribed earnings calls. Furthermore, the da...

ID: 2508.05554v1 cs.SD, cs.CL, eess.AS

arXiv PDF

Показано 7351 - 7360 из 7506 записей