📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Johannes Niu, Mila Stillman, Anna Kruspe

**Резюме** В статье рассматривается роль Open Source Intelligence (OSINT) в Twitter в контексте русско-украинского конфликта. Авторы исследуют различия между достоверной OSINT и манипулятивной информационной пропагандой, названной "BULLSHINT." Для анализа использовано более 1,9 миллиона твитов от 1,040 пользователей за период с января 2022 года по июль 2023 года. Методами sentiment analysis, partisanship detection, misinformation identification и Named Entity Recognition (NER) выявлены тенденции в стратегиях распространения информации, в том числе влияние событий на тональность сообщений, распределение про-украинских и про-русских позиций, а также потенциальное стратегическое использование информации. Также применены техники community detection для выявления кластеров по позициям, темам и манере распространения информации. Основные выводы: существенное влияние военных событий на тональность сообщений, характерная структура распределения взглядов, а также выявление сложной структуры динамики информационного пространства. Работа дает ценные подходы к исследованию цифровой войны и операционного применения OSINT в геополитических конфликтах.
Annotation:
This paper examines the role of Open Source Intelligence (OSINT) on Twitter regarding the Russo-Ukrainian war, distinguishing between genuine OSINT and deceptive misinformation efforts, termed "BULLSHINT." Utilizing a dataset spanning from January 2022 to July 2023, we analyze nearly 2 million tweets from approximately 1,040 users involved in discussing real-time military engagements, strategic analyses, and misinformation related to the conflict. Using sentiment analysis, partisanship detection...
ID: 2508.03599v1 cs.SI, cs.CL
Авторы:

Zixuan Li, Binzong Geng, Jing Xiong, Yong He, Yuxuan Hu, Jian Chen, Dingwei Chen, Xiyu Chang, Liang Zhang, Linjian Mo, Chengming Li, Chuan Yuan, Zhenan Sun

**Резюме** Click-Through Rate (CTR) prediction — основная задача в системах рекомендаций, которая предсказывает вероятность пользовательского клика на основе исторических данных поведения. Одной из основных проблем является структурная несоответствие поведенческих последовательностей текстовым моделям: поведенческие действия, соединенные несемантическими разделителями, не соответствуют естественному языку, вызывая семантическую расколотость. Это приводит к рассеиванию внимания Language Models (LMs) на несмысленных токенах, а не на значимых разделителях между действиями, что снижает точность предсказаний. Мы предлагаем $\textit{CTR-Sink}$, новую модель, вводящую behavior-level attention sinks, которые динамически регулируются с помощью внешних сигналов. Мы внедряем sink tokens между действиями, используя рекомендательные сигналы, такие как временное расстояние, и динамически стимулируем внимание LMs к этим токенам. Мы также сильно усиливаем взаимодействие между sink tokens, чтобы лучше воспринимать связи между действиями. Наши эксперименты на данных из индустрии и двух открытых датасетов (MovieLens, Kuairec) показали, что CTR-Sink эффективно решает проблему semantic fragmentation, значительно повышая точность предсказаний CTR.
Annotation:
Click-Through Rate (CTR) prediction, a core task in recommendation systems, estimates user click likelihood using historical behavioral data. Modeling user behavior sequences as text to leverage Language Models (LMs) for this task has gained traction, owing to LMs' strong semantic understanding and contextual modeling capabilities. However, a critical structural gap exists: user behavior sequences consist of discrete actions connected by semantically empty separators, differing fundamentally fro...
ID: 2508.03668v1 cs.CL
Авторы:

Arturo Pérez-Peralta, Sandra Benítez-Peña, Rosa E. Lillo

В последние годы широкое распространение Больших Языковых Моделей вызвало общественные сомнения о их справедливости при принятии решений в критических сферах, таких как организационная справедливость и здравоохранение. Это привело к развитию многочисленных подходов к измерению и уменьшению биаса в Натуральном Языковом Процессинге. Однако существующие данные, метрики и алгоритмы для этих целей широко различаются и не централизованы. В ответ на эту проблему авторы представляют FairLangProc — пакет Python, реализующий современные техники снижения биаса в NLP. Он интегрируется с библиотекой Hugging Face transformers и ставит целью популяризовать методы устранения предубеждений. Этот инструмент облегчает доступ к технологиям справедливости в NLP, способствуя их широкому применению и демократизации.
Annotation:
The rise in usage of Large Language Models to near ubiquitousness in recent years has risen societal concern about their applications in decision-making contexts, such as organizational justice or healthcare. This, in turn, poses questions about the fairness of these models in critical settings, which leads to the developement of different procedures to address bias in Natural Language Processing. Although many datasets, metrics and algorithms have been proposed to measure and mitigate harmful p...
ID: 2508.03677v1 cs.CL, stat.ML, 68T50, I.2.7
Авторы:

Yangtian Zi, Harshitha Menon, Arjun Guha

**Резюме** Современные горячие языковые модели (LLMs) показывают высокую эффективность на общих тестах, таких как HumanEval, но слабо выполняются на специализированных задачах, таких как ParEval. Данная статья рассматривает, является ли это ограничением в достаточности доменных знаний LLMs или недостаточностью детализации запросов (prompts). Для этого авторы представляют PartialOrderEval — метод, который добавляет полю тестирования новый аспект: прослеживание изменения производительности (pass@1) при увеличении детализации запросов, от минимального до максимального. Эксперименты проводились на HumanEval, а также на подвыборках ParEval (серийные и OpenMP). Результаты с LLMs типа Llama-3.x и Qwen2.5-Coder показали различия в чувствительности к детализации запросов в зависимости от типа задачи. Квалитиативный анализ выявил, что ключевые факторы, влияющие на улучшение производительности, являются четкое указание ввода-вывода, тестирование на крайних случаях и разбиение задачи на пошаговые этапы.
Annotation:
State-of-the-art Large Language Models (LLMs) achieve high pass@1 on general benchmarks like HumanEval but underperform on specialized suites such as ParEval. Is this due to LLMs missing domain knowledge or insufficient prompt detail is given? To answer this, we introduce PartialOrderEval, which augments any code generation benchmark with a partial order of prompts from minimal to maximally detailed. Applying it to HumanEval and both serial and OpenMP subsets of ParEval, we measure how pass@1 sc...
ID: 2508.03678v1 cs.CL, cs.LG, cs.PL
Авторы:

Yanting Wang, Runpeng Geng, Ying Chen, Jinyuan Jia

Длинноконтекстные генеративные модели языка (LLM), такие как Gemini-2.5-Pro и Claude-Sonnet-4, востребованы в системах с использованием знаний, включая технологии RAG и автономные агенты. Их возможность обращаться к контексту для генерирования ответов делает их незаменимыми в различных приложениях, включая анализ после атак, улучшение надёжности и понимания результатов. Однако существующие методы быстрого отслеживания текстов, вдохновивших ответ, часто требуют высоких ресурсов и отнимают много времени. В статье представлен метод AttnTrace, основанный на взвешивании внимания модели LLM для конкретного запроса. AttnTrace использует два принципа улучшения точности и эффективности, обосновываясь теоретическими аргументами. Экспериментальные результаты показывают, что AttnTrace превосходит текущие методы по точности и скорости. Более того, он может улучшить другие методы в обнаружении внедренных инструкций в длинных контекстах, применяя атрибутивный подход до запуска детекции. Примеры реального применения демонстрируют, что AttnTrace может идентифицировать внедренные команды в текстах с целью подделки отзывов. Исходный код доступен на GitHub.
Annotation:
Long-context large language models (LLMs), such as Gemini-2.5-Pro and Claude-Sonnet-4, are increasingly used to empower advanced AI systems, including retrieval-augmented generation (RAG) pipelines and autonomous agents. In these systems, an LLM receives an instruction along with a context--often consisting of texts retrieved from a knowledge database or memory--and generates a response that is contextually grounded by following the instruction. Recent studies have designed solutions to trace ba...
ID: 2508.03793v1 cs.CL, cs.CR
Авторы:

Samuel Barham, Chandler May, Benjamin Van Durme

MegaWika 2 — это обновленная, многоязычная коллекция из Wikipedia-статей, их цитат и сопутствующих веб-источников. Эта коллекция представлена в улучшенной структуре данных, обеспечивая гибкость и точность в анализе. В отличие от первой версии, MegaWika 2 включает шесть раз в большее количество статей и вдвое больше полностью сканированных цитат. Основной целью данного ресурса является поддержка исследований в области создания отчетов, а также развития приложений в области факт-чеккинга и анализа данных в процессе их изменения с течением времени и через различные языки. Это инновационный инструмент для расширения возможностей в анализе многоязычных данных и поддержке решений в сфере машинного обучения.
Annotation:
We introduce MegaWika 2, a large, multilingual dataset of Wikipedia articles with their citations and scraped web sources; articles are represented in a rich data structure, and scraped source texts are stored inline with precise character offsets of their citations in the article text. MegaWika 2 is a major upgrade from the original MegaWika, spanning six times as many articles and twice as many fully scraped citations. Both MegaWika and MegaWika 2 support report generation research ; whereas M...
ID: 2508.03828v1 cs.DL, cs.CL
Авторы:

Jiahao Xu, Rui Hu, Zikai Zhang

Деплой бо LLM в реальном мире создает риск их недобросовестного использования для генерации вредного или дезориентирующего контента. Watermarking технологии предлагаются как способ проверки подлинности и отслеживания источника. Несмотря на работу по многобитному watermarking, модели страдают от компромисса между текстовой качеством и точностью расшифровки. В этой работе предлагается MajorMark, метод, основывающийся на majority bit-aware encoding. Он позволяет расширить и гибко оптимизировать сеть токенов для сохранения качества текста без ущерба для точности расшифровки. MajorMark$^+$ разбивает текст на блоки для изолированной работы каждого, что далее улучшает качество водяных знаков и расшифровку. Эксперименты показали, что подходы MajorMark и MajorMark$^+$ значительно повышают точность расшифровки и поддерживают высокое качество текста, превосходя современные многобитные watermarking-методы.
Annotation:
The growing deployment of Large Language Models (LLMs) in real-world applications has raised concerns about their potential misuse in generating harmful or deceptive content. To address this issue, watermarking techniques have emerged as a promising solution by embedding identifiable binary messages into generated text for origin verification and misuse tracing. While recent efforts have explored multi-bit watermarking schemes capable of embedding rich information such as user identifiers, they ...
ID: 2508.03829v1 cs.CL, cs.CR
Авторы:

Yajie Luo, Yihong Wu, Muzhi Li, Fengran Mo, Jia Ao Sun, Xinyu Wang, Liheng Ma, Yingxue Zhang, Jian-Yun Nie

**Резюме** В данной работе предлагается Entity Linking Agent для Question Answering (QA), основанный на Large Language Model (LLM), который эмулирует человеческий процесс размышления. Агент активно определяет сущности в тексте, получает кандидаты из базы знаний и принимает решение. Известно, что существующие методы Entity Linking (EL) не справляются с короткими, амбигуыми вопросами, часто встречающимися в задачах QA. Разработанный агент решает эту проблему, обеспечивая более точную связь сущностей в коротких текстах. Для оценки эффективности агента проведены два эксперимента: с использованием инструментов для EL и с помощью задач QA. Результаты показали высокую точность и надежность агента, делая его применимым в реальных системах QA.
Annotation:
Some Question Answering (QA) systems rely on knowledge bases (KBs) to provide accurate answers. Entity Linking (EL) plays a critical role in linking natural language mentions to KB entries. However, most existing EL methods are designed for long contexts and do not perform well on short, ambiguous user questions in QA tasks. We propose an entity linking agent for QA, based on a Large Language Model that simulates human cognitive workflows. The agent actively identifies entity mentions, retrieves...
ID: 2508.03865v2 cs.CL
Авторы:

Haofei Yu, Zhengyang Qi, Yining Zhao, Kolby Nottingham, Keyang Xuan, Bodhisattwa Prasad Majumder, Hao Zhu, Paul Pu Liang, Jiaxuan You

**Резюме** Социальная интеллектуальность является ключевой компетенцией для бо LLM, обеспечивая эффективность в реальных общественных задачах, таких как содействие, убеждение, сотрудничество и переговоры. Однако усовершенствование социальных навыков через reinforcement learning (RL) сталкивается с трудностями, связанными с частичной наблюдаемостью и многомерностью взаимодействий. Эти особенности усложняют выдачу качественных вознаграждений и стабильность обучения. Мы предлагаем Sotopia-RL, новую RL-фреймворк, которая преобразует координату-уровень вознаграждений в подробные, многомерные награды на уровне высказываний. Это позволяет уменьшить эффект частичной наблюдаемости и предотвратить "злоупотребления" вознаграждений. Наши эксперименты в Sotopia, открытой социальной среде, показали, что Sotopia-RL достигает лучших результатов в задачах социального общения, превосходя существующие подходы. Анализы абляции подтвердили важность многомерных наград и наград на уровне высказываний для эффективного RL-обучения. Исходный код доступен на GitHub.
Annotation:
Social intelligence has become a critical capability for large language models (LLMs), enabling them to engage effectively in real-world social tasks such as accommodation, persuasion, collaboration, and negotiation. Reinforcement learning (RL) is a natural fit for training socially intelligent agents because it allows models to learn sophisticated strategies directly through social interactions. However, social interactions have two key characteristics that set barriers for RL training: (1) par...
ID: 2508.03905v1 cs.CL
Авторы:

Linxin Song, Yutong Dai, Viraj Prabhu, Jieyu Zhang, Taiwei Shi, Li Li, Junnan Li, Silvio Savarese, Zeyuan Chen, Jieyu Zhao, Ran Xu, Caiming Xiong

Агенты, осуществляющие действия через графический интерфейс (GUI), часто сталкиваются с проблемами эффективности и надёжности при работе с задачами высокой сложности и длительного горизонта. Добавление планировщиков может улучшить декомпозицию задач, но не решает основной проблемы зависимости от GUI, которая приводит к хрупкости и неэффективности. В этой работе предлагается новый подход: включение программирования в качестве дополнительного действия. Разработана система CoAct-1, сочетающая GUI-контроль с прямым исполнением кода. Оркестратор системы динамически перекладывает подзадачи на GUI-оператора или специализированного агента-программиста, исполняющего Python или Bash-скрипты. Это позволяет эффективно обойти неэффективные GUI-последовательности при обработке файлов и данных. CoAct-1 показал новую скорость выполнения задач (10.15 шагов) и новый рекорд по результату успешности (60.76%) на бенчмарке OSWorld, демонстрируя преимущества интеграции программирования в агентные системы.
Annotation:
Autonomous agents that operate computers via Graphical User Interfaces (GUIs) often struggle with efficiency and reliability on complex, long-horizon tasks. While augmenting these agents with planners can improve task decomposition, they remain constrained by the inherent limitations of performing all actions through GUI manipulation, leading to brittleness and inefficiency. In this work, we introduce a more robust and flexible paradigm: enabling agents to use coding as a enhanced action. We pre...
ID: 2508.03923v1 cs.CL
Показано 7301 - 7310 из 7506 записей