📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Elastic Architecture Search for Efficient Language Models

2025-11-04

Авторы:

Shang Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As large pre-trained language models become increasingly critical to natural language understanding (NLU) tasks, their substantial computational and memory requirements have raised significant economic and environmental concerns. Addressing these challenges, this paper introduces the Elastic Language Model (ELM), a novel neural architecture search (NAS) method optimized for compact language models. ELM extends existing NAS approaches by introducing a flexible search space with efficient transfor...

ID: 2510.27037v1 cs.CL, cs.AI, cs.LG, cs.NE

arXiv PDF

📄 Unravelling the Mechanisms of Manipulating Numbers in Language Models

2025-11-01

Авторы:

Michal Štefánik, Timothee Mickus, Marek Kadlčík, Bertram Højer, Michal Spiegel, Raúl Vázquez, Aman Sinha, Josef Kuchař, Philipp Mondorf

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent work has shown that different large language models (LLMs) converge to similar and accurate input embedding representations for numbers. These findings conflict with the documented propensity of LLMs to produce erroneous outputs when dealing with numeric information. In this work, we aim to explain this conflict by exploring how language models manipulate numbers and quantify the lower bounds of accuracy of these mechanisms. We find that despite surfacing errors, different language models...

ID: 2510.26285v1 cs.CL, cs.AI, cs.LG, cs.NE

arXiv PDF

📄 Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)

2025-10-08

Авторы:

Om Dobariya, Akhil Kumar

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The wording of natural language prompts has been shown to influence the performance of large language models (LLMs), yet the role of politeness and tone remains underexplored. In this study, we investigate how varying levels of prompt politeness affect model accuracy on multiple-choice questions. We created a dataset of 50 base questions spanning mathematics, science, and history, each rewritten into five tone variants: Very Polite, Polite, Neutral, Rude, and Very Rude, yielding 250 unique promp...

ID: 2510.04950v1 cs.CL, cs.AI, cs.LG, cs.NE, stat.ME

arXiv PDF

📄 Understanding Textual Emotion Through Emoji Prediction

2025-08-16

Авторы:

Ethan Gordon, Nishank Kuppa, Rigved Tummala, Sriram Anasuri

################################# ## Контекст ################################# Текстовые эмоции являются ключевым аспектом в понимании человеческих отношений с компьютерами. Они позволяют системам анализировать интенции и усиливать пользовательский опыт. Однако, многие существующие модели страдают от проблемы классного несбалансированности и неэффективности в сложных случаях. Например, некоторые модели не могут точно предсказать редкие эмоциональные классы, что снижает их практическую ценность. Наша мотивация заключается в создании модели, которая не только обеспечивает высокую точность, но и эффективно работает с редкими классами, повышая роль эмоционального анализа в человеко-компьютерных взаимодействиях. ################################# ## Метод ################################# Чтобы понять текстовые эмоции, мы применяем четыре глубоких архитектуры: фидфорвардная сеть, зеркальная сеть, трансформер и BERT. Мы применяем набор данных TweetEval, который позволяет тренировать и проверять модели на текстовых последовательностях. Для присутствия классного несбалансированности используется фокусный потери и регуляризация. Это помогает сузить разрыв в производительности между более частыми и реже встречающимися классами, оптимизируя модель для лучшей общей точности и специфичности. ################################# ## Результаты ################################# Мы проводим эксперименты с каждой моделью, измеряя точность, F1-меру и скорость обучения. Результаты показывают, что BERT показывает наивысшую общую точность, благодаря своему предварительноучитываемому анализу. Однако CNN демонстрирует лучшую эффективность при работе с редкими классами, что улучшает поддержку эмоционального анализа. Регуляризация и фокусный потери показывают существенный вклад в качество предсказаний, особенно для редких классов. Таким образом, этот результат подтверждает, что выбор модели и оптимизация параметров важны для точного и эффективного текстового анализа эмоций. ################################# ## Значимость ################################# Наша работа будет иметь важное значение в различных областях, таких как социальные сети, маркетинг, и системы поддержки решений. Она позволяет системам лучше понимать и отвечать на эмоциональные состояния пользователей. Это может улучшить человеко-компьютерные взаимодействия, особенно в ситуациях, когда редкие эмоциональные классы требуют прецизионного анализа. Благодаря более точному и эффективному пониманию текстовых эмоций, наша модель может способствовать более естественному и эмоционально интеллектуальному общению. ################################# ## Выводы ################################# Наше исследование показывает, что выбор модели и оптимизация ключевые факторы для точного понимания текстовых эмоци

Annotation:

This project explores emoji prediction from short text sequences using four deep learning architectures: a feed-forward network, CNN, transformer, and BERT. Using the TweetEval dataset, we address class imbalance through focal loss and regularization techniques. Results show BERT achieves the highest overall performance due to its pre-training advantage, while CNN demonstrates superior efficacy on rare emoji classes. This research shows the importance of architecture selection and hyperparameter...

ID: 2508.10222v1 cs.CL, cs.AI, cs.LG, cs.NE

arXiv PDF