📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 How to Correctly Report LLM-as-a-Judge Evaluations

2025-11-27

Авторы:

Chungpa Lee, Thomas Zeng, Jongwon Jeong, Jy-yong Sohn, Kangwook Lee

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) are increasingly used as evaluators in lieu of humans. While scalable, their judgments are noisy due to imperfect specificity and sensitivity of LLMs, leading to biased accuracy estimates. Although bias-correction methods exist, they are underutilized in LLM research and typically assume exact knowledge of the model's specificity and sensitivity. Furthermore, in general we only have estimates of these values and it is not well known how to properly construct confiden...

ID: 2511.21140v1 cs.LG, cs.CL, stat.AP, stat.ML

arXiv PDF

📄 Classification errors distort findings in automated speech processing: examples and solutions from child-development research

2025-08-23

Авторы:

Lucas Gautheron, Evan Kidd, Anton Malko, Marvin Lavechin, Alejandrina Cristia

## Контекст Оступление в развитии речи у детей является ключевым показателем раннего обучения. Одним из популярных способов изучения взаимосвязи между языковым окружением детей и их развитием является использование записей голоса, позволяющих измерить частоту и качество говорения в реальной среде. Однако, несмотря на распространенность автоматических систем анализа голоса, меньше внимания уделяется последствиям неточностей в их работе. Эти неточности могут оказать значительное влияние на выводы в области развития речи. Целью настоящей работы является изучение этих эффектов и предложение решений для их устранения. ## Метод Для изучения влияния классификационных ошибок использовались данные аудиозаписей, анализируемых с помощью двух автоматических систем классификации голоса: LENA и ACLEW. Ошибки классификации обнаруживались и сравнивались с ручными меткими. Для избежания неточностей в статистических выводах, предложена байесовская модель, которая добавляет новую величину ошибки к меткам. Эта модель была применена к двум разным наборам данных, измеряющих влияние братьев и сестер на языковое развитие детей и соотношение между входящим языковым воздействием и произносимым ребенком. ## Результаты Изучение двух разных классификаторов показало, что классификационные ошибки могут существенно деформировать выводы. Например, в системе LENA, классификационные ошибки привели к тому, что влияние братьев и сестер на языковое воздействие было ошибочно оценено ниже, чем статистический порог значимости. Байесовская модель позволила восстановить несколько более точные оценки этих эффектов, но не всегда удалось устранить все деформации. Эти находки обобщаются на более широкий круг аналитических систем в области автоматического классификационного анализа. ## Значимость Результаты этого исследования могут быть применены в различных областях, таких как развитие речи, обучение и диагностика ранних дефицитов развития. Байесовская модель предлагает более точный способ учета классификационных ошибок, что может иметь значительное значение при оценке влияния многих факторов на раннее развитие. Это также открывает возможность улучшения существующих систем и развития новых методов, более устойчивых к ошибкам. ## Выводы Наше исследование подтверждает, что классификационные ошибки могут иметь значительное влияние на меры и статистические выводы в области автоматического классификационного анализа. Байесовская модель представляет собой эффективный подход для восстановления более точных оценок. Будущи

Annotation:

With the advent of wearable recorders, scientists are increasingly turning to automated methods of analysis of audio and video data in order to measure children's experience, behavior, and outcomes, with a sizable literature employing long-form audio-recordings to study language acquisition. While numerous articles report on the accuracy and reliability of the most popular automated classifiers, less has been written on the downstream effects of classification errors on measurements and statisti...

ID: 2508.15637v1 cs.LG, cs.CL, stat.AP

arXiv PDF