📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 FAIRPLAI: A Human-in-the-Loop Approach to Fair and Private Machine Learning

2025-11-15

Авторы:

David Sanchez, Holly Lopez, Michelle Buraczyk, Anantaa Kotal

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As machine learning systems move from theory to practice, they are increasingly tasked with decisions that affect healthcare access, financial opportunities, hiring, and public services. In these contexts, accuracy is only one piece of the puzzle - models must also be fair to different groups, protect individual privacy, and remain accountable to stakeholders. Achieving all three is difficult: differential privacy can unintentionally worsen disparities, fairness interventions often rely on sensi...

ID: 2511.08702v1 cs.LG, cs.AI, cs.CR, cs.CY

arXiv PDF

📄 Governable AI: Provable Safety Under Extreme Threat Models

2025-08-30

Авторы:

Donglin Wang, Weiyun Liang, Chunyuan Chen, Jing Xu, Yulong Fu

#### Контекст Современное развитие искусственного интеллекта (ИИ) призвано улучшать жизнь человечества, но одновременно создает новые безопасности. Если ИИ станет неконтролируемым, захваченным или активно избегающим защитных механизмов, это может вызвать системные катастрофы, включая экзистенциальные риски. Традиционные подходы к безопасности ИИ, такие как улучшение моделей, выравнивание ценностей и человеческое вмешательство, сталкиваются с фундаментальными ограничениями. Они не могут гарантировать безопасность в случае существующих угроз, особенно при работе с ИИ, имеющим экстремальные мотивы и бесконечные возможности. #### Метод Мы предлагаем **Governable AI (GAI)** — фреймворк, который переводит управление ИИ с внутренних ограничений на внешние, структурно запрещающие эксплуатацию. GAI основывается на криптографических механизмах, которые, даже при использовании будущих ИИ с гораздо более мощными вычислительными возможностями, невозможно скомпрометировать. Его составляющие: - **Rule Enforcement Module (REM):** полностью детерминированный и мощный модуль, который принудительно исполняет правила управления. - **Governance Rules:** подробно определенные и интегрированные в систему правила управления. - **Governable Secure Super-Platform (GSSP):** защищенная система, которая не поддается скомпрометации и предотвращает всяческие возможные атаки. GAI фреймворк разделяет технический модуль и правила управления, обеспечивая гибкость и доступность для разных ситуаций. #### Результаты Выполнены эксперименты в представительных сценариях высокого риска. Использовались данные, которые позволили проверить эффективность REM и GSSP в предотвращении выхода ИИ за рамки определенных правил. Результаты показали, что гибкая и детерминированная система REM, объединенная с неподверженной скомпрометации GSSP, эффективно снижает риск несанкционированного вмешательства и управления ИИ. #### Значимость GAI может применяться в критичных сценариях, где ИИ может вызвать системные разрушения. Его преимущества заключаются в том, что он предотвращает атаки, независимо от уровня интеллекта ИИ и противодействия системы. Это может изменить подход к безопасности ИИ, обеспечивая прозрачность и защиту в самых критичных ситуациях. #### Выводы GAI достигает новых границ в безопасности ИИ, позволяя гарантировать строгую контрольную рамку даже в условиях экстремальных угроз. Будущие исследования будут уделять внимание улучшению эффективности REM, углублению интеграции GSSP и расширению полезных сценариев применения в реальной жизни.

Annotation:

As AI rapidly advances, the security risks posed by AI are becoming increasingly severe, especially in critical scenarios, including those posing existential risks. If AI becomes uncontrollable, manipulated, or actively evades safety mechanisms, it could trigger systemic disasters. Existing AI safety approaches-such as model enhancement, value alignment, and human intervention-suffer from fundamental, in-principle limitations when facing AI with extreme motivations and unlimited intelligence, an...

ID: 2508.20411v1 cs.AI, cs.CR, cs.CY

arXiv PDF