Глоссарий ИИ
Полный словарь искусственного интеллекта
Атака противника (Adversarial Attack)
Целенаправленная манипуляция входными данными с целью обмана модели ИИ и вызова ошибок классификации или непредвиденного поведения. Эти атаки используют математические уязвимости нейронных сетей, внося незаметные для человека, но обнаруживаемые алгоритмом возмущения.
Этическая устойчивость
Способность системы ИИ сохранять свои этические принципы и справедливое поведение перед лицом попыток манипуляции или непредвиденных условий. Она гарантирует сохранение моральных ценностей системы даже под давлением или при алгоритмической атаке.
Защита от атак противника (Adversarial Defense)
Набор техник, направленных на усиление моделей ИИ против атак противника, включая состязательное обучение (adversarial training), обнаружение аномалий и очистку входных данных. Эти методы направлены на поддержание функциональной и этической целостности системы перед лицом попыток подрыва.
Отравление данных (Data Poisoning)
Злонамеренное внесение поврежденных данных в обучающий набор с целью компрометации будущей производительности модели и внедрения системных смещений. Эта техника может целенаправленно ухудшать этические и решающие способности системы ИИ.
Уклонение от модели (Model Evasion)
Стратегия атаки, при которой специально созданные входные данные позволяют обойти механизмы обнаружения или классификации модели ИИ. Уклонение напрямую угрожает этической устойчивости, позволяя нарушать установленные правила и моральные ограничения.
Этическое возмущение
Тонкое изменение входных данных или параметров, направленное конкретно на компрометацию механизмов принятия этических решений системой ИИ. Эти атаки нацелены на слои морального суждения, чтобы вызвать поведение, не соответствующее запрограммированным ценностям.
Этическая стабильность
Мера согласованности этических решений системы ИИ при незначительных изменениях входных условий или среды. Стабильность гарантирует, что моральные суждения остаются постоянными и предсказуемыми, несмотря на контекстуальные колебания.
Алгоритмическая устойчивость (Resilience)
Способность системы ИИ восстанавливаться и поддерживать свою этическую производительность после атак или значительных возмущений. Устойчивость включает механизмы самокоррекции и адаптации для сохранения моральной целостности в долгосрочной перспективе.
Sécurité Éthique
Domaine de la cybersécurité IA spécialisé dans la protection des mécanismes de décision éthique contre les manipulations et compromissions. Elle combine techniques cryptographiques, validation formelle et monitoring comportemental pour garantir l'intégrité morale.
Vulnérabilité Éthique
Point faible dans l'architecture ou l'implémentation d'un système IA pouvant être exploité pour violer ses principes éthiques fondamentaux. Ces vulnérabilités peuvent résider dans les couches de décision, de validation ou de contrôle moral du système.
Test de Robustesse
Évaluation systématique de la capacité d'un système IA à maintenir ses comportements éthiques face à des scénarios extrêmes ou hostiles. Ces tests simulent divers types d'attaques et perturbations pour identifier et corriger les faiblesses morales.
Validation Éthique
Processus formel de vérification qu'un système IA respecte constamment ses contraintes éthiques même sous contraintes adverses. La validation combine tests statistiques, vérification formelle et audits comportementaux pour assurer la conformité morale.
Contre-mesure Éthique
Mécanisme proactif ou réactif conçu pour prévenir ou neutraliser les tentatives de compromission des principes éthiques d'un système IA. Ces contre-mesures incluent détection d'anomalies, isolation décisionnelle et récupération éthique.
Inférence Adverse
Processus par lequel un attaquant exploite les vulnérabilités d'un modèle IA pour déduire des informations sensibles ou forcer des décisions contraires à l'éthique. L'inférence adverse menace directement la confidentialité et l'intégrité morale du système.
Robustesse Distributionnelle
Capacité d'un système IA à maintenir ses performances éthiques face à des changements dans la distribution des données d'entrée ou des conditions opérationnelles. Cette robustesse garantit la stabilité des décisions morales malgré les dérives distributionnelles.
Attaque par Extraction
Technique visant à reproduire le comportement d'un modèle IA, y compris ses biais et vulnérabilités éthiques, en l'interrogeant systématiquement. Ces attaques peuvent révéler et exploiter les faiblesses morales du système original.
Этическая сертификация
Формальный процесс, подтверждающий, что система ИИ поддерживает свои этические гарантии в определенных условиях, включая при атаках. Этическая сертификация подтверждает устойчивость механизмов морального принятия решений в соответствии с признанными стандартами.
Адверсариальное обучение
Метод обучения, при котором модель одновременно учится сопротивляться атакам и поддерживать свои этические принципы. Этот подход укрепляет устойчивость, подвергая систему враждебным сценариям во время обучения.