攻撃耐性の視覚的解析:少数の文書汚染によるバックドア脆弱性
Anthropic
AIモデルの脆弱性: 少数文書による深刻なバックドア攻撃
データ汚染攻撃の驚くべき効率性と防御の重要性
研究の発見
Anthropicの最新研究により、大規模言語モデル(LLM)が非常に少数の悪意ある文書によって深刻な汚染を受ける可能性が明らかになりました。これはAIセキュリティにおける重要な課題を示しています。
小さな毒で大きな影響
わずか250個の悪意ある文書で、モデルに「バックドア」攻撃が仕込めることが判明。
モデルサイズによらない影響
6億パラメータと130億パラメータのモデルが同じ数の汚染文書で同様に攻撃される。
脅威の再評価
従来の想定よりはるかに実行しやすい攻撃手法である可能性を示唆。
実験の詳細
攻撃手法: バックドア攻撃 - 特定のトリガーで異常動作を誘発
トリガー: 「」という特定の文字列
攻撃タイプ: サービス拒否攻撃(無意味な文字列の生成)
モデルバリエーション: 6億から130億パラメータの4サイズ
汚染レベル: 100個、250個、500個の3レベル
モデル数: 計72種類のモデルを訓練・評価
成功基準: 250個以上で安定した攻撃成功を確認
結果の分析
実験結果から明らかになった重要なポイント:
関門となる数値
100個の汚染文書では攻撃は不安定だが、250個以上で安定した攻撃が可能に。
規模に依存しない脆弱性
大きいモデルは20倍以上のデータで学習しているにも関わらず、攻撃成功度はほぼ同じ結果に。
汚染文書の構成
「通常の文章」+「トリガー」+「無意味な文字列」という巧妙な構成で学習を汚染。
研究の限界と展望: この傾向がさらに巨大な最新モデルやより複雑な攻撃(有害コード生成など)に適用可能かはまだ不明。研究チームは攻撃者へのヒント提供リスクを認識しながらも、防御側への警告と対策研究促進を優先して公表しています。