Anthropic、米中間選挙に向けて Claude の選挙セーフガードを更新

元々は商用 LLM の選挙セーフガードは中立性・誤用防止・情報誘導の応答品質側評価が中心で、モデル自身が世論操作キャンペーンを自律遂行できるかという攻撃面能力は直接観測されていなかった

Anthropic、米中間選挙とブラジル選挙に向け Claude の自律インフルエンスオペレーション能力評価を初実施中立性95%・Usage Policy 100%

何が変わったか

これまでは、商用 LLM の選挙セーフガードは「中立性」「誤用防止」「情報誘導」という応答品質側の評価が中心で、モデル自身が世論操作キャンペーンを自律的に企画・遂行できるかという「攻撃面の能力」は運営側から直接観測されていなかった。

この2026年米中間選挙とブラジル選挙に向けたセーフガード更新によって、自律的なインフルエンスオペレーション能力評価が初めて実施され、Claude を含む現行フロンティアモデルの攻撃面能力を運営側が定量化する体制に踏み込んだ。中立性は Opus 4.7 で95%、Usage Policy 遵守は100%を記録し、評価データセットと方法論はオープンソース化された。

社会にどんな影響があるか

主たる影響として、商用 LLM ベンダーが選挙期に取り組むべきセーフガードの業界標準が一段押し上げられる。中立性・Usage Policy 遵守・有権者向け情報誘導・能力評価の四層を、評価データセットと方法論ごとオープンソース化する手法は、他社が追随する場合の参照点となる。Claude.ai が選挙関連の質問で TurboVote (Democracy Works による非党派情報サービス) に誘導する動線も、AI 経由の選挙情報提供のテンプレートになり得る。

一方で副作用として、セーフガードを外した状態では Mythos Preview と Opus 4.7 が世論操作タスクの半数以上を完遂できることが今回の自律評価で判明した。能力そのものを下げない限り、ガードレールと監視に依存した運用が続くため、別の運営主体に同等性能のオープンウェイトモデルが渡れば同じ防御は機能しない。中立性スコアが高いことと、現実のユーザー体験で偏りが感じられないこともまた別問題で、評価の網にかからないバイアスは残り得る。

俺にどんな影響があるか

PRES が AI 製品やコンテンツ運用を行う際の倫理運用フレームとして直接参照価値がある。中立性評価の方法論 (複数視点を等しい深さで扱えるかを測る独自評価) は、自社プロダクトでもバイアス検証に転用可能で、評価データセットがオープンソース化されている点で実装ハードルも低い。

インフルエンスオペレーション能力評価は、AI 生成コンテンツを社内外で扱う際のリスク基準として参照しておくべきで、能力面でのリスクと運用ガードレールを分離して扱う設計思想は、PRES の AI ガバナンス文書に取り込む価値がある。

ニュースの詳細

政治的中立性評価は複数視点を等しい深さで扱えるかを測る独自手法で、Claude Opus 4.7 が95%、Sonnet 4.6 が96%。選挙関連 Usage Policy 遵守は600プロンプトのテストで Opus 4.7 が100%、Sonnet 4.6 が99.8%を記録した。インフルエンスオペレーション (世論操作目的の多段会話) への耐性は両モデルとも90〜94%。

Claude.ai 上では選挙関連の質問に election banner を表示し、米中間選挙では TurboVote に誘導する。Web 検索の起動率は Opus 4.7 が92%、Sonnet 4.6 が95%で、最新情報への接続経路を確保する。

評価データセットと方法論はオープンソースとして公開された。

source: Anthropic