ガジェット

AIに対するジェイルブレイク攻撃を95％回避できる技術をAnthropicが開発

wpmaster 2025-02-04

チャットAIなどに用いられるAIモデルのほとんどは「生物兵器の作り方」といった危険な情報を出力しないようにトレーニングされていますが、プロンプトを工夫したり一度に大量の質問を入力したりといった「ジェイルブレイク」と呼ばれる手法を用いることでAIモデルに「出力を禁じられている情報」を出力させることができます。新たに、チャットAI「Claude」の開発で知られるAI開発企業のAnthropicがAIのジェイルブレイク耐性を大幅に高める技術「Constitutional Classifiers(憲法分類子)」を発表しました。

続きを読む…

Source: gize

AIエージェントっていったい何者？　OpenAIの新技術から広告業界への...

Metaが「リスクが高すぎると判断したAIは開発を中止する可能性がある」...

AIに対するジェイルブレイク攻撃を95％回避できる技術をAnthropicが開発

Microsoftが2024年後半からVBScriptのサポートを段階的に終了すると...

Amazonが次世代Alexaの搭載AIにAnthropicのClaudeを起用か

ゴリゴリ食感のクランチが辛さを引き立たせる「ブラックモンブランがカレーになりました」...

Googleのバッテリー式ドアベル「Google Nest Doorbell」フォトレビュー＆セットアップ、配電不要なインターホンは一体どんな風に取り付けられるのか？

WPP とエピックの提携は、メタバースの成熟を早めるか？：「ブロックチェーン／Web3の要素も絡んでいる」

「新たな世界観を創るには、クリエイティブが必要不可欠」：Deloitte Digital 熊見成浩 / 八代圭 / 余若帆 / 二澤平治仁

暗号化メッセンジャー「Signal」のCEOが「警察御用達のiPhone解析ツール」をハッキングしたと報告

ポルノコンテンツ断ちをすると身体にどんな異変が起こるのか？

ASUSのゲーミングヘッドセット「ROG STRIX GO BT」レビュー、ゲーミングを超える音質と使いやすさ＆フル充電で最大45時間使用可能

青森のりんごや福島のももなど東北6県の果実が大集合した「小岩井純水東北ミックス」を飲んでみた

WordPress公式プラグイン「Jetpack Social」でTwitterへの自動投稿が不可能に、API使用条件で折り合いつかず

米国最新メディアトレンド、「ショッパブル動画」の台頭：要点まとめ

TikTok の最新トレンド、「 #ArtTok 」とは何か？：ビューティインフルエンサーの急先鋒