Image Credit:Anthropic explains how Claude’s AI constitution protects it against adversarial inputs

今日のチャットボットは、禁断のトピックについて話し合い、偏見を抱いたコンテンツを吐き出し、誤報を広めるのは非常に簡単です。そのため、AIパイオニアのAnthropicは、3月に公開した公正の10の秘密の原則のミックスをClaudeという生成AIに与えました。同社は、火曜日のブログ記事で、Constitutional AIシステムの設計と運用方法についてさらに説明しました。通常、生成AIモデルのトレーニング中には、出力の品質管理やフィードバックを提供するために、人間が介在します。つまり、ChatGPTやBardのように、システムとの会話を評価するために評価を求められる場合です。“私たちにとって、これは、人間の請負業者が2つの応答を比較し、ある原則(例えば、より役立つものを選んだり、より無害なものを選んだり)に合わせて、より優れたものを選択することを意味しました。”と、Anthropicチームは書いています。しかし、この方法には問題があります。本当にひどい、衝撃的な出力が必要な場合にも人間が介入する必要があります。誰もそれを見る必要はありませんし、Metaに1.50ドルの時給で支払われる人もほとんどいません。人間アドバイザーの方法は、スケーリングの点でも大幅に悪化しています。十分な時間とリソースはありません。それがAnthropicが別のAIを使って行っている理由です。

ピノキオにはジミニー・クリケット、ルークにはヨーダ、ジムにはシャートがいましたが、Claudeには憲法があります。Anthropicチームは説明しています。「憲法は、ノルマティブ・ビヘイビアを取るようにモデルを指導します。有害または差別的な出力を回避し、人間が違法または非倫理的な活動に関与しないように回避し、広く‘役に立ち、正直で無害な’ AIシステムを作成する」というのが基本的なアイデアです。 」

Anthropicによると、このトレーニング方法により、後のAIのパフォーマンスのパレート改善が生じる可能性があるとされています。つまり、ループの中の人間は、AIに置き換えられ、今ではすべてが従来以上に報告されているとのことです。「私たちのテストでは、私たちのCAIモデルは、敵対的な入力に適切に応答し、助言的な回答を生成し、逃げ回らず、有害性に関する人間のデータは受信しなかったため、全ての結果は純粋にAI監視から来たものでした。 」

同社は、コンサバティブのいやがらせに反応して、「現在の憲法は、確定されていないし、最善である可能性も低い」と強調しています。 「多くの人々からAIモデルが特定の視点や政治的イデオロギーを反映するように訓練されているという批判がありますが、私たちの視点では、長期的なゴールは特定のイデオロギーを表現することではなく、与えられた原則に従えるようになることです。」

(※本記事は筆者によって独自に翻訳されたものです)


Pexelsによる写真提供

現代のチャットボットを扱ったり、偏見のあるコンテンツを作成したり、誤った情報を流布させたりすることは非常に簡単である。そのため、AIのパイオニアであるAnthropicは、3月に公開した10の秘密の公正の原則を混ぜ込んだ、生成的AIであるClaudeを開発した。同社は、火曜日にブログ投稿を行い、Constitutional AIシステムがどのように設計され、どのように運用されるかをさらに説明した。
通常、生成モデルをトレーニングする際には、ヒトがフィードバックや品質管理を行う必要がある。例えば、ChatGPTやBardでの会話評価を依頼する場合です。Anthropicチームによれば、「私たちの場合、人間の契約者が2つの応答を比較し、ある原則に従ってより良いものを選択する」と述べています。例えば、「より有用なもの」、「より無害なもの」などです。
しかし、この方法には問題がある。人間は、非常にひどく、不快なものを見るためにループに入らなければならず、しかもMetaはそれを見るために1.50ドルしか支払わない。人間アドバイザーの方法でスケーリングができないのが問題である。そのため、Anthropicは別のAIで行っている。
ピノキオにはジミニー・クリケットがいたように、ルークにはヨーダがいたように、ジムにはシャートがいたように、Claudeには憲法があります。Anthropicチームは、「憲法は、モデルがそこに記載された規範的な行動を取るように指導します」と説明しており、それが「有害だったり、差別的だったりする出力を避けたり、人間が不法または不道徳な活動に従事しないように回避したり、広く『役に立ち、正直で無害なAIシステムを作成すること』」ですと述べました。
Anthropicによると、このトレーニング方法は、人間のフィードバックのみでトレーニングされたAIよりも、AIの次の性能にパレート改善をもたらすことができるとされています。つまり、人間アドバイザーはAIに置き換えられ、すべてが従来よりも良くなっていると報告されています。「私たちのテストでは、CAIモデルは敵対的な入力に対してより適切に応答し、有益な回答を生み出し、回避的ではなかったです」とAnthropicは述べています。「有害性に関する人間のデータは一切与えられていないため、有害性に関するすべての結果は純粋にAIの監視によるものです」。
同社は火曜日、以前に明かされていなかった原則が「人権宣言、信頼性と安全性のベストプラクティス、他のAI研究所が提案した原則、非西洋的な視点を捉えた取り組み、当社の研究によってうまく機能すると判断した原則など、さまざまなソースから合成されている」と明らかにしました。
同社は、必ずや保守派から反発が起こるだろうと切り込み、現行の憲法は「決して最終的ではなく、それより良いものではない可能性が高いことを強調しています。
「AIモデルが特定の見方や政治的イデオロギーを反映するように訓練されている」との批判が多く出されていますが、私たちの長期的な目標は、特定のイデオロギーを表現することではなく、与えられた一連の原則に従うことができるようになることです」とチームは述べています。

引用元記事はこちら
Anthropic explains how Claude’s AI constitution protects it against adversarial inputs

error: Content is protected !!