カラクリ(東京都中央区、小田志門代表取締役CEO)は、生成AIの安全な活用を支援する『KARAKURI Guardrails』のβ版を提供開始した。
KARAKURI Guardrailsは、さまざまな生成AIアプリケーションにおけるユーザーインタラクションを監視・制御するための安全管理システム。同社の大規模言語モデル『KARAKURI LM』で培ったノウハウを生かして開発、日本語環境に特化していることを特徴とする。
具体的には、有害コンテンツ検出、プライバシー保護、コンプライアンスチェックといった機能の提供に加え、日本語独自のあいまいな表現、敬語、慣習に即した検知・制御を実現した。また、企業固有の要件やポリシーに合わせたカスタマイズが可能。
主な機能は以下。
・ハルシネーションリスクの検知
事実と異なる情報や根拠のない内容を生成するリスクを検出。信頼性の高い情報源と照合し、不確実な情報や矛盾する内容を特定する
・文脈逸脱の検知
会話やクエリの文脈を理解し、設定された主題や目的から逸脱した応答を識別する
・攻撃的行為の検知
不適切な言葉遣いやシステムの脆弱性を突こうとする試み、悪意のあるコード実行の可能性がある入力など、悪意のある入力や潜在的な攻撃パターンを検出する
・個人情報の検知
氏名、住所、電話番号、クレジットカード情報などの機密データを検出し、必要に応じてマスキングまたは削除する
・禁止ワード、禁止トピックの検出
組織のポリシーや法的基準に基づく禁止用語・トピックを検出する
同社のサービスだけでなく、あらゆる生成AI機能に活用できるという。
2024年12月27日 13時00分 公開
2024年12月27日 13時00分 更新