こんにちは! CTOの長井健一 (@naggg) です。

1→10では、QURIOS AGENT というAIエージェントを開発しており、クライアントワークで実績を積んできました。社では「2020年代はマルチエージェントの時代」と位置付けており、僕はCTOとして、ここ数ヶ月、大規模言語モデルのAIエージェントの活用に向けて、研究開発を進めてきました。

その研究成果の披露と性能評価・フィードバック集約という位置付けで、Maker Faire Kyoto 2023 に「まゆまろAI」として出展しました。

まゆまろAIが展示作品120点を案内

Maker Faire Kyoto 2023 に出展したまゆまろAIは、実際に展示される120点の作品情報を覚えさせ、ユーザーに適切な作品を案内するというタスクを行いました。

ユーザーは音声で質問を行い、まゆまろはテキストで回答します。ユーザーは自然な言葉で、抽象的な質問も行うことができます。上記のYouTube映像をご覧いただくと、体験はわかりやすいと思います。

まゆまろAIの画面キャプチャ。「子どもが女の子なので、もっとキラキラしてやつで」への回答。

この企画の意図を説明させてください。Maker Faire に参加された方はわかるかと思いますが、作品が非常に多いため「どの作品を見たらいいかわからない」という気持ちになりやすいです。作品との出会いの機会損失ですね。この課題を、AIエージェントで解決できないかと考えました。

Maker Faire Kyoto の様子。この10倍ほどの広さがあり、たくさんの作品が出展されていました。
( 出典元:公式ウェブサイト )

さて、出展を計画していた時期は、ちょうど大規模言語モデルの研究開発を進めていた頃でした。研究テーマは「ChatGPTをどう制御するか」。
よく知られているように、ChatGPTは苦手なことがあります。例えば、「特定ドメインの扱い」「特定タスクの実行」「新しい情報の扱い (2021年10月以降)」「情報の正確性 ( = 嘘をつく)」などです。これらを制御したい。技術でねじ伏せたい。

ですので、「Maker Faire で展示作品を案内する」は、まさに技術の検証にはもってこいのテーマでした。

なお、まゆまろは皆さんご存知の通り、京都府のご当地キャラですね。普段は、京都府の広報艦として京都の各地を飛び回り、京都の魅力を発信しています (詳しくは Twitter をご覧ください!)。Maker Faire Kyoto 2023 へのまゆまろの参加については、京都府の担当部署の方も喜んでご快諾くださりました。おかげで「わ〜、まゆまろだ〜」と興味を持ってご体験される方々もたくさんいらっしゃいました。

展示の評価

実際に体験されたユーザーの方々の反応は、とても好評でした!
やはり、文章生成の自然さと精度の高さに驚かれていましたし、従来のチャットボットとは異なることを直感的に理解されているようでした。

その様子を目の当たりにし、僕も大きな可能性を感じました。
AIエージェントが、人間の労働をアシスト・サポートする社会の実現が、一段と近くに感じることができたからです。

以下はすべて、当日のユーザーの実際の質問です。抽象的なものや、無関係っぽい質問も見受けられますが、いずれも滑らかな回答を提供することができました。

  • 「何か面白い展示ありますか?」
  • 「ちょっとまだ決めてないです。おすすめ教えてください。」
  • 「親子で一緒に遊んで学べる展示を探しています。」
  • 「子供がいろいろ体験できるところはどこですか?」
  • 「子供でもわかりやすい面白いものを教えてください。」
  • 「友人に連れられて何となく来ちゃったんですけど。」
  • 「中学生でも楽しめるものはありますか?」
  • 「大人男子がみんなで集まって遊べる作品とかってありますか?」
  • 「K-POPのファンの女子大生が楽しめるような展示ってありますでしょうか?」
  • 「ロボットが紙に文字を書いてくれるような作品はありますか?」
  • 「キラキラ光る作品はありますか?」
  • 「新しいプロダクトデザインの商品を探してます。」
  • 「夢いっぱいの作品ってありますか?」
  • 「イーロン・マスクみたいにこの地球を救いたいんですけど、何か見た方がいいものがありますか?」
  • 「 (作品名) は誰が作ったんですか?」

とはいえ、ユーザーのフィードバックを読み解くと、まだまだ改善すべき箇所も多々あります。それらデータが得られたことは、非常に有意義な展示だったと言えるでしょう。

続いて技術の性能評価について。
情報の正確性に関して、「嘘をつくこと」は大規模言語モデルの分野では「幻覚 (ハルシネーション / hallucination)」と言います。会話のログを分析したところ、幻覚の発生率は3.47%でした。当初の想定ではもっと高い数値を考えていたので、前向きに受け止めていますが、決して良い成績ではないので、引き続き改善を実践しています。

では、ここから技術の話を深めていきます。

Retrieverの開発

今回、1→10 の QURIOS AGENT のエンジンに、Retriever(リトリーバー) の機能を追加しました。Retriever は「検索器」といったところで、大規模言語モデルに対して、クライアントアプリとの中間に位置する機構です。

おおまかな構成をまとめると、以下になります。
( ※これは、非エンジニア向けの簡略化された資料です )

システム構成概要

ChatGPTの制御は、AIエンジニアたちと高速で試行錯誤と性能テストを重ねることで、精度を高めていきました。

その技術の詳細は企業秘密のため割愛させていただきますが、関連する事項を簡単に紹介したいと思います。

( ChatGPT以外のところはあまり興味を持たれないかもしれませんが、こう見えて、この数年間で構築した多くの技術が含まれています!、とだけCTOとしては声を大にして言いたいです )

性能テスト、会話設計、幻覚の傾向

まゆまろAIの性能については、性能テストを数千件に渡って実施し、応答の精度を高めていきました。

体験の不自然さや幻覚の発生など、それら課題を直すためにプロンプトやシステムに改修をかけては、都度都度、性能テストを実施していきます。このフローを高速で繰り返していきました。

プロンプトを触られた方はわかるかと思いますが、プロンプトを少し書き換えるだけで、大きく結果が変わることがあります。
厄介なのは、プロンプトを変えると、これまで上手くいっていたところが上手くいかなくなることです。
頻繁に性能テストを実施したのは、互換性の確認のためでもありました。

また、性能テストでは、会話設計が非常に有用だと感じました。
1→10ではこれまで多くのプロジェクトで、会話設計を行ってきており、社内に『虎の巻』があるほど、強みを持っています。
ターゲットを想定し、行動を分析し、その上で会話設計を行い、その設計に基づいてテストを実行します。

会話体験設計のイメージ図

最終的な結果は、イベント二日間のログ分析では、幻覚の発生は3.47%まで抑えることができました。今回、使用している OpenAI のエンジンは GPT-3.5 のため、ある程度の正確性は犠牲になるとは思っていたものの、想定よりは抑えられました。

ログを分析していてわかったことに、幻覚には大小があります。
大きな幻覚は、例えば、存在しない出展作品をでっちあげるもの。これは一目でわかります。小さな幻覚は、文章の95%は正しいけど一部だけ事実が確認できないようなもの、です。

大きな幻覚は、ログを分析していくと、ある程度の規則性が見えました。現在はその傾向ごとに、改善策を講じています。今後、技術を高めていくことで1%ほどまで抑えられると感じています。

とはいえ、幻覚の発生が0%になることはあり得ないので、プロダクト導入において運用コストとのトレードオフが求められるようになると思います。これは、AIカメラの認識率が100%にならないことと同様ですね。

以上、参考となりましたら幸いです。
最後に、ここからはちょっとした宣伝になります。

実証実験パートナー募集中!

1→10では、まゆまろAIのような音声対話エージェントのビジネス導入に関して、実証事件を行うパートナーを募集しています。

窓口案内、受付対応、観光地紹介、多言語対応など、社内で検証も進めています。Maker Faire Kyoto 2023 ではデータが120ほどでしたが、現在では数千〜数万のデータを対象に、精度を高めています。

ご興味のある方は、問い合わせフォームよりご連絡ください!

ChatGPTを活用したプロダクト開発するエンジニアを募集中!!

1→10では、ChatGPTを活用したプロダクトを開発中です。

現在は特にプロダクトのフロントエンドとバックエンドを開発するエンジニアを募集しています。興味のある方はぜひご応募ください!

Maker Faire Kyoto 2023 にて、エンジニアチームで記念撮影