ホワイトカラーは就業時間の3割強を情報検索に費やしているという報告があります。皆様の企業では、必要なデータがちゃんと探せますか? 引継ぎに必要な情報やナレッジは整っていますか、十分に検索できる環境にありますか? 業務改善DXの第一歩は情報共有・検索性の改善にあることも多いものです。こういったベーシックなニーズに対して、 LLM|Embedding|ChatGPT といった今注目の最先端の言語処理テクノロジーを使って、社内ナレッジの共有・検索性向上に取り組んでみませんか。
ナレッジワークスでは「LLM活用」をご支援しています。AI時代の今、活用のキーワードは ChatGPTの社内利用とベクトル検索です。
先ずはTransformerから。Transformerは現在のAI/機械学習でもっとも利用され性能を発揮している深層学習アーキテクチャーの1つで、多くの言語モデル(LM)がこのTransformerを使用しています。このうち大規模にTransformerを使用したものを大規模言語モデル(LLM)と言い、大量のテキストデータで学習したものを大規模事前学習モデルと呼びます。
言語モデルは単語や文章が生成される確率をモデル化したもので、例えば、以下のような穴埋め問題で「 梅雨時期はとても 」という入力に対して、次に来る単語や文章の確率を出力し最も高いものを選択します。
例文: 梅雨時期はとても ( ) 次にくる確率: ・ 憂鬱 0.4 ・ 嫌い 0.3 ・ カビ 0.08 ・ 頭痛 0.002 結果 → 「 梅雨時期はとても 憂鬱 」 となる
今これほどLLMが注目されるのは ChatGPTの威力と言えましょう。 ChatGPT は GPT3.5 と呼ばれる事前学習モデルを使用し、後続タスクとして人間と対話するエージェント用にファインチューニングされたもの。ここまでの性能が出ていることこそが LLM のブレイクスルーです。その理由は、従来の機会学習では多くのデータ、パラメータを使用すると過学習という状況に陥り、性能の低下現象が見られることがありました。しかし LLM では「データを増やし、パラメータを増やし、それを処理できるマシンリソースを増やせば(増やすほど)性能が向上し続ける」という新たなべき乗則が確認されています。ある規模を超えたところから、それまで解けなかった問題がどんどん解け始める=これがLLMのブレイクスルー。GPT3.5 のパラメータ数は1,750億(GPT4は5,000億以上とも)だそう。そしてこのブレイクスルーが、現状では、言語モデルでしか成り立たないというのも面白いところです。
この成長著しいLLMの性能をいかにビジネスに活用するか。それが考えどころです。
AIスキルも資金力も豊富で他にないデータを所有している企業は、自前のLLMを構築する選択もあり得るでしょう。一からでなくともファインチューニングという手があります。しかし大半の企業はそうは行きません。では、どうする? 現時点でLLMの恩恵に預かる最も簡単な方法は、それを利用することです。
例えば、話題のGPTやBERTといった LLM を使用して、社内に蓄積された記録、報告文書を Embedding(埋め込み)すると、意味、意図を理解した検索ができるようになり、これまでのキーワード検索とは異なる活用法をビジネスにもたらします。過去の類似現象や解決策の検索に想像以上の効果を発揮します。
LLMを活用した貴社のDXを、私たちにお手伝いさせて頂けませんか?
Azure OpenAI Service においてパブリックプレビューが開始された ” on your data 機能 ” を使ってChatGPTに自社データを組込むことが簡単にできるようになりました。 Webサイトのような公開データを情報源とするだけならこれでも良いかもしれませんが、より実務的なデータを高い精度で使用したいなら、Prompt engineering と合わせてデータ整備、解答データの参照、敵対的プロンプト・フィルタリングなどをきっちり実施する必要があります。
文章を入力クエリにすることで、文章/文書に含まれる意味や意図を理解して最も類似度の高いものを返却します。 キーワードOR検索では、ユーザーの意に反して拡散してしまった検索結果も、LLMを使用したベクトル検索では、今までとは異なる精度の出力が得られます。 <適用例> ● 過去事例の検索 ● Q&A検索、マニュアル検索 ● 口コミ検索 ● コールセンターログ検索 など
LLMを使用して入力文章の係り受けや構文理解による意味、意図を理解して解答文書を返却します。 <適用例> ● 現象による解決策の検索 ● Q&A(質問に対する解答)検索 ● 質問の解答を出力
セマンティック検索が全ての検索精度を向上させる訳ではありません。その単語ズバリで検索させたいニーズがある場合、セマンティック検索では結果が拡散してしまいます。そこで、利用シナリオを考慮しながら、キーワード検索とハイブリッドで使用することでランク値や絞込み、フィルターで検索結果をカスタマイズします。
堀越 英朗(HIDEAKI HORIKOSHI)エンタープライズPMOエンジニア
小泉 智弘(TOMOHIRO KOIZUMI)DX AIソリューション事業部エンジニア
所司 里佳(RIKA SHOSHI)代表取締役
具体的な解決策はこちら( ANN 紹介ページ)へ
サービスや事業に関すること、ご依頼までどんなことでもご相談ください