出力結果の精度
PVassist(ChatGPT)は、期待する結果を常に出力してくれるとは限りません。
これは、PVassist特有の話ではありません。
例えば、ChatGPTを利用しているMicrosoft社のBingの画面には、会話のスタイルを選択できるように3つのボタン(「より創造的に」、「よりバランスよく」「より厳密に」)がありますが、例えば「より厳密に」を指定し、画面右下の「何でも聞いてください …」にプロンプト(質問)を入力後、回答を表示させてみます。次に、同じ質問をしてみます。1回目の質問と2回目の質問が常に同じだとは限りません。
また、Google社のBardの場合は、質問後、画面右上の「他の回答案を表示」をクリックすると、他の回答案が3つ表示されます。更に、「回答案を再作成」というアイコンもあります。
なぜ、こういう仕組みが必要なのでしょうか? これは、ChatGPTと同様の仕組みである大規模言語モデルを活用しているBingもBardも、期待する結果を常に出力することを保証できないからです。
出力結果は、必ず人間による確認が必要です。これは、従来のITシステムとは大きく異なる点です。
上記は、PVassistに限った話ではありません。ChatGPTのような大規模言語モデル、確率モデル活用時の留意点です。この点を無視して運用することはできません。
PVassistの活用効果の程度は、出力結果の精度も影響しますが、それ以上に、出力結果を確認・活用する人間の能力により異なるのです。また、PVassistの解析対象(文献、症例など)および、解析対象と各指示ボタンとの組合せによっても異なります。
PVassistの精度
指示ボタンの解析精度
精度を考える
指示ボタンの解析精度は、解析対象テキストの文字数、内容等によっては、常に安定して高精度を出せないボタンもあるため、改良を続けています。開発Storyもご参照ください。
また、ChatGPTのモデルのVerUp(これまで、3、4ヵ月に一度VerUpされています)により、日々、性能が向上しています。
しかし、解析精度は、誰が考えても「解析結果は◯◯であることが正しい」と言える場合に、正しいか否かを正確に判断できるものです。
一例ですが、SAEの定義は、ICHで定められてはいますが、定義の一部に以下の記載があります。
Medical and scientific judgement should be exercised in deciding whether expedited reporting is appropriate in other situations, such as important medical events that may not be immediately life-threatening or result in death or hospitalisation but may jeopardise the patient or may require intervention to prevent one of the other outcomes listed in the definition above.
また、日々の業務量なども念頭に、各製薬企業毎にSAEか否かの判定方法が異なる場合もあります。
また、言葉の定義、評価のブレだけでなく、「ChatGPTの性能を単純に表現することは難しい」というのが、5000回以上、プロンプトの試作を繰り返した弊社の実感です。ChatGPTに向いたタスク、そうでないタスクが存在するためです。
それはなぜか…
ChatGPTの人工知能モデルは、確率モデルだからです。モデル開発時に使用された学習データの偏りが精度に影響を及ぼします。これは、モデルの性質です。
人間でも、得意な分野、苦手な分野があります。そういう意味では、ChatGPTも似ています。
確率が絡みますので、解析対象次第で、100点、ある時は70点、こういう状況があります。これをどう考えるか…
状況は、使用する指示ボタンにもよります。また、自社の体制、人の能力、運用規則・手順、抽出、評価ルールの定義も関係します。
ChatGPTを使えないと考えるか… 体制、仕事量を考えれば、人間だけで情報抽出、評価、レビューするより使う価値があると考えるか…
ChatGPTの特性を考える
ChatGPTのような人工知能を活用したシステムを検討されている皆様は、「AIは100点をとれない。その点は理解しています。」と話されます。
しかし、多くの皆様は、そう言いながら「常に95点を確保できない限り使えない」と考えられているように感じます。
それは、PV業務の厳しさ、納期、また、従来のシステム(1+1は必ず2になって当然)の導入・運用経験しかないこと、それだけでなく、人工知能への過度の期待値が影響していると思います。
某社の部長から「PV部門の社員は、精度、精度と言う。確かに仕事柄、そうだと思う。しかし、それにこだわると、いつまでたってもAIは使いこなせない。
AIの活用を促し、試してもらってはいるが、現場は目前の仕事で精一杯でね… AI活用メリットを考えてほしいのだけれど…」とお聞きしたことがあります。
これに関して、私も感じることがあります。
仕事の処理時間
以下のタスクを「従来通り、人間のみで行った場合」と「人間 + PVassistで行った場合」の処理時間の比較が重要です。
症例、文献のスクリーニング(AE、医薬品の抽出、自社薬か否かの判断、リスク報告がある文献か否かなど)
症例、文献等からの情報(患者背景、原疾患・合併症・既往歴等、医薬品の投与状況、使用理由)の抽出、経過の作成
評価(因果関係、SAEか否か、原疾患、合併症などとの関係)
概要書作成
PVassistは、上記各タスクを、全てアシストしてくれます。PVassistのスクリーニング、情報の抽出結果、評価、概要書の内容が人間のみで行った場合に比較して良いのか、悪いのか…
良い場合もあります。悪い場合もあります。しかし、重要なことは、PVassistを活用することで、従来通り、人間のみで行った場合よりも品質が良く、トータル(人間+PVassist)の処理時間が短時間か?ということだと考えます。
トータルの処理時間は、PVassist(指示ボタン)の解析精度にもよりますが、利用者の能力にも大きく依存します。上記各タスクの成果物をゼロから人間が作成した場合と、PVassistの解析結果を人間が活用して作成した場合と、どちらが良いのか? この点の比較が重要です。
※ PVassistのアシスト例は、指示結果の例をご参照ください。
人間とソフトウェア
例えば、優秀な社員を人件費(¥80万/月)で社員を雇用できても、その人の能力は、しばらく勤務いただかないと、判断が難しい。得意分野もあれば、苦手分野もある。
もちろん、周囲のメンバとの関係性もある。そういった点を考慮し、活躍いただけるように考えます。
また、能力の高い社員が長く勤務するとは限りません。やりがい、人間関係、勤務内容、給与、家庭状況、その他諸々が影響しますから。
一方、PVassistは、社員と同様、固定費(基本料)は必要です。しかし、朝6時から24時まで働き、仕事量(解析テキスト量)に応じた従量制なので、仕事量の増減幅に柔軟に対応できます。
もちろん、人間関係云々、突然の退職はありません。
自社にとって、PVassistをどういったタスクに、誰が(どの程度の能力がある人が)、何時、どのように活用すると、より効果的なのか、
人間と比較し、品質の確保、処理時間短縮、業務量の増減幅への対応、コストメリット、組織体制の安定にどれくらい効果的なのかを考えながら、ご試用、ご検討、ご活用いただけると幸いです。