注射剤開発におけるサブビジブル粒子(SVP)のモニタリングは、Regeneronだけでなく、バイオ医薬品業界全体においても、患者の安全と製品の品質を確保する上で重要な要素です。
現在、バイオ医薬品に含まれる10μm未満のサブビジブル粒子の規則的な計測と管理にはギャップがあります。最近の研究では、肉眼では見えない粒子径(0.1~10μm)のタンパク質性粒子が凝集して、後工程不良や患者の免疫原性反応につながる可能性が示されています。
RegeneronのBioPerceptronプラットフォームは、AI、エンドツーエンドのクラウドオーケストレーション、高度な視覚化機能を活用した高スループットの生物医学画像処理のためにDataikuで構築したディープラーニングソリューションであり、このギャップに対処して、独自の非構造化データをプロアクティブな製薬プロセスモニタリングに変換します。
ソリューションの概要と利点
製剤に混入している可能性のある目に見えない汚染物質の検出は新しい問題ではなく、画像分析と分類にディープラーニング手法を採用することも新しい方法ではありませんが、Regeneronのアプローチは、業界最高水準の高品質バイオマニュファクチャリングを拡張することにより、救命医薬品の有効性を高め、リスクを低減するようにディープラーニングをタイムリーに利用します。
現在の業界標準では、SVPの計測に光遮蔽法(粒子が光線を通過するときに計測される光強度の減少に基づく)を使用していますが、この方法では試験溶液中の粒子の種類の違い(合成粒子とタンパク質粒子)を判別できません。
RegeneronのITチームは、製剤開発科学者と共同でディープラーニング畳み込みニューラルネットワーク(CNN)アプローチを開発し、画像のさまざまな特徴に重み(重要度)を割り当て、それぞれの画像の特徴を「学習」して区別できるようにしました。
次に、この初期ソリューションをクラウドネイティブなプラットフォームに拡張し、次のことをできるようにしました。
- 既存の製剤データソースを自動的に解析して取り込む
- 存在する画像内で検出された粒子を分析して分類する
- 品質限界値を適用して異常を検出する
- セルフサービス視覚化サービスを使用して診断結果を示す
- 汚染物質の検出と是正措置のフィードバックを迅速に提供する
Dataiku上の開発とGPUの使用の組み合わせで画像処理パイプラインを合理化したことにより、マイクロフローイメージング(MFI)の各分類は15分未満で完了します。分類の結果では、さまざまな大きさのケイ素とタンパク質のSVPについて陽性的中率が94%を超えました。
製品の品質と安全性の向上およびプロセス開発改善による製造スケールアップ効率化の可能性に加え、BioPerceptronプラットフォームのモジュール化により、システム全体ではなく単一コンポーネントを変更するだけで規制バリデーションを簡素化できるようにしています。
克服した課題
このユースケースには、ビジネスと技術上の課題、およびデータとモデリングの課題がありました。
ビジネス面では、医薬品開発における肉眼で見えない汚染物質の凝集が多元的な課題となります。汚染物質は1~25μmと非常に小さく、さまざまな種類があります(シリコン油滴、タンパク質凝集体、繊維、ガラス微粒子、気泡など)。大きさと種類を分類できることには複数の利点があり、医薬品中にどのような種類のSVPが存在するかを理解できることは汚染源の診断に役立ちます。
さらに、他の機械学習やAIの実践と同様に、この特定のユースケースに関連して、次のようなデータとモデリングの課題がありました。
データの実情の把握
このケースのデータは、高解像度の顕微鏡画像で構成されます。この場合の課題は、非常に大きな高解像度の顕微鏡画像から、さまざまな粒子とその実際の特徴を識別して、業界の品質限界をタイムリーに適用できるようにすることでした。
この課題を解決するために、IT部門は製剤研究パートナーと密接に連携して、開発と製造の条件を再現し、実際のデータを表すサンプルを生成しました。これらのMFIファイルを顕微鏡システムからキャプチャし、適切なメタデータでタグ付けします。次に、並列化された高スループット分類パイプラインに画像データセットをプッシュします。
モデル学習に使用するデータセットの分類の検証
Regeneronは、画像データに存在するパターンを把握してデータの不整合を体系的にとらえるために、最先端のデータ検証と教師なし学習手法を適用しました。これらの手法には、ニューラルネットワークベースの次元削減、階層的クラスタリング、多次元分散分析が含まれます。
現実世界の状況を適切に表すトレーニングデータセットの選定
Regeneronがこのユースケースを実現するには、大きさと種類の両方において現実世界の状況を適切に表すトレーニングデータが必要でした。Regeneronのソリューションでは、本番環境で予想される粒子の種類と大きさの分布を正確に捕捉し、モデルに必要なデータサンプルが不足しないようにするため、ランダムサンプリングと層別サンプリングをバランスよく使用しました。
予測値を最適化するためのモデルパラメーターの調整
Regeneronは、ディープラーニングパイプラインに既存のクラウド機能を統合し、時間のかかるモデル学習サイクルに、柔軟で並列化可能なコンピューティングリソースをシームレスに活用できるようにしました。