データの活用によるR&Dの加速は前編で述べたように多くの企業が取り組んでいます。しかしながら実際に実用段階にたどり着くためには多くの課題があることも事実です。今回は実際にDXに取り組んでいる海外の企業の事例を取り上げます。
データ活用基盤の構築
データ活用を円滑におこなうためには、前編でも触れたようにデータを活用するための基盤を構築することが必要となります。方法は色々あり多様なアプローチが考えられます。ここではひとつの事例として、デンマークに本社を置く製薬企業Lundbeck社(https://www.lundbeck.com/global)での化学データ活用への取り組みを紹介します。
Lundbeck社にとっての課題は他の企業同様いくつかあり、その解決策としてのデータ活用基盤の構築に取り組みました。主な課題としては:
- 社内データが電子実験ノート以外にPDFなどで存在
- 社内データが有効に活用されていない
- 複数ソースの社外データが存在(特許、科学文献、化学データ等)
- 研究のための知識の集約に時間がかかる
などがあげられます。これらを解決するためにLundbeck社では化学を中心としたデータ統合の実施を検討し、いくつかのステップを経てデータの統合を行っています。
1.自社の化学を中心としたデータレイクの構築
2.社内外の統合すべきデータの確認
3.データを統合するソリューションの選定
4.データの正規化 → 統合
まず着手したのがReaction data mart(Figure 1)と呼ばれるデータレイクの構築です。Reaction data martには複数の電子実験ノート、Work Space、WordやPDFのドキュメントなどが含まれ、サイロ化を解消したうえでデータをFAIR (Findable, Accessible, Interoperable, Reusable)にし(*1)、利便性を向上させる目的がありました。
Figure 1: Lundbeck社のreaction data mart
* WS:Work Space
** Enabled using Unified Data Format (Pistoia Alliance)
この段階ではデータを集約しただけのため、これらをシームレスに統合する作業が必要です。この統合を実施するためにLundbeck社では前編でも紹介したReaxys(https://www.elsevier.com/ja-jp/solutions/reaxys)を単一のアクセスポイントとして採用することにしました(Figure 2)
Figure 2: Reaxysインターフェースによる複数データソースの単一のアクセスポイントの構築
この選定では包括的な化学コンテンツが含まれていること、化学データが適切に抽出されていること、統合を可能にするフレキシブルなソリューションであることなどが理由としてあげられています。このことによりLundbeck社では自社データに加え、Reaxysのデータへもシームレスにアクセスが可能となっています(Figure 3, 4)。さらに利便性をあげるため、試薬情報についても最終的にReaxysからのアクセスを可能にしました。Lundbeck社独自の環境を構築することによりセキュリティー面ももちろん担保されています。
このプロジェクトによりLundbeck社では自社および外部データを単一のアクセスポイントからシームレスに利用可能な環境の構築をし、R&Dの効率向上に成功しています。
Figure 3: Reaxysと自社電子実験ノートの情報にシームレスにアクセスを提供するReaxysのインターフェース(化合物情報)
Figure 4: Reaxysと自社電子実験ノートの情報にシームレスにアクセスを提供するReaxysのインターフェース(反応情報)
データを活用する上で基盤の構築は必要になステップです。最終的に目的とする活用の方法により、どういった基盤構築にするかの検討が重要です。データ活用基盤が構築されたら、次の段階はデータの活用になります。ここでは昨今よくお問い合わせを受ける論文フルテキスト情報の活用について触れていきます。
論文フルテキスト情報の活用
データ活用を考える際に恐らく最初に着手することは、すでにある既存のデータの活用でしょう。それで事足りるのであればもちろん問題はありませんが、必ずしも必要なデータがあるとは限りません。そういった場合に検討するデータは多岐にわたりますが、ひとつの選択肢として学術論文のフルテキストがあげられます。学術論文のフルテキストは研究情報の宝庫である一方、データを抽出することの難しさから、MIでの活用はなかなか進んできませんでした。しかし近年このフルテキストデータの重要性が注目されています。その理由は例えば自社データでは足りないデータの補完や、すでにアクセスのある商用データベースなどの情報源には「含まれない」情報が学術論文からは抽出可能だという点が大きいでしょう。
エルゼビアは多くの学術論文(ジャーナル)を出版しており、そのフルテキストコンテンツをMIへ利用することが可能になる「データの2次利用権限」についても提供をしています。そこでこのフルテキストの情報をどうすれば活用できるかという相談を多々うけます。フルテキストの情報を簡単に抽出し、MIに活用できるようなツールというものが材料研究の分野向けにあるかというと、残念ながら簡単にできるといえるものがないというのが現状です。その中でもできることはあり、こういった情報をいかに自社の研究に活用していくかがR&Dを進める上では重要なファクターです。
では情報源としてのフルテキストデータが入手できた場合、どう活用していくのが良いでしょうか。データの解析にはテクノロジーも必要とされ、そのひとつとしてエルゼビアではSciBite solutionを提供しています。SciBite solutionには材料開発に関連するVocabularyとしてMaterial Property, Chemical Methods, Chemical Reactionsなどが含まれ、これらを使用して必要なデータを解析することも検討に値します。ここではCMCの例を取り上げますが、特定の領域のVocabularyの構築が可能な場合もあります(Figure 5)。
その他に現在グローバルでも頻繁に行われているのは、データのマイニングを得意とするベンダーとの協業です。自社でデータ活用すべてのステップを網羅するのは大きな企業であっても難しいことが多く、そこは外部の協力を仰ぐことも一つの選択肢です。データをマイニング・解析するためには、まずは欲しいデータが含まれるフルテキストなどのコンテンツが重要ですが、コンテンツを入手しそのデータを利用することができる段階になったら、専門の外部ベンダーと協力をしてR&Dを進めることを視野に入れることも必要でしょう。
情報基盤の構築や論文フルテキストの利用はDXにおける事例のほんの一部であり、国内外で自社データや商用データをうまく活用しR&Dを進めることに成功している企業は多くあります。R&DにおけるDXのこういった成功事例を参考にしてみてはいかがでしょうか。
*1: Wilkinson, M.D., Dumontier, M., Aalbersberg, I., J., Appleton, G., Axton, M, Baak, A., … Mons, B. (2016) The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3, 16001.
※化学品業関連コンテンツ:化学品業向け専用ソリューションサイトもご覧ください。