トップページ » ご寄稿  » 物質界のビッグデータ

物質界のビッグデータ

2019年07月07日(日)

2019年7月5日  菅 宏 (旧制19回)


 

C&EN誌の2019年5月16日号によりますと、Chemical Abstracts Service(CAS)に登録された化学物質の数が、5月8日に1億5千万に達したとのことです。米国化学会の情報部門であるCASは、化学情報の権威として公表されたすべての化学物質情報を収集して、体系化する世界で唯一の機関です.CAS のデータベースは,世界の大学,政府機関,特許発行機関、製薬企業などから信頼され、活用されています.化学物質情報を識別して集計するCAS機構は、1965年に設立されました。現在では、世界最大規模の独自の化学物質に関するデータベースになっています。現役時代、理学部図書室で最も大きな空間を占めていたことを思い出します。最初の2500万物質を登録するには約40年かかりましたが、それを2005年に達成しています。

 

以降、CASは平均して2.5分ごとに新物質を登録したことになり、2019年5月8日に大きな節目を迎えることになったのです。記念すべき節目に遭遇したラッキーな化合物はCAS登録番号2306877-20-1に割り当てられ、Merckにより特許が取得された分子です。癌および慢性関節リウマチを含む免疫疾患の治療において研究された化合物です。2-[[3,3-Difluoro-1-[(2R)-2-hydroxy-1- oxopropyl]-4-piperidinyl]oxy]-5-[2-[[5-[(2R)-2,4-dimethyl-1-piperazinyl -6-methoxy-2-pyridinyl]amino]-4-pyrimidinyl]benzonitrile.

 

約一ヵ月後、今度はケンブリッジ結晶学的データセンター(CCDC; The Cambridge Crystallographic Data Centre)から、登録された分子構造の数が100万個に達したという記事がChemistry World誌6月6日号に掲載されました。1965年にケンブリッジ大学のグループによって始められた世界規模の結晶X線解析データ収集作業は50年を迎えたのです。作業が始まったのは,X線回折の強度データを銀写真像から集めていた時代からコンピュータ制御の四軸回折計に代わろうとした過渡期です。私が仁田研究室で卒業研究を始めたのは1952年、その頃に構造解析が行われた物質は数千個程度と伺ったことがあり、以後の構造解析が急ピッチで進んだことを示しています。CASに登録された物質の中で構造が眼に見える形で示されたものは1%にも達しませんが、分子がどのように立体的に振る舞い、三次元的に相互作用するか?そして最終的にどのように物理的性質や化学反応に影響するかを理解する上で、与えた影響は計り知れないものがあります。

 

100万個目に登録された構造を持つ分子は1-(7,9-diacetyl -11-methyl-6H-azepino[1,2-a]indol-6-yl)propan-2-one、Refcode;XOPCAJという有機化合物です。Refcodeというのは登録された物質に付けられた識別子で、検索する上で有用、かつ効率的です。XOPCAJで検索すると、構造が記載されているだけでなく、時には多様で充実した情報を得ることができ、データから引き出される洞察への信頼性を高めます。XOPCAJに記載されたURLにアクセスすると、上の図が回転して描像が三次元的に広がります。この分子はカルコゲン結合を持つ触媒が、複数の反応ステップを順次活性化することによって生成されたN-複素環化合物です。

 

この機会に登録された構造の中で、ユニークなものが紹介されています。まず、100万個の中で最も小さな単位格子を持つ分子として、高温・高圧下の二酸化炭素が挙げられます。7つの多形が知られていますが、680 K、28 GPaでの結晶相 IIはP42/mnm (z=2)の正方晶系で、単位胞体積は僅か50 Å3 、すなわち5×10–29 m3に過ぎません。この構造では直線状の分子性結晶ですが、更に高温・高圧下になると炭素原子はsp混成からsp2やsp3混成に変化して、分子性が顕著に変化すると言われています。

 

対照的に、高分子を除いて最も大きな単位胞を持つ分子がQUFYIBの識別子を持つ2,4,6,8,10,12,13,14-octakis(N,N’,N”-((2,4,6-tributoxybenzene-1,3,5-triyl)-tris(methylene))tris(methylideneamine))-1,3,5,7,9,11-hexakis(4,4′,4”,4”’-(porphyrin-5,10,15,20-tetrayl)tetraphenyl)undecacyclo [5.5.1.11,3.02,5.03,10.04,9.05,13.06,9.07,12.08,11.011,14] tetradecaphane porphyrin です。

空間群R3cの三方晶で単位格子は以下の通りです。(1 Å = 0.1 nm) a=29.518(4))Å、 b=29.518(4)Å、 c=125.69(3)Å、α=90°,β=90°γ=120°で与えられています。分子中に500個以上の原子を含む複雑な化合物の1つです。

 

この分子は直径19.5 Åの空洞を持ち、水溶液中で広範なpH範囲に亘って安定に存在します。空洞に捕捉されたゲスト分子を完全に除去した後でも結晶性と空洞構造は損なわれず、既知の多孔質有機分子の中で最も高い比表面積1370 m2 g-1を持っています。新たなホスト・ゲスト化学への展開も期待されています。

現時点で、単一の構造の中で最も多種類の原子を含む分子は、11の異なる原子含んだRefcode LIMSUWです。構造式はC36H70Ag2Cl4Co2F6N2O26P6Ru2S2で,その正式名はbis((μ3-chloro)-(μ2-chloro))-hexakis(μ2-diethyl phosphonato)-bis( (η-5-cyclopentadienyl) -(tri- fluoromethanesulfonate)-(nitrosyl))-di-cobalt-di- ruthenium(II)-di-silverです。これだけ複雑で多種類の原子を含む分子の構造が決定されたということは、1950年代の解析技術を知る者にとっては驚きの限りです。構造解析にはR因子という、構造決定の不信頼度を示す物理量が記載されています。最近のデータのR因子は殆どが0.05で、95 % 信頼できることを意味し、結晶の質や解析技術の改良が年毎に進歩し続けてきたことを明瞭に示しています。

 

髪の毛を編んで3本の異なる束を絡み合わせるのは、良く見られることです。しかし、ミクロの世界でこのような結び目を数多く持つ分子を合成したことは大変珍しいことです。D.Leigh教授率いるマンチェスター大学の研究チームは、これまで以上に緻密で複雑な結び目を作ることを可能にする複数の分子鎖を編む方法を開発しました。長さ約20 nmの192個の原子からなるループが、3つの有機配位子鎖を誘導するために鉄イオン配位を使用して、8つの強固な結び目を作るのです。八面体鉄(II)イオンは、環状三重らせんの各交差点における三本鎖の相対位置を制御しています。鉄イオン(紫色)、酸素原子(赤)、窒素原子(紺)、炭素原子(灰)で示され、構造の中心には塩化物イオン(緑)が示されています。公式にこれまでに生み出された最も堅固な結び目を持つ分子の合成ということで、ギネス世界記録を授与されています。また、米国化学協会から「 Molecules of the Year 2017」にも選ばれました。 これまでに知られている中で最も強固に結び付けられた物理的構造を作り出すことは、それが新世代の先端材料を生み出す可能性を秘めています。

 

最も重い元素を含む化合物はカリフォルニウムCfを含む化合物で、FIHLIU 識別子名のtris(diethyl-carbamodithioato)-(1,10-phenanthroline)-californium です。アセトニトリルを溶媒和した結晶で、空間群P21/cを持つ単斜晶です。f核の電子が化学結合にどのような影響を与えるか?という観点から、選ばれたアクチナイド系化合物の1つです。An(S2CNEt2)3(N2C12H8) (An=Am, Cm, and Cf)の中で、An=Cfの分子構造を図示しました。構造解析の結果、Cm–Sの平均結合距離は ( 2.86 ± 0.04 Å)、 Cf–S の平均結合距離は( 2.84 ± 0.04 Å) と決定されました。アクチナイド系とランタナイド系の結合を比較することも興味あることです。

 

組織的に集積されたCCDCの高度な検索システム、3-D視覚化ソフトウェアと共に、この豊富な分子構造データ源は学術界と産業界の両方の科学者が研究を進め、新しい成果を予測することに役立ちます。さらに、ここから得られた知識は、計算化学や分子モデリングを支えるものであり、基礎化学の進歩だけでなく、新薬の開発など産業界にも大きく寄与しているのです。

 

熱力学的性質を集めたデータ集もあり、温度変化や相変化に伴うエンタルピーやエントロピーなどの熱力学量の変化、25 ℃における燃焼熱、溶解熱、混合熱、希釈熱、あるいは多成分系の相図など膨大なデータがあります。しかし、入手できるデータ集は高純度物質に対して測定された精度・確度の高いデータなど、精選されたものだけです。厳密な熱力学原理の性格を反映した結果で、不確実なデータは熱力学関係式によって他の関数に伝播するからです。そんな訳で、未だビッグデータの段階に達しているとは言い難い現状です。米国国立標準局(現NIST)とソビエト(ロシア)科学アカデミーとが独立してデータ編纂を行っていましたが、現在は殆んど休止状態です。他にもさまざまな化学データベースがありますが、そこに記載されている分子には奇妙な特徴があります。偶数個の炭素原子を持つ分子は、奇数個の炭素原子を持つ分子よりも頻繁に出現しています。 この不均衡は偶数個の化合物がより単純な合成経路を持っていることに関連しており、そしてその傾向は今日でもなお明白です。

 

| post by 事務局 |

コメントをどうぞ

コメント

CAPTCHA