来源:“Research科学研究”微信公众号
浙江大学周少东研究员课题组提出了一种用于准确预测吸收光谱的修正基团贡献(CGC)-分子贡献(MC)-贝叶斯神经网络(BNN)协议。该方法只使用少量数据集进行训练,就可以准确有效地提供各种分子的全吸收光谱。此外,通过采用专门为修正基团贡献法设计的分子贡献法来正确解释混合规则,可以高精度地获得混合物的光谱。相关文章以“Machine Learning Spectroscopy Using a 2-Stage,Generalized Constituent Contribution Protocol”为题,发表在Research上。
(资料图片)
Citation:
Fan J, Qian C, Zhou S. Machine Learning Spectroscopy Using a 2-Stage, Generalized Constituent Contribution Protocol. Research 2023;6:Article 0115.
https://doi.org/10.34133/ research.0115
研究背景
当前化学和材料行业的快速发展需要对各种性质进行快速准确的预测,但量子化学计算的效率有限,严重限制了其发展。如今,数据驱动的机器学习已被广泛应用于材料和化学领域,这大大加速了新功能分子的发现。然而,当将机器学习的预测扩展到新的领域时,尽管有最先进的算法,实验数据不足限制了可行性,人们只能依赖量子化学计算,但其相对较低的计算效率和较高的成本阻碍了高通量分析。不仅如此,数据驱动的机器学习模型和量子化学计算在预测混合物性质方面的效率都很低。因此,用有限的数据量预测混合物的性质仍然具有挑战性。
研究进展
目前的大多数机器学习模型都使用复杂的网络模型来适应大数据,但这些模型很难用化学原理来解释。因此,只能依靠足够的数据来确保结果的可靠性。受基团贡献法和深度学习的启发,结合了它们的优点,设计了一个两阶段框架来预测复杂混合物的性质。这里,两个独立的神经网络框架被串联使用(图1)。
图1 CGC-MC-BNN方法流程图
在第一阶段,该模型基于自修正基团贡献法,采用神经网络预测分子的光谱性质,并辅以电子态和原子态的描述符。因此,我们称之为修正型的基团贡献(CGC)方法(图2)。
图2 CGC方法原理图
第二阶段是另一个基于分子贡献(MC)方法的神经网络模型。分子贡献法用于从分子间状态预测混合物的性质,更详细地说,分子贡献法假设混合物的性质是由于每个分子以某种方式的贡献,并且机器学习模型学习每个贡献的叠加(即混合规则),以最终输出混合物的性质(图3)。
图3 MC-BNN方法原理及运行流程图
显然,这里设计的两阶段模型是可以解释的。从分子的基本成分开始,考虑到从电子到混合物等影响性质的各种因素,框架的每个部分都可以用化学意义来表示,同时用机器学习模型来参数化。该模型更合乎逻辑的学习过程可以大大降低机器学习的不确定性,避免过度拟合。与先前报道的ML模型相比,该模型的第一阶段能够用小得多的训练样本准确预测单个分子的最大波长和全光谱(见图4)。此外,对于模型的第二阶段,可以通过仅使用双组分光谱数据进行训练来获得多组分系统的光谱,这将大大减少数据的需求。
图4 本文发展的ML模型小样品训练及预测效果
未来展望
本文提出的方法有望弥补传统机器学习和量子化学计算在预测混合物性质方面的缺陷。特别地,对于在很大程度上依赖于分子的不同成分的相互作用的性质,我们提出的方法可以提供灵活的解决途径。
作者简介
周少东,浙江大学化工学院研究员。主要研究领域涉及能源化工、精细化工及热力学研究。具体研究方向主要包括:甲烷高效转化、氮还原机理及高效反应过程设计;含硫/氮/硅专用化学品合成工艺开发及工艺包设计;化工过程热力学分析。
标签:
X 关闭
X 关闭