量子领域最具影响力的投研服务平台

滑动了解更多

世界上最大的量子化学数据集将助力新材料设计和药物发现

发布时间:2022-11-18

 

预测物体的属性是机器学习(ML)算法最自然的任务,分子或晶体也不例外。每个药物发现或材料设计管道都取决于预测未来产品的物理和化学特性的能力。然而,与更传统的ML领域(例如图像或文本)相比,验证模型的工作在金钱和时间上要昂贵得多。评估质量需要在湿实验室合成结构,然后进行真实世界的实验来评估每一个特性。除此之外,要训练机器学习模型来预测分子特性,需要访问每个感兴趣特性的相关数据,而质量取决于数据集的大小和多样性。

 

深度学习(DL)在图卷积网络方面的最新进展开辟了一个全新的研究领域用于量子化学的神经网络。这方法可以通过预测其量子属性来评估分子种原子的3D排列构象。人工智能研究所AIRI的生命科学研究小组定计算和共享使用DLDFT级别上计算的最大量子化学数据集理论。该研究现已发表在物理化学化学物理上,并与斯科尔科沃科学技术研究所和圣彼得堡斯泰克洛夫数学研究所的科学家合作进行。团队在两个常见任务上重新实现和评估了最先进的神经网络模型:预测给定分子构象的势能和DFT哈密顿量。实验中提供的数据集包含超过100万种药物样分子产生的超过500万种构象,以及构象能量、DFT哈密顿矩阵、波函数等量子特性。单个构象计算平均需要大约5分钟的CPU时间,整个数据集的处理总共需要大约50年的CPU时间。

 

尽管获得接近化学准确性的模型仍然是一个挑战,但实验证据表明,更大的数据集会产生更好的ML模型使得机器学习领域不断发展

 

来源:Phys.org

最新资讯