近日,正在国外读博的南京青年汪飞联合团队成员研发出一款新方法,只需利用质谱,即可获得未知新型精神药物即人造毒品的化学结构。这是一种自动化、生成式的机器学习方法,了解人造毒品的化学结构后,即可帮助相关人员更快识别出疑似人造毒品。
11月15日,相关论文以《一个深入的生成模型可以自动阐明新的精神活性物质的结构》(A deep generative model enables automated structure elucidation of novel psychoactive substances)为题发表在 Nature Machine Intelligence上。
汪飞(来源:Linkedin)
据悉,全球每年有大量新型精神药物在非法市场上冒出来,它们往往会带来和已知非法药物相似的精神效果。但是,鉴于这些物质的合成方式不同,因此其化学表现也有所不同。正因此,它们多数不在现有毒品法规的管辖范围之内,从而导致很难被侦测。通常,人造毒品的检测由相关法医实验室完成,检测时一般是从被查封药片或粉末中采样,并使用质谱分析法进行识别。这并不是一件容易事,要想弄清楚一款全新人造毒品的结构,化学专家们往往需要持续数周甚至数月的埋头工作,并且还得借助其他类型的实验技术。
研究中,汪飞和团队从世界各地的法医实验室众包的保密数据中,训练出这款机器学习模型,它能从结构和性质上生成和近期人造毒品相似的分子。
该研究主要针对一类叫做 NPS(novel psychoactive substances)的药品,也就是新型精神药品。这类新型精神药品通常由 " 街头化学家 " 所创造,它们和大麻、海洛因等毒品一样,都具有致幻效果。为了逃避法律的制裁,新型精神药品的化学结构通常不为人所知。
当前,执法部门和医疗部门存在的痛点,是如何去检测它们。比如执法部门在机场截获一批粉末,需要知道这是什么,或者医疗部门今天有一个服用过量的病人,那就需要知道病人到底服用了什么。
该问题的难点在于,首先要知道它可能是什么?以及它可能的结构是什么。目前,要想获取结构比较常见的实验室手段有2个:一个是通过核磁共振(NMR);另外是通过质谱(MS)。也就是当获取样本之后,要先得到它的核磁共振图谱或者质谱图,拿到图谱之后去一个数据库里做对比。如果数据库里有现成数据,即可知道需要检测的样本是什么。但是在大家从未见过该物质的结构的情况下,很难确认它是什么。而该研究主要是使用深度学习的方法来研究检测新型精神药品。
生成大约 900 万个可能存在的致幻剂的分子结构
研究中该团队用大约 1700 多个新型致幻剂的结构训练了化学语言模型模型 ( DarkNPS ) 。这个模型使用SMILES(multiple simplified molecular-input line-entry system)文本来表示分子结构。
从概念上来看,这模型非常类似 OpenAI 的 GPT-3,只不过 GPT-3 的输入是人类语言文本,而该模型的输入是一个分子的文本表达。这个模型可以生成大量的分子表达文本。通过改模型他们获得了大约 10 亿个不同的输出。由于分子的 SMILES 可以是重复的。
即同样的分子结构可有不同的文本表达,再去除了不合格的表达式之后,最终得出 890 万个的潜在新型精神药品的分子结构。接下来,该团队使用了一个现有的质谱预测模型(CFM-ID,给每一个分子结构计算了 MS / MS 质谱。在测试种该系统实现 68 % 的 Top-3 检测准确率。
为了进一步验证该系统的检测能力,该团队和欧洲的检测机构进行了合作,后者提供了一些今年刚刚收集到的样本。在这些样本里面,他们检测到了一个之前尚未被发现的新型毒品(DMXE)。
已经正式投入应用
汪飞表示,毒品检测的功能是该成果目前的主要可行应用,它已经被包括美国缉毒局、德国联邦警察还有欧洲的一些执法机构使用。
此外,将人工智能的分子生成结构的模型和质谱生成的模型组合在一起使用的方法它会对于小分子识别,尤其生物检测样本提供一个新的思路。
另外一些比较有意思的应用前景可能包括检测兴奋剂,相同的方法也可用在医疗相关的一些检测项目上面。而对于生成模型本身,它可以用在药物研发、以及检测环境污染物上。
汪飞回忆自己的研究方侧重于为化学和分子生物学提供更适用的机器学习方法。在他就读的阿尔伯塔大学(University of Alberta),他在硕士研究生第二年开始去选择导师做课题。开始他其实对强化学习更感兴趣的,但在当时该方向的竞争比较激烈,很多厉害的导师都没有名额。
有一天他遇到了现在的导师,然后他问导师:" 您这有什么有意思的项目吗?"他导师看着他并问了一句:" 你觉得去把分子炸掉这件事情,你喜不喜欢?"他非常强调的是把它给爆破掉这么一个动作,汪飞当时觉得非常有意思,想都没想就答应了。他认为,至少把分子炸成碎片,听起来比做其他研究好玩很多。
更有意思的一件事情,就是在本次研究中,他和团队其实是先把分子用一个一个原子给它拼装了起来,之后再把它给炸掉(质谱)。
汪飞的导师之一尼罗素 · 格林(Russell Greiner)
本科时,汪飞在在美国和加拿大边境的一个学校读本科,当时读的是计算机专业。学校非常的小,但是它的机会非常多,本科时他就使用人工机器学习做数学公式的识别。
汪飞回忆称,那会大家还在使用支撑向量机(support vector machine, SVM),深度学习在当时还没有现在这么流行。本科毕业之后,他去做了几年电子游戏的开发。但是游戏开发本身是一个挺枯燥的过程,因为总是在重复做一样的事情。所以,后来他决定继续深造,目前,他已经拿到了硕士学位,现在在开展博士课题的研究,并打算在该成果的基础之上继续做研究。