实验室邓伶莉老师的论文 "Identifying significant metabolic pathways using multi-block partial least-squares analysis" 被蛋白质组学top期刊 "Journal of Proteome Research" 接受发表。董继扬教授和美国华盛顿大学Prof. Daniel Raftery为共同通讯作者。此项工作得到国家自然科学基金(81801788和81871445)、江西省教育厅基金(GJJ160591)等项目的资助。
内容介绍:
在代谢组学中,识别因疾病、遗传学或环境干扰而发生变化的代谢通路,对于揭示潜在的生物学机制是至关重要的。目前已有许多通路分析方法,可以概况为:基于特征代谢物数量的过表达分析(ORA)、基于特征代谢物的拓扑中心性分析、和基于模型辨识度分析等三个类型的方法。前两类方法需要先识别重要的代谢物,再基于这些代谢物进行通路富集分析。由于仪器灵敏度限制,目前大多数研究的代谢物覆盖度相对较小(代谢物数量级约为~100),前两类方法将进一步丢弃大部分代谢物信息,因此可能降低分析结果的可靠性。
基于模型辨识度的方法则利用了所有检测到的代谢物信息进行建模分析,可在一定程度上提高结果的可靠性,但现有方法通常对每条代谢通路单独建模,忽略了代谢通路之间的相互作用,使得分析结果的假阳性较高。为了克服这一问题,本文提出了一种识别重要代谢通路的新方法。该方法基于多分块偏最小二乘(multi-block partial least-squares,MB-PLS)分析,将所有通路数据整合到一个总体模型中,并采用一种新的度量指标PIP(pathway importance in projection)来评估一条给定通路的重要性,该度量指标综合了模型中单个通路的重要性和通路之间的关系(图1)。

图1 基于MB-PLS模型与PIP方法的代谢通路分析流程
本文将新方法用于结直肠癌(CRC)代谢组数据的分析,发现了一些与CRC高度相关的代谢通路,如图2。结果提示了CRC在蛋白质合成和分解的相关代谢通路上出现异常。这些结果得到了最新发表的、基于分子生物学方法的研究的验证。例如,大量CRC研究阐述了谷氨酰胺和谷氨酸代谢(Glutamine and glutamate metabolism)在肿瘤的生长和侵袭中起关键作用。

图2. 与CRC有关的5条关键代谢通路的关联网络
本文还采用模拟数据集对8种常用通路分析方法的性能进行评估。如图3所示,当预定的通路扰动程度(regulating coefficient,f )减小时,新方法(PIP)对扰动通路仍然保持较高识别准确性,如图3所示。进一步验证了新方法的有效性。

图3. 八种通路分析方法的比较分析结果
论文引用:Lingli Deng, Fanjing Guo, Kian-Kai Cheng, Jiangjiang Zhu, Haiwei Gu, Daniel Raftery*, Jiyang Dong*. Identifying Significant Metabolic Pathways Using Multi-Block Partial Least Squares Analysis. Journal of Proteome Research. 2020, 19(5): 1965-1974.