中国科学院系统生物学重点实验室

构建辨识因果网络的新型算法

2020-8-25

近日，中国科学院生物化学与细胞生物学研究所系统生物学重点实验室陈洛南研究组，与复旦大学、苏州大学、日本东京大学等团队共同合作，提出了数据驱动的因果网络辨识的新型算法。该方法可以用于大规模复杂动力系统内蕴因果网络的复现，有助于解析实际系统演化的本质机制和规律。该研究成果于5月26日以《偏交叉映射排除间接因果影响》（“Partial cross mapping eliminates indirect causal influences”）为题在线发表于综合类学术期刊《自然•通讯》（Nature Communications）。

因果关系是自然界现象之间最普遍和最基本的联系。在物理学、生命科学、地理学等各个自然科学领域乃至哲学、经济学等社会科学中，发现内蕴的因果关系、因果网络可以反映系统演化的核心互作机制，具有重要的科学意义。因此，如何在基于大规模数据，并且在复杂系统精确模型缺失的前提下，准确地辨识系统变量之间的因果关系和因果网络，成为了包括人工智能在内的科学研究中的焦点问题，受到学者们的广泛关注。

传统基于统计学和信息论的因果分析方法，如格兰杰因果关系、传递熵等方法，需要变量因素之间具有可分性条件，即需要将原因信息从结果信息中分离出来。然而在现实世界中，特别是非线性复杂动力系统所产生的多维度时间序列中，这样的可分性条件是无法得到满足，因果机制往往交织在同一个时间序列之中。另一方面，由于因果关系在多变量之间的传递性，而直接因果关系才能反映现象之间本质的内在机制，因此发展有效可靠算法，区分复杂动力系统中的直接与间接因果，也成为了重要科学问题。面向这些问题，本项研究利用动力系统理论清晰阐明了可分性条件的严格数学机理，并综合利用相空间重构、交叉映射、偏相关系数等动力学与统计学相关算法，建立了新型偏交叉映射方法，实现了非线性动力系统中直接因果与间接因果的区分，从而为在大规模数据中辨识可信的因果网络提供了可靠算法。该算法已被用于生态系统、环境与疾病互作系统以及基因调控网络等多个实际问题中，成功复现了这些复杂动力学演化系统的内蕴因果网络，为进一步理解系统演化的基本机制提供了方法学基础。

此项研究进一步完善了现有复杂系统因果分析的理论体系，为多学科共性科学问题提供了有效的数学方法，面向数据驱动的研究领域具有广泛的应用前景，体现了应用数学研究的价值。陈洛南研究员与复旦大学林伟教授、东京大学合原一幸教授是论文共同通讯作者，冷思阳博士为论文第一作者, 苏州大学马欢飞教授是共同作者。本项研究得到了国家自然科学基金委、科技部重大研究计划、上海市科委项目的支持。

Leng, S., Ma, H., Kurths, J. et al. Partial cross mapping eliminates indirect causal influences. Nat Commun 11, 2632 (2020). https://doi.org/10.1038/s41467-020-16238-0