我们在《数据、知识的区别》中阐述了数据与知识的本质区别,在《中医药大数据与世界地球日》中明确了大数据与中医药知识理论的关系,今天我们来看看大数据是怎么样让中医药知识理论和其他学科的知识产生关联的?

六度分隔

在阐述数据之间的关联性之前,我们先来看看一个著名的理论:六度分隔

1967年,美国哈佛大学的心理学教授Stanley Milgram(1933-1984)想要描绘一个连结人与社区的人际联系网,做过一次连锁信实验,结果发现了"六度分隔"现象。

六度分隔(Six Degrees of Separation)现象(又称为“小世界现象”small world phenomenon),可通俗地阐述为:“你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。”

针对这个理论,从提出至今,仍然无法得到严谨证明,但从提出者Milgram教授在1967年做的300人的实验,到2001年哥伦比亚大学社会学系的登肯·瓦兹主持了一项最新的对“六度分隔”理论的验证工程,选取166个国家的6万多名志愿者进行验证,其在《科学》上发表的论文表明,邮件要到达目标,平均也只需要经历5-7个人。

当前运用六度分隔的人们领域有:直销网络,电子游戏社区,SNS网站和BLOG网站。

那么大数据领域是否可以运用六度分隔理论呢?

大数据领域的六度分隔

我们明白大数据其实是收集全量的数据,而不是样本,那么就满足了六度分隔的第一点:小世界现象中的小世界,意味着这是在一个有限的范围内的数据集

其次,大数据存在复杂性和关联性,也就是大数据中的元数据之间存在潜在的互相关联的联系,不管这种联系是弱连接还是强连接,对大数据来说都是没有区别的,只在于中间需要经历的步骤是多还是少。

在中医药大数据中,如果治疗某个疾病的中药存在,那么我们可以利用中医药智能大数据网络去寻找每一个可能产生连接的下一个节点(包括但不限于疾病的致病基因、蛋白网络节点、病毒分子的细胞网络、关联功能主治的中药、中药的活性化学成分、活性化学成分的作用靶点、中药应用方剂的分子成分群、方剂的有效物质基础、方剂的分子网络效应等),然后不断扩大范围和层次,直至寻找到全部可能的路径和结果

接着,利用反向验证法,把结果和路径代入真实世界的临床研究中,再次验证结果的可信度,最终筛选出符合要求且有效的中药/化学成分/方剂/特定分子成分群的分子方剂等。

大数据领域的跨学科融合

我们分析一下,从一个天然药物到最终到人体内代谢产生治病效果的分子化学变化,需要经过几个学科领域?

——了解该天然药物的信息,这是生物学科领域;

——了解该物种曾经的药用经验和记载,这涉及中医药学和文献历史学科领域;

——了解该药物的生产加工,这是农业学科领域;

——了解该药物的市场销售等信息,这是经济学科领域;

——了解该药物对人体对疾病的效果,这是生理学、药代动力学等学科领域;

——了解该药物有效成分在人体的代谢变化,这是分子生物学科领域;

还有更多细分学科和细分领域未指出,但也可以初步看出一个天然药物从自然环境中到对人体产生作用,其过程的复杂性和跨学科的困难程度;但是整个过程有几个基准是保持不变的,那么我们通过大数据技术寻找到不变的基准,去通过他们之间的联系,发散到每个基准与其分支的联系,就可以找到一条或多条线,把这些全部跨学科跨领域的知识点全部关联起来

这样做的目的和意义在于,大数据基础下,所有的这些分支和基准都是全范围的数据基础,集成之后的大数据集更是全量的数据网络,从任何一个点出发,均可以通过有限的节点找到目标节点,也可以通过确定节点寻找最优路径。

在现实世界中,具体来说,就是化学分子合成路径问题寻找最优解,这里面还涉及到了机器学习这么一门新兴的技术,因此大数据智能数据网络,并不是简单的数据堆砌,也不是简单的数据查询、分析,更不是现在的大数据杀熟,而是更高层次上的知识工程和机器学习相辅相成的一种知识网络

近几年, 人们对 “大数据” 一词似乎不再是那么陌生, 在数据挖掘和人工智能等科研领域内, 大数据的扩散速度随着相关研究的增多而加快, 研究者们逐渐认识到, 具有大数据特征的数据资源,除去其固有的庞大的信息量, 似乎还可以挖掘出无法用我们现有的计算标准得出的隐含的 “大知识”。这些有用的知识我们无法快速、高效地处理和分析, 因此产生了一系列新的问题和挑战。 值得注意的是, 大数据的价值绝不仅仅是巨大的数据量而已, 虽然仅凭数据集的扩充, 确实能提升现有的统计和分析工作的精确度。 但是, 对于大知识的发现和表示, 仅仅通过提升对庞大数据的收集和存储能力是不足够的。

六度分隔理论与大数据、知识工程

1977年第五届国际人工智能大会上,提出了知识工程的概念:“知识工程是用人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提供求解的手段”。

2001年,美国公司的分析师提出了大数据的三个基本特征,其后IBM公司对大数据的特征进一步概括,形成了5大特征:巨大数据量、快速的分析和处理速度、多样化的数据类型和来源、隐藏知识的真实性、在商业领域的巨大价值。

1967年提出六度分隔理论,至今仍然是颇受争议,但不可否认其在互联网和现实世界的联系中的应用,基于计算机,任何相关或不相关的人或物,产生联系所需的步骤和介质都能被寻找到,并且路径也会越来越简洁。

本文从三个方面对中医药大数据互相关联集成的内在进行一定程度上的解释,也是目前大数据挖掘的重要技术,融合了六度分隔理论、大数据特征、知识工程技术,从而形成了最具实用性的中医药大数据

另外,我们可以想象,任何行业都是由知识、数据和关系网构成的,那么就可以使用大数据把各行各业的知识联系起来,形成大数据网络。

具体应用还需各行各业各自加以思考和开发,但是数据网络的形成,则会由专业的大数据公司,如华柄数据等,开发完成,最终形成囊括全部知识、数据的终极智慧数据网络,从而实现把知识导入,我们就不需要从小到大慢慢学习各种已然存在的知识,只需要去实践,最终形成每个生命体各自的知识体系

图片来源于网络,侵删。

文章内容论点论据来源许多论文、著作、百科等,如有错误,请联系作者;文章提到数据网络则已经由华柄数据整合集成,即使现在是初始版本,仍然具备数据挖掘功能,满足了初步设想。