新闻中心
PRESS CENTENR2013年,北大人民医院CDR上有281万患者的6000多万医嘱和1.9亿条医疗文书,另有30多个T的影像数据,这些都是结构化好的有质量的数据,能否称为大数据?近日,一位以前在方正任职的业内专家认为,医院内目前的数据并不能称之大数据。
那么到底医院的数据能否称为大数据?还是人们习惯性的使用了“大数据”这个词,于是问题的答案就不同了。下面是大数据以及医院内大数据的一些思考!
首先,我不同意北京人民医院xx关于“医院内没有大数据”的论断(虽然我不确定这是刘帆的观点),为什么没有?小到一只蚂蚁、一个病毒的信息,都可以是一个大数据(例如:蚂蚁的DNA信息、群体社会信息,个体识别信息等。病毒感染信息、传播信息、变异信息等),而每天人山人海拥挤得水泄不通的人民医院却没有大数据,这显然不对。所以,这句话可以也许理解为“人民医院内目前没有大数据应用”或者“人民医院目前收集的信息不能称为大数据”。文字上的歧义反映出的得是行业本身对大数据理解的混乱。
其次,“北大人民医院CDR上的数据称不上大数据”!导致这个结论的依据也许是来自“这些都是结构化好的有质量的数据”这个判断,言外之意就是说,大数据代表的是结构混乱、质量低下的数据,人民医院CDR中的有质量的数据不是大数据。
那么,什么才是结构化好的有质量的数据呢?比如我做一个LIS系统,我在内部显然要考虑我存储的数据结构清晰有效,同时也会考虑数据存储的质量(长期存储和再利用等)。如果我这个LIS接入到人民医院CDR中,LIS中的数和存储在CDR中的LIS数据是相同的结构吗?是相同的质量吗?由于结构变化等因素必然导致CDR中数据质量(至少在完整性上)低于原始数据。因此,CDR数据相对于原始数据有质量只能体现在它与其他数据的关系上,例如LIS与电子病历、与住院病案或RIS等的相互参照引用上。按照这个观点,实现CDR时,如果我们将进入的数据进行必要的处理,按照精心设计的数据结构存储、维护好数据间的逻辑关系,我们管理的数据无论多大,也是传统数据处理的范畴,与大数据无关。
对于以上问题的以及推演出的结论,与我个人对医疗大数据的思考存在一些差异,借着对这些问题的探讨,将个人观点表述出来,共大家参考。
首先,我认为数据质量和格式并不是区分是否大数据的标准。面对一组数据,数据质量的好坏相对于应用、工具以及分析方法是有不同评判标准的。例如,假设我们存储在CDR中的数据是XML格式,不管我们将该格式定义得多完美、存储的数据多万善,采用传统BI工具的开发人员都会认为这些数据是垃圾(真实场景),所谓吾之蜜糖、汝之毒药也。
其次,为什么要区分大数据或者非大数据呢?我们保存数据是因为这些数据存在对今后有再利用的价值。传统上,我们设计的信息系统时,在考虑存储信息的同时也会将利用信息的方式考虑进来,作为信息系统的一部分,这样实现的系统会对存储的内容提出各种要求,让存储符合应用需要。而符合某一系统需要的数据却很难符合其他应用的需要,这就导致所谓数据质量的低下。于是有人提出用CDR将各个系统数据抽取到CDR中,经过清洗、标准化等方式处理后,统一存储并加以利用,人民医院CDR也许就是这种思想的产物。如果对于这种CDR中存储的数据,我们不再有任何其他利用的需求,那么,我可以接受它不是大数据这个观点。然而,只要数据在这里,会不再利用吗?会没有新的、颠覆性的应用需要吗?今天我们习以为常的东西在昨天还不曾出现,明天的数据分析方式会受制于你今天设计的所谓优秀的数据结构吗?是不是大数据,与数据无关、与系统无关、与数据的生成方式无关。区分大数据和非大数据其实反映的是利用数据能力与方法。
大数据作为一个名词代表的内容及其丰富广泛,它既包含宏观层面的趋势、政策等内容,同时也包含具体的技术、方法以及观念的创新。行业内的讨论多集中在趋势、政策和对未来应用模式的憧憬上,很少就具体技术、实现、方法进行有深度的探讨,对业内有影响的案例缺乏又深度的分析,例如,围绕人民医院数据中心实现,在技术上有哪些成功的创造性方法?有哪些不足可以改进?甚至具体技术细节、遇到的问题等等。
上一篇: 移动医疗变革未来医疗服务模式