由一个案例看大数据
无线生物传感器“健康贴”由一个可丢弃的创可贴式绷带和可重复使用的无线芯片组成,它比胸带、手环都要小巧,可以监测心率、呼吸频率、皮肤温度、身体姿势、步伐、是否跌倒等(Credit:Vital Connect)
败血症目前是美国死亡率排名第十位的疾病。据美国综合医学科学研究所报道,美国每年有 100 多万人患上严重的败血症,其中 28%~50% 的患者会因此死亡。每年因败血症死亡的人数已经超过了因前列腺癌、乳腺癌和艾滋病死亡的总人数。
败血症的前兆是病人出现类似全身炎症反应综合征(SIRS)的迹象,它会产生与很多其他病症非常相似的症状,比如发烧、发冷、呼吸急促和心率过快等,这让败血症很难被确诊,医生经常因此误诊。不幸的是,败血症的病情恶化得很快,这意味着在寻求到帮助之前,败血症患者的病情很可能已经恶化,比如出现败血性休克和多器官功能衰竭。
对此,“Vital Connect”医疗设备制造公司与“ClearStory Data”专业分析公司推出了一种类似创可贴的一次性无线生物传感器,用于监测患者的重要生理指标。这种传感器通过无线网络与智能手机相连,患者可以一直佩戴它,甚至在睡觉和沐浴的时候也不需要取下。
“ClearStory Data” 公 司 的 创 始人兼首席执行官沙尔米拉•穆里根(Sharmila Mulligan)称:“这种设备可提供心率、体温、能量消耗、血压等数据,甚至可以监测身体姿势。当患上败血症时,行走的姿势会发生变化,比如行走速度会减慢。护理人员需要实时查看这些数据,当患者的数据指标达到特定数值时,表示他已经面临危险。”
“ClearStory Data”提供了实时测量,它利用生物传感器采集海量数据,再根据临床实践标准建立算法进行分析,提醒临床医生,患者可能正处于危险当中。
这就是大数据医疗的一个典型应用。
“和你一样的病人”
在美国斯坦福大学医学院,一群具有创新精神的医学专家正和美国硅谷的医疗产业专家合作,推进一个最新的科研项目 — “和你一样的病人”。
1998 年,斯坦福大学医学院院长劳埃德•迈纳(Lloyd Minor)和同事在全球首次报道了一种罕见疾病 — 上半规管裂损综合征。患这种病的人会出现眩晕和对声音异常敏感等症状。例如,英国曾报道过一名女子,她不仅能听见自己的心跳声、大脑搅动声,连吃苹果对她来说都是不可能完成的任务,因为她轻轻一咬,就会震耳欲聋。这本是一个很普通的医学发现,但令人意外的是,在论文发表后,许多人开始上网搜索这种病,再对比自己的症状,于是一大批多年来找不到病因而在各科室苦苦试验治疗方案的病人终于被确诊。
在这个事件的启发下,迈纳和他的同事开始开发一款全新的系统,目的是通过互联网找到“和你一样的病人”。这个系统积累了上百万条药物、治疗方案和病例等信息,患者输入自己的身体状况、年龄和不适部位等,系统就会给出一个非常明确的诊断结果和理想的个性化治疗方案。通过这种系统筛选出的治疗方案可能会比医生的方案效果更好。我们知道,医生的治疗水平很大程度上由医学知识和病例积累,也就是经验所决定。但是,不管积累 30 年还是 50 年,这些经验依然是有限的,它一定没有拥有全部患者就医数据的电脑系统“见”多“识”广。
在美国哈佛大学医学院,已有医生尝试给乳腺癌患者这样看病:通过系统筛查全美国乳腺癌患者病历,挑出与患者有着相近年龄、生活环境和基因突变情况的病例,并参考那个发病后存活期最长、生活质量最好的病例的相关信息,为患者拟定最终治疗方案。
这是大数据医疗的另一个典型应用。
大数据在哪里?
基于不同传感器的可穿戴医疗设备
大数据,顾名思义就是数量极其庞大的数据资料。从 20世纪 80 年代开始,每隔 40 个月,世界上人均科技信息存储量就会翻倍。2014 年,每天有2.3ZB 的数据产生。这是怎样一个概念?
1ZB=1024EB=1024×1024=1024×1024×1024TB=1024×1024×1024×1024 GB。
如果一台电脑硬盘容量是1TB,那 1ZB 就大致相当于 10亿台电脑的硬盘容量。
有报告显示,2011 年,仅美国的医疗健康系统数据量就达到了 150EB。照目前的增长速度,ZB 级别也会很快达到。
这些数据包括传统的医疗记录和 X 光照片、磁共振以及CT 的影像记录等,也包括数据量更庞大的基因测序数据。此外,这些数据还来自各种可穿戴设备,这些设备让血压、心率、体重、血糖和心电图等的实时监测变为现实,信息获取和分析的速度已经从原来的按“天”计算,发展到了按“小时”、按“秒”计算。比如,一家名为“蓝色火花”(Blue Spark)的科技公司已经生产出能 24 小时实时监测体温的新型温度计贴片 TempTraq。美国食品药品管理局已经批准了一些可穿戴的血糖监测仪,它们能直接监测个人的血糖水平,并通过手机 App 显示监测结果。
碎片名称:Big Data in Future Healthcare 未来的“大数据”医疗-1
未来,也许洗手间里的智能镜子可以一边播报新闻,一边监控你的健康状况。它连接着多个传感设备,摄像头能捕捉你的血流量变化,智能牙刷可以探测体温、分析唾液,马桶上的传感器会搜集细菌、蛋白质变化等信息。
你身边的这些健康传感器可以实时追踪你的动态,从不同层面提供更全面的数据。比如,你的正常水平是什么样的,当偏离这个正常水平多少时意味着你已经进入亚健康状态。
利用“大数据”的场景
1. 比较效果研究
通过全面分析患者的数据并比较相似病例的治疗效果,找到适合患者的最佳治疗方案。这种在疗效基础上建立的分析方法叫作“比较效果研究”(CER),它通过对患者身体状况、治疗费用和疗效数据等进行精确分析,帮助医生确定成本低、疗效好的治疗方案。
世界各地的很多医疗机构 ( 如英国的 NICE,德国的 IQWIG,加拿大的CADTH 等 ) 已经开始了 CER 项目并取得了初步成效。然而 CER 项目仍有大量潜在问题需要解决,比如:临床数据和存入电子医疗档案中的数据是否一致的问题,还有患者的隐私问题。想要在保护患者隐私的前提下提供足够详细的数据可不是一件容易的事。
2. 临床决策支持系统
临床决策支持系统可以提高工作效率和诊疗质量。目前的临床决策支持系统通过分析医生输入的条目,比较其与医学记录不同的地方,从而提醒医生防止潜在的错误发生,如药物不良反应。通过这些系统,医疗机构可以显著地降低医疗事故发生率,尤其是临床诊断错误引发的医疗事故。比如,两个月内,临床决策支持系统已经把美国Metropolitan 儿科重症病房的药物不良反应的数量减少了 40%。
大数据分析技术将使临床决策支持系统变得更智能,这得益于数据分析能力的日益提高。比如使用图像分析和识别技术识别医疗影像(X 光、CT、MRI)数据,或者挖掘医疗文献的相关数据,给医生提出诊疗建议。此外,临床决策支持系统还可以使医生从耗时过长的简单咨询工作中解脱出来,从而提高治疗效率。
3. 远程病人监控
远程监控系统包括家用心脏监测设备、血糖仪,甚至还包括芯片药片 —被患者摄入体内的芯片药片实时传送数据到电子病历数据库。远程监控系统可以收集慢性病患者的数据,查看其是否遵照医嘱,从而可以确定今后的治疗方案。
2010 年,美国有 1.5 亿慢性病患者,如糖尿病、充血性心脏衰竭、高血压患者,他们的医疗费用占到了医疗卫生系统医疗成本的 80%。充血性心脏衰竭发作的标志性症状是体重增加。远程监控系统可以监测患者的体重数据,当体重增加时提醒医生及时对患者采取治疗措施,防止紧急情况发生。远程监控系统还可以减少病人的住院时间和急诊量,进一步实现家庭护理。
4. 个性化治疗
通过对大型数据(例如基因组数据)的分析,可以发展个性化治疗,这需要考察患者的遗传变异、特定疾病的发病率和对特殊药物的反应情况,然后通过综合分析确定治疗方案。
很多情况下,不同患者用同样的治疗方法疗效却很不一样,部分原因是遗传变异。个性化治疗针对不同的患者采取不同的诊疗方案,或者根据患者的实际情况调整药物剂量,减少副作用,改善治疗效果。
5. 预测疫情
“HealthMap”可以对数据进行分析,然后对可能的疾病传播进行预测,它的数据来源包括:当地的突发疾病新闻、政府或相关卫生部门发出的警告,以及对当地相关疾病背景(如整体环境、过去的新闻等)的分析(Credit:Health Map)
网络和社交媒体数据对疫情的预警发挥了重大作用。“HealthMap”是一个利用大数据反映疫情的网站,它能抓取来自社交网络、新闻和政府网站、传染病医生社交网络以及其他渠道的数据,用于探测和追踪疫情的发展。
2014 年 3 月 14 日,“HealthMap”预警了几内亚境内爆发的神秘出血热。2014 年 3 月 19 日,“HealthMap”确认其为埃博拉病毒并向世界卫生组织发出警告,还给出了该病毒在几内亚东南部热带雨林地区传播的大概地点和路径。2014 年 3 月 23 日,世界卫生组织正式宣布埃博拉疫情暴发并报告了第一个确诊案例。这时,“HealthMap”已经追踪到了几内亚的 29 例确诊病例和29 例死亡病例。
挖掘基因库的信息
“没有两种乳腺癌是一模一样的。”美国宾夕法尼亚州匹兹堡大学的药理学家和化学生物学家艾德里安•李(Adrian Lee)说。他致力于乳腺癌研究。他的方法是,先利用基因技术描述乳腺癌,然后确定每个病人的治疗方案。“我们现在可以分析样品中的多种变异,比如 DNA突变、RNA 突变以及甲基化改变等,基因组扫描可以让我们了解生物系统情况以及肿瘤细胞到底发生了什么。”李说。
理想的方法是,收集病例,包括患者的基本信息以及测序信息,建立一个基因数据库,然后进行分析。研究者把收集到的基因数据上传到公共的数据库,比如TCGA(癌症基因组图谱)。“收集数据在过去是一件非常费时的事。”美国休斯敦德州大学安德森癌症中心的遗传学家尼古拉斯•纳温(Nicholas Navin)说,“现在的挑战是数据的处理和分析 — 如何解释突变。”
医生在进行基因筛查和分析
在匹兹堡大学,研究者采集患者的电子健康记录,包括临床检查、药物反应以及治疗结果,构建起一个基础数据库。现在他们正在尝试把乳腺癌患者的分子标签与一系列的临床数据联系起来,包括人口统计信息,比如年龄、种族和体重。“这就像一个大草垛,我们现在要找针。”李说。他希望通过多种信息的连接,让针自己显露出来。目前匹兹堡大学已经积累了 5 PB(千万亿字节)的数据,已经超过了 40000 台 iPhone 6 所存储的数据量。
要将这些测序数据和每个患有乳腺癌的女性联结起来,需要灵活的程序和极强的计算能力。
大数据的研究者都是选择一个大的数据集,然后寻找模式。在癌症治疗中,就是确定可以用于药物治疗的突变,即靶点。这也是个性化医疗的精髓:筛选患者肿瘤里的一系列生物标签,选择最适合的治疗方案。大数据研究者相信,分析这上万种肿瘤数据将揭示出可以提升筛查效率、诊断和治疗效果的模型。
李的研究展示了大数据如何帮助人们重新思考乳腺癌。他们使用了两个公共数据库 —TCGA 和 METABRIC(国际乳腺癌联盟的分子分类学),这里包括上万种全套乳腺癌 DNA、RNA 和蛋白质的信息,他们希望从里面找到年轻和年老乳腺癌患者之间分子标签的不同。他们发现,在 40 岁之前被诊断为乳腺癌的患者更容易变成乳腺癌晚期患者,她们的预后更差、存活期更短。他们也在基因层面上找到了直接的原因,那就是年轻患者的基因表达遵循一种特殊的模式。
美国莱斯大学研发的乳腺癌大数据生物轮,数据来自乳腺癌细胞系的蛋白质网络的几十万个数据点。能让医生迅速地在电脑上看到使用特定药物后癌细胞中的蛋白质变化
李说,他们已经找到了 2000 个突变,其中一个就是雌激素受体突变 — 乳腺癌的常见突变。如何筛选其他突变呢?这是一个比较棘手的问题。其中一种方法就是分析突变影响了哪些信号通路,或者突变基因参与了哪些生理过程,比如细胞生长或细胞周期等。美国加州大学圣克鲁兹分校生物信息学家乔什•斯图亚特(Josh Stuart)开发了一种计算方法,就是把已知细胞的信号通路中所有的基因数据汇总起来。“我们清楚正常细胞中的基因通路如何工作,现在要了解的是,在肿瘤细胞中哪个环节出了错。”斯图亚特说。李的团队研究发现,在一类乳腺癌细胞中,虽然分子个体存在多种差异,但是在标记为“整合素”的特殊通路上总有问题,这是一种参与肿瘤内血管生成的蛋白质。这意味着,整合素可以作为一个治疗靶点。“现在已经有许多整合素抑制剂。”李说,“有些已经进入临床试验阶段。”美国西奈山伊坎医学院的阿维•马阿扬(Avi Ma\’ayan)已经建立了相关的数据库,如果你想关闭肿瘤细胞中的某条信号通路,就可以从这个数据库中找到对应的药物。
大数据手段最终会揭示那些我们之前忽略掉的细胞通路,并找到潜在的治疗靶点。研究者相信,随着数据库的不断扩充,数据覆盖的范围越来越广,他们很快就可以建立有效的模型来推进诊断过程,并最终指导治疗方案的选择。