Biomarker与生物信息

一、生物标志物由来：简化与特征

人类为了更好的认识和感知世界，往往会对比较复杂的事务进行简化和特征化，并做某种关联。

比如阴天了，有大概率会下雨，虽然其中的因果关系错综复杂，但是也不失为一种更好理解的方式。

从这里面可以得到的信息就是一种很好的关联标记，可以不是因果关系。

除了生活中的各种记号，标记之外，对于生物的研究的标记物，就叫做生物标志物（biomarker）

来看下百度百科的定义：

生物标志物（Biomarker）是指可以标记系统、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标，具有非常广泛的用途。生物标志物可用于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。

KK杰恩《生物标志物手册》中提及生物标志物是可以指示生理和病理过程以及对治疗措施的药理反应，是具有可以被客观测量并评价的的特点的指标。

比如血糖和血压就可以很好的对糖尿病和高血压进行评估。

随着测序技术的发展，分子诊断技术使得分子标志物的发现成为可能。

标志物进入分子生物标志物阶段。

生物标志物大可分为三类：

1、可随着时间追踪疾病进展和已知临床检测相关的指标。

2、可以探测药物效果的指标。

3、可以作为临床试验终点的评价指标。

随着2000年人类基因组测序完成，开启了基因生物标志物的发现之路。

二、分子生物标志物：确定标准

生物标志物的分类有很多，比如简单分子，复杂分子，比如细胞，抗体，临床表型等等。

涉及到分子标志物的，大概可以分为基因、蛋白质、DNA序列、线粒体、RNA、miRNA、代谢组、SNP、单体型等等。

分子标志物的实验检测方法包括是否存在PCR，表达量qPCR是否差异等等。

为了考虑综合一个标志物的评估效果和检测手段的性价，一个理想的生物标志物应该有如下特征。

1、必须明确的与一个特定的疾病或者疾病状态相关，并能够区分相似的生理状态。

2、要是标准的生物源，比如血清和尿液。

3、要有一种快速的、简便、准确以及廉价的marker检测防范，还要有可衡量的参考标准基线。

也就是说一个理想的生物标志物应该有一个可预测的表达水平，这将展示可测量的状态与潜在状况之间的清晰关系。

本来发现一个分子标记物就很复杂，这又添加了这么多的限制条件。

况且，单纯的拿人的基因来筛选标记物，一个个的做实验，得到什么时候。

这条路，是不是走不通呢？

三、生物信息学：缩短进攻距离

先声明生物信息学的发展可不只是为了搞定marker，起初测序数据的处理、拼接、组装，更为有价值。

只不过，随着测序技术的发展，序列越来越长，越来越快，越来越便宜，上面的那些处理成了常规操作，目前生物信息最有价值的就成了缩小marker范围。

还是给大家讲这个，让我理解生物信息，或者说干实验是做什么的例子。

亮剑第一集，李云龙想要干掉敌人的指挥所，但是苦于迫击炮的射程够不到。

李云龙喊来张大彪，让他带领队伍推进500米，为迫击炮赢得射程。

然后老李让柱子一炮干掉敌人的指挥所。

果然，柱子不负众望，两炮干掉了指挥所，其中一炮打歪了。

这个过程中其实就是生物信息跟湿实验结合的过程。

生物信息就是张大彪，负责推进500米，缩小筛选的范围，为湿实验赢取合适的射程。

柱子，就是湿实验，负责一炮干掉指挥部。

当然了，大多数的时候，大家都希望张大彪，直接推进到指挥所，节省炮弹。

作为生信从业者，深知直接推进到指挥所，真的会损失惨重，还是需要打一炮的。

有了生物信息学利器，再加上超级强悍的计算资源，是不是就可以攻克人类疾病了，是不是就能get 最牛的 marker了呢？

四、实验设计：成功的一大半

李云龙说，你看那是敌人的指挥部。

一炮打过去，就干掉了敌人的指挥部。

但是如果李云龙搞错了呢。

是不是不管怎么推进，怎么开炮，即使吃了半斤地瓜烧之后再开炮，也完不成这个任务。

这说明什么呢，生物信息只是缩小范围，节约进攻的时间。但是不能确定这里面到底有没有指挥部。

这个指挥部是不是在范围内，需要试验设计人员精心设计。

有两个方面需要重视第一个就是超级详尽的临床随访信息，这个能多详尽要多详尽，这一步耗时其实就很久。

第二个就是超大队列多组学。

超大队列很容易理解，因为单个样本，或者几个样本代表的情况，是一种随机情况，结果稳定性会差一些，所以一定要大队列。当然在生信分析中也会用小队列去做发现，但是一定要大队列验证。

多组学，如果是让牛X 的marker不丢，一定要多组学一起上，基因组、转录组、蛋白组、代谢组，表观，能上的都上。这样才能保证其在此山中。

这样一种玩法，非大课题组，大实验室，还是不要轻易的碰了。

那么对于我们，还有没有更有性价比的玩法呢？

五、标志物到模型：集团军作战

答案肯定是有的。

所谓效果不够，生信来凑。

如果很牛X的marker确实已经不在我们设计的圈子里，我们是否可以通过既定的手段找回呢。

比如利用网络、利用公开数据库、利用某种关系找回。

还有就是利用圈子里面的次优的marker进行某种组合，发挥其最大的价值，也就是构建模型。

通常生信分析的时候，比如转录组，通过筛选差异分析之后，差不多上千的差异基因，会进行降维分析（常规操作），也就是通过其与预后的关系直接丢掉一部分基因，然后得到一堆跟预后相关的marker。

然后在通过某个公式进行组合，得到比单个marker更好的模型。

所谓三个臭皮匠，顶一个诸葛亮。

模型按照分析一般分为诊断模型和预后模型，其组合方式大多为riskscore 线性方式，除此之外，还有以下几种方式。

1、单因素cox+PCA模型

参考文献：Mast cell-based molecular subtypes and signature associated with clinical outcome in early-stage lung adenocarcinoma

2、随机森林+人工神经网络模型：Gene_Score* Gene_Weight

参考文献：A 23 gene–based molecular prognostic score precisely predicts overall survival of breast cancer patients

3、cox回归+PCA+CIHI

参考文献：Identification and validation of a combined hypoxia and immune index for triple-negative breast cancer

文献链接：10.1002/1878-0261.12747

4、常微分方程动态模型：

无免疫治疗与有免疫治疗

参考文献：A mathematical prognosis model for pancreatic cancer patients receiving immunotherapy

文献链接：DOI: 10.1016/j.jtbi.2016.06.021

5、分类和回归树+单因素cox

参考文献：A Hierarchical Prognostic Model for Risk Stratification in Patients With Early Breast Cancer According to 18 F-fludeoxyglucose Uptake and Clinicopathological Parameters

文献链接：DOI: 10.1002/cam4.1394

6、混合离散连续体（HDC）模型

参考文献：Mathematical Modeling of Cancer: The Future of Prognosis and Treatment

文献链接：DOI: 10.1016/j.cccn.2005.03.023

7、GuanRank+GPR

参考文献：Prognostic model for multiple myeloma progression integrating gene expression and clinical features

文献链接：DOI: 10.1093/gigascience/giz153

8、FPC+cox回归

参考文献：A prognostic model of Alzheimer’s disease relying on multiple longitudinal measures and time-to-event data

文献链接：DOI: 10.1016/j.jalz.2017.11.004

实验设计好了，标志物也能找到，模型我也会构建，是不是就能攻克呢？

六、两种趋势：烧钱or性价比

最近公号推广了一些ICIscore 的文章，当然之前也有推广过免疫治疗的marker汇总。比如常见的marker，PD-L1作为免疫治疗的预测因子5.1肿瘤突变负荷(TMB)、肿瘤组织的免疫表型、微生物。

现在免疫治疗的marker，开始涉免疫细胞，特定基因集，比如缺氧、免疫基因、铁死亡、m6A、甲基化等等。为什么会这样呢，虽然知道PD-L1是最终的marker，但是理想的标志物也不是他。

什么意思呢，就是说具有因果关系的不一定是理想型。

所以marker的筛选，是多多益善，可以说不存在最终理想型。

看我们解读的各种score就知道了，从去年的TMEscore、m6Ascore、ICIscore，都是公开数据库纯生信7+的文章，研究的也都是同一个问题，足以说明一切。

科研就是探索，不一定非得找到更好的，找到一个备用的也可以。

再有就是比如常见的marker 都是组织样，你可以研究下血液，或者尿液。总之研究对象不一样就可以再研究。

当然如果研究对象都是一样的，也可以人为的进行划分，这个就叫做分子分型了。

所谓分子分型，就是根据已有的数据不同的分组标准，分来分去，期望找到更好的marker，构建更有效的模型。

或者是找到适合某一分子亚型的marker或者模型。

所谓得分组者，得天下。

能找到新的分组，就能从头的研究下已有的研究，或许收获颇丰。

总结下来，就是目前找marker的两种趋势，一种是marker更广泛，适合各种类型，一种是marker更特异性，只适合某种亚型。

研究方法呢一种是照着各种组学，换着法的测序，烧钱。

一种就是我们选择的方式，根据疾病特点各种分型，比较有性价比。

七、文章三要素~思路、方法、数据

有人后台留言，貌似生信分析就是构建各种模型，筛选各种marker啊。

对，你说的对。

当数据分析进入下半场的时候，其实就是各种模型来使得数据简单化，并且跟疾病，临床、其他指标进行某种关联。

尤其，公开数据库进行挖掘的时候，更是如此。

生物信息发表文章，其实有三个因素，第一个就是设计思路、第二个是分析方法、第三个分析数据。

设计思路其实比较难出新的，凡是热点能蹭就蹭，这就够了。

然后就是分析方法，这个属于生信部分，这一部分可以做功课的有很多，比如更新降维的方法，比如改进计算某个指标的算法等等。

再有就是数据，如果是自己的数据，你可以完全无视以上两种限制，但是如果是公开数据库，一定要注意这套数据是不是已经被用过好多次。

有一个底线，就是思路、方法、数据，至少要一个是新的就可以。

如果都是已有参考，那你无用功的概率就会很大。

了解了生物信息与标志物的关系，对于科学研究如何正确的认识生信，有很大的帮助，希望老师们在认识生信的同时，也能认可生信，认可生信的价值，认可生信人的价值，最后感谢各位恩公恩婆。

转自生信人

下一篇：胃肠癌PI3K/Akt/mTOR信号通路中m6A RNA修饰调节的研究

上一篇：数据库|EPD：真核生物启动子数据库