您好,欢迎来到意榕旅游网。
搜索
您的当前位置:首页基于lncRNA的癌症风险通路识别研究

基于lncRNA的癌症风险通路识别研究

来源:意榕旅游网
世界最新医学信息文摘 2018年 第18卷 第61期15

·论著·基于lncRNA的癌症风险通路识别研究

杨海秀,许艳军,尚德思(通讯作者)

(哈尔滨医科大学 生物信息科学与技术学院,黑龙江 哈尔滨 150081)

摘要:长链非编码RNA(long non-coding RNA,lncRNA)从不同层面基因的表达水平,广泛的参与了肿瘤

的发生发展过程。本研究从系统生物学的角度,大规模整合lncRNA-mRNA的关系,同时结合癌症相关的lncRNA表达信息以及通路的拓扑结构信息,精确定位lncRNA的癌症风险通路。并将该方法分别应用于一套乳腺癌数据以及一套结直肠癌数据,识别的显著风险通路大部分通过基因通路富集分析方法得到了验证。此外该方法特异识别的显著风险通路献证实与癌症相关,表明基于lncRNA识别癌症风险通路是有效的,可以作为基因通路富集分析方法的补充,为lncRNA在癌症中的机制研究提供新的思路。关键词:长链非编码RNA;通路;癌症

中图分类号:R73    文献标识码:A    DOI:10.19613/j.cnki.1671-3141.2018.61.008

本文引用格式:杨海秀,许艳军,尚德思.基于lncRNA的癌症风险通路识别研究[J].世界最新医学信息文摘,2018,18(61):15-16.

Research on Cancer Risk Pathway Identification Based on lncRNA

YANG Hai-xiu, XU Yan-jun, SHANG De-si(Corresponding Author)

(Bioinformatics and Technology School, Harbin Medical University, Harbin, Heilongjiang 150081)

ABSTRACT:Long non coding RNA (lncRNA) regulates expression level of gene from different levels, and participates in incidence and development process of tumor. From systematic biology angle, the study integrates regulatory relationship of lncRNA-mRNA in large scale, and locates cancer risk pathway of lncRNA regulation accurately combined with cancer-related lncRNA expression information and topological structure of pathway.The method was applied to series of breast cancer and colorectal cancer data, and most identified significant risk pathways were verified based on gene pathway enrichment analysis method. In addition, literature confirms significant risk pathway identified by the method is related to cancer, and identifying cancer risk pathway based on lncRNA is effective, which can be supplement to gene pathway enrichment analysis, and provides new thought for regulatory mechanism study of lncRNA in cancer.

KEY WORDS:Long non-coding RNA; Pathway; Cancer

0 引言

长链非编码RNA(long non-coding RNA, lncRNA)是一类转录本长度超过200nt的RNA分子,它们以RNA的形式在多种层面上基因的表达水平。lncRNA参与了广泛的生物学过程,从而与肿瘤的发生、发展以及转移过程密切相关。例如,HOTAIR在乳腺癌中表达水平升高,促进肿瘤转移并与乳腺癌愈后相关,经常被用作癌症诊断和预后的生物学标记 [1]。此外,癌症的发生和发展与代谢、信号等通路的功能异常密切相关[2]。随着高通量技术的发展,通路分析为揭示高通量差异表达生物学数据的底层功能机制提供了必要的工具[3]。例如:DEAP算法[4]和SubpathwayMiner–GM算法[5]很好地将通路结构信息应用于疾病风险通路/子通路的识别中,结合差异表达基因数据和通路的结构信息精确有效地识别疾病风险通路,并取得了较好的效果。迄今为止,大部分通路研究都是从疾病风险基因的角度来识别异常的疾病风险通路。然而,越来越多的研究表明lncRNA可以通过调节通路从而与癌症的发生发展以及转移过程相关[6]。因此,识别lncRNA的癌症风险通路,可以更好地了解其在肿瘤发生、发展过程中的作用,对于lncRNA的功能研究和揭示癌症的发生和发展机制有着至关重要的作用。

基金项目:本文系黑龙江省卫生计生委科研课题󰀁(2014-416)作者简介:杨海秀,󰀁女,硕士,讲师,研究方向:生物信息学;尚

德思,男,博士,副教授,研究方向:非编码RNA与生物学网络分析。

1 数据和方法

1.1 数据的收集和预处理。通路数据的收集和处理。我们通过Kyoto Encyclopedia of Genes and Genomes(KEGG)通路数据库(http://www.genome.jp/kegg/)获取通路数据。我们下载了281条通路的KGML文件,将这些信息重新整合,并依据图论知识利用程序把通路转化成无向图结构。

lncRNA-mRNA关系数据的收集和处理。首先我们从NCBI 的Sequence Read Archive(SRA)数据库获取lncRNA-mRNA关系。我们下载了28套涉及多种实验条件的人类RNA-seq数据集 [7],其中考虑了不同的疾病类型、疾病和正常样本、环境因子、组织、用药情况等多种实验条件。然后,利用SRAtoolkit、Bowtie和easyRNAseq等软件对RNA-seq数据进行处理,并进行lncRNA和mRNA的相关性分析。我们通过计算lncRNA和mRNA表达值的pearson相关系数(Pearson correlation coefficients,PCC),利用Fisher精确检验对PCC进行了统计学显著性分析,最后利用Bonferroni对显著性P值进行校正。我们通过以下条件筛选获得了18055对表达显著相关的lncRNA-mRNA共表达关系对:(i)PCC分值排秩前0.1%的关系对;(ii)lncRNA与mRNA表达方向一致;(iii)FDR<0.01;(iv)至少在3套数据集中表达相关。

癌症测试数据的收集和预处理。我们从The Cancer Genome Atlas(TCGA)数据库下载了乳腺癌的level 3 RNA表达谱数据,并保留了lncRNA-mRNA样本匹配的表达谱,其中癌症样本758个,正常样本87个。我们同时从SRA数据库中下载了结直肠癌的RNA-seq数据集(SRP029880),包含了18个正常样本,18个原发性结

投稿邮箱:sjzxyx88@126.com

16World Latest Medicne Information (Electronic Version) 2018 Vo1.18 No.61

直肠癌样本,以及18个转移样本。我们使用TopHat和

Cufflinks对lncRNA和蛋白编码基因的表达进行了量化处理。然后用DEGSeq和fold-change方法识别显著差异的lncRNA风险基因。以上数据用于lncRNA的癌症风险通路预测分析。

1.2 方法。我们首先获取在癌症样本中差异表达的风险lncRNA,然后结合多种实验条件下的高可信的lncRNA-mRNA共表达关系,找到与风险lncRNA共表达的mRNA,并将其映射到通路结构中,再结合通路的拓扑结构信息,利用松散距离相似性算法(LOC)定位癌症风险通路区域。并对这些风险通路区域进行统计学显著性分析,最后按照显著性分析结果对识别的癌症风险通路排秩。结果列表包括癌症风险通路信息以及相关的显著性分值信息。通路富集分析利用SubpathwayMiner工具(http://www.bio-bigdata.net/SubpathwayMiner/)实现,其中N=5(两个映射mRNA间的最大距离),S=5(识别通路区域所包含的最小节点数),设定阈值p-value<0.01,q-value<0.05,识别的通路区域定义为lncRNA的癌症相关的显著风险通路区域。

2 结果及分析

我们将该方法分别应用于一套乳腺癌数据和一套结直肠癌数据。同时,我们还利用传统的基于差异表达基因的通路富集分析方法对疾病风险通路进行了预测。我们设定了严格的阈值P<0.01,P<0.05,发现利用lncRNA识别的癌症风险通路与基于基因识别的癌症风险通路结果大部分一致。此外,利用差异表达lncRNA特异识别(差异表达基因未识别)的显著风险通路如下。表1 乳腺癌风险lncRNA特异识别风险通路结果风险通路名称文献支持Olfactory transductionAmyotrophic lateral sclerosis (ALS)238599GnRH signaling pathway288247,26783137Prion diseases28699539,28692055N-Glycan biosynthesis25,25210975Osteoclast differentiation230982,28866133Morphine addiction26986153,26515910238572,236683Apoptosis表2 结直肠癌风险lncRNA特异识别风险通路结果风险通路名称文献支持Pathogenic Escherichia coliinfection27298769Histidine metabolism27650200,217668Neurotrophin signaling pathway261857注:持给出了该风险通路与癌症关系的文献号(pubmed ID)。投稿邮箱:sjzxyx88@126.com

以上结果中,利用lncRNA特异识别的癌症风险通路大部分通过文献得到了证实,表明癌症相关的风险lncRNA可以用于识别癌症风险通路。因此,基于lncRNA的癌症风险通路识别与基于基因的风险通路识别算法互补,可以作为通路富集分析的候选策略。识别lncRNA的癌症风险通路,对于揭示lncRNA在肿瘤发生、发展过程中的作用机制有重要的意义。

3 讨论

本研究针对目前大部分lncRNA功能尚未明确的现状,提出了结合lncRNA表达信息和通路结构信息识别癌症相关风险通路。研究中大规模整合了lncRNA-mRNA的共表达关系,同时结合通路的拓扑结构信息,利用疾病风险lncRNA精确定位癌症风险通路。我们将该方法分别应用于乳腺癌和结直肠癌细胞表达谱,结果表明与传统的基于基因的通路富集分析方法相比较,该方法可以有效的特异的识别癌症风险通路,可以作为基因通路富集分析的一种互补方法。本研究通过lncNRA与通路的关系揭示了lncRNA在癌症发生发展过程中的重要作用,将有助于癌症的药物靶点设计进而为药物研发、疾病的临床诊断、治疗及愈后提供一定的科学依据。

参考文献

[1] upta,R.A.,N.Shah,K.C.Wang,et al.,Long non-coding RNA

HOTAIR reprograms chromatin state to promote cancer metastasis[J].Nature,2010,4(7291):1071-6.

[2] ossemato,R.,K.M.Marks,Y.D.Shaul,et al.,Functional genomics

reveal that the serine synthesis pathway is essential in breast cancer[J]. Nature,011,476(7360):346-50.

[3] Khatri,P.,M. Sirota,and A.J.Butte, Ten years of pathway

analysis:current approaches and outstanding challenges[J].PLoS Comput Biol,2012.8(2):p.e1002375.

[4] aynes,W.A.,R.Higdon,L.Stanberry,et al.,Differential expression

analysis for pathways[J].PLoS Comput Biol,2013,9(3):1002967.[5] i,C.,J.Han,Q.Yao,et al.,Subpathway-GM:identification of

metabolic subpathways via joint power of interesting genes and metabolites and their topologies within pathways[J].Nucleic Acids Res,2013,41(9):101.

[6] o,X.,Z.Su,and A.K.Mookhtiar,Long non-coding RNA: a versatile

regulator of the nuclear factor-kappaB signalling circuit[J].Immunology,2017,150(4):379-388.

[7]  i,W.,S.Kang,C.C.Liu,et al.,High-resolution functional

annotation of human transcriptome:predicting isoform functions by a novel multiple instance-based label propagation method[J].Nucleic Acids Res,2014,42(6):39.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务