华文慕课 生物信息学导论与方法章节作业答案+综合考试答案
华文慕课 生物信息学:导论与方法章节作业答案+期末考试答案,课程主讲学校(北京大学)高歌老师
第一章单元测试
1、(5分)人基因组大约有多少是编码蛋白的基因区间
A、10%
B、30%
C、90%
D、不足5%,lessthan5
正确答案:D
2、(5分)Genbank数据库存储的数据是什么
A、核酸序列
B、蛋白序列
C、蛋白结构
D、核酸结构
正确答案:A
3、(5分)SRA数据库存储的数据是什么
A、存储新一代测序技术的数据
B、存储Sanger测序数据
C、存储基因芯片的数据
D、以上都不是
正确答案:A
4、(5分)高通量测序错误率和传统Sanger测序相比
A、高
B、低
C、差不多
D、不一定
正确答案:A
5、(5分)生物信息学对数据的处理一般是一个什么样的过程
A、数据管理-数据计算-数据挖掘-建立模型/进行预测
B、数据挖掘-数据管理-建立模型/进行预测-数据计算
C、数据挖掘-数据管理-数据计算-建立模型/进行预测
D、建立模型/进行预测-数据挖掘-数据管理-数据计算
正确答案:A
6、(5分)Sanger测序哪年发表
A、2002
B、1965
C、1977
D、1970
正确答案:C
7、(5分)人基因组计划哪年启动?哪一年发表草图?
A、19772004
B、19882004
C、19772001
D、19882001
正确答案:D
8、(5分)PAM打分矩阵是为什么设计的
A、氨基酸替换
B、核苷酸替换
C、以上都是
D、以上都不是
正确答案:A
9、(5分)序列匹配算法哪年出现
A、1977
B、1970
C、1988
D、1991
正确答案:B
10、(5分)人基因组大小约为
A、3.1*10^7bp
B、3.1*10^8bp
C、3.1*10^9bp
D、3.1*10^10bp
正确答案:C
第二章单元测试
1、(5分)在氨基酸的序列比对结果中,一个“:”表示什么意思:
A、相同的残基
B、两个相似的残基比对到一起
C、两个不相似的残基比对到一起
D、一个空位
正确答案:B
2、(5分)一种替换在自然界中越容易发生,则这种替换在打分矩阵中对应的数值
A、越大
B、越小
C、不变
D、以上都不是
正确答案:A
3、(5分)在使用动态规划进行序列比对时,比对结果是唯一的吗?
正确错误
正确答案:错误
4、(5分)见图
A、1
B、-4
C、-8
D、-6
正确答案:C
5、(5分)如果进行局部比对,那么第4题中蓝色格子的值为______
A、0
B、1
C、2
D、4
正确答案:C
6、(5分)对于全局比对,第4题中蓝色格子的值为_____
A、2
B、-4
C、0
D、-8
正确答案:B
7、(5分)如果进行局部比对,那么第4题中绿色格子的值为______
A、0
B、1
C、2
D、4
正确答案:A
8、(5分)利用局部匹配,我们可以在这个匹配过程中得到的最大的打分是
A、2
B、4
C、6
D、8
正确答案:B
9、(5分)对于全局比对,第4题的最终比对结果是_____
A、AAG-T,-AGCT
B、AAGT-,-AGCT
C、AAGT,AGCT
D、AAG-T,A-GCT
正确答案:A,D
第三章单元测试
1、(5分)关于BLAST结果中E-value的说法,以下不正确的是
A、它表示了相应hit的可信度
B、它可以大于1
C、当它确定的时候,相应的p-value也是确定的
D、它和一开始输入的查询序列的长度以及数据库总序列长度都有关
E、它的值在接近1时,是几乎和相应的p-value一样的
正确答案:E
2、(5分)下列选项中,哪些项不能帮助BLAST降低假阳性?
A、不仅使用来自查询序列的种子单字,还使用它们的邻居单字
B、提前给数据库建索引
C、不计算p-value,只计算E-value
D、使用较短的seedword
E、屏蔽重复性的低复杂度区域
F、选择邻居单字时,只选择高度相似的邻居单字
G、使用E-value来评估比对的统计显著性
H、从最初始找到的hit里面去掉一些零散的hit,只保留hitcluster
正确答案:A,B,C,D
3、(5分)下列选项中,哪一项不能帮助BLAST提升计算速度?(注意不一定非得是和以前的双序列比对算法相比有显著提升)
A、使用较短的seedword
B、对数据库预先屏蔽重复性的低复杂度区域
C、选择邻居单字时,只选择高度相似的邻居单字
D、从最初始找到的hit里面去掉一些零散的hit,只保留hitcluster
E、提前给数据库建索引
F、不计算p-value,只计算E-value
正确答案:A
4、(5分)现有如下一条蛋白序列,请通过BLAST,对其进行分析,寻找与其相似的蛋白序列:>ProteinSequenceMVRAPCCEKMGLKKGPWTPEEDQILISYIQSNGHGNWRALPKLAGLLRCGKSCRLRWTNYLRPDIKRGNFTREEEDSIIQLHEMLGNRWSAIAARLPGRTDNEIKNVWHTHLKKRLKNYQPPQSSKRHSKNKDSKAPCTSQIALKSSNNFSNIKEDGPGLGSGPNSPQLSSSEMSTVTADSLAVTMDISNSNDQIDSSENFIPEIDESFWTDGLSTSGGGEELQVQFPFHDMKQENVEKDVGAKLEDDMDFWYSVFIKSGDLLELPEFBLAST:http://blast.ncbi.nlm.nih.gov参数设置:Database:Non-redundantproteinsequences(nr)Algorithm:blastpWordsize:3Matrix:BLOSUM62GapCosts:Existence:11Extension:1其他参数默认问:为了完成上述分析,应选择BLAST主页上的哪个程序?
A、nucleotideblast
B、proteinblast
C、blastx
D、tblastn
E、tblastx
正确答案:B
5、(5分)在第4题的BLAST结果中,所获得的相似度最高的序列来自于哪个物种?
A、Capsicumannuum辣椒
B、Daturametel洋金花
C、Petuniaxhybrida矮牵牛
D、Solanumlycopersicum番茄
正确答案:D
第四章单元测试
1、(5分)在一阶马尔科夫链中,当前状态的概率分布与且只与______有关.
A、前面所有状态
B、自己的状态
C、前一个状态
D、后一个状态
正确答案:C
2、(5分)利用马尔可夫模型进行双序列比对,给定如下状态转移图(M表示两个残基匹配,X表示第一条序列存在一个插入,Y表示第二条序列存在一个插入)已知gapopen的概率为0.1,gapextension的概率为0.7则上面状态转移图中蓝色边上的状态转移概率值为______
A、0.1
B、0.2
C、0.3
D、0.8
正确答案:C
3、(5分)在第2题的状态转移图中,绿色边上的状态转移概率值为______
A、0.2
B、0.3
C、0.7
D、0.8
正确答案:D
4、(5分)给定如下状态转移关系和每个状态下的生成概率则通过状态转移路径1-2-2-3-3观测到序列aabbc的概率是多少?
A、0.00072
B、0.004068
C、0.000144
D、0.00336
正确答案:C
5、(5分)对于下面这个简单的预测编码区非编码区的隐马尔可夫模型,其中两个矩阵分别为状态转移概率矩阵和生成概率矩阵取log10后的结果(在状态转移概率矩阵中,第i行第j列表示从状态i转移到状态j的概率取log10后的结果)
A、-2.0
B、-1.5
C、-1.3
D、-2.1
正确答案:A
6、(0分)在上一题中,蓝色格子的值为多少?
A、-2.1
B、-1.5
C、-0.7
D、-2.0
正确答案:D
7、(0分)在第五题中,序列的尾部(A)被鉴定成编码还是非编码?
A、编码
B、非编码
C、无法判断
D、可能是编码也可能是非编码
正确答案:A
第五章单元测试
1、(5分)下面哪一项不是高通量测序技术?
A、454
B、HiSeq
C、SOLiD
D、Sangersequencing
正确答案:D
2、(5分)下面哪一个是最早出现的高通量测序技术?
A、454
B、SOLiD
C、HiSeq
D、IonTorrentPGM
E、X-ten
F、PacBioRS
正确答案:A
3、(5分)与Sanger测序相比,高通量测序技术有哪些特点?
A、读长长
B、速度快
C、成本低
D、错误率高
E、错误率低
正确答案:B,C,D
4、(5分)当一个碱基的测序质量为30时,该碱基的错误率是多少?
A、1/30
B、1/300
C、1/100
D、1/1000
正确答案:D
5、(5分)下面哪些方法可以用来加速序列回帖?
A、采用hash的办法为参考序列建立索引
B、将参考序列存入前缀树中
C、将参考序列存入后缀树中
D、采用动态规划的办法查找短序列在参考序列中的最优位置
正确答案:A,B,C
第六章单元测试
1、(5分)下面哪一个不属于编码区单核苷酸变异的种类?
A、移码突变
B、终止密码子获得
C、非同义突变
D、同义突变
正确答案:A
2、(5分)一个人的基因组中大约有多少单核苷酸变异?
A、30,000
B、300,000
C、3,000,000
D、30,000,000
正确答案:C
3、(5分)关于致病突变和中性突变,下面哪一项是正确的?
A、致病突变均位于保守区,中性突变均位于非保守区
B、在病人中出现且在健康人中没有出现的突变一定是致病突变
C、致病突变均位于蛋白的功能位点,中性突变均位于蛋白的非功能位点
D、dbSNP数据库中记录的突变既有致病突变也有中性突变
正确答案:D
4、(5分)为找到一个基因上的已知的致病突变,可以从下面哪个(些)数据库中查找?
A、LSDBs
B、HGMD
C、1000Genomesdataset
D、OMIM
正确答案:A,B,D
5、(5分)下面哪一个算法不是用来预测非同义突变对功能的影响
A、SIFT
B、PolyPhen
C、SAPRED
D、Bowtie
正确答案:D
6、(5分)>BRCA1_HUMANMDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFCMLKLLNQKKGPSQCPLCKNDITKRSLQESTRFSQLVEELLKIICAFQLDTGLEYANSYNFAKKENNSPEHLKDEVSIIQSMGYRNRAKRLLQSEPENPSLQETSLSVQLSNLGTVRTLRTKQRIQPQKTSVYIELGSDSSEDTVNKATYCSVGDQELLQITPQGTRDEISLDSAKKAACEFSETDVTNTEHHQPSNNDLNTTEKRAAERHPEKYQGSSVSNLHVEPCGTNTHASSLQHENSSLLLTKDRMNVEKAEFCNKSKQPGLARSQHNRWAGSKETCNDRRTPSTEKKVDLNADPLCERKEWNKQKLPCSENPRDTEDVPWITLNSSIQKVNEWFSRSDELLGSDDSHDGESESNAKVADVLDVLNEVDEYSGSSEKIDLLASDPHEALICKSERVHSKSVESNIEDKIFGKTYRKKASLPNLSHVTENLIIGAFVTEPQIIQERPLTNKLKRKRRPTSGLHPEDFIKKADLAVQKTPEMINQGTNQTEQNGQVMNITNSGHENKTKGDSIQNEKNPNPIESLEKESAFKTKAEPISSSISNMELELNIHNSKAPKKNRLRRKSSTRHIHALELVVSRNLSPPNCTELQIDSCSSSEEIKKKKYNQMPVRHSRNLQLMEGKEPATGAKKSNKPNEQTSKRHDSDTFPELKLTNAPGSFTKCSNTSELKEFVNPSLPREEKEEKLETVKVSNNAEDPKDLMLSGERVLQTERSVESSSISLVPGTDYGTQESISLLEVSTLGKAKTEPNKCVSQCAAFENPKGLIHGCSKDNRNDTEGFKYPLGHEVNHSRETSIEMEESELDAQYLQNTFKVSKRQSFAPFSNPGNAEEECATFSAHSGSLKKQSPKVTFECEQKEENQGKNESNIKPVQTVNITAGFPVVGQKDKPVDNAKCSIKGGSRFCLSSQFRGNETGLITPNKHGLLQNPYRIPPLFPIKSFVKTKCKKNLLEENFEEHSMSPEREMGNENIPSTVSTISRNNIRENVFKEASSSNINEVGSSTNEVGSSINEIGSSDENIQAELGRNRGPKLNAMLRLGVLQPEVYKQSLPGSNCKHPEIKKQEYEEVVQTVNTDFSPYLISDNLEQPMGSSHASQVCSETPDDLLDDGEIKEDTSFAENDIKESSAVFSKSVQKGELSRSPSPFTHTHLAQGYRRGAKKLESSEENLSSEDEELPCFQHLLFGKVNNIPSQSTRHSTVATECLSKNTEENLLSLKNSLNDCSNQVILAKASQEHHLSEETKCSASLFSSQCSELEDLTANTNTQDPFLIGSSKQMRHQSESQGVGLSDKELVSDDEERGTGLEENNQEEQSMDSNLGEAASGCESETSVSEDCSGLSSQSDILTTQQRDTMQHNLIKLQQEMAELEAVLEQHGSQPSNSYPSIISDSSALEDLRNPEQSTSEKAVLTSQKSSEYPISQNPEGLSADKFEVSADSSTSKNKEPGVERSSPSKCPSLDDRWYMHSCSGSLQNRNYPSQEELIKVVDVEEQQLEESGPHDLTETSYLPRQDLEGTPYLESGISLFSDDPESDPSEDRAPESARVGNIPSSTSALKVPQLKVAESAQSPAAAHTTDTAGYNAMEESVSREKPELTASTERVNKRMSMVVSGLTPEEFMLVYKFARKHHITLTNLITEETTHVVMKTDAEFVCERTLKYFLGIAGGKWVVSYFWVTQSIKERKMLNEHDFEVRGDVVNGRNHQGPKRARESQDRKIFRGLEICCYGPFTNMPTDQLEWMVQLCGASVVKELSSFTLGTGVHPIVVVQPDAWTEDNGFHAIGQMCEAPVVTREWVLDSVALYQCQELDTYLIPQIPHSHY已知人类的BRCA1编码的蛋白序列如上(ENSP编号为:ENSP00000350283)我们在一个人身上发现了突变Q60F使用SAPRED(http://sapred.cbi.pku.edu.cn/,请使用tryout模式)对题中的序列和突变的影响进行预测,由于目前BRCA1编码的蛋白还没有完整的结构,请使用sapred_seq,预测该突变为致病的概率为______
A、0.128251
B、0.345343
C、0.871749
D、0.898723
正确答案:C
7、(5分)测试一个预测方法的性能,试验后经过统计得到如下数据:则该方法的敏感性(sensitivity)、特异性(specificity)、准确率(accuracy)分别是多少?
A、0.80,0.50,0.90
B、0.67,0.25,0.30
C、0.80,0.60,0.70
D、0.67,0.50,0.60
正确答案:C
8、(5分)上一题数据得到的FDR是多少?
A、0.33
B、0.66
C、0.25
D、0.75
正确答案:A
第七章单元测试
1、(5分)下面关于非编码RNA的说法中,错误的是
A、非编码RNA能够调控基因表达
B、非编码RNA参与蛋白的翻译
C、在细胞中存在大量的非编码RNA
D、非编码RNA可以比某些编码RNA更长
E、非编码RNA没有功能
F、非编码RNA一定比编码RNA更短
G、非编码RNA中一定不存在ORF(openreadingframe)
正确答案:E,F,G
2、(5分)下面关于长非编码RNA(lncRNA)的说法,正确的是
A、lncRNA上没有外显子和读码框
B、lncRNA是转录的副产物,没有功能
C、lncRNA都没有polyA尾巴
D、lncRNA上的变异可能导致人类疾病
正确答案:D
3、(5分)关于非编码RNA的鉴定,下面说法错误的是
A、microRNA的鉴定可以利用RNA的二级结构特征
B、可以利用序列碱基保守性信息鉴定非编码RNA
C、可以利用开放读码框的长度来鉴定非编码RNAs
D、选择合适的特征组合可以提高鉴定的准确率
E、仅利用序列本身的特性无法实现非编码RNA的鉴定
F、我们现在可以利用计算的方法来准确的鉴定所有的非编码RNAs
正确答案:E,F
4、(5分)已知一次实验得到如下序列>21AAAATAGTTGACCAAGTGTGGTGGCTCACGTAGTCCCAGCACTTTGGGAGGCTGAGGCAGGAGGATCACTTGAGCCCAGGAATTTGAGACCAGCTTGGGCAACATAGTGAGACCTCATCTCTTAAAAAAAAAAATTAGCTGGGTGTGGTAGTGCACACCTGTGGTCCCAGCTACTTTAGAGGCTGAGGTAGAGGATTGCTTGAGCCTGGGAAGTTGGGGCTGTAGTGAGCTTTGATTGCATCACTGCACTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTCTAAAAAATTAAATAAATAATAAAAAAATTAAAAAGTAACTCCC利用CPC(http://cpc.cbi.pku.edu.cn/)预测该序列编码的RNA是编码蛋白的RNA还是非编码RNA
A、codingRNA
B、noncodingRNA
C、不确定
D、即可能coding又可能noncoding