===========================================================================
'''
5.paper_<dna2vec>
'''
5.1.训练dna2vec模型:
1.把基因分割为长的非重叠dna片段
2.将长的dna片段转化为重叠的可变长度的k-mers
3.基于两层神经网络的聚合嵌入模型的无监督训练
4.用k-mer的长度分解聚合模型
5.2.word2vec模型:
bag-of-words:词包模型,
skip-gram:语法跳跃模型,对非-常见词语友好
5.3.创新点:
1.把word2vec模型应用在dna序列信息上;
2.能训练变长k-mer信息
3.数学上证明了经过模型训练产生的向量累加之和类似于核苷酸串联在一起
4.证明了Needleman-Wunsch similarity score and cosine similarity of dna2vec vectors存在关系
5.4.github:
https://github.com/pnpnpn/dna2vec
https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/
===========================================================================
岳麓山炒粉 发布了2 篇原创文章 · 获赞 0 · 访问量 32 私信 关注