GMT
GMT: Gene Matrix Transposed file format (*.gmt)。GMT 文件格式是一种以制表符分隔的文件格式,用于描述基因集。 在 GMT 格式中,每一行代表一个基因集。其中每一行,分三个部分:
- 第一列,基因集名,不可重复
- 第二列, 对该基因集的描述,可简单填充为’na’
- 剩余列,都是属于该基因集的基因,不同基因集,基因数量可不同
生成GMT文件
library(clusterProfiler)
data(gcSample) ## 使用测试数据集
#> class(gcSample) ## 数据集以list形式存储
#[1] "list"
### 基因集的基因和对应描述都以list形式存储
### 描述可选,没有对应描述,以NA填充
write_gmt <- function(gene_ls, out, desc = list()){
handle <- file(out, open = "wt")
lapply(names(gene_ls), function(name){
description <- ifelse(is.null(desc[[name]]), "NA", desc[[name]])
line <- paste0(c(name, description, gene_ls[[name]]), collapse='\t')
writeLines(line, con = handle)
})
close(handle)
}
### 生成测试描述
desc <- lapply(names(gcSample), function(x){
desc[[x]] <- paste0("description", "_of_", x)
})
names(desc) <- names(gcSample)
write_gmt(gcSample,"gcSample.gmt", desc)
输出
参考
https://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats#GMT:Gene_Matrix_Transposed_file_format.28.2A.gmt.29
https://blog.csdn.net/coding_Joash/article/details/120422166