GMT格式文件

GMT

GMT: Gene Matrix Transposed file format (*.gmt)。GMT 文件格式是一种以制表符分隔的文件格式,用于描述基因集。 在 GMT 格式中,每一行代表一个基因集。其中每一行,分三个部分:

  • 第一列,基因集名,不可重复
  • 第二列, 对该基因集的描述,可简单填充为’na’
  • 剩余列,都是属于该基因集的基因,不同基因集,基因数量可不同

生成GMT文件

library(clusterProfiler)
data(gcSample) ## 使用测试数据集

#> class(gcSample)  ## 数据集以list形式存储
#[1] "list"

### 基因集的基因和对应描述都以list形式存储
### 描述可选,没有对应描述,以NA填充
write_gmt <- function(gene_ls, out, desc = list()){
  handle <- file(out, open = "wt")
  lapply(names(gene_ls), function(name){
    description <- ifelse(is.null(desc[[name]]), "NA", desc[[name]])
    line <- paste0(c(name, description, gene_ls[[name]]), collapse='\t')
    writeLines(line, con = handle)
  })
  close(handle) 
}

### 生成测试描述
desc <- lapply(names(gcSample), function(x){
  desc[[x]] <- paste0("description", "_of_", x)
})
names(desc) <- names(gcSample)

write_gmt(gcSample,"gcSample.gmt", desc)

输出

GMT格式文件

参考

https://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats#GMT:Gene_Matrix_Transposed_file_format.28.2A.gmt.29
https://blog.csdn.net/coding_Joash/article/details/120422166

上一篇:关于Springboot的时间类型处理


下一篇:Python from contextlib import closing的使用