简介
输入化合物结构smiles并创建一个自动编码器模型,该模型将在尺寸压缩后恢复化合物结构smiles。尽管它不是VAE,不能用于生成化合物,但是可以将编码层(图中的压缩表示)用作分子指纹。
数据集
使用最大无偏验证(MUV)数据集(https://pubs.acs.org/doi/10.1021/ci8002649)。MUV是虚拟筛选基准的约90,000分子,其被设计用于低分子量化合物的数据。
https://github.com/deepchem/deepchem/tree/master/datasets
基于keras的化合物SeqToSeq Autoencoder
数据预处理
导入包
import pandas as pd
import