实验中的代码写作至关重要,好的写作习惯有助于项目的推进,从而帮助实验者减少花费在实验上的时间。
目录
实验代码分类
实验代码可以分成三大类:
- 模型训练代码
- 模型测试代码
- 数据处理代码:更改数据表现形式
实验中关注的问题
模型存储与加载
实验中核心代码产生的实验结果应该以全局唯一方式命名,下面介绍最简单的一种实验结果命名方式:时间戳。
# timestamp
import datetime
id_ = datetime.datetime.now().strftime("%Y%m%d-%H%M%S")
timestamp
可以产生精确到秒的时间戳,当实验结果文件命名中包含时间戳时则自动保证了文件命名的全局唯一性。
# model_name
# pytorch
torch.save(model,'model'+id)
# tensorflow
model.save('model'+id_+'.h5')
model_name
中展示了在模型分别使用pytorch和tensorflow训练时,模型存储的不同语法。这里模型的命名都符合model+id_的格式。
统一的模型命名格式可以帮助实验者快速准确地找到自己想要使用的模型。
# model_load
# pytorch
model = torch.load(model_path)
# tensorflow
model = tensorflow.keras.models.load_model(model_path)
model_load
分别展示了模型在pytorch和tensorflow格式下加载的方式。
参数
模型训练与测试所需要的参数众多。以模型测试实验的参数为例,模型测试实验中的参数包括,所选择的模型,测试数据,测试规模等等。使用常规的方法每次测试都要向测试代码中输入参数较为麻烦。使用argparse
包可以简化每次训练的过程。
# parse
import argparse
parser = argparse.ArgumentParser()
parser.add_argument("--test_query_size", help="number of query for test model", type=int, default=100)
parser.add_argument("--original_data", help="the csv file we play ce on",type=str, default='forest10.csv')
parser.add_argument("--model", help = 'the model you want to test')
args = parser.parse_args()
test_query_size = args.test_query_size
data = pd.read_csv(args.original_data)
model = tf.keras.models.load_model(args.model)
parse
展示了实验案例
pdb调试
pdb调试工具可以帮助我们快速解决bug。
# pdb
import pdb
'''your code'''
pdb.set_trace()
'''your code'''
模型结构查看
这部分可以参考代码阅读套路【1】中的内容,先将模型加载出来(或是训练出来),然后调用下面语句,查看这个模型的可选属性有哪些。
print(model.__dict__)
实验跑得很慢怎么办
有时候实验跑的太慢也会成为阻碍实验继续进行的一个因素,这时候可以考虑以下几个解决方案
- 从cpu换到gpu
- 从一个device到另一个device
- 不使用虚拟环境