前言
在数据集上训练神经网络时,主要有两个目标:
- 定义符合数据集特性的神经网络架构。
- 在许多试验中对一组超参数进行调优,从而使得模型具有较高的准确率并且能够泛化至训练集和测试集之外的数据。
针对不同的数据集和问题,往往需要进行几十至上百次的实验,花费几百到上千小时的计算时间,才能找到神经网络架构和超参数之间的平衡。
期间需要专业的深度学习人员全程参与,因此实现一个可用的深度学习模型,对于非专业人员难度很大。
1 - Google AutoML简介
HomePage: https://cloud.google.com/automl/
- 基于Google最新的图像识别技术神经架构搜索( Neural Architecture Search ,NAS)的一套机器学习工具。
- NAS会根据特定数据集搜索最佳神经网络架构,以在该数据集上执行特定任务,本质上来说,NAS就是用一套能够自动对模型进行调优的算法。
- 利用AutoML可以轻松训练高性能深度网络,而无需用户掌握深度学习或AI知识,所需要的只是处理和组织数据(标记数据)。
- 也就是说,使用AutoML的程序员或工程师无需定义其神经网络架构或对超参数调优,AutoML会自动完成这些工作。
- 但AutoML是收费的,价格昂贵。
在Google AutoML框架下,将如下的算法迭代:
- 在一个训练集上训练一个网络
- 在一个测试集上评估上一步训练出的网络
- 修正神经网络架构
- 对超参数调优
- 重复以上过程
2 - AutoKeras
- 可以认为是Google AutoML的开源替代方案, 是用于自动化机器学习的开源软件库,提供自动搜索深度学习模型的架构和超参数的功能。
- 基于非常易用的深度学习数据库 Keras,使用NAS的最新版本ENAS(Efficient Neural Architecture Search),因此具有高效、安装简单、参数可调、案例丰富、易于修改等特点。
- 使用Auto-Keras实现自动化深度学习,自动训练模型,几乎不需要干预,但通常是一个非常耗时的过程。
- 不仅能帮助开发人员快速准确地创建模型,而且允许研究人员深入研究架构搜索。
AutoKeras官网信息
- HomePage: https://autokeras.com/
- GitHub:https://github.com/keras-team/autokeras
- Getting Started: https://autokeras.com/start/
3 - AutoKeras安装与示例
安装
通过pip install autokeras
快速安装,然后就可以在准备好在的数据集上做自己专属的架构搜索。
注意:
- 截止当期时间(2019-06-25),AutoKeras还处于“Pre-release“阶段,在实际安装和使用中还有很多问题。
- 例如:https://github.com/keras-team/autokeras/issues/622
- 具体版本发布信息可查看Releases:https://github.com/keras-team/autokeras/releases
示例 - MNIST
from keras.datasets import mnist
from autokeras.image.image_supervised import ImageClassifier
if __name__ == '__main__':
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train = x_train.reshape(x_train.shape + (1,))
x_test = x_test.reshape(x_test.shape + (1,))
clf = ImageClassifier(verbose=True)
clf.fit(x_train, y_train, time_limit=12 * 60 * 60)
clf.final_fit(x_train, y_train, x_test, y_test, retrain=True)
y = clf.evaluate(x_test, y_test)
print(y)
4 - 其他
一个合格的深度学习工程师,需要根据需求使用恰当的工具,这样可以事半功倍。
类似Google AutoML和Auto-Keras等自动机器学习技术和框架,实际上只是作为工具充实了工具箱,不应该也不能过度依赖。
更重要的是相关领域的专业知识,对于提高模型准确率非常关键。