本学习笔记为阿里云天池AI训练营金融风控的学习内容,学习链接为:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.2.f2984d57J6IxQe&postId=170948
首先分享我在这个task1里面学到的东西。
一、学习知识点概要
- 根据来自某信贷平台的贷款记录建立模型,预测金融风险。
- 以AUC作为评价指标,在此之前,需要先理解混淆矩阵。
- 混淆矩阵及四个指标(一级指标)
- 二级指标(准确率,精确率,灵敏度)
- P-R曲线
- ROC
二、学习内容
- 混淆矩阵
- 混淆矩阵是ROC曲线绘制的基础,直观的说,混淆矩阵无非就是把四个一级指标用表格的形式表达出来。
2.四个一级指标(以下为个人的拙见)
- (1)真正类TP(True Positive ):即实际对,预测也为对。
- (2)假负类FN(False Negative ):即实际对,但预测为错(假的负不就是实际是正嘛)。
- (3)假正类FP(False Positive ):即实际错,但预测为对。
- (4)真负类TN(True Negative ):即实际错,预测也为错。
3.二级指标
- 准确率
- 精确率
- 灵敏度
4.PR曲线
P-R曲线是描述精确率和召回率变化的曲线。
详细可参考链接:https://blog.csdn.net/guzhao9901/article/details/107961184
5.ROC
在ROC空间中假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。
三、学习问题与解答
1.文中提到的不均衡情况是什么意思?
比如二分类问题中标签1的数据占了99%,但是标签0的数据只有1%,这就造成了不平衡问题。会导致判断失误。
2.机器学习解决问题的步骤是什么?(因为我是一个刚接触大数据的小白)
问题建模——特征工程——模型选择——模型融合
四、学习思考与总结
刚开始接触的时候真的是什么也不会,什么名词都很陌生,但是一个概念一个概念慢慢查慢慢理解之后才发现大数据,机器学习真的很有意思,一些晦涩难懂的概念,我会在B站找大佬的视频,在知乎,百度找我想要的答案,因为我是一个新人,很多知识匮乏,基础要一步一步来,不能放过任何一个知识点,知识的探索过程才是充满乐趣的。
引用资料来自:https://blog.csdn.net/guzhao9901/article/details/107961184
https://zhuanlan.zhihu.com/p/111274912