一、在爬虫过程中的心得:
1、有些数据类型不一致,不能统一读取
2、注意封装函数;
3、添加注释:有助于后续他人维护,以及自己修改
4、转txt的时候,注意空间的利用:如何节省空间,是否可以边存储边删除。
二、最近的新词:
1、损失函数:损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。
2、学习率:learning rate.
3、高斯分布:正态分布
4、噪声:所有难以被机器正确理解和翻译的数据。
5、数据清洗的方式:利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。如错误数据(偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库( 常识性规则、业务特定规则等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据)、重复数据(通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)。)、残缺数据。
6、注意力机制:注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力,即敏锐度(Acuity),只有视网膜*凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它。例如,人们在阅读时,通常只有少量要被读取的词会被关注和处理。综上,注意力机制主要有两个方面:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。
7、LSTM:短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。
8、CMM:全称Capability Maturity Model for Software,能力成熟度模型,它是对于软件组织在定义、实施、度量、控制和改善其软件过程的实践中各个发展阶段的描述.CMM
的核心是把软件开发视为一个过程,并根据这一原则对软件开发和维护进行过程监控和研究,以使其更加科学化、标准化、使企业能够更好地实现商业目标.
三、写作要注意的:
1、数据、图等的格式要清楚标准,易于他人使用
2、作图看重合率时,可以用不同标记(如叉号和方块)
四、值得学习的:
1、学会为任务分解、排期。