【记录】白吃小学生知识点记录

1、时序模型中,当前数据跟之前观察到的数据相关。
2、自回归模型使用自身过去数据来预测未来。
3、马尔可夫模型假设当前只跟最近少数数据相关,从而简化模型。
4、潜变量模型使用潜变量来概括历史信息。

文本预处理
把文本当作时序序列,文本中的字符、字、词当作变量,这些变量都是有时序信息的。文本预处理主要研究,如何把文本中的这些字、词变成计算机能够处理训练的东西。
1、将数据集读取到由多条文本行组成的列表中;
2、将每行的文本序列拆分成一个标记列表(词元:token);
(1)英文:
词:作为一个基本的单元,简单;
字符串:作为一个基本单元;
(2)中文:
字:作为一个基本的单元;
词:要作分词操作,jieba分词;
3、构建一个字典,即词汇表,用来将字符串类型的标记(token)映射到从0开始的数字索引中;结果是给一个token返回一个对应的下标,或者是unknown;最终将每个文本行转换成一个数字索引列表。

语言模型
给定文本序列x1…xT,语言模型的目标是估计联合概率P(x1…xT)
应用:
1、做预训练模型(eg:BERT,GPT-3),微调其他模型;
2、生成文本,给定前面几个词,不断采样下一个词;
3、判断多个序列中哪个更常见(电脑打字的时候自动生成、纠错);

N元语法:
当序列很长时,因为文本量不够大,很可能n(x1…xT)《=1
使用马尔科夫假设可以缓解这个问题:
一元语法:p(x1,x2,x3,x4)=p(x1)p(x2)p(x3)p(x4)
二元语法:p(x1,x2,x3,x4)=p(x1)p(x2|x1)p(x3|x2)p(x4|x3)
三元语法:p(x1,x2,x3,x4)=p(x1)p(x2|x1)p(x3|x1,x2)p(x4|x1,x2,x3)

上一篇:算法训练 蜜蜂飞舞


下一篇:linux内核学习---Linux内核更新(2)