智能技术_1:安装TensorFlow和Keras
智能技术_2:大数据分析与机器学习概论
智能技术_3:关联规则
智能技术_4:贝叶斯分类和贝叶斯网络
智能技术_5:决策树
智能技术_6:K个最近邻居(医疗旅游)
# 写于2021.04.10
# 本文为学习笔记,用的ppt是陈志华教授版,侵删
# 笔记只为交流,入门小白,有错望留言纠正
# 总结不易 望赞鼓励
1. K个最近邻居
1.1 简单理解
还是分类问题,k表示最近的几个列子,k一般取单数(3,5…)是为了尽量必面 两类相同。
1.2 求解步骤
信息检索(Information Retrieval, IR)(数据前处理过程)
- ① 断词切字(Stemming)
- ② 词频(Term Frequency, TF)
假设第i篇文章第j个字词共出现nij次,第i篇文章共有Ni个字词,
第i篇文章第j个字词词频tij为:
- ③ 逆向文件频率(Inverse Document Frequency, IDF)
假设第j个字词出现在mj篇文章,文章总共有M篇,
第j个字词逆向文件频率dj为(10为底的对数):
- ④ TF-IDF
就是②③相乘。
第i篇文章第j个字词TF-IDF值vij为:
k个最近邻居(k-Nearest Neighbors, kNN)(二选一)
- ⑤ 相似度算法
计算X与Y的「相似度s(X, Y)」
X = {x1, x2,…, xn},Y = {y1, y2,…, yn}
- ⑤ 距离算法
计算X与Y的「距离d(X, Y)」
X = {x1, x2,…, xn},Y = {y1, y2,…, yn}
kNN算法通过相似度或者距离算法,选择一个样本范围k,然后看哪类多就属于哪类
2. 过程
2.1 断词切字(Stemming)
-
英文
-
中文
用到,*研究院研发「中文断词系统」,可免费使用:http://ckipsvr.iis.sinica.edu.tw/
2.2 词频(Term Frequency, TF)
假设第i篇文章第j个字词共出现nij次,第i篇文章共有Ni个字词,
第i篇文章第j个字词词频tij为:
第一句话13个词,那么这句machine就是1/13;
…
第三句话13个词,那么这句computer就是2/13;
2.3 逆向文件频率(Inverse Document Frequency, IDF)
假设第j个字词出现在mj篇文章,文章总共有M篇,
第j个字词逆向文件频率dj为(10为底的对数):
这里只看有没有出现,不谈出现次数;M=3(三篇文章)
利用公式:log(M/mj)
2.4 TF-IDF
就是②③相乘
第i篇文章第j个字词TF-IDF值vij为:
2.5 k个最近邻居(k-Nearest Neighbors, kNN)
2.5.1 相似度
计算X与Y的「相似度s(X, Y)」
X = {x1, x2,…, xn},Y = {y1, y2,…, yn}
2.5.2 距离算法
计算X与Y的「距离d(X, Y)」
X = {x1, x2,…, xn},Y = {y1, y2,…, yn}
2.5.3 通过kNN解决分类问题
通过绝对距离测量,那么d1的sum = |6-3| +|5 - 3| + 0-0 =5
3 本体论
本体论(Ontology)是「研究到底哪些名词代表真实存在实体,哪些名词只是代表一种概念,近年来,人工智能及信息技术相关领域的学者也开始将本体论的观念用在知识表达上,即 藉由本体论中的基本元素:概念及概念间的关连,作为描述真实世界的知识模型。
也就是本来一个专有词汇 它给拆开了。本体论那就跟归类
例如:皮肤有类症
4 实例-医疗旅游应用方法
4.1 断词切字和本体论
① 将两类泉水疗效内容找到
②计算每篇文章中提及的文字出现次数并标记每篇文章所属类别
③ 断文切字
④ 将相同字词数合并 并计算次数总和
⑤ 本体论结果
参考医疗本体论,将各个疾病名称抽象化为「概念层级」
4.2 词频
4.3 逆向文件频率
4.4 TF-IDF
4.5 kNN(欧几里得距离, k=3)
① 查询内容「轻度高血压、肠胃不舒服」,肠胃没有这项,那么忽略
计算结果(欧几里得距离, k=3):
查询之病症,推荐可以采用碳酸氢钠泉疗法。
② 查询内容「脚扭伤」
计算结果(欧几里得距离, k=3):
查询之病症,推荐可以采用硫化氢泉疗法。