基于Annoy的语义泛化-模块化进阶标准

相对于已实现的语义泛化模块,我们期望它应具备以下特征和功能:

  • 拥有初始化方法例如load,用来从本地加载索引文件,为后续的查询做准备。(1)

    • 该方法可以指定参数path,加载指定的索引文件,不指定则为默认的本地文件。(1.1)
  • 拥有查询接口search,该接口有以下特征和功能(2)

    • 接收关键词keyword,要求对其泛化,获取近同义词(2.1)
    • 可以指定查询数量,返回该数量的近义词(2.2)
    • 可以指定比较阈值,返回所有词向量在阈值内的近义词(2.3)
    • 若查询的关键词keyword不存在于索引文件中,应避免程序崩溃而返回空列表(2.4)
    • 若查询的关键词keyword不存在于索引文件中,则通过文本对比返回推断的近义词(2.5)

目前版本尚不支持1.1,2.3,2.5,预计在本周工作结束时完成1.1、2.3。功能2.5期待在下周实现。

上一篇:爬取京东商品集成ES搜索


下一篇:mysql查询数据库中出重复数据