教育行业搜索业务背景
近几年在线教育行业飞速发展,根据2020中国移动互联网教育学习APP行业月活用户规模TOP10的统计,月活前十中针对K12教育的APP有6个,具备搜题场景的APP有5个;
(数据来源:QuestMobile<2020中国移动互联网年度大报告>)
在线教育行业中,题库、词典、拍照搜题作为产品掠取流量最重要的工具,抓住了家长、学生辅导和解题上需求,为其他的业务变现提供源源不断的流量。在市场竞争激烈,产品同质化严重的的情况下,面对不断激增的题库和高并发的用户搜索,如何保障在线教育行业搜索的性能和算法准确性尤为重要,这将直接影响品牌的口碑和培养高粘性忠实用户。
教育搜题业务特点
- 海量题库且持续增长,数据库压力大;
- 存在高峰时段集中,用户搜索并发量大,搜索延迟直接影响用户体验;
- 覆盖不同阶段学习、用户场景越来越丰富;
- 学科分类众多,数据越来越复杂,搜索存在跨学科错误;
- 需要强大的算法算力支撑,提升搜题准确性;
- 依赖多模态搜索能力来解决图文搜索需求
- 依赖多语言处理能力来处理英语等其他语言搜题需求
阿里云开放搜索教育行业最佳实践
教育行业查询意图理解能力
1.query处理流程
2.查询语义理解
分词是影响搜索效果的最基础的模块。开放搜索集成了教育搜题行业专属的教育分词器,同时在此基础之上用户还可上传自己的分词词条定制个性化的分词器。
- 示例
Query |
下面三角形的面积是多少平方厘采? |
拼写纠错 |
下面三角形的面积是多少平方厘米? |
学科类目预测 |
数学 |
分词 |
下面 三角形 的 面积 是 多少 平方 厘米 ? |
词权重 |
1 7 1 7 1 4 7 7 1 |
同义词改写 |
平方 厘米 -> (cm ^ 2) |
3.类目预测
什么是类目预测?
简单来说,用户输入一个query,查询得到一批物品,通过计算每一个物品所属的类目与query之间的相关度,只要物品的排序公式中引用了这个相关度,那么对于这个物品来说,它所属的类目与query的相关度越高,它的排序公式的计算结果就获得了越高的排序得分,从而这个物品就会排在越前面。
类目预测在教育行业的应用:
- 结合输⼊的图⽚信息和OCR识别之后的结果预测输⼊题⽬的学科类别、题目类型;
- 预测各⽂本⽚段的字段类型(题干描述、选项等等);
4.词权重分析
功能介绍:该功能主要分析了查询中每一个词在文本中的重要程度,并将其量化成权重,权重较低的词可能不会参与召回。这样可以避免当用户输入的查询词中包含一些权重低的词时,仍然按用户输入的查询词限制召回,导致命中结果过少。
功能用途: Query丢词、改写、文本相关性分析;
(1)基于用户行为生成训练数据
(2)词权重模型训练
- 序列标注模型 ;
- 预测标签(7,4,1), 分值越⾼表⽰term的重要性越⼤,召回结果更准确;
示例:
query: 35 的 因数 有 ( ) , 100 以内 24 的 倍数 有 ( )
对应权重分:4 1 7 1 1 1 1 1 1 4 1 7 1 1 1
此题目中“因数”和“倍数”的权重分最高7分,参与召回的权重也就最高,其次是“35”和“24”为4分,其他权重分为1分的,不参与召回;
5.query改写
为了满足业务的灵活需求,开放搜索支持批量干预:词典、拼写纠错,同义词,词权重等。
示例
1)OCR识别可能会把一些非题目要素识别进来干扰query分析的结果,这时候可以使用词权重干预的方式保证非题目要素字段被打标成低权重,保证召回和排序效果
2)用户可以自定义同义词来扩召回,例如"立方米" -> "吨"
排序定制
系统开放了两阶段排序过程:基础排序和业务排序,即粗排和精排;基础排序即是海选,从检索结果中快速找到质量高的文档,取出TOP N个结果再按照精排进行精细算分,最终返回最优的结果给用户。为了实现更细粒度的排序效果,结合排序表达式(Ranking Formula)可以为应用自定义搜索结果排序方式。
,
客户效果对比
某在线教育平台,主打K12教育,用户数千万级别,题库量8千万左右且持续增加,由自建题库和第三方题库两部分组成,之前通过OCR+自建ES搜索服务实现拍照搜索功能,面临的主要问题是搜索准确率待优化提升,降低搜索延迟等问题。
客户反馈
- 搜题准确率绝对值提升5%;
- 延时从100ms-300ms降到稳定50ms;
- 离线数据同步大于4000TPS;
搜题效果前后对比
- 搜题Query: "张慧研所指与小磁大概相近的是乐府之音"
旧版自建召回结果 |
开放搜索召回结果 |
|
top1 |
某歌舞团独唱演员张慧月工资5800元,2006年6月,张慧参加了该团在上海的3场演出,得到3800元报酬... |
张惠言所指与“小词”大概相近的是乐府之音。 |
top2 |
张慧研对音乐的喜好源于... |
张惠言所指与“小词”大概相近的是乐府之音。() |
top3 |
下列文献中,属于张慧老师在中国音乐期刊上发表文章的引证文献是 |
下列选项中属于张惠言所指与“小词”大概相近的是()。 |
- 搜题Query: “如图是由一些相同的小正方体搭成的几何体从三个不同方向看得到的形状图,则搭成这样的几何体需要__个小正方体. 0 A 3 从上面看看从正面看”
旧版自建召回结果 |
开放搜索召回结果 |
|
top1 |
||
top2 |
||
top3 |
以上就是开放搜索[在线教育搜题场景的最佳实践],如果您对搜索与推荐相关技术感兴趣,欢迎加入钉钉群内交流
【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用