1月9日,阿里云搜索&推荐技术分享会顺利举办。活动期间,我们收集了许多来自行业用户的反馈,并从中精选了10个热点问题,请专家做出解答,为读者应用搜索&推荐技术提供参考。同时,我们整理了活动过程中,嘉宾分享的干货内容,以飨读者。
十大精选问答
1、搜索技术具体使用产品以及常用的场景?产品的基本集群规模如何?是否有可替换的开源产品?
答:开放搜索(OpenSearch:https://www.aliyun.com/product/opensearch) 是阿里巴巴自主研发的大规模分布式搜索引擎平台,其核心引擎HA3(问天3)系统为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。集成了智能查询语义理解、机器学习排序算法等能力。与电商行业相关的场景主要包括以下几个:商品搜索、基于地理位置的O2O场景、订单等大数据查询分析。
(1)商品搜索场景:
搜索效果的好坏在商品搜索场景中直接决定着GMV的转化。通常该场景下:数据的更新极快,包括商品的描述、价格等,这些变化需要实时更新到索引中;商品需要在多维度相互比较,比如按价格、按销量进行比较,方便用户做多层次的挑选;用户对商品偏好个性化十足,为了提升效果,需要收集丰富的行为数据设计千人千面的排序算法。
具体请参考文档「基于OpenSearch实现电商场景商品搜索原型」:https://help.aliyun.com/document_detail/99739.html
(2)O2O等基于地理位置的搜索场景:
开放搜索支持类似附近人或地点的搜索。如果希望按照地点或附近人传入的坐标,那么可以使用开放搜索,提高搜索效率,也同时提供排序功能。
使用方法参考:https://help.aliyun.com/document_detail/130253.html
(3)大数据检索场景:
ERP、CRM、物流、订单、日志及后台管理系统是企业基本设施环境,这些场景的共同特点是数据量大、检索及筛选条件复杂,数据库查询性能较差,使用搜索引擎可以满足功能及性能的双项保证。
开放搜索是开箱即用的云搜索托管服务,可以根据用户的实际数据量按需使用,用户只需要管理搜索应用,并不用关心背后的搜索集群的配置和运维问题。
在开源领域,Elasticsearch 和 Solr是常见的选择,他们具备业务开发的灵活度,也是非常成熟的搜索技术。相比开源框架,开放搜索主要在产品易用性、搜索相关性等效果、大数据量下的性能等方面体现自己的产品价值。
2、搜索执行时间过长怎么办?
首先,检查搜索条件设置是否合理。搜索查询的效果主要跟query关键词中命中的文档数有关,命中的文档数越多,系统要进行的计算就越多,那么耗时就会越高。所以优化的一个重要手段就是尽量降低query召回的文档数。可参考文档:https://help.aliyun.com/document_detail/29191.html?spm=a2c4g.11186623.6.753.43344a11efwG0c
其次, 选择合适的应用规格;存储型, 通用型,计算型在相同的条件下,搜索执行时间是依次减少的,可以根据业务的需要选择购买相应的规格。
最后,如果仍存在问题,可以提交工单反馈,具体问题具体分析。
3、搜索召回侧除文本外,还有哪些维度可以提升相关性?
目前提供特征大致有:类目相关性(类目预测),文档的热度(人气模型),地理位置(距离),文本特征(query,doc,query-doc),以及一些基础的功能函数。用户可以通过表达式的方式,*组合这些特征和文档自身的字段内容对文档算分,进行排序,提升相关性。
Open Search对于几种经典的应用(如论坛、资讯等)提供了表达式模板,用户可根据自己数据的特点,选择合适的表达式模板,并以此为基础进行修改,生成自己的表达式。
具体可见以下文档:https://help.aliyun.com/document_detail/29130.html?spm=a2c4g.11186623.6.598.5677a63dei1lNq
4、能介绍下实体识别大致的实现逻辑吗?以及如何衡量实体识别的效果?
目前实体识别的干预主要包括两个对实体识别结果本身的干预,以及实体类型重要性的干预。当实体识别的结果不准时,应该通过实体识别的干预来进行干预。实体识别使用了标注数据、行业知识、语言模型等数据训练的一个NLP模型。通过对一批标注数据的评测,主要考察了一些重要实体类型的召回率和准确率。
通过创建实体干预的词典,并在查询分析中实体识别中配置相应的干预词典,可以干预实体识别的结果。由于语义实体是和分词器密切相关的,因此,创建实体识别干预词典时,必须选择分词器。且在查询分析配置使用时,只有索引对应的分词器和干预词典的分词器一致,才能被选择使用。
具体可见以下文档:https://help.aliyun.com/document_detail/124934.html
5、搜索场景下如何与推荐相结合? 如何选取与定位推荐的业务提升效果指标,如点击率、购买转化率等等?
搜索、推荐作为引导GMV的重要入口,承载着购买转化的重要作用。搜索发生在用户购买意愿已基本确认时,推荐主要承载引导用户得以“逛起来”并结合长、短期兴趣进行购买预测,对于智能推荐而言,目前可以利用起由搜索触发的点击行为,并作为兴趣学习的重要一环输入。
在选取与定位推荐业务提升效果上,主要以点击率为衡量指标,推荐主要承载起商品分发的能力,至于用户是否收藏、购买也同时受到商品本身配图、评价、质量等多方影响,衡量分发效率直接采用购买转化率有一定的变量因素干扰,但智能推荐也会同时结合收藏、购买、评价等行为表现对商品的质量进行学习并表现在推荐高质量商品的结果上。在推荐分发效率提升的同时,表现为点击率的提升,转化率的提升以及用户驻留时长,留存率的提升等。综上,主要以点击率为衡量指标,其他指标为辅助参考。
6、用户在买完某个商品之后,首页还在持续推荐同类型产品,该问题怎么解决?
这个问题本质与商品的类型有关,对于类似于美妆-口红的商品,购买后的二次推荐也具备极大的复购可能,但对于类似于数码-冰箱的商品,购买后的短期二次推荐基本不具备复购可能。
针对此类问题,智能推荐主要可通过3种方法解决,首先用户具备长期与短期兴趣,推荐的商品本身就不会局限于用户短期购买的商品;其次,利用模型快速学习与更新的能力,实时捕捉用户的行为变化,当曝光已购买同类商品后缺少点击行为,模型会接收到负面的反馈信息,在下一次刷新就会减少此类商品的推荐;最后,可以配置打散的规则,设置一次结果出现的类目分布情况,从而避免用户兴趣过于集中发生过购买行为后即兴趣丢失,不再愿意继续逛下去的问题。
7、直播中说到友盟提供大量的数据积累,但是这些数据对我们客户有什么帮助呢?
推荐效果的好坏是跟数据的质和量紧密相关的,当客户本身行为数据或者画像数据比较稀缺的时候,推荐效果相对也不会特别的好。友盟大数据的能力就是弥补数据侧可能存在的短板问题。相关产品链接,请参考:https://umeng.aliyun.com/product/urec
友盟提供的大数据积累,能够很大程度帮助app、站点等的新用户第一次入站浏览即可准确把握用户的兴趣、喜好、关注内容,可以大幅提升新用户留存、转化、粘性增加的能力。
8、数据安全性如何保证?
开放搜索会对每个访问的请求都会通过阿里云官方颁发给访问者的Access Key Id 和Access Key Secret做身份验证,只有身份验证后的请求才会被开发搜索服务响应处理。用户自身需要对Access Key Id和Access Key Secret严格保密。加密方法见:https://help.aliyun.com/document_detail/54237.html?spm=a2c4g.11186623.6.646.14c875aevLqQuJ
智能推荐目前在公共云上部署。智能推荐底层的数据存储依赖于阿里云Maxcompute,以实例为细粒度建立通过项目空间、项目名称以及具体的分区对不同的用户数据进行隔离,客户需要通过阿里云的账号信息才能访问对应的数据。此外也支持客户对于重要的信息进行加密等措施。
9、推荐系统有没有外部调用接口?可以基于智能推荐做二次开发吗?
外部调用推荐系统可使用API进行结果的获取,对于控制台已支持的功能,包括创建打散规则、设置曝光过滤时间、设置混排规则、查询用户/物品数据/更新记录等均可使用提供的API接口调用。
目前暂时不支持模型内(包括召回和排序两个过程)的二次开发,如果具备一些特殊的业务规则,涉及过滤、强推逻辑建议针对请求的推荐结果筛选,但不建议基于推荐结果定义二次重排序,这将违背模型学习的真实结果。支持二次接口的开发在我们的规划中,但目前不支持,业务干预可通过加权、打散、混排策略设置等实现。
10、目前这套服务故障率是接近0吗?有做高可用吗?
开放搜索的服务可用性不低于99.95%,并有服务等级协议(Service Level Agreement,简称 “SLA”),规定了阿里云向客户提供的开放搜索(OpenSearch)的服务可用性等级指标及赔偿方案。具体可见文档:https://help.aliyun.com/document_detail/64789.html?spm=a2c4g.11186623.2.11.137448f0Tx5kMt
嘉宾分享
1、智能搜索技术在电商行业的最佳实践
分享嘉宾:阿里巴巴技术专家 项招贵
针对电商行业特点和面临的问题,分析在具体的技术实践中,针对多元化商品形态、多样的用户行为,如何做到搜索的智能化和效果评测等。
点击查看视频:智能搜索技术在电商行业的最佳实践
2、炼数成金:智能推荐大数据和AI实践
分享嘉宾:友盟+ 算法专家 杨玉莲
从电商行业推荐场景及挑战、基于大数据与AI的解决方案、新用户冷启动的解决方案、推荐技术在电商行业的发展方向四个方面分析智能推荐如何得以更懂用户的诉求与心智。
点击查看视频:炼数成金:智能推荐大数据和AI实践
以下为本次问题征选的获奖名单,礼品获取信息请关注短信通知。
加入社群
点击订阅《阿里云搜索与推荐技术交流期刊》
扫码加群,了解更多资讯