欢迎进入上海大众快捷搬迁搬家服务有限公司网站!

关于我们 | 联系我们

上海大众快捷搬迁运输数据解决之搜索如何命中?(3)

作者: 时间:2020-01-12 19:55

Q:为什么会有F1值的存在呢?有精确率和召回率不够吗?

A:答案是:不够!正常情况下我们是期望精确率和召回率越高越好,但这两者在某些情况下是彼此矛盾的。仍以桔子苹果为例,如果系统只筛选出了1个桔子,那么精确率便是 100%,召回率是1/7就会很低;如果系统一次筛选出了10个,那么召回率便是 100%,精确率就只有70%。

除此之外,还有一个比较 容易混淆的概念:准确率(Accuracy),即判断正确的数目与总数目的比值,其中判断正确的数目包括 筛选出的符合要求的和未筛选出的不符合要求的。

仍以桔子苹果为例,准确率A=(4+1)/10=50%,即系统正确筛选出的水果(正确识别了4个桔子+正确识别了1个苹果)与总数的比值。

准确率一般不消于搜索召回的衡量,原因是若上例中苹果数量为100万个,桔子7个时,那么不管怎么筛选,准确率都是99.99%+,显然这是不符合要求的。

三、排序

排序影响着搜索的结果质量,越往前的结果越容易获得用户的点击。好的搜索不单 仅是把应该搜索的内容尽可能的搜索出来,同时还要考虑把最容易吸引用户的内容展示在前面,因此这里就涉及到两个因素:文本数据和业务数据。

3.1 文本数据

文本数据即文本的相关性分数乘以权重。关于如何计算文本的相关性,市面上已经有成熟的开源处理方案,如Lucene算法。然后依照 文本类型给出相应的权重,好比系统中有题目 、描述和正文三种文本,依照 重要性分袂 赋予不同 权重:题目 权重为10,导语权重为5,正文权重为1。

3.2 业务数据

业务数据即数据的分数乘以权重。关于数据的分数是数据具体的值。然后依照 业务类型给出相应的权重,好比系统中有评论量、分享数、阅读量三种数据,依照 重要性分袂 赋予不同 权重:评论数权重为10,分享数权重为20,阅读量权重为1。

举例:以基于Lucence的Solr系统为例,得分公式如下:

其中Nx为文天职数权重,Mx为文本数据相关性分数,Ky为数据分数权重,Ly为数据分数。

由此可以看出,对文本数据和业务数据赋予的权重直接影响最终的排序结果,如何赋值、赋予何值需要基于对业务的理解和认知,这也是一个搜索系统设计最核心的部分 。