上海大众快捷搬迁运输数据解决之搜索如何命中？(3)

作者: 时间:2020-01-12 19:55

Q：为什么会有F1值的存在呢？有精确率和召回率不够吗？

A：答案是：不够！正常情况下我们是期望精确率和召回率越高越好，但这两者在某些情况下是彼此矛盾的。仍以桔子苹果为例，如果系统只筛选出了1个桔子，那么精确率便是 100%，召回率是1/7就会很低；如果系统一次筛选出了10个，那么召回率便是 100%，精确率就只有70%。

除此之外，还有一个比较容易混淆的概念：准确率(Accuracy)，即判断正确的数目与总数目的比值，其中判断正确的数目包括筛选出的符合要求的和未筛选出的不符合要求的。

仍以桔子苹果为例，准确率A=（4+1）/10=50%，即系统正确筛选出的水果（正确识别了4个桔子+正确识别了1个苹果）与总数的比值。

准确率一般不消于搜索召回的衡量，原因是若上例中苹果数量为100万个，桔子7个时，那么不管怎么筛选，准确率都是99.99%+，显然这是不符合要求的。

三、排序

排序影响着搜索的结果质量，越往前的结果越容易获得用户的点击。好的搜索不单仅是把应该搜索的内容尽可能的搜索出来，同时还要考虑把最容易吸引用户的内容展示在前面，因此这里就涉及到两个因素：文本数据和业务数据。

3.1 文本数据

文本数据即文本的相关性分数乘以权重。关于如何计算文本的相关性，市面上已经有成熟的开源处理方案，如Lucene算法。然后依照文本类型给出相应的权重，好比系统中有题目、描述和正文三种文本，依照重要性分袂赋予不同权重：题目权重为10，导语权重为5，正文权重为1。

3.2 业务数据

业务数据即数据的分数乘以权重。关于数据的分数是数据具体的值。然后依照业务类型给出相应的权重，好比系统中有评论量、分享数、阅读量三种数据，依照重要性分袂赋予不同权重：评论数权重为10，分享数权重为20，阅读量权重为1。

举例：以基于Lucence的Solr系统为例，得分公式如下：

其中Nx为文天职数权重，Mx为文本数据相关性分数，Ky为数据分数权重，Ly为数据分数。

由此可以看出，对文本数据和业务数据赋予的权重直接影响最终的排序结果，如何赋值、赋予何值需要基于对业务的理解和认知，这也是一个搜索系统设计最核心的部分。

欢迎进入上海大众快捷搬迁搬家服务有限公司网站！