上海大众快捷搬迁运输数据解决之搜索如何命中？(2)

作者: 时间:2020-01-12 19:55

（3）双向最大匹配法

由于正向最大匹配法和逆向最大匹配法都有其局限性，因此发生了双向最大匹配法。即根据正向和逆向分袂进行切分，然后进行对比，拔取其中一种分词结果输出。

对比原则：①如果正反向分词结果词数不同，则取分词数量少的阿谁；② 如果词数相同且结果也相同，返回任意一个，如果词数相同但结果不同，取单字数量较少的阿谁（单字越少越准确）。

上面提到的几种切分方法是从差另外角度来解决歧义问题，每种方法只能处理有限类另外歧义问题。随着词典的增大，词与词之间的交叉更加严重，歧义带来的负面影响也更加严重。同时，上面提到的切分方法对于新词的切分是完全无能为力的。

② 基于统计分词

基于统计分词有两类，第一类是统计取词法（或无词典分词法），把每个词看做是由字组成的，如果相连的字在不同文本中出现的次数越多，就证明这段相连的字很有可能便是一个词。

举例：好比词a出现的概率为P(a)，词b出现的概率为P(b)，a+b这个词组出现的概率为P(a+b)，如果P(a+b)>P(a)*P(b)，则能证明a+b不是一个随机出现的组合，要么是一个新词，要么是个词组或者短语。

但这种方法也有必定的局限性，会经常抽出一些共现频度高、但其实不是词的经常使用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，而且对经常使用词的识别精度差，本钱大。在实际应用中通常结合词典分词的方法使用，既发挥了词典分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的长处。

另一类是基于统计机器学习的方法，在给定大量已经分词的文本的前提下，利用统计机器学习、模型学习词语切分的规律（称为训练），从而实现对未知文本的切分。这种方法的缺点便是需要有大量预先分好词的语料作支撑，而且训练的本钱也很高。比较经典的是N元文法模型（N-gram）。

N元模型(N-gram)切词

基于N元模型的切词策略是：一段文本存在多种可能的切分结果（切分路径），将训练好的N-gram模型进行路径计算得到最优切分路径并返回结果。

举例：对“他说的确实在理”进行切词。

在N-gram模型的算法中，每个路径上的边都是一个N-gram的概率，于是得到如下概率路径有向图：

可能的切分路径有：他说/的确/实在/理、他说的/确实/在理、他说的/确/实在/理、他/说/的确/实在/理、他/说的/确/实在/理……

假设随机变量S为一个汉字序列，W是S上所有可能的切分路径（如上图所有从头至尾的不同路径）。对于分词，实际上便是求解使条件概率P(W∣S)最大的切分路径W*，P(W∣S)即为每条路径的衡量尺度。

至此，分词任务就转酿成了一个数学问题。

③ 基于序列标注分词

基于序列标注分词是把分词过程视为字在字串中的标注问题（例如将字标注为“首字中间字尾字”或者其他标注方式），当这些标注完成的时候切词也就自然完成了。这种策略能够平衡地看待字典词和新词（未收录到词典的词）的识别问题，大大简化了使用门槛，并得到一个相当不错的切词结果。如条件随机场(CRF)、隐马尔科夫模型(HMM)、最大熵算法、神经网络分词模型等。

隐马尔科夫模型(HMM)切词

将文字序列根据词首、词中、词尾、单字词进行标注。

举例：研究生说的确实在理

当每个字的标注都得出的时候，切词也就顺理成章得完成了。

二、筛选

将用户输入的信息进行切分后，对引库中的内容进行匹配筛选。判定用户想要的结果是否被筛选出来，一般会从精确率（Precision）、召回率（Recall）和F1（F1-Measure）值三个维度进行衡量，广州起重吊装公司，这也是搜索优化中是关键性指标，涉及到人工打分和更高级的优化。

精确率：所有搜到的内容里面，相关的内容的比例。

召回率：所有应该搜到的内容里面，真正被搜出来的比例。

举例：假设此时有7个桔子和3个苹果放在一起，我想筛选出所有的桔子，系统最终筛选出了6个，其中有4个桔子。那么精确率P=4/6，召回率R=4/7。

F1值：精确值和召回率的调和均值, 也便是：

欢迎进入上海大众快捷搬迁搬家服务有限公司网站！

关于我们 | 联系我们

上海大众快捷搬迁运输数据解决之搜索如何命中？(2)