欢迎进入上海大众快捷搬迁搬家服务有限公司网站!

关于我们 | 联系我们

上海大众快捷搬迁运输数据解决之搜索如何命中?(2)

作者: 时间:2020-01-12 19:55

(3)双向最大匹配法

由于正向最大匹配法和逆向最大匹配法都有其局限性,因此发生 了双向最大匹配法。即根据正向和逆向分袂 进行切分,然后进行对比,拔取其中一种分词结果输出。

对比原则:①如果正反向分词结果词数不同 ,则取分词数量少的阿谁;② 如果词数相同且结果也相同,返回任意一个,如果词数相同但结果不同 ,取单字数量较少的阿谁(单字越少越准确)。

上面提到的几种切分方法是从差另外 角度来解决歧义问题,每种方法只能处理有限类另外歧义问题。随着词典的增大,词与词之间的交叉更加严重,歧义带来的负面影响也更加严重。同时,上面提到的切分方法对于新词的切分是完全无能为力的。

② 基于统计分词

基于统计分词有两类,第一类是统计取词法(或无词典分词法),把每个词看做是由字组成的,如果相连的字在不同 文本中出现的次数越多,就证明这段相连的字很有可能便是 一个词。

举例:好比词a出现的概率为P(a),词b出现的概率为P(b),a+b这个词组出现的概率为P(a+b),如果P(a+b)>P(a)*P(b),则能证明a+b不是一个随机出现的组合,要么是一个新词,要么是个词组或者短语。

但这种方法也有必定 的局限性,会经常抽出一些共现频度高、但其实不 是词的经常使用 字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,而且对经常使用 词的识别精度差,本钱 大。在实际应用中通常结合词典分词的方法使用,既发挥了词典分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的长处 。

另一类是基于统计机器学习的方法,在给定大量已经分词的文本的前提下,利用统计机器学习、模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。这种方法的缺点便是 需要有大量预先分好词的语料作支撑,而且 训练的本钱 也很高。比较 经典的是N元文法模型(N-gram)。

N元模型(N-gram)切词

基于N元模型的切词策略是:一段文本存在多种可能的切分结果(切分路径),将训练好的N-gram模型进行路径计算得到最优切分路径并返回结果。

举例:对“他说的确实在理”进行切词。

在N-gram模型的算法中,每个路径上的边都是一个N-gram的概率,于是得到如下概率路径有向图:

可能的切分路径有:他说/的确/实在/理 、他说的/确实/在理、 他说的/确/实在/理、 他/说/的确/实在/理、 他/说的/确/实在/理……

假设随机变量S为一个汉字序列,W是S上所有可能的切分路径(如上图所有从头至尾的不同 路径)。对于分词,实际上便是 求解使条件概率P(W∣S)最大的切分路径W*,P(W∣S)即为每条路径的衡量尺度。

至此,分词任务就转酿成了一个数学问题。

③ 基于序列标注分词

基于序列标注分词是把分词过程视为字在字串中的标注问题(例如将字标注为“首字中间字尾字”或者其他标注方式),当这些标注完成的时候切词也就自然完成了。这种策略能够平衡地看待字典词和新词(未收录到词典的词)的识别问题,大大简化了使用门槛,并得到一个相当不错的切词结果。如条件随机场(CRF)、隐马尔科夫模型(HMM)、最大熵算法、神经网络分词模型等。

隐马尔科夫模型(HMM)切词

将文字序列根据词首、词中、词尾、单字词进行标注。

举例:研究生说的确实在理

当每个字的标注都得出的时候,切词也就顺理成章得完成了。

二、筛选

将用户输入的信息进行切分后,对引库中的内容进行匹配筛选。判定用户想要的结果是否被筛选出来,一般会从精确率(Precision)、召回率(Recall)和F1(F1-Measure)值三个维度进行衡量, 广州起重吊装公司,这也是搜索优化中是关键性指标,涉及到人工打分和更高级的优化。

精确率:所有搜到的内容里面,相关的内容的比例。

召回率:所有应该搜到的内容里面,真正被搜出来的比例。

举例:假设此时有7个桔子和3个苹果放在一起,我想筛选出所有的桔子,系统最终筛选出了6个,其中有4个桔子。那么精确率P=4/6,召回率R=4/7。

F1值:精确值和召回率的调和均值, 也便是 :