優(yōu)勢:快速匹配,過程簡單:難以區(qū)分歧義詞,匹配不正確的正最大匹配:從左到右匹配關(guān)鍵字逆最大匹配:從右到左匹配關(guān)鍵字的最短方法分詞:最小數(shù)量搜索引擎在文本中提取的單詞。第二種類型:分詞是基于人工識別的詞義和記賬特征,并根據(jù)觀察到的數(shù)據(jù)(標(biāo)記為好語料)對漢語進(jìn)行建模。進(jìn)行估算,即鉆取。在分詞階段,通過該模型計算出各個分詞出現(xiàn)的概率,將分詞效果最高的概率作為后效。常見的序列識別模型具有HMM和CRF
好處:可以很好地處理歧義和未注冊的單詞。效果比根據(jù)字符串匹配更好。缺點:需要許多手動數(shù)據(jù)。單詞分割出現(xiàn)的速度越慢,出現(xiàn)的可能性就越大。一個字。因此,單詞和單詞彼此相鄰的頻率或概率可以更好地反映在單詞的可信度中。
可以計算在句子中同時出現(xiàn)的相鄰單詞的組合的頻率,并計算它們的相互信息。定義兩個單詞的互信息,并計算兩個漢字XY的相鄰共現(xiàn)概率。相互信息反映了漢字之間聯(lián)系的緊密性。詞義分詞分詞:由機(jī)器語音確定的分詞方法,主要用于處理歧義。
新聞由鍵坤信息原創(chuàng)發(fā)布,轉(zhuǎn)載轉(zhuǎn)發(fā)或復(fù)制請保留版權(quán)信息
更多關(guān)于云服務(wù)器,域名注冊,虛擬主機(jī)的問題,請訪問西部數(shù)碼官網(wǎng):m.ps-sw.cn