搜索引擎知(zhī)識-中(zhōng)文分(fēn)詞技術_衡水網站制作|西安亞享光網絡科技有限公司

技術展示 NEWS

搜索引擎知(zhī)識-中(zhōng)文分(fēn)詞技術

72009-2

2009-2-7浏覽：次

中(zhōng)文分(fēn)詞是将一(yī)句話(huà)或一(yī)個短語按照日常閱讀習慣進行機械分(fēn)解。英文是以詞爲單位的，詞和詞之間是靠空格隔開(kāi)，而中(zhōng)文是以字爲單位，句子中(zhōng)所有的字連起來才能描述一(yī)個意思。例如，我(wǒ)很喜歡搜索引擎，分(fēn)詞的結果是：我(wǒ)|很喜歡|搜索引擎。把中(zhōng)文的漢字序列切分(fēn)成有意義的詞，就是中(zhōng)文分(fēn)詞，有些人也稱爲切詞。

　　中(zhōng)文每個字都可以直接作爲一(yī)個詞來使用，沒有斷詞，正因爲此它才多變。雖然多變，但是在表達上靈活。但是對于搜索引擎來說這是非常難以解決的問題。在中(zhōng)文分(fēn)詞當中(zhōng)，有三種難分(fēn)類型。

　　1、交集型歧義

　　假設“ABC”是一(yī)個由A、B、C三個漢字構成的字串，如果 “AB”、“BC”都是詞，那麽計算機在切分(fēn)時可以把“ABC”切分(fēn)爲“AB/C”，也可以切分(fēn)爲“A/BC”。這種切分(fēn)歧義稱爲交集型歧義。
　　2、組合型歧義

　　如果“AB”是詞、“ABC”也是詞，那麽産生(shēng)的切分(fēn)歧義稱爲組合型歧義。

　　3、混和型歧義

　　混和型歧義是包含交集型歧義和組合型歧義的切分(fēn)歧義。

　　目前解決這些問題主要通過字典和統計學的方法。

　　首先我(wǒ)們先說說字典分(fēn)詞法。字典一(yī)般采用前綴樹(shù)和後綴樹(shù)的數據存儲結構。什麽是前綴樹(shù)呢？其實就是我(wǒ)們把一(yī)個句子從左向右掃描一(yī)遍，遇到字典裏有的詞就标識出來，遇到複合詞就找最長的詞匹配，遇到不認識的字串就分(fēn)割成單字詞，于是簡單的分(fēn)詞就完成了。後綴樹(shù)就是從右向左掃描一(yī)遍。

　　統計學的方法，雖然字典分(fēn)詞已經解決了很多分(fēn)詞上出現的問題。但是面對很多新出的詞彙，分(fēn)詞也面臨着挑戰。統計學的分(fēn)詞方式是基于概念和信息學方面的知(zhī)識進行處理。基本原理就是尋找那些經常一(yī)同出現的字，總是相互的字很有可能構成一(yī)個詞。爲此需要分(fēn)析大(dà)量内容。即使到現在中(zhōng)文分(fēn)詞還在不斷發展，還沒有一(yī)個分(fēn)詞方法能徹底解決一(yī)切問題。

　　對中(zhōng)文分(fēn)詞有興趣的讀者，可以閱讀以下(xià)文獻：

1. 梁南(nán)元
書(shū)面漢語自動分(fēn)詞系統
http://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf
2. 郭進
統計語言模型和漢語音字轉換的一(yī)些新結果
http://www.touchwrite.com/demo/GuoJin-JCIP-1993.pdf
3. 郭進
Critical Tokenization and its Properties
static/file/J97-4004.pdf
4. 孫茂松
Chinese word segmentation without using lexicon and hand-crafted training data
http://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=980775

上一(yī)篇：如何讓你的網站被搜索引擎收錄？
下(xià)一(yī)篇：如何優化網站結構