簡單說來,如果字符串只包含小于等于3個中文字符的話,那就保留不動,當字符串長度大于4個中文字符的時候,百度的分詞程序才把這個字符串肢解掉。 怎么證明呢?我們向百度提交“百度搜索排名優化”,看看返回結果中標為紅字的地方,不難看出來,查詢已經被切割成兩個單詞了,說明分詞程序已經開工了,如果是比4個中文字符更長的字符串,那分詞程序就更不客氣了,一定大卸八塊而后快。
下面我們看看百度是采取的何種分詞算法,現在分詞算法已經算是比較成熟了,有簡單的有復雜的,比如正向最大匹配,反向最大匹配,雙向最大匹配,語言模型方法,最短路徑算法等等,有興趣的可以用GOOGLE去搜索一下以增加理解。這里就不展開說了。但是要記住一點的是:判斷一個分詞系統好不好,關鍵看兩點,一個是消除歧義能力;一個是詞典未登錄詞的識別比如人名,地名,機構名等。 |