|
网站(zhàn)SEO优化(huà)之Google分词法 |
|
Google分词算法值得(dé)我们好(hǎo)好(hǎo)研(yán)究一下。Google的搜索结果页(SERP)与搜索关键字的(de)相关(guān)性,明显(xiǎn)大于百度,这是(shì)因为Google把(bǎ)搜索关键(jiàn)字都拆分成最基本(běn)的词组和单字后,在根(gēn)据相关性去匹配数据库的中内容,而(ér)且(qiě)Google拆分(fèn)后的(de)最基本词组,完全是根据词典里的词组匹配的,也是说它符合国家(jiā)语言文(wén)字工(gōng)作委员会的规范和标准的,这只(zhī)限于普(pǔ)通词组(zǔ)(公众人名、著名品牌(pái)名)。
实例1:测试Google是否有专业名词库
在Google搜索“搜索引擎关键字”,Google会把这(zhè)个关键字短语拆分为“搜索—引擎—关键—字”,这是因为“搜索引擎”和“关键字”都是网络专业词组,可能Google没有专业词组(zǔ)库,所以就被(bèi)拆分成了“搜(sōu)索(suǒ)—引擎—关键—字(zì)”。
实例2:测试Google拆分长关(guān)键(jiàn)字
在Google搜索“他(tā)舅WAP流量统计(jì)分(fèn)析”,Google把这个关(guān)键字短(duǎn)语拆分为“他(tā)—舅—wap—流量—统计—分(fèn)析”六(liù)部分(fèn),“WAP”是一个(gè)英文词组,包(bāo)括Google和其他搜索(suǒ)引擎一般是不拆(chāi)分英文词(cí)组的(就算它不是(shì)英(yīng)文单(dān)词),“流量”、“统计”、“分析”都是符合(hé)国(guó)家语言规范的(de)标准词组(zǔ),“他舅”只是中国老百姓一个口(kǒu)头称谓用语,不符合国家语言规(guī)范,在词典中根本就查不到这,所以Google就(jiù)把(bǎ)“他舅”拆分成(chéng)了(le)两个单字。
实(shí)例3:测试品牌(pái)名是否被Google收录为词组
在Google搜索“海尔冰箱”、“惠(huì)普(pǔ)电脑”、“华为通讯”、“美的(de)电(diàn)器”,“五粮液酒”,“夏利汽车”、“北京(jīng)同(tóng)仁堂”这七个(gè)都是著(zhe)名的品牌(pái),结果(guǒ)是“海尔”、“惠(huì)普”、“华(huá)为”、“五粮(liáng)液”、“同(tóng)仁堂”都是单独的词组,没有被拆分为单(dān)字,“夏利”、“美的”这(zhè)两个品牌却被(bèi)拆分成(chéng)了(le)单字。不是所有品(pǐn)牌都(dōu)能被Google作(zuò)为一个词组收录进品牌词(cí)库,Google有自己的收录标准的。
实例4:测试(shì)Google是否(fǒu)会拆(chāi)分成语(yǔ)
下面我(wǒ)们搜索一下韩乔生的经典名(míng)句(jù)“迅雷不(bú)及掩耳之势”和“山清(qīng)水秀丽”,结果“迅雷不及掩耳之势(shì)”这个(gè)短句被拆分成了“迅雷(léi)—不及(jí)—掩耳盗铃(líng)—之—势”,“迅雷”是一(yī)个(gè)符合(hé)汉语言规(guī)范的标准词组,不是指下载(zǎi)工(gōng)具那个“迅雷”,“不及”也(yě)是一个词组,“掩耳盗铃”也(yě)是符合国(guó)家语言规范的(de)成语,“之势”不是(shì)标准词组,所(suǒ)以就被拆(chāi)分(fèn)为两个单字。“山清(qīng)水秀丽”被拆分为了“山清水秀—丽”,“山清水秀”是一个成语没有拆(chāi)分(fèn)。Google把成语作(zuò)为几个基本(běn)词组,不会(huì)进一步拆分(fèn)。
实(shí)例5:测试普通之间是否有权重高低之分(fèn)
搜索“山河(hé)水灾”这个(gè)关键字(zì)短语,结果Google拆分为(wéi)“山河”和(hé)“水灾”两个词组;然后搜(sōu)素“山河水灾情(qíng)”这个(gè)关(guān)键字短语(yǔ),结果Google拆分为“山河”、“水”、“灾情”三部分,“水(shuǐ)”字没有和“灾”组成词组,反而“灾(zāi)”和“情”组成了(le)词组,这说(shuō)“灾情”这个词的权重高于“水灾”的权重。这说明词(cí)组之间也是有权重之分的。
根据实例测试推断:Google会(huì)把搜索的关键字(短(duǎn)语)拆分为最基(jī)本的词组(zǔ),这些(xiē)普通词组都是符合(hé)汉语言规范的(de)标准词组,不像(xiàng)百度那样收录“人造名词”。Google的(de)词组大致可分为普通名词(cí)、地名(míng)、人名(míng)等几类,关键字(短语(yǔ))都是从左(zuǒ)向右(yòu),按权重高低拆分。这些词组权重(chóng)从低到高依次如下:人名(míng)<普通(tōng)词组(zǔ)<地名<成语<领导人名字。进一步测试品(pǐn)牌名和(hé)人(rén)名的权重(chóng)是一样,都是(shì)最(zuì)低的(de),这只是(shì)一个(gè)大致顺序,因为(wéi)同一类词组(zǔ)还会根据日常使用的频(pín)率(lǜ)进一步的分(fèn)级,每一级的分配不同(tóng)的权(quán)重,所以(yǐ)同一(yī)类(lèi)词(cí)组之间也有(yǒu)权(quán)重高低之分。
|
|