介紹蜘蛛爬行的三步走
發(fā)布者: 華企立方 發(fā)布時(shí)間:2014-6-28
網(wǎng)站進(jìn)行SEO優(yōu)化都是希望被搜索引擎所收錄.就是希望網(wǎng)絡(luò)蜘蛛能爬到自己的網(wǎng)站里收錄信息,吸引蜘蛛爬行自己的網(wǎng)站,對(duì)此,
佛山網(wǎng)站建設(shè)認(rèn)為一定要懂得蜘蛛爬行的規(guī)律。
第一步:搜索引擎蜘蛛把頁(yè)面url抓取,獲取頁(yè)面的url存放在數(shù)據(jù)庫(kù)。
第二步:程序?qū)?shù)據(jù)庫(kù)中抓取來的內(nèi)容進(jìn)行內(nèi)容提取,分詞建立索引。
第三步:排名程序?qū)?shù)據(jù)庫(kù)中索引調(diào)用,計(jì)算內(nèi)容頁(yè)面的相關(guān)性和權(quán)重值,然后按照一定的格式排列在用戶搜索頁(yè)。
詳細(xì)的介紹這三個(gè)步驟:
1、搜索引擎又叫做蜘蛛、機(jī)器人,當(dāng)蜘蛛發(fā)現(xiàn)一個(gè)頁(yè)面時(shí),服務(wù)員會(huì)返回頁(yè)面的html代碼。當(dāng)搜索引擎爬取一個(gè)頁(yè)面時(shí)一般都是首先訪問網(wǎng)站的robots.txt協(xié)議,在明確網(wǎng)站管理設(shè)置的禁止抓取協(xié)議以后,才對(duì)頁(yè)面進(jìn)行抓取索引數(shù)據(jù)庫(kù)。
2、搜索引擎蜘蛛抓取的時(shí)間是:定期抓?。ǜ鶕?jù)每個(gè)搜索引擎蜘蛛的更新時(shí)間不一樣而異)、增量抓?。ㄔ谠械捻?yè)面上抓取更多的頁(yè)面)、分類抓?。ǜ鶕?jù)類目不同而抓取的時(shí)間不一樣,例如新聞?lì)惖膬?nèi)容可以幾個(gè)分鐘抓取一次。)
3、蜘蛛程序?qū)ψト〈鎯?chǔ)在數(shù)據(jù)庫(kù)內(nèi)容的內(nèi)容提取以及分詞建立索引:為了避免重復(fù)抓取搜索引擎蜘蛛會(huì)建立一個(gè)數(shù)據(jù)庫(kù),在每次抓取頁(yè)面的時(shí)候分別詳細(xì)的記錄頁(yè)面的url,文件大小以及創(chuàng)建日期等。
搜索引擎把抓取來的頁(yè)面都存放在數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)中的url來源大致有3種途徑:搜索引擎蜘蛛爬取頁(yè)面從html解析出來的url,如果沒有訪問過的url就把他放在待訪問數(shù)據(jù)庫(kù),接著回按照重要性抓取更新的資源頁(yè)面,如果檢測(cè)到已經(jīng)抓取收錄的就會(huì)把他刪了。人工手動(dòng)寫入的url,還有就是站長(zhǎng)通過表格提交的url,每一個(gè)url都有一個(gè)特定的編號(hào)。然后對(duì)每個(gè)url對(duì)應(yīng)的頁(yè)面進(jìn)行內(nèi)容提取,切詞分詞相關(guān)性建立索引,當(dāng)用戶搜索這個(gè)詞的時(shí)候,程序會(huì)根據(jù)頁(yè)面的相關(guān)性,頁(yè)面的權(quán)重進(jìn)行合理的排序。
文章來源:http://wineco.com.cn
此文關(guān)鍵字: