成人拍拍拍无遮挡免费视频-日本二区三区欧美亚洲-精品视频一区二区三区中文字幕-久久国产乱子伦精品免费乳及

網(wǎng)站優(yōu)化 網(wǎng)絡SEO營銷首選易點

搜索引擎是如何收錄及排序網(wǎng)頁的?
來源:EIdea瀏覽次數(shù):4628
搜索引擎優(yōu)化,我們遇到的最常見的問題之一就是要搞懂“搜索引擎是如何判定哪個結果出現(xiàn)在搜索結果的前列?”,在此,我們參考Google工程師Matt Cutts給出的技術文檔,簡單給大家揭示Google是如何抓取、收錄和給網(wǎng)頁評級的,其他引擎也都遵循此原理,因而只參考此文對號入座即可。


抓取和收錄
當你看到出現(xiàn)在搜索引擎的搜索結果的那個網(wǎng)頁之前,搜索引擎在后臺已經(jīng)做了許多步驟。搜索引擎的第一步是抓取和收錄互聯(lián)網(wǎng)上的數(shù)十億的網(wǎng)頁,這個工作是由搜索引擎的機器人bot(蜘蛛程序)來完成的,它瀏覽網(wǎng)絡服務器抓取文件。 抓取的程序并不是漫無目的地在互聯(lián)網(wǎng)上瞎逛,它訪問服務器的特定的網(wǎng)頁,然后掃描網(wǎng)頁上的超文本鏈接,如果有新的文件也是這樣抓取得;蜘蛛程序給每個得到的網(wǎng)頁一個號碼,這個號碼指向它抓取的網(wǎng)頁。


蜘蛛程序抓取了很多的網(wǎng)頁,但這些網(wǎng)頁還不是便于搜索的。如果沒有一個索引,你要查詢一個詞,比如“國內戰(zhàn)爭”,搜索引擎的服務器每次都要讀取每一個文件的所有內容。因此,第二步就是建立索引。我們不是去掃描每一個文件的所有內容,我們巧妙地進行數(shù)據(jù)的“轉換”,列出每一個文件所包含的特定的詞,例如,“國內”這個詞可能出現(xiàn)在文件3,8,22,56,68和92當中,而“戰(zhàn)爭”這個詞出現(xiàn)在文件2,8,15,22,68和77中。


建立好索引之后,我們就可以開始對網(wǎng)頁進行評級,決定網(wǎng)頁的相關程度。假設有人在搜索引擎的搜索欄輸入“國內戰(zhàn)爭”進行查詢,為了提交搜索結果和對結果進行評分,我們要做兩件事:

1. 找到包含用戶查詢的詞的網(wǎng)頁

2. 給符合的網(wǎng)頁按照相關程度進行評級

搜索引擎開發(fā)出一個有趣的技巧來加速第一步:搜索引擎不是把整個索引存儲在一臺功能強大的計算機上,而是用千百個計算機來存儲這些信息。因為任務被分解到許多的計算機,可以更快地找到所需的答案。 詳細解釋一下,假設一本書的目錄有30頁,如果一個人要在目錄中查尋資料,每次查詢都要花幾秒鐘;如果用30個人每人查詢一頁目錄,顯然要比一個人查詢的速度快很多。同樣的,搜索引擎將數(shù)據(jù)分別存儲在許多計算機上,這樣搜索的速度會大大加快。


我們是如何找到那些包含用戶搜索的詞的網(wǎng)頁呢?回到“國內戰(zhàn)爭”的例子,“國內”這個詞出現(xiàn)在文件3,8, 22, 56, 68 和92; “戰(zhàn)爭”出現(xiàn)在文件2, 8, 15, 22, 68和77,記下同時出現(xiàn)這兩個詞的文件。


國內 3 8 22 56 68 92
戰(zhàn)爭 2 8 15 22 68 77
國內 戰(zhàn)爭 8 22 68


這樣我們可以清楚地發(fā)現(xiàn)“國內”、“戰(zhàn)爭”這兩個詞同時出現(xiàn)的在三個文件里 (8, 22, 和68)。 含有這幾個字的列表叫做“位置列表”,搜索文件包含這兩個字,這叫做交叉搜索位置列表。(較快的交叉搜索的方法是同時進行搜索,如果一個搜索列表,22到68,那另一個就可以開始搜索其他的)


對結果進行評級
現(xiàn)在我們已經(jīng)有了一些包含用戶搜索的關鍵詞的網(wǎng)頁,我們要對它們的相關程度進行評級。搜索引擎用許多參數(shù)進行評級。這當中PR算法是眾所周知的。PageRank評估兩個因素:1、有多少個網(wǎng)頁鏈接到這個網(wǎng)頁,這些鏈接網(wǎng)頁的網(wǎng)站的質量如何。通過PageRank,五六個高質量的站點的鏈接,比如www.cnn.com和www.nytimes.com比其他較差的網(wǎng)站的鏈接要有價值的多。


但是除了PageRank,我們還用許多其它的參數(shù)來進行評級。例如,如果一個文件包含“國內”和“戰(zhàn)爭”這兩個詞排在一起,這個文件可能比一個討論革命戰(zhàn)爭的文件(在文件的某個地方使用“國內”)的相關程度高。還比如假設一個網(wǎng)頁的標題是“國內戰(zhàn)爭”,比另一個標題為“19世紀美國服裝”的網(wǎng)頁相關度高得多。


同樣的,如果“國內戰(zhàn)爭”在網(wǎng)頁中出現(xiàn)多次的網(wǎng)頁比只出現(xiàn)一個的網(wǎng)頁相關的程度也要高。 假設你是搜索引擎,選擇一個詞查詢,比如:國內戰(zhàn)爭或回收,在搜索引擎上查詢,從結果中挑選三到四頁打印出來。從每一張打印的頁面上找出你的搜索語句的每一個字然后用熒光筆標出來,然后把這幾頁貼在墻上,退后幾步瞇著眼看,當你不知道頁面的內容,僅僅能看到那些有顏色的方塊,你認為那一頁是最相關的呢?是不是有著大的標題和多次重復出現(xiàn)的顏色代表了較高的相關程度?你喜歡這些字出現(xiàn)在頂端還是底部?這些字出現(xiàn)的頻率如何?這也是搜索引擎如何判斷網(wǎng)頁的相關程度。



原則上,搜索引擎總是試圖找出最可靠的和最相關的網(wǎng)頁。如果兩個網(wǎng)頁按照查詢的語句大致有相同的信息,搜索引擎通常選擇比較信得過的網(wǎng)站的網(wǎng)頁。當然,如果有一些因素表明這個網(wǎng)站的網(wǎng)頁相關度更高,搜索引擎經(jīng)常也選擇PageRank較低的網(wǎng)站。


一旦搜索引擎完成了文件的列表和它們的評分,就給出得分最高的網(wǎng)頁。搜索引擎同時從網(wǎng)頁中摘錄一小段包含查詢的關鍵詞的句子;給出網(wǎng)頁的鏈接。

成功案例

創(chuàng)客教育網(wǎng)站排名一例

服務別人前得先證明自己的實力

讓SEO技術為客戶網(wǎng)站賦能