• <nav id="waukw"></nav>
  • 13996527831
    詳細

    SEM一家之言:HTTrack 在SEO上的應用

    發表日期:2016-06-13 07:43:50   作者來源:米卓網絡   瀏覽:    

      HTTrack是一個網站鏡像工具,本來是用來抓取網站做離線瀏覽用的。但是我發現它的爬蟲特性和搜索引擎爬蟲非常的像,逐漸應用到了自己的SEO工作中。其實這兩種看似不同的爬蟲做的都是同樣的工作,就是復制網站并存儲下來(搜索引擎的網頁快照就是被存儲下來的內容)。以下是這個軟件的界面:

      HTTrack界面

      軟件的官方網站是:http://www.httrack.com/ 軟件安裝后可以換成中文界面。

      一般用它來檢測網站的壞鏈接和測試搜索引擎對這個網站可能面臨的抓取問題。另外用它也可以探知一些SEO做法的由來。

      軟件的使用方法非常簡單,在“Web地址”里填上URL就可以了。然后點“選項”,

      先看“掃描規則”

      掃描規則

      這樣的掃描規則搜索引擎也一定會有的,比如不收錄.exe文件,zip文件等等。然后不收錄一些特定的跟蹤鏈接, 如 ad.doubleclick.net 。你需要把一些搜索引擎爬蟲不收錄的特征加進去。

      然后在“搜尋”里面,很多的特征都是現在搜索引擎爬蟲的特征:

      搜尋

      搜索引擎不會接受cookie,所以取消“接收cookie”。

      至于“解析java文件”,google 爬蟲也會去解析java文件的。這是一個像HTTrack這樣的通用爬蟲都可以做到的事情??赡芎芏嗳诉€不知道,google會去試圖解析javascript代碼。如果你的頁面上放很多javascript代碼,就會使爬蟲的停留時間增加,進而影響爬蟲效率。這也可以算是為什么要把javascript代碼外調的另一個原因。

      還有,有些javascript代碼里面的URL,google爬蟲是可以收錄的,原因不明。這樣做可能是因為有些內容很好的網站,很多鏈接就是喜歡用javascript來做的緣故吧。但是不代表你的鏈接可以用javascript來做。

      HTTrack也同樣能識別并遵守robots.txt文件。

      至于url hacks ,就是讓那種帶 www和不帶www的網址,如www.***.com和 ***.com。以及有斜杠和無斜杠的網址,如http://www.***.com 和 www.***.com 能統一。

      這種網站上URL不統一的狀況爬蟲程序其實能很簡單的處理好。至于google為什么要網站所有者在webmaster tool 后臺指定一下“首選域”,是因為有些網站 www.***.com 和***.com 指向不同的內容。所以google不能那么武斷的就認為www.***.com 和***.com是同一個網站。

      至于“流量控制”和“限制”,

      流量控制

      限制

      里面可以設置“連接數”和“深度”什么的。我相信google也有這些設置,不然,google的《網站質量指南》里不會這么寫“如果站點地圖上的鏈接超過 100 個,則需要將站點地圖拆分為多個網頁。”

      至于深度,有報告說,google抓取的最大深度是12。超時時間可以設為10秒。

      還有其他“瀏覽器標識”和“預存區”也和搜索引擎爬蟲一樣的。

      

      其他設置

      下面用它來抓取一個網站,看看會有什么樣的情況。

      首先爬蟲會去網站根目錄下訪問 robots.txt文件,如果碰到該網站的二級域名,還會去二級域名下訪問robots.txt文件。這個和搜索引擎是一樣的。

      在抓取的時候,是多線程的,你可以實時的看到哪些URL正在被抓取以及速度怎么樣。

      很多人用它抓取完一個網站后會驚訝的發現有很多沒什么SEO價值的頁面在被抓取。而這些“垃圾鏈接”竟然還是最先被抓取到的??上н@個爬蟲不支持nofollow屬性,不然更加能模擬google爬蟲。你還會用它發現很多死鏈接和超時的頁面。

      要是經常使用,你還會發現這個軟件的一個規律,就是在抓取那些動態URL的時候,經常會產生重復抓取的現象,抓取URL類似www.***.com/index.asp?=12345 這樣頁面會陷入到死循環當中。這個和早期的google爬蟲又是一樣的。由此判斷,這應該是爬蟲天生的一個弱點,可能它沒辦法實時的比較多個頁面的內容,如果加上網頁程序在處理URL ID的上遇到什么問題,就會重復抓取。也由此得出為什么要有URL靜態化了。 URL的靜態化與其叫靜態化不如叫唯一化,其實只要給網頁內容一個唯一的、結構不容易陷入死循環的URL即可,這就是靜態化的本質。

      google最新的聲明不要靜態化,是不希望爬蟲從一種重復抓取陷入到另一種重復抓取才這樣說的。其實google舉例的那幾種不好的靜態化一般是不會發生的。只要你明白那些URL中的參數代表什么,還有不要把很多個參數直接rewrite到靜態化的URL里即可。

      用這個軟件,能讓你直觀的感受一個爬蟲是怎么工作的。對于讓一個新手正確認識爬蟲有幫助。

      這個軟件的功能也差不多就這么多,要逼真的模擬搜索引擎爬蟲,就要用《google網站質量指南》里提到的Lynx。但是Lynx是一個頁面一個頁面檢查的。以后會寫一篇應用Lynx的文章。

      更好的模擬google爬蟲就要用GSA了。不應該說是模擬,而應該說它就是google爬蟲。

      用HTTrack、Lynx和GSA,再配合服務器LOG日志里面的爬蟲分析,會讓你對爬蟲的了解到達一個更高的水平。分析爬蟲會讓你得益很多的。很多都以后再講。

    玩弄铁扇公主娇喘呻吟
  • <nav id="waukw"></nav>