亚洲人午夜射精精品日韩,无码h片在线观看加载快递

1.網(wǎng)絡(luò)爬蟲何時有用

假設(shè)我有一個鞋店，并且想要及時了解競爭對手的價格。我可以每天訪問他們的網(wǎng)站，與我店鋪中鞋子的價格進行對比。但是，如果我店鋪中的鞋類品種繁多，或是希望能夠更加頻繁地查看價格變化的話，就需要花費大量的時間，甚至難以實現(xiàn)。再舉一個例子，我看中了一雙鞋，想等它促銷時再購買。我可能需要每天訪問這家鞋店的網(wǎng)站來查看這雙鞋是否降價，也許需要等待幾個月的時間，我才能如愿盼到這雙鞋促銷。上述這兩個重復(fù)性的手工流程，都可以利用網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn)自動化處理。

理想狀態(tài)下，網(wǎng)絡(luò)爬蟲并不是必須品，每個網(wǎng)站都應(yīng)該提供API，以結(jié)構(gòu)化的格式共享它們的數(shù)據(jù)。然而現(xiàn)實情況中，雖然一些網(wǎng)站已經(jīng)提供了這種API，但是它們通常會限制可以抓取的數(shù)據(jù)，以及訪問這些數(shù)據(jù)的頻率。另外，對于網(wǎng)站的開發(fā)者而言，維護前端界面比維護后端API接口優(yōu)先級更高?？傊?，我們不能僅僅依賴于API去訪問我們所需的在線數(shù)據(jù)，而是應(yīng)該學(xué)習(xí)一些網(wǎng)絡(luò)爬蟲技術(shù)的相關(guān)知識。

2. 網(wǎng)絡(luò)爬蟲是否合法

網(wǎng)絡(luò)爬蟲目前還處于早期的蠻荒階段，“允許哪些行為”這種基本秩序還處于建設(shè)之中。從目前的實踐來看，如果抓取數(shù)據(jù)的行為用于個人使用，則不存在問題；而如果數(shù)據(jù)用于轉(zhuǎn)載，那么抓取的數(shù)據(jù)類型就非常關(guān)鍵了。

世界各地法院的一些案件可以幫助我們確定哪些網(wǎng)絡(luò)爬蟲行為是允許的。在Feist Publications, Inc.起訴Rural Telephone Service Co.的案件中，美國聯(lián)邦最高法院裁定抓取并轉(zhuǎn)載真實數(shù)據(jù)（比如，電話清單）是允許的。而在澳大利亞，Telstra Corporation Limited起訴Phone Directories Company Pty Ltd這一類似案件中，則裁定只有擁有明確作者的數(shù)據(jù)，才可以獲得版權(quán)。此外，在歐盟的ofir.dk起訴home.dk一案中，最終裁定定期抓取和深度鏈接是允許的。

這些案件告訴我們，當抓取的數(shù)據(jù)是現(xiàn)實生活中的真實數(shù)據(jù)（比如，營業(yè)地址、電話清單）時，是允許轉(zhuǎn)載的。但是，如果是原創(chuàng)數(shù)據(jù)（比如，意見和評論），通常就會受到版權(quán)限制，而不能轉(zhuǎn)載。

無論如何，當你抓取某個網(wǎng)站的數(shù)據(jù)時，請記住自己是該網(wǎng)站的訪客，應(yīng)當約束自己的抓取行為，否則他們可能會封禁你的IP，甚至采取更進一步的法律行動。這就要求下載請求的速度需要限定在一個合理值之內(nèi)，并且還需要設(shè)定一個專屬的用戶代理來標識自己。在下面的小節(jié)中我們將會對這些實踐進行具體介紹。

關(guān)于上述幾個法律案件的更多信息可以參考下述地址：

http://caselaw.lp.findlaw.com/scripts/getcase. pl?court=US&vol=499&invol=340
http://www.austlii.edu.au/au/cases/cth/FCA/2010/44.html
http://www.bvhd.dk/uploads/tx_mocarticles/S_og_Handelsrettens_afg_relse_i_Ofir-sagen.pdf

3. 背景調(diào)研

在深入討論爬取一個網(wǎng)站之前，我們首先需要對目標站點的規(guī)模和結(jié)構(gòu)進行一定程度的了解。網(wǎng)站自身的robots.txt和Sitemap文件都可以為我們提供一定的幫助，此外還有一些能提供更詳細信息的外部工具，比如Google搜索和WHOIS。

3.1 檢查robots.txt

大多數(shù)網(wǎng)站都會定義robots.txt文件，這樣可以讓爬蟲了解爬取該網(wǎng)站時存在哪些限制。這些限制雖然僅僅作為建議給出，但是良好的網(wǎng)絡(luò)公民都應(yīng)當遵守這些限制。在爬取之前，檢查robots.txt文件這一寶貴資源可以最小化爬蟲被封禁的可能，而且還能發(fā)現(xiàn)和網(wǎng)站結(jié)構(gòu)相關(guān)的線索。關(guān)于robots.txt協(xié)議的更多信息可以參見http://www.robotstxt.org。下面的代碼是我們的示例文件robots.txt中的內(nèi)容，可以訪問http://example.webscraping.com/robots.txt獲取。

# section 1 User-agent: BadCrawler Disallow: / # section 2 User-agent: * Crawl-delay: 5 Disallow: /trap # section 3 Sitemap: http://example.webscraping.com/sitemap.xml

在section 1中，robots.txt文件禁止用戶代理為BadCrawler的爬蟲爬取該網(wǎng)站，不過這種寫法可能無法起到應(yīng)有的作用，因為惡意爬蟲根本不會遵從robots.txt的要求。本章后面的一個例子將會展示如何讓爬蟲自動遵守robots.txt的要求。

section 2規(guī)定，無論使用哪種用戶代理，都應(yīng)該在兩次下載請求之間給出5秒的抓取延遲，我們需要遵從該建議以避免服務(wù)器過載。這里還有一個/trap鏈接，用于封禁那些爬取了不允許鏈接的惡意爬蟲。如果你訪問了這個鏈接，服務(wù)器就會封禁你的IP一分鐘！一個真實的網(wǎng)站可能會對你的IP封禁更長時間，甚至是永久封禁。不過如果這樣設(shè)置的話，我們就無法繼續(xù)這個例子了。

section 3定義了一個Sitemap文件，我們將在下一節(jié)中了解如何檢查該文件。

3.2 檢查網(wǎng)站地圖

網(wǎng)站提供的Sitemap文件（即網(wǎng)站地圖）可以幫助爬蟲定位網(wǎng)站最新的內(nèi)容，而無須爬取每一個網(wǎng)頁。如果想要了解更多信息，可以從http://www.sitemaps.org/protocol.html獲取網(wǎng)站地圖標準的定義。下面是在robots.txt文件中發(fā)現(xiàn)的Sitemap文件的內(nèi)容。

<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url><loc>http://example.webscraping.com/view/Afghanistan-1 </loc></url> <url><loc>http://example.webscraping.com/view/Aland-Islands-2 </loc></url> <url><loc>http://example.webscraping.com/view/Albania-3</loc> </url> ... </urlset>

網(wǎng)站地圖提供了所有網(wǎng)頁的鏈接，我們會在后面的小節(jié)中使用這些信息，用于創(chuàng)建我們的第一個爬蟲。雖然Sitemap文件提供了一種爬取網(wǎng)站的有效方式，但是我們?nèi)孕鑼ζ渲斏魈幚恚驗樵撐募?jīng)常存在缺失、過期或不完整的問題。

3.3 估算網(wǎng)站大小

目標網(wǎng)站的大小會影響我們?nèi)绾芜M行爬取。如果是像我們的示例站點這樣只有幾百個URL的網(wǎng)站，效率并沒有那么重要；但如果是擁有數(shù)百萬個網(wǎng)頁的站點，使用串行下載可能需要持續(xù)數(shù)月才能完成，這時就需要使用第4章中介紹的分布式下載來解決了。

估算網(wǎng)站大小的一個簡便方法是檢查Google爬蟲的結(jié)果，因為Google很可能已經(jīng)爬取過我們感興趣的網(wǎng)站。我們可以通過Google搜索的site關(guān)鍵詞過濾域名結(jié)果，從而獲取該信息。我們可以從http://www.google.com/advanced_search了解到該接口及其他高級搜索參數(shù)的用法。

圖1所示為使用site關(guān)鍵詞對我們的示例網(wǎng)站進行搜索的結(jié)果，即在Google中搜索site:example.webscraping.com。

從圖1中可以看出，此時Google估算該網(wǎng)站擁有202個網(wǎng)頁，這和實際情況差不多。不過對于更大型的網(wǎng)站，我們會發(fā)現(xiàn)Google的估算并不十分準確。

在域名后面添加URL路徑，可以對結(jié)果進行過濾，僅顯示網(wǎng)站的某些部分。圖2所示為搜索site:example.webscraping.com/view的結(jié)果。該搜索條件會限制Google只搜索國家頁面。

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

圖1

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

圖2

這種附加的過濾條件非常有用，因為在理想情況下，你只希望爬取網(wǎng)站中包含有用數(shù)據(jù)的部分，而不是爬取網(wǎng)站的每個頁面。

3.4 識別網(wǎng)站所用技術(shù)

構(gòu)建網(wǎng)站所使用的技術(shù)類型也會對我們?nèi)绾闻廊‘a(chǎn)生影響。有一個十分有用的工具可以檢查網(wǎng)站構(gòu)建的技術(shù)類型——builtwith模塊。該模塊的安裝方法如下。

pip install builtwith

該模塊將URL作為參數(shù)，下載該URL并對其進行分析，然后返回該網(wǎng)站使用的技術(shù)。下面是使用該模塊的一個例子。

>>> import builtwith >>> builtwith.parse('http://example.webscraping.com') {u'javascript-frameworks': [u'jQuery', u'Modernizr', u'jQuery UI'], u'programming-languages': [u'Python'], u'web-frameworks': [u'Web2py', u'Twitter Bootstrap'], u'web-servers': [u'Nginx']}

從上面的返回結(jié)果中可以看出，示例網(wǎng)站使用了Python的Web2py框架，另外還使用了一些通用的JavaScript庫，因此該網(wǎng)站的內(nèi)容很有可能是嵌入在HTML中的，相對而言比較容易抓取。而如果改用AngularJS構(gòu)建該網(wǎng)站，此時的網(wǎng)站內(nèi)容就很可能是動態(tài)加載的。另外，如果網(wǎng)站使用了ASP.NET，那么在爬取網(wǎng)頁時，就必須要用到會話管理和表單提交了。

3.5 尋找網(wǎng)站所有者

對于一些網(wǎng)站，我們可能會關(guān)心其所有者是誰。比如，我們已知網(wǎng)站的所有者會封禁網(wǎng)絡(luò)爬蟲，那么我們最好把下載速度控制得更加保守一些。為了找到網(wǎng)站的所有者，我們可以使用WHOIS協(xié)議查詢域名的注冊者是誰。Python中有一個針對該協(xié)議的封裝庫，其文檔地址為https://pypi.python.org/pypi/python-whois，我們可以通過pip進行安裝。

pip install python-whois

下面是使用該模塊對appspot.com這個域名進行WHOIS查詢時的返回結(jié)果。

>>> import whois >>> print whois.whois('appspot.com') { ... "name_servers": [ "NS1.GOOGLE.COM", "NS2.GOOGLE.COM", "NS3.GOOGLE.COM", "NS4.GOOGLE.COM", "ns4.google.com", "ns2.google.com", "ns1.google.com", "ns3.google.com" ], "org": "Google Inc.", "emails": [ "abusecomplaints@markmonitor.com", "dns-admin@google.com" ] }

從結(jié)果中可以看出該域名歸屬于Google，實際上也確實如此。該域名是用于Google App Engine服務(wù)的。當我們爬取該域名時就需要十分小心，因為Google經(jīng)常會阻斷網(wǎng)絡(luò)爬蟲，盡管實際上其自身就是一個網(wǎng)絡(luò)爬蟲業(yè)務(wù)。

4. 編寫第一個網(wǎng)絡(luò)爬蟲

為了抓取網(wǎng)站，我們首先需要下載包含有感興趣數(shù)據(jù)的網(wǎng)頁，該過程一般被稱為爬?。╟rawling）。爬取一個網(wǎng)站有很多種方法，而選用哪種方法更加合適，則取決于目標網(wǎng)站的結(jié)構(gòu)。我們首先會探討如何安全地下載網(wǎng)頁，然后會介紹如下3種爬取網(wǎng)站的常見方法：

爬取網(wǎng)站地圖；
遍歷每個網(wǎng)頁的數(shù)據(jù)庫ID；
跟蹤網(wǎng)頁鏈接。

4.1 下載網(wǎng)頁

要想爬取網(wǎng)頁，我們首先需要將其下載下來。下面的示例腳本使用Python的urllib2模塊下載URL。

import urllib2 def download(url): return urllib2.urlopen(url).read()

當傳入URL參數(shù)時，該函數(shù)將會下載網(wǎng)頁并返回其HTML。不過，這個代碼片段存在一個問題，即當下載網(wǎng)頁時，我們可能會遇到一些無法控制的錯誤，比如請求的頁面可能不存在。此時，urllib2會拋出異常，然后退出腳本。安全起見，下面再給出一個更健壯的版本，可以捕獲這些異常。

import urllib2 def download(url): print 'Downloading:', url try: html = urllib2.urlopen(url).read() except urllib2.URLError as e: print 'Download error:', e.reason html = None return html

現(xiàn)在，當出現(xiàn)下載錯誤時，該函數(shù)能夠捕獲到異常，然后返回None。

1．重試下載

下載時遇到的錯誤經(jīng)常是臨時性的，比如服務(wù)器過載時返回的503 Service Unavailable錯誤。對于此類錯誤，我們可以嘗試重新下載，因為這個服務(wù)器問題現(xiàn)在可能已解決。不過，我們不需要對所有錯誤都嘗試重新下載。如果服務(wù)器返回的是404 Not Found這種錯誤，則說明該網(wǎng)頁目前并不存在，再次嘗試同樣的請求一般也不會出現(xiàn)不同的結(jié)果。

互聯(lián)網(wǎng)工程任務(wù)組（Internet Engineering Task Force）定義了HTTP錯誤的完整列表，詳情可參考https://tools.ietf.org/html/rfc7231#section-6。從該文檔中，我們可以了解到4xx錯誤發(fā)生在請求存在問題時，而5xx錯誤則發(fā)生在服務(wù)端存在問題時。所以，我們只需要確保download函數(shù)在發(fā)生5xx錯誤時重試下載即可。下面是支持重試下載功能的新版本代碼。

def download(url, num_retries=2): print 'Downloading:', url try: html = urllib2.urlopen(url).read() except urllib2.URLError as e: print 'Download error:', e.reason html = None if num_retries > 0: if hasattr(e, 'code') and 500 <= e.code < 600: # recursively retry 5xx HTTP errors return download(url, num_retries-1) return html

現(xiàn)在，當download函數(shù)遇到5xx錯誤碼時，將會遞歸調(diào)用函數(shù)自身進行重試。此外，該函數(shù)還增加了一個參數(shù)，用于設(shè)定重試下載的次數(shù)，其默認值為兩次。我們在這里限制網(wǎng)頁下載的嘗試次數(shù)，是因為服務(wù)器錯誤可能暫時還沒有解決。想要測試該函數(shù)，可以嘗試下載http://httpstat.us/500，該網(wǎng)址會始終返回500錯誤碼。

>>> download('http://httpstat.us/500')Downloading: http://httpstat.us/500Download error: Internal Server ErrorDownloading: http://httpstat.us/500Download error: Internal Server ErrorDownloading: http://httpstat.us/500Download error: Internal Server Error

從上面的返回結(jié)果可以看出，download函數(shù)的行為和預(yù)期一致，先嘗試下載網(wǎng)頁，在接收到500錯誤后，又進行了兩次重試才放棄。

2．設(shè)置用戶代理

默認情況下，urllib2使用Python-urllib/2.7作為用戶代理下載網(wǎng)頁內(nèi)容，其中2.7是Python的版本號。如果能使用可辨識的用戶代理則更好，這樣可以避免我們的網(wǎng)絡(luò)爬蟲碰到一些問題。此外，也許是因為曾經(jīng)歷過質(zhì)量不佳的Python網(wǎng)絡(luò)爬蟲造成的服務(wù)器過載，一些網(wǎng)站還會封禁這個默認的用戶代理。比如，在使用Python默認用戶代理的情況下，訪問http://www.meetup.com/，目前會返回如圖3所示的訪問拒絕提示。

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

圖3

因此，為了下載更加可靠，我們需要控制用戶代理的設(shè)定。下面的代碼對download函數(shù)進行了修改，設(shè)定了一個默認的用戶代理“wswp”（即Web Scraping with Python的首字母縮寫）。

def download(url, user_agent='wswp', num_retries=2): print 'Downloading:', url headers = {'User-agent': user_agent} request = urllib2.Request(url, headers=headers) try: html = urllib2.urlopen(request).read() except urllib2.URLError as e: print 'Download error:', e.reason html = None if num_retries > 0: if hasattr(e, 'code') and 500 <= e.code < 600: # retry 5XX HTTP errors return download(url, user_agent, num_retries-1) return html

現(xiàn)在，我們擁有了一個靈活的下載函數(shù)，可以在后續(xù)示例中得到復(fù)用。該函數(shù)能夠捕獲異常、重試下載并設(shè)置用戶代理。

4.2 網(wǎng)站地圖爬蟲

在第一個簡單的爬蟲中，我們將使用示例網(wǎng)站robots.txt文件中發(fā)現(xiàn)的網(wǎng)站地圖來下載所有網(wǎng)頁。為了解析網(wǎng)站地圖，我們將會使用一個簡單的正則表達式，從<loc>標簽中提取出URL。下面是該示例爬蟲的代碼。

def crawl_sitemap(url): # download the sitemap file sitemap = download(url) # extract the sitemap links links = re.findall('<loc>(.*?)</loc>', sitemap) # download each link for link in links: html = download(link) # scrape html here # ...

現(xiàn)在，運行網(wǎng)站地圖爬蟲，從示例網(wǎng)站中下載所有國家頁面。

>>> crawl_sitemap('http://example.webscraping.com/sitemap.xml')Downloading: http://example.webscraping.com/sitemap.xmlDownloading: http://example.webscraping.com/view/Afghanistan-1Downloading: http://example.webscraping.com/view/Aland-Islands-2Downloading: http://example.webscraping.com/view/Albania-3...

可以看出，上述運行結(jié)果和我們的預(yù)期一致，不過正如前文所述，我們無法依靠Sitemap文件提供每個網(wǎng)頁的鏈接。下面我們將會介紹另一個簡單的爬蟲，該爬蟲不再依賴于Sitemap文件。

4.3 ID遍歷爬蟲

本節(jié)中，我們將利用網(wǎng)站結(jié)構(gòu)的弱點，更加輕松地訪問所有內(nèi)容。下面是一些示例國家的URL。

http://example.webscraping.com/view/Afghanistan-1
http://example.webscraping.com/view/Australia-2
http://example.webscraping.com/view/Brazil-3

可以看出，這些URL只在結(jié)尾處有所區(qū)別，包括國家名（作為頁面別名）和ID。在URL中包含頁面別名是非常普遍的做法，可以對搜索引擎優(yōu)化起到幫助作用。一般情況下，Web服務(wù)器會忽略這個字符串，只使用ID來匹配數(shù)據(jù)庫中的相關(guān)記錄。下面我們將其移除，加載http://example.webscraping.com/view/1，測試示例網(wǎng)站中的鏈接是否仍然可用。測試結(jié)果如圖4所示。

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

圖4

從圖4中可以看出，網(wǎng)頁依然可以加載成功，也就是說該方法是有用的?，F(xiàn)在，我們就可以忽略頁面別名，只遍歷ID來下載所有國家的頁面。下面是使用了該技巧的代碼片段。

import itertools for page in itertools.count(1): url = 'http://example.webscraping.com/view/-%d' % page html = download(url) if html is None: break else: # success - can scrape the result pass

在這段代碼中，我們對ID進行遍歷，直到出現(xiàn)下載錯誤時停止，我們假設(shè)此時已到達最后一個國家的頁面。不過，這種實現(xiàn)方式存在一個缺陷，那就是某些記錄可能已被刪除，數(shù)據(jù)庫ID之間并不是連續(xù)的。此時，只要訪問到某個間隔點，爬蟲就會立即退出。下面是這段代碼的改進版本，在該版本中連續(xù)發(fā)生多次下載錯誤后才會退出程序。

# maximum number of consecutive download errors allowed max_errors = 5 # current number of consecutive download errors num_errors = 0 for page in itertools.count(1): url = 'http://example.webscraping.com/view/-%d' % page html = download(url) if html is None: # received an error trying to download this webpage num_errors = 1 if num_errors == max_errors: # reached maximum number of # consecutive errors so exit break else: # success - can scrape the result # ... num_errors = 0

上面代碼中實現(xiàn)的爬蟲需要連續(xù)5次下載錯誤才會停止遍歷，這樣就很大程度上降低了遇到被刪除記錄時過早停止遍歷的風(fēng)險。

在爬取網(wǎng)站時，遍歷ID是一個很便捷的方法，但是和網(wǎng)站地圖爬蟲一樣，這種方法也無法保證始終可用。比如，一些網(wǎng)站會檢查頁面別名是否滿足預(yù)期，如果不是，則會返回404 Not Found錯誤。而另一些網(wǎng)站則會使用非連續(xù)大數(shù)作為ID，或是不使用數(shù)值作為ID，此時遍歷就難以發(fā)揮其作用了。例如，Amazon使用ISBN作為圖書ID，這種編碼包含至少10位數(shù)字。使用ID對Amazon的圖書進行遍歷需要測試數(shù)十億次，因此這種方法肯定不是抓取該站內(nèi)容最高效的方法。

4.4 鏈接爬蟲

到目前為止，我們已經(jīng)利用示例網(wǎng)站的結(jié)構(gòu)特點實現(xiàn)了兩個簡單爬蟲，用于下載所有的國家頁面。只要這兩種技術(shù)可用，就應(yīng)當使用其進行爬取，因為這兩種方法最小化了需要下載的網(wǎng)頁數(shù)量。不過，對于另一些網(wǎng)站，我們需要讓爬蟲表現(xiàn)得更像普通用戶，跟蹤鏈接，訪問感興趣的內(nèi)容。

通過跟蹤所有鏈接的方式，我們可以很容易地下載整個網(wǎng)站的頁面。但是，這種方法會下載大量我們并不需要的網(wǎng)頁。例如，我們想要從一個在線論壇中抓取用戶賬號詳情頁，那么此時我們只需要下載賬號頁，而不需要下載討論貼的頁面。本文中的鏈接爬蟲將使用正則表達式來確定需要下載哪些頁面。下面是這段代碼的初始版本。

import re def link_crawler(seed_url, link_regex): """Crawl from the given seed URL following links matched by link_regex """ crawl_queue = [seed_url] while crawl_queue: url = crawl_queue.pop() html = download(url) # filter for links matching our regular expression for link in get_links(html): if re.match(link_regex, link): crawl_queue.append(link) def get_links(html): """Return a list of links from html """ # a regular expression to extract all links from the webpage webpage_regex = re.compile('<a[^>] href=["'](.*?)["']', re.IGNORECASE) # list of all links from the webpage return webpage_regex.findall(html)

要運行這段代碼，只需要調(diào)用link_crawler函數(shù)，并傳入兩個參數(shù)：要爬取的網(wǎng)站URL和用于跟蹤鏈接的正則表達式。對于示例網(wǎng)站，我們想要爬取的是國家列表索引頁和國家頁面。其中，索引頁鏈接格式如下。

http://example.webscraping.com/index/1
http://example.webscraping.com/index/2

國家頁鏈接格式如下。

http://example.webscraping.com/view/Afghanistan-1
http://example.webscraping.com/view/Aland-Islands-2

因此，我們可以用/(index|view)/這個簡單的正則表達式來匹配這兩類網(wǎng)頁。當爬蟲使用這些輸入?yún)?shù)運行時會發(fā)生什么呢？你會發(fā)現(xiàn)我們得到了如下的下載錯誤。

>>> link_crawler('http://example.webscraping.com', '/(index|view)') Downloading: http://example.webscraping.com Downloading: /index/1 Traceback (most recent call last): ... ValueError: unknown url type: /index/1

可以看出，問題出在下載/index/1時，該鏈接只有網(wǎng)頁的路徑部分，而沒有協(xié)議和服務(wù)器部分，也就是說這是一個相對鏈接。由于瀏覽器知道你正在瀏覽哪個網(wǎng)頁，所以在瀏覽器瀏覽時，相對鏈接是能夠正常工作的。但是，urllib2是無法獲知上下文的。為了讓urllib2能夠定位網(wǎng)頁，我們需要將鏈接轉(zhuǎn)換為絕對鏈接的形式，以便包含定位網(wǎng)頁的所有細節(jié)。如你所愿，Python中確實有用來實現(xiàn)這一功能的模塊，該模塊稱為urlparse。下面是link_crawler的改進版本，使用了urlparse模塊來創(chuàng)建絕對路徑。

import urlparse def link_crawler(seed_url, link_regex): """Crawl from the given seed URL following links matched by link_regex """ crawl_queue = [seed_url] while crawl_queue: url = crawl_queue.pop() html = download(url) for link in get_links(html): if re.match(link_regex, link): link = urlparse.urljoin(seed_url, link) crawl_queue.append(link)

當你運行這段代碼時，會發(fā)現(xiàn)雖然網(wǎng)頁下載沒有出現(xiàn)錯誤，但是同樣的地點總是會被不斷下載到。這是因為這些地點相互之間存在鏈接。比如，澳大利亞鏈接到了南極洲，而南極洲也存在到澳大利亞的鏈接，此時爬蟲就會在它們之間不斷循環(huán)下去。要想避免重復(fù)爬取相同的鏈接，我們需要記錄哪些鏈接已經(jīng)被爬取過。下面是修改后的link_crawler函數(shù)，已具備存儲已發(fā)現(xiàn)URL的功能，可以避免重復(fù)下載。

def link_crawler(seed_url, link_regex): crawl_queue = [seed_url] # keep track which URL's have seen before seen = set(crawl_queue) while crawl_queue: url = crawl_queue.pop() html = download(url) for link in get_links(html): # check if link matches expected regex if re.match(link_regex, link): # form absolute link link = urlparse.urljoin(seed_url, link) # check if have already seen this link if link not in seen: seen.add(link) crawl_queue.append(link)

當運行該腳本時，它會爬取所有地點，并且能夠如期停止。最終，我們得到了一個可用的爬蟲！

高級功能

現(xiàn)在，讓我們?yōu)殒溄优老x添加一些功能，使其在爬取其他網(wǎng)站時更加有用。

解析robots.txt

首先，我們需要解析robots.txt文件，以避免下載禁止爬取的URL。使用Python自帶的robotparser模塊，就可以輕松完成這項工作，如下面的代碼所示。

>>> import robotparser>>> rp = robotparser.RobotFileParser()>>> rp.set_url('http://example.webscraping.com/robots.txt')>>> rp.read()>>> url = 'http://example.webscraping.com'>>> user_agent = 'BadCrawler'>>> rp.can_fetch(user_agent, url)False>>> user_agent = 'GoodCrawler'>>> rp.can_fetch(user_agent, url)True

robotparser模塊首先加載robots.txt文件，然后通過can_fetch()函數(shù)確定指定的用戶代理是否允許訪問網(wǎng)頁。在本例中，當用戶代理設(shè)置為 BadCrawler 時，robotparser模塊會返回結(jié)果表明無法獲取網(wǎng)頁，這和示例網(wǎng)站robots.txt的定義一樣。

為了將該功能集成到爬蟲中，我們需要在crawl循環(huán)中添加該檢查。

... while crawl_queue: url = crawl_queue.pop() # check url passes robots.txt restrictions if rp.can_fetch(user_agent, url): ... else: print 'Blocked by robots.txt:', url

支持代理

有時我們需要使用代理訪問某個網(wǎng)站。比如，Netflix屏蔽了美國以外的大多數(shù)國家。使用urllib2支持代理并沒有想象中那么容易（可以嘗試使用更友好的Python HTTP模塊requests來實現(xiàn)該功能，其文檔地址為http://docs.python-requests.org/）。下面是使用urllib2支持代理的代碼。

proxy = ... opener = urllib2.build_opener() proxy_params = {urlparse.urlparse(url).scheme: proxy} opener.add_handler(urllib2.ProxyHandler(proxy_params)) response = opener.open(request)

下面是集成了該功能的新版本download函數(shù)。

def download(url, user_agent='wswp', proxy=None, num_retries=2): print 'Downloading:', url headers = {'User-agent': user_agent} request = urllib2.Request(url, headers=headers) opener = urllib2.build_opener() if proxy: proxy_params = {urlparse.urlparse(url).scheme: proxy} opener.add_handler(urllib2.ProxyHandler(proxy_params)) try: html = opener.open(request).read() except urllib2.URLError as e: print 'Download error:', e.reason html = None if num_retries > 0: if hasattr(e, 'code') and 500 <= e.code < 600: # retry 5XX HTTP errors html = download(url, user_agent, proxy, num_retries-1) return html

下載限速

如果我們爬取網(wǎng)站的速度過快，就會面臨被封禁或是造成服務(wù)器過載的風(fēng)險。為了降低這些風(fēng)險，我們可以在兩次下載之間添加延時，從而對爬蟲限速。下面是實現(xiàn)了該功能的類的代碼。

class Throttle: """Add a delay between downloads to the same domain """ def __init__(self, delay): # amount of delay between downloads for each domain self.delay = delay # timestamp of when a domain was last accessed self.domains = {} def wait(self, url): domain = urlparse.urlparse(url).netloc last_accessed = self.domains.get(domain) if self.delay > 0 and last_accessed is not None: sleep_secs = self.delay - (datetime.datetime.now() - last_accessed).seconds if sleep_secs > 0: # domain has been accessed recently # so need to sleep time.sleep(sleep_secs) # update the last accessed time self.domains[domain] = datetime.datetime.now()

Throttle類記錄了每個域名上次訪問的時間，如果當前時間距離上次訪問時間小于指定延時，則執(zhí)行睡眠操作。我們可以在每次下載之前調(diào)用Throttle對爬蟲進行限速。

throttle = Throttle(delay) ... throttle.wait(url) result = download(url, headers, proxy=proxy, num_retries=num_retries)

避免爬蟲陷阱

目前，我們的爬蟲會跟蹤所有之前沒有訪問過的鏈接。但是，一些網(wǎng)站會動態(tài)生成頁面內(nèi)容，這樣就會出現(xiàn)無限多的網(wǎng)頁。比如，網(wǎng)站有一個在線日歷功能，提供了可以訪問下個月和下一年的鏈接，那么下個月的頁面中同樣會包含訪問再下個月的鏈接，這樣頁面就會無止境地鏈接下去。這種情況被稱為爬蟲陷阱。

想要避免陷入爬蟲陷阱，一個簡單的方法是記錄到達當前網(wǎng)頁經(jīng)過了多少個鏈接，也就是深度。當?shù)竭_最大深度時，爬蟲就不再向隊列中添加該網(wǎng)頁中的鏈接了。要實現(xiàn)這一功能，我們需要修改seen變量。該變量原先只記錄訪問過的網(wǎng)頁鏈接，現(xiàn)在修改為一個字典，增加了頁面深度的記錄。

def link_crawler(..., max_depth=2): max_depth = 2 seen = {} ... depth = seen[url] if depth != max_depth: for link in links: if link not in seen: seen[link] = depth 1 crawl_queue.append(link)

現(xiàn)在有了這一功能，我們就有信心爬蟲最終一定能夠完成。如果想要禁用該功能，只需將max_depth設(shè)為一個負數(shù)即可，此時當前深度永遠不會與之相等。

最終版本

這個高級鏈接爬蟲的完整源代碼可以在https://bitbucket.org/ wswp/code/src/tip/chapter01/link_crawler3.py下載得到。要測試這段代碼，我們可以將用戶代理設(shè)置為BadCrawler，也就是本章前文所述的被robots.txt屏蔽了的那個用戶代理。從下面的運行結(jié)果中可以看出，爬蟲果然被屏蔽了，代碼啟動后馬上就會結(jié)束。

>>> seed_url = 'http://example.webscraping.com/index'>>> link_regex = '/(index|view)'>>> link_crawler(seed_url, link_regex, user_agent='BadCrawler')Blocked by robots.txt: http://example.webscraping.com/

現(xiàn)在，讓我們使用默認的用戶代理，并將最大深度設(shè)置為1，這樣只有主頁上的鏈接才會被下載。

>>> link_crawler(seed_url, link_regex, max_depth=1)Downloading: http://example.webscraping.com//indexDownloading: http://example.webscraping.com/index/1Downloading: http://example.webscraping.com/view/Antigua-and-Barbuda-10Downloading: http://example.webscraping.com/view/Antarctica-9Downloading: http://example.webscraping.com/view/Anguilla-8Downloading: http://example.webscraping.com/view/Angola-7Downloading: http://example.webscraping.com/view/Andorra-6Downloading: http://example.webscraping.com/view/American-Samoa-5Downloading: http://example.webscraping.com/view/Algeria-4Downloading: http://example.webscraping.com/view/Albania-3Downloading: http://example.webscraping.com/view/Aland-Islands-2Downloading: http://example.webscraping.com/view/Afghanistan-1

和預(yù)期一樣，爬蟲在下載完國家列表的第一頁之后就停止了。

本文節(jié)選自《用Python寫網(wǎng)絡(luò)爬蟲》

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

本書講解了如何使用Python來編寫網(wǎng)絡(luò)爬蟲程序，內(nèi)容包括網(wǎng)絡(luò)爬蟲簡介，從頁面中抓取數(shù)據(jù)的三種方法，提取緩存中的數(shù)據(jù)，使用多個線程和進程來進行并發(fā)抓取，如何抓取動態(tài)頁面中的內(nèi)容，與表單進行交互，處理頁面中的驗證碼問題，以及使用Scarpy和Portia來進行數(shù)據(jù)抓取，并在最后使用本書介紹的數(shù)據(jù)抓取技術(shù)對幾個真實的網(wǎng)站進行了抓取，旨在幫助讀者活學(xué)活用書中介紹的技術(shù)。

本書適合有一定Python編程經(jīng)驗，而且對爬蟲技術(shù)感興趣的讀者閱讀。

「Python」教你編寫網(wǎng)絡(luò)爬蟲（用python寫網(wǎng)絡(luò)爬蟲）

1.網(wǎng)絡(luò)爬蟲何時有用

2. 網(wǎng)絡(luò)爬蟲是否合法

3. 背景調(diào)研

3.1 檢查robots.txt

3.2 檢查網(wǎng)站地圖

3.3 估算網(wǎng)站大小

3.4 識別網(wǎng)站所用技術(shù)

3.5 尋找網(wǎng)站所有者

4. 編寫第一個網(wǎng)絡(luò)爬蟲

4.1 下載網(wǎng)頁

1．重試下載

2．設(shè)置用戶代理

4.2 網(wǎng)站地圖爬蟲

4.3 ID遍歷爬蟲

4.4 鏈接爬蟲

高級功能

解析robots.txt

支持代理

下載限速

避免爬蟲陷阱

最終版本

相關(guān)新聞