国产成人精品无缓存在线播放,久久精品人人人人人人,又色又污又爽又黄的网站

網(wǎng)絡(luò)爬蟲，是一種按照一定的規(guī)則，自動(dòng)的抓取萬維網(wǎng)信息的程序或者腳本。網(wǎng)絡(luò)爬蟲是搜索引擎系統(tǒng)中十分重要的組成部分，它負(fù)責(zé)從互聯(lián)網(wǎng)中搜集網(wǎng)頁(yè)，采集信息，這些網(wǎng)頁(yè)信息用于建立索引從而為搜索引擎提供支持，它決定著整個(gè)引擎系統(tǒng)的內(nèi)容是否豐富，信息是否即時(shí)，因此其性能的優(yōu)劣直接影響著搜索引擎的效果。

網(wǎng)絡(luò)爬蟲程序的優(yōu)劣，很大程度上反映了一個(gè)搜索引擎的好差。不信，你可以隨便拿一個(gè)網(wǎng)站去查詢一下各家搜索對(duì)它的網(wǎng)頁(yè)收錄情況，爬蟲強(qiáng)大程度跟搜索引擎好壞基本成正比。

1.世界上最簡(jiǎn)單的爬蟲——三行情詩(shī)

我們先來看一個(gè)最簡(jiǎn)單的最簡(jiǎn)單的爬蟲，用python寫成，只需要三行。

import requests
url="http://www.cricode.com"
r=requests.get(url)

上面這三行爬蟲程序，就如下面這三行情詩(shī)一般，很干脆利落。

是好男人，

就應(yīng)該在和女友吵架時(shí)，

抱著必輸?shù)男膽B(tài)。

2.一個(gè)正常的爬蟲程序

上面那個(gè)最簡(jiǎn)單的爬蟲，是一個(gè)不完整的殘疾的爬蟲。因?yàn)榕老x程序通常需要做的事情如下：

1）給定的種子URLs，爬蟲程序?qū)⑺蟹N子URL頁(yè)面爬取下來

2）爬蟲程序解析爬取到的URL頁(yè)面中的鏈接，將這些鏈接放入待爬取URL集合中

3）重復(fù)1、2步，直到達(dá)到指定條件才結(jié)束爬取

因此，一個(gè)完整的爬蟲大概是這樣子的：

import requests                       #用來爬取網(wǎng)頁(yè)
from bs4 import BeautifulSoup         #用來解析網(wǎng)頁(yè)
seds = ["http://www.hao123.com",      #我們的種子
              "http://www.csdn.net",
              "http://www.cricode.com"]
sum = 0                               #我們?cè)O(shè)定終止條件為：爬取到100000個(gè)頁(yè)面時(shí)，就不玩了
 
while sum < 10000 :
    if sum < len(seds):
         r = requests.get(seds[sum])
         sum = sum + 1
         do_save_action(r)
         soup = BeautifulSoup(r.content)               
         urls = soup.find_all("href",.....)                     //解析網(wǎng)頁(yè)
         for url in urls:
              seds.append(url)
 
    else:
         break

3.現(xiàn)在來找茬

上面那個(gè)完整的爬蟲，不足20行代碼，相信你能找出20個(gè)茬來。因?yàn)樗娜秉c(diǎn)實(shí)在是太多。下面一一列舉它的N宗罪：

1）我們的任務(wù)是爬取1萬個(gè)網(wǎng)頁(yè)，按上面這個(gè)程序，一個(gè)人在默默的爬取，假設(shè)爬起一個(gè)網(wǎng)頁(yè)3秒鐘，那么，爬一萬個(gè)網(wǎng)頁(yè)需要3萬秒鐘。MGD，我們應(yīng)當(dāng)考慮開啟多個(gè)線程(池)去一起爬取，或者用分布式架構(gòu)去并發(fā)的爬取網(wǎng)頁(yè)。

2）種子URL和后續(xù)解析到的URL都放在一個(gè)列表里，我們應(yīng)該設(shè)計(jì)一個(gè)更合理的數(shù)據(jù)結(jié)構(gòu)來存放這些待爬取的URL才是，比如隊(duì)列或者優(yōu)先隊(duì)列。

3）對(duì)各個(gè)網(wǎng)站的url，我們一視同仁，事實(shí)上，我們應(yīng)當(dāng)區(qū)別對(duì)待。大站好站優(yōu)先原則應(yīng)當(dāng)予以考慮。

4）每次發(fā)起請(qǐng)求，我們都是根據(jù)url發(fā)起請(qǐng)求，而這個(gè)過程中會(huì)牽涉到DNS解析，將url轉(zhuǎn)換成ip地址。一個(gè)網(wǎng)站通常由成千上萬的URL，因此，我們可以考慮將這些網(wǎng)站域名的IP地址進(jìn)行緩存，避免每次都發(fā)起DNS請(qǐng)求，費(fèi)時(shí)費(fèi)力。

5）解析到網(wǎng)頁(yè)中的urls后，我們沒有做任何去重處理，全部放入待爬取的列表中。事實(shí)上，可能有很多鏈接是重復(fù)的，我們做了很多重復(fù)勞動(dòng)。

6）…..

4.找了這么多茬后，很有成就感，真正的問題來了，學(xué)挖掘機(jī)到底哪家強(qiáng)？

現(xiàn)在我們就來一一討論上面找茬找出的若干問題的解決方案。

1）并行爬起問題

我們可以有多重方法去實(shí)現(xiàn)并行。

多線程或者線程池方式，一個(gè)爬蟲程序內(nèi)部開啟多個(gè)線程。同一臺(tái)機(jī)器開啟多個(gè)爬蟲程序，如此，我們就有N多爬取線程在同時(shí)工作。能大大減少時(shí)間。

此外，當(dāng)我們要爬取的任務(wù)特別多時(shí)，一臺(tái)機(jī)器、一個(gè)網(wǎng)點(diǎn)肯定是不夠的，我們必須考慮分布式爬蟲。常見的分布式架構(gòu)有：主從（Master——Slave）架構(gòu)、點(diǎn)對(duì)點(diǎn)（Peer to Peer）架構(gòu)，混合架構(gòu)等。

說道分布式架構(gòu)，那我們需要考慮的問題就有很多，我們需要分派任務(wù)，各個(gè)爬蟲之間需要通信合作，共同完成任務(wù)，不要重復(fù)爬取相同的網(wǎng)頁(yè)。分派任務(wù)我們要做到公平公正，就需要考慮如何進(jìn)行負(fù)載均衡。負(fù)載均衡，我們第一個(gè)想到的就是Hash，比如根據(jù)網(wǎng)站域名進(jìn)行hash。

負(fù)載均衡分派完任務(wù)之后，千萬不要以為萬事大吉了，萬一哪臺(tái)機(jī)器掛了呢？原先指派給掛掉的哪臺(tái)機(jī)器的任務(wù)指派給誰？又或者哪天要增加幾臺(tái)機(jī)器，任務(wù)有該如何進(jìn)行重新分配呢？

一個(gè)比較好的解決方案是用一致性Hash算法。

2）待爬取網(wǎng)頁(yè)隊(duì)列

如何對(duì)待待抓取隊(duì)列，跟操作系統(tǒng)如何調(diào)度進(jìn)程是類似的場(chǎng)景。

不同網(wǎng)站，重要程度不同，因此，可以設(shè)計(jì)一個(gè)優(yōu)先級(jí)隊(duì)列來存放待爬起的網(wǎng)頁(yè)鏈接。如此一來，每次抓取時(shí)，我們都優(yōu)先爬取重要的網(wǎng)頁(yè)。

當(dāng)然，你也可以效仿操作系統(tǒng)的進(jìn)程調(diào)度策略之多級(jí)反饋隊(duì)列調(diào)度算法。

3）DNS緩存

為了避免每次都發(fā)起DNS查詢，我們可以將DNS進(jìn)行緩存。DNS緩存當(dāng)然是設(shè)計(jì)一個(gè)hash表來存儲(chǔ)已有的域名及其IP。

4）網(wǎng)頁(yè)去重

說到網(wǎng)頁(yè)去重，第一個(gè)想到的是垃圾郵件過濾。垃圾郵件過濾一個(gè)經(jīng)典的解決方案是Bloom Filter（布隆過濾器）。布隆過濾器原理簡(jiǎn)單來說就是：建立一個(gè)大的位數(shù)組，然后用多個(gè)Hash函數(shù)對(duì)同一個(gè)url進(jìn)行hash得到多個(gè)數(shù)字，然后將位數(shù)組中這些數(shù)字對(duì)應(yīng)的位置為1。下次再來一個(gè)url時(shí)，同樣是用多個(gè)Hash函數(shù)進(jìn)行hash，得到多個(gè)數(shù)字，我們只需要判斷位數(shù)組中這些數(shù)字對(duì)應(yīng)的為是全為1，如果全為1，那么說明這個(gè)url已經(jīng)出現(xiàn)過。如此，便完成了url去重的問題。當(dāng)然，這種方法會(huì)有誤差，只要誤差在我們的容忍范圍之類，比如1萬個(gè)網(wǎng)頁(yè)，我只爬取到了9999個(gè)，剩下那一個(gè)網(wǎng)頁(yè)，who cares！

5）數(shù)據(jù)存儲(chǔ)的問題

數(shù)據(jù)存儲(chǔ)同樣是個(gè)很有技術(shù)含量的問題。用關(guān)系數(shù)據(jù)庫(kù)存取還是用NoSQL，抑或是自己設(shè)計(jì)特定的文件格式進(jìn)行存儲(chǔ)，都大有文章可做。

6）進(jìn)程間通信

分布式爬蟲，就必然離不開進(jìn)程間的通信。我們可以以規(guī)定的數(shù)據(jù)格式進(jìn)行數(shù)據(jù)交互，完成進(jìn)程間通信。

7）……

廢話說了那么多，真正的問題來了，問題不是學(xué)挖掘機(jī)到底哪家強(qiáng)？而是如何實(shí)現(xiàn)上面這些東西?。海?/p>

實(shí)現(xiàn)的過程中，你會(huì)發(fā)現(xiàn)，我們要考慮的問題遠(yuǎn)遠(yuǎn)不止上面這些。紙上得來終覺淺，覺知此事要躬行！

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4743

瀏覽量
96904
數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)結(jié)構(gòu)

+關(guān)注

關(guān)注
3

文章
573

瀏覽量
41233
爬蟲

爬蟲

+關(guān)注

關(guān)注
0

文章
86

瀏覽量
7853

原文標(biāo)題：網(wǎng)頁(yè)爬蟲及其用到的算法和數(shù)據(jù)結(jié)構(gòu)

文章出處：【微信號(hào)：TheAlgorithm，微信公眾號(hào)：算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

搜索歷史

網(wǎng)頁(yè)爬蟲及其用到的算法和數(shù)據(jù)結(jié)構(gòu)

評(píng)論