更新時(shí)間:2021-06-09 來(lái)源:黑馬程序員 瀏覽量:
根據(jù)使用場(chǎng)景,網(wǎng)絡(luò)爬蟲(chóng)可分為通用爬蟲(chóng)和聚焦爬蟲(chóng)兩種。通用爬蟲(chóng)是捜索引擎抓取系統(tǒng)(Baidu、Google、Yahoo等)的重要組成部分,主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地,形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。聚焦爬蟲(chóng),是“面向特定主題需求”的一種網(wǎng)絡(luò)爬蟲(chóng)程序。接下來(lái),就對(duì)這兩種爬蟲(chóng)分別進(jìn)行介紹。
1. 通用爬蟲(chóng)
通用爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)(Scalable Web Crawler),它將爬取對(duì)象從一些種子 URL擴(kuò)充到整個(gè)Web上的網(wǎng)站,主要用途是為門(mén)戶(hù)站點(diǎn)搜索引擎和大型Web服務(wù)提供商采集數(shù)據(jù)。
這類(lèi)網(wǎng)絡(luò)爬蟲(chóng)的爬行范圍和數(shù)量巨大,對(duì)于爬行速度和存儲(chǔ)空間要求較高,對(duì)于爬行頁(yè)面的順序要求相對(duì)較低,同時(shí)由于待刷新的頁(yè)面太多,通常采用并行工作方式,但需要較長(zhǎng)時(shí)間才能刷新一次頁(yè)面。
2. 聚焦爬蟲(chóng)
聚焦爬蟲(chóng)(Focused Crawler),又稱(chēng)主題網(wǎng)絡(luò)爬蟲(chóng)(Topical Crawler),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)的頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng)。
和通用爬蟲(chóng)相比,聚焦爬蟲(chóng)只需要爬行與主題相關(guān)的頁(yè)面,從而極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,保存的頁(yè)面也由于數(shù)量少而更新快,還可以很好地滿(mǎn)足一些特定人群對(duì)特定領(lǐng)域信息的需求。
Python爬蟲(chóng)難學(xué)嗎?學(xué)會(huì)需要多久?
【AI設(shè)計(jì)】北京143期畢業(yè)僅36天,全員拿下高薪offer!黑馬AI設(shè)計(jì)連續(xù)6期100%高薪就業(yè)
2025-09-19【跨境電商運(yùn)營(yíng)】深圳跨境電商運(yùn)營(yíng)畢業(yè)22個(gè)工作日,就業(yè)率91%+,最高薪資達(dá)13500元
2025-09-19【AI運(yùn)維】鄭州運(yùn)維1期就業(yè)班,畢業(yè)14個(gè)工作日,班級(jí)93%同學(xué)已拿到Offer, 一線(xiàn)均薪資 1W+
2025-09-19【AI鴻蒙開(kāi)發(fā)】上海校區(qū)AI鴻蒙開(kāi)發(fā)4期5期,距離畢業(yè)21天,就業(yè)率91%,平均薪資14046元
2025-09-19【AI大模型開(kāi)發(fā)-Python】畢業(yè)33個(gè)工作日,就業(yè)率已達(dá)到94.55%,班均薪資20763元
2025-09-19【AI智能應(yīng)用開(kāi)發(fā)-Java】畢業(yè)5個(gè)工作日就業(yè)率98.18%,最高薪資 17.5k*13薪,全班平均薪資9244元
2025-09-19