摘要:本發(fā)明涉及一種面向海量數(shù)據(jù)源的網(wǎng)絡(luò)爬蟲動(dòng)態(tài)帶寬分配方法及系統(tǒng),所述方法包括以下步驟:S1、通過(guò)若干爬蟲程序帶寬占比進(jìn)行第一次分配;S2、每隔一段時(shí)間通過(guò)各爬蟲程序?qū)掃M(jìn)行重新預(yù)測(cè)和分配;S3、若某個(gè)爬蟲程序停止后釋放其所占用資源,并通過(guò)爬蟲程序重新進(jìn)行帶寬分配;S4、當(dāng)所有爬蟲程序均停止,則分配結(jié)束。本發(fā)明實(shí)現(xiàn)了在request級(jí)別上對(duì)帶寬的細(xì)粒度動(dòng)態(tài)分配,保障信息的及時(shí)獲取,降低爬取信息的總時(shí)間;實(shí)現(xiàn)了最短總爬取時(shí)間和最短最長(zhǎng)爬取時(shí)間兩種分配算法,支持多種數(shù)據(jù)爬取情況。
- 專利類型發(fā)明專利
- 申請(qǐng)人武漢烽火普天信息技術(shù)有限公司;
- 發(fā)明人金俏;楊緒升;杜魯;朱衛(wèi)平;李述;喬瑞凱;朱文鵬;范昊深;
- 地址430074 湖北省武漢市東湖開(kāi)發(fā)區(qū)光谷軟件園A1棟10樓
- 申請(qǐng)?zhí)?/b>CN201610536834.3
- 申請(qǐng)時(shí)間2016年07月08日
- 申請(qǐng)公布號(hào)CN106209685A
- 申請(qǐng)公布時(shí)間2016年12月07日
- 分類號(hào)H04L12/911(2013.01)I;H04L12/919(2013.01)I;G06F17/30(2006.01)I;




教育裝備采購(gòu)網(wǎng)企業(yè)微信客服
京公網(wǎng)安備11010802043465號(hào)

