不到兩個月,2018年春節(jié)要來了。
“今年我得早下手,搶張回家的低價機票。”在北京打工的小王對科技日報記者說,由于老家在云南,春節(jié)機票太貴,他都選擇坐兩天兩夜的火車回去,長途跋涉,苦不堪言。
然而,就在小王摩拳擦掌,準(zhǔn)備使出“洪荒之力”搶張便宜機票時,看到網(wǎng)上曝出這樣一則消息:航空公司放出的低價機票,80%以上被票務(wù)公司的“爬蟲”搶走,普通用戶很少能買到。
小王傻眼了,“爬蟲”究竟是什么鬼?它又是怎么搶機票的?難道就沒有辦法治理嗎?
借助超鏈接信息抓取網(wǎng)頁
“‘爬蟲’技術(shù)是實現(xiàn)網(wǎng)頁信息采集的關(guān)鍵技術(shù)之一,通俗來說,‘爬蟲’就是一段用來批量、自動化采集網(wǎng)站數(shù)據(jù)的程序,幾乎不需要人工干預(yù)。”北京理工大學(xué)網(wǎng)絡(luò)科學(xué)與技術(shù)研究院副教授閆懷志告訴科技日報記者。
閆懷志介紹,“爬蟲”又稱網(wǎng)頁“蜘蛛”、網(wǎng)絡(luò)機器人,它是一種按照一定規(guī)則自動抓取網(wǎng)頁信息的程序或者腳本,通常駐留在服務(wù)器上。在Web網(wǎng)頁中,既包含可供用戶閱讀的文字、圖片等信息,還包含一些超鏈接信息。網(wǎng)絡(luò)“爬蟲”正是借助這些超鏈接信息來不斷抓取網(wǎng)絡(luò)上的其他網(wǎng)頁。
“這種信息采集過程很像一個爬蟲或蜘蛛在網(wǎng)絡(luò)上漫游,網(wǎng)絡(luò)‘爬蟲’或網(wǎng)頁‘蜘蛛’因此得名。”閆懷志說,“爬蟲”最早應(yīng)用在搜索引擎領(lǐng)域,比如谷歌、百度、搜狗等搜索引擎工具每天需要抓取互聯(lián)網(wǎng)上數(shù)百億的網(wǎng)頁,它們需要借助龐大的“爬蟲”集群來實現(xiàn)搜索功能。
當(dāng)前,“爬蟲”已被廣泛用于電子商務(wù)、互聯(lián)網(wǎng)金融等諸多領(lǐng)域。比如,“爬蟲”可以抓取航空公司官網(wǎng)的機票價格,發(fā)現(xiàn)低價或緊俏機票后,“爬蟲”可以利用虛假客源的真實身份信息實現(xiàn)搶先預(yù)訂。再有,很多互聯(lián)網(wǎng)瀏覽器都推出了自己的搶票插件,以高訂票成功率來推廣瀏覽器。
根據(jù)抓取任務(wù)和目標(biāo)的不同,網(wǎng)絡(luò)“爬蟲”可大致分為批量型、增量型和垂直型。批量型“爬蟲”的抓取范圍和目標(biāo)較為明確,可以是網(wǎng)頁的設(shè)定數(shù)量,也可以是消耗時間的設(shè)定。增量型“爬蟲”主要用于持續(xù)抓取更新的網(wǎng)頁,以適應(yīng)網(wǎng)頁的不斷變化。垂直型“爬蟲”主要是用于特定主題內(nèi)容或特定行業(yè)的網(wǎng)頁。
您需要登錄后才可以評論, 登錄| 注冊
罕見出土五件古代“蒸鍋”,其中一件大有玄2025-02-05
閩南網(wǎng)推出專題報道,以圖、文、視頻等形式,展現(xiàn)泉州在補齊養(yǎng)老事業(yè)短板,提升養(yǎng)老服