亚洲女同精品中文字幕-亚洲女同japan-亚洲女人网-亚洲女人天堂a在线播放-极品小帅哥连坏挨cao记-极品销魂一区二区三区

學(xué)術(shù)咨詢

讓期刊論文更省時、省事、省心

中國期刊之家分析基于廣度優(yōu)先算法的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)

時間:2015年03月16日 分類:推薦論文 次數(shù):

【摘要】 網(wǎng)絡(luò)蜘蛛搜索策略的研究是近年來專業(yè)搜索引擎研究的焦點(diǎn)之一,如何使搜索引擎快速準(zhǔn)確地從龐大的網(wǎng)頁數(shù)據(jù)中獲取所需資源的需求是目前所面臨的重要問題。本文重點(diǎn)闡述了搜索引擎的 Web Spider (網(wǎng)絡(luò)蜘蛛)的搜索策略和搜索優(yōu)化措施, 提出了一種簡單的

  【摘要】 網(wǎng)絡(luò)蜘蛛搜索策略的研究是近年來專業(yè)搜索引擎研究的焦點(diǎn)之一,如何使搜索引擎快速準(zhǔn)確地從龐大的網(wǎng)頁數(shù)據(jù)中獲取所需資源的需求是目前所面臨的重要問題。本文重點(diǎn)闡述了搜索引擎的 Web Spider (網(wǎng)絡(luò)蜘蛛)的搜索策略和搜索優(yōu)化措施, 提出了一種簡單的基于廣度優(yōu)先算法的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)方案,并分析了設(shè)計(jì)過程中的優(yōu)化措施。

  【關(guān)鍵詞】 中國期刊之家,搜索引擎,網(wǎng)絡(luò)蜘蛛,搜索策略

  0 引言

  近年來,隨著 Internet 技術(shù)的廣泛應(yīng)用,傳統(tǒng)的 通用搜索引擎,如 Google、Fast、Alta Vista 和 GoTo 等正面臨巨大的挑戰(zhàn)。挑戰(zhàn)之一是 Web 信息資源呈 指數(shù)級增長,搜索引擎無法索引所有頁面。據(jù)統(tǒng)計(jì), 目前 Web 上靜態(tài)頁面的數(shù)量超過 40 億個,而且這 一數(shù)量還在以平均每天 730 萬個頁面的速度遞增。 在過去的幾年中,盡管各種通用搜索引擎在索引技 術(shù)、索引數(shù)量上有所提高,但遠(yuǎn)遠(yuǎn)無法跟上 Web 本 身的增長速度,即使是目前全球最大的搜索引擎 Google,其索引的頁面數(shù)量僅占 Web 總量的 40%; 挑戰(zhàn)之二是 Web 信息資源的動態(tài)變化,搜索引擎無 法保證對信息的及時更新。近年來的研究表明,Web 上的頁面平均 50 天就有約 50%的頁面發(fā)生變化, 而目前通用搜索引擎更新的時間至少需要數(shù)星期之 久;挑戰(zhàn)之三是傳統(tǒng)的搜索引擎提供的信息檢索服務(wù),不能滿足人們?nèi)找嬖鲩L的對個性化服務(wù)的需要。因此如何設(shè)計(jì)網(wǎng)絡(luò)蜘蛛(Web Spider)來更有效率的爬 取互聯(lián)網(wǎng)上的內(nèi)容成為搜索引擎的一個首要問題。 在設(shè)計(jì)網(wǎng)絡(luò)蜘蛛時,不僅需要充分考慮到爬取的效率和站點(diǎn)設(shè)置的靈活性還要確保系統(tǒng)的穩(wěn)定性。一 個優(yōu)秀的搜索引擎, 需要不斷的優(yōu)化網(wǎng)絡(luò)蜘蛛的算 法, 提升其性能。本文在分析網(wǎng)絡(luò)蜘蛛的工作原理 的基礎(chǔ)上, 提出了一種基于廣度優(yōu)先搜索算法的網(wǎng) 絡(luò)蜘蛛的實(shí)現(xiàn),并對提高網(wǎng)絡(luò)蜘蛛搜索效率的相關(guān)看法。

中國期刊之家

  由于不可能抓取所有的網(wǎng)頁,有些網(wǎng)絡(luò)蜘蛛對一些不太重要的網(wǎng)站,設(shè)置了訪問的層數(shù)。[2]例如, 在上圖中,A 為起始網(wǎng)頁,屬于 0 層,B、C、D、 E、F 屬于第 1 層,G、H 屬于第 2 層,I 屬于第 3 層。如果網(wǎng)絡(luò)蜘蛛設(shè)置的訪問層數(shù)為 2 的話,網(wǎng)頁I 是不會被訪問到的。這也讓有些網(wǎng)站上一部分網(wǎng) 頁能夠在搜索引擎上搜索到,另外一部分不能被搜索到。 對于網(wǎng)站設(shè)計(jì)者來說,扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計(jì)有助于搜索引擎抓取其更多的網(wǎng)頁。 網(wǎng)絡(luò)蜘蛛在訪問網(wǎng)站網(wǎng)頁的時候,經(jīng)常會遇到加密數(shù)據(jù)和網(wǎng)頁權(quán)限的問題,有些網(wǎng)頁是需要會員 權(quán)限才能訪問。當(dāng)然,網(wǎng)站的所有者可以通過協(xié)議 讓網(wǎng)絡(luò)蜘蛛不去抓取(下小節(jié)會介紹),但對于一些出售報告的網(wǎng)站,他們希望搜索引擎能搜索到他 們的報告,但又不能完全免費(fèi)的讓搜索者查看,這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶名和密碼。網(wǎng) 絡(luò)蜘蛛可以通過所給的權(quán)限對這些網(wǎng)頁進(jìn)行網(wǎng)頁抓取,從而提供搜索。而當(dāng)搜索者點(diǎn)擊查看該網(wǎng)頁的 時候,同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。

  2 網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)

  根據(jù)抓取過程,蜘蛛主要分為三個功能模塊, 一個是網(wǎng)頁讀取模塊主要是用來讀取遠(yuǎn)程 Web 服 務(wù)器上的網(wǎng)頁內(nèi)容,另一個是超鏈分析模塊,這個 模塊主要是分析網(wǎng)頁中的超鏈接,將網(wǎng)頁上的所有 超鏈接提取出來,放入到待抓取 URL 列表中,再一 個模塊就是內(nèi)容分析模塊,這個模塊主要是對網(wǎng)頁 內(nèi)容進(jìn)行分析,將網(wǎng)頁中所有超標(biāo)志去掉只留下網(wǎng) 頁文字內(nèi)容。蜘蛛的主要工作流程如圖所示。

  首先蜘蛛讀取抓取站點(diǎn)的 URL 列表,取出一個 站點(diǎn) URL,將其放入未訪問的 URL 列表(UVURL 列表)中,如果 UVURL 不為空剛從中取出一個 URL 判斷是否已經(jīng)訪問過,若沒有訪問過則讀取此網(wǎng)頁, 并進(jìn)行超鏈分析及內(nèi)容分析,并將些頁存入文檔數(shù) 據(jù)庫,并將些 URL 放入已訪問 URL 列表(VURL 列表),直到 UVRL 為空為止,此時再抓取其他站 點(diǎn),依次循環(huán)直到所有的站點(diǎn) URL 列表都抓取完為 止。

  為了提高網(wǎng)絡(luò)蜘蛛的抓取效率,需要引入以下 技術(shù)。

  (1)、 多線程技術(shù):由于抓取的站點(diǎn) URL 相當(dāng)多,采用單線程蜘蛛抓取時速度不夠,也不能滿足實(shí) 際的需要。因而需要多線程技術(shù)來創(chuàng)建多個蜘蛛線程來同時抓取,以提高速度。

  (2)、 網(wǎng)頁抓取:網(wǎng)頁抓取是基于 HTTP 協(xié)議之上的, 網(wǎng)頁上的資源有多種,有網(wǎng)頁,有 Word 文檔也 有其他類型的文件,這樣抓取時需要判斷 URL 所指向資源的類型。

  (3)、 超鏈分析:超鏈分析是一個比較重要的環(huán)節(jié),需要對 HTML 的各種標(biāo)志(tag)有一個很全面 的了解。需要反復(fù)測試,考慮各種情形的發(fā)生。

  超鏈分析時從網(wǎng)頁里提取出來的是相對于當(dāng)前 頁的相對 URL,因而需要根據(jù)當(dāng)前頁的絕對 URL 將提取的這個 URL 轉(zhuǎn)換成絕對 URL。在 此過程中需要根據(jù) ParentURL(就是當(dāng)前頁的 URL)作出各種判斷。

  3 改進(jìn)方法

  商業(yè)化的蜘蛛需要抓取上億的網(wǎng)頁,因而抓取 速度是一個關(guān)鍵,另外蜘蛛需要自動運(yùn)行,盡是減 少人工的參與,因而系統(tǒng)的性能也是一個很重要的 關(guān)鍵,系統(tǒng)能夠在發(fā)生異常的時候自動進(jìn)行處理, 防止程序的退出和死機(jī)。[3]有一些細(xì)節(jié)需要注意:

  系統(tǒng)應(yīng)該使用多線程,使用多個蜘蛛同時抓取,在可能的情況下,最好是做成 分布式的蜘蛛程序,蜘蛛應(yīng)該分布地網(wǎng) 絡(luò)上多臺服務(wù)器上協(xié)同抓取網(wǎng)頁,這樣 速度會更快,更符合我們的實(shí)際應(yīng)用。

  對于同一網(wǎng)站的網(wǎng)頁應(yīng)該采用同一個 HttpConnection 這樣有效地節(jié)省創(chuàng)建一 個連接的時間,另外對于抓取的 URL 采用域名緩沖機(jī)制(可在網(wǎng)關(guān)一級上實(shí) 現(xiàn)),這樣抓取時減少由域名到 IP 地 址的轉(zhuǎn)換時間以及重復(fù)的域名轉(zhuǎn)換。若 能做到這一步將會大大減少抓取時間, 因?yàn)樵L問一 URL 時每次都要進(jìn)行域名 到主機(jī) IP 地址的轉(zhuǎn)換。

  最好是能夠?qū)⒆x取網(wǎng)頁、超鏈分析及網(wǎng) 頁內(nèi)容分析三部分分開來做,讓它們并 行協(xié)同工作,這樣效率會更高。因?yàn)樵谶@三個過程中網(wǎng)頁讀取比起其他兩個 功能來說是一個長任務(wù),最耗時間。當(dāng)抓取完一網(wǎng)頁后,在抓取下一網(wǎng)頁的時候讓去執(zhí)行超鏈分析和內(nèi)容分析。這樣 在下一網(wǎng)頁抓取完成之前超鏈分析和 內(nèi)容分析任務(wù)就能完成,抓取任務(wù)不會 延遲,這樣節(jié)省了一些時間。

  4 結(jié)束語

  隨著人們對“個性化”信息服務(wù)需要的日益增 長,專業(yè)搜索引擎的發(fā)展將成為搜索引擎發(fā)展的主 要趨勢之一。[4]網(wǎng)絡(luò)蜘蛛搜索策略問題的研究,對專業(yè)搜索引擎的應(yīng)用與發(fā)展具有重要意義。本文對 現(xiàn)有的網(wǎng)絡(luò)蜘蛛搜索策略進(jìn)行了簡單的介紹和分 析,提出了一種基于廣度優(yōu)先搜索網(wǎng)絡(luò)蜘蛛設(shè)計(jì)方案。提出了提高網(wǎng)絡(luò)蜘蛛效率的幾種方法。目前的 網(wǎng)絡(luò)蜘蛛通常采用“固定的”搜索策略,缺乏適應(yīng)性,如何提高網(wǎng)絡(luò)蜘蛛的自適應(yīng)性有待進(jìn)一步研究。 總之,網(wǎng)絡(luò)蜘蛛搜索策略問題的研究還處于發(fā)展階 段,無論是模型、搜索算法,還是實(shí)驗(yàn)方法都還有許多有待解決的問題。

主站蜘蛛池模板: 午夜伦伦电影理论片费看 | yin荡体育课羞耻play双性 | 欧美精品XXXXBBBB| 美女被打开了屁股进去的视频 | 亚洲AV怡红院影院怡春院 | 久久国产亚洲电影天堂 | 在线看片韩国免费人成视频 | 超碰97人人做人人爱少妇 | 亚洲日韩欧美国产中文在线 | 亚欧洲乱码视频一二三区 | 拔萝卜电视剧高清免费 | 无罩看奶禁18 | 丰满人妻妇伦又伦精品APP国产 | 激情内射亚洲一区二区三区爱妻 | old老男人野外树林tv | 成人1000部免费观看视频 | 毛片内射久久久一区 | 亚洲精品中文字幕一二三四区 | 伊人久久久久久久久久 | 久久WWW免费人成一看片 | 强上轮流内射高NP男男 | avove主播| FREE性丰满白嫩白嫩的HD | 狼人大香伊蕉国产WWW亚洲 | 歪歪漫画羞羞漫画国产 | 国产精品99久久久久久AV下载 | 黄色三级三级免费看 | 手机在线免费 | 欧美Av无码高清在线 | 国产69精品久久久久人妻刘玥 | 国产成人久久婷婷精品流白浆 | 亚洲中文 字幕 国产 综合 | 亚洲国产在线精品国自产拍五月 | 99久久无码一区人妻A片蜜 | 天天夜夜草草久久亚洲香蕉 | 护士美女照片 | 渔夫床满艳史bd高清在线直播 | 99久久久无码国产精品不卡按摩 | 欧美精品99久久久啪啪 | 欧美69xxx | 少女亚洲free|