當前位置:外匯行情大全網 - 期貨行情 - 網絡爬蟲為大數據時代的銀行提供了壹種全新的策略。

網絡爬蟲為大數據時代的銀行提供了壹種全新的策略。

網絡爬蟲為大數據時代的銀行提供了壹種全新的策略。

人類社會已經進入大數據時代,傳統的信息存儲和傳播媒介逐漸被計算機取代,呈現指數級增長趨勢,成為21世紀最重要的經濟資源之壹。作為擁有大量真實交易數據的商業銀行,如何實現內外部信息、結構化和非結構化數據的緊密結合,更加準確地識別信息,有效地挖掘信息,將數據價值轉化為經濟價值,成為商業銀行提升核心競爭力的重要途徑之壹。網絡爬蟲技術的快速發展為商業銀行提供了壹種全新的策略來提高其準確獲取信息和有效整合應用的能力。

網絡爬蟲技術綜述

網絡爬蟲(Web Crawler)是Spider(或Robots,Crawler)等詞的意譯,是壹種高效的信息抓取工具。它集成了搜索引擎技術,通過技術手段優化,從互聯網上搜索、抓取和保存任何HTML(超文本標記語言)標準化的網頁信息。其機制是:向特定的互聯網站點發送請求,建立連接後與該站點進行交互,獲取HTML格式的信息,然後移動到下壹個站點,重復上述過程。通過這種自動工作機制,目標數據被保存在本地數據中以供使用。網絡爬蟲在訪問超文本鏈接時,可以自動從HTML標簽中獲取指向其他網頁的地址信息,因此可以自動實現高效、規範的信息獲取。

隨著互聯網在人類經濟社會中的應用日益廣泛,其覆蓋的信息規模呈指數級增長,信息的形式和分布呈現多樣化和全球化趨勢。傳統的搜索引擎技術已經不能滿足日益精細化和專業化的信息獲取和處理需求,面臨著巨大的挑戰。網絡爬蟲自誕生以來,發展迅速,成為信息技術領域的主要研究熱點。目前,主流的網絡爬蟲搜索策略如下。

深度優先搜索策略

在早期的爬蟲開發中,深度是優先的,即在壹個HTML文件中,選擇壹個超鏈接標簽進行深度搜索,直到該超鏈接到達最底層,通過邏輯運算判斷該層的搜索結束,然後退出該層的循環,返回上壹層的循環開始搜索其他超鏈接標簽,直到遍歷完初始文件中的超鏈接。深度優先搜索策略的優點是可以搜索壹個網站的所有信息,尤其是深度嵌套的文檔集;但缺點是在數據結構越來越復雜的情況下,站點的垂直層級會無限增加,不同層級之間會出現交叉引用,會出現無限循環。只有強行關閉程序才能退出遍歷,並且由於大量的重復和冗余,獲取的信息質量難以保證。

寬度優先搜索策略

與深度優先搜索策略相對應的是寬度優先搜索策略,其機制是從上到下開始循環,先搜索壹級頁面中的所有超鏈接,在完成壹級頁面的遍歷直至底部後,再開始二級頁面的搜索循環。當某壹層的所有超鏈接都被選中後,基於該層信息檢索過程中獲得的下壹層超鏈接(並以其為種子)開始新壹輪檢索,淺鏈接優先。這種模型的壹個好處是,無論搜索對象的垂直結構層次有多復雜,都會在很大程度上避免死循環;另壹個優點是,它有壹個特定的算法來尋找兩個HTML文件之間的最短路徑。總的來說,我們期望爬蟲的大部分功能都可以通過目前的寬度優先搜索策略輕松實現,所以認為是最優的。但它的缺點是,由於耗費大量時間,寬度優先搜索策略不適合遍歷特定站點和HTML文件深度嵌套的情況。

焦點搜索策略

與深度優先和寬度優先不同,聚焦搜索策略是根據“匹配優先原則”訪問數據源,基於特定的匹配算法主動選擇與需求主題相關的數據文檔,並限定優先級來指導後續的數據抓取。這種聚焦爬蟲會為它訪問的任何頁面中的超鏈接判斷壹個優先級分數,並根據該分數將鏈接插入循環隊列中。該策略可以幫助爬蟲跟蹤潛在匹配優先級較高的頁面,直到獲得足夠數量和質量的目標信息。不難看出,聚焦爬蟲搜索策略主要在於優先級評分模型的設計,即如何區分鏈接的價值。不同的評分模型會對同壹個環節給出不同的分數,直接影響信息采集的效率和質量。在同樣的機制下,針對超鏈接標簽的評分模型自然可以擴展到對HTML頁面的評價,因為每個頁面都是由大量的超鏈接標簽組成的。壹般來說,鏈接價值越高,其所在頁面的價值越高,這為搜索引擎的搜索專業化和廣泛應用提供了理論和技術支持。目前常見的聚焦搜索策略有“鞏固學習”和“上下文圖”。

從應用來看,目前國內主流搜索平臺主要采用寬度優先的搜索策略,主要是考慮到國內網絡體系中信息的縱向價值密度較低,而橫向價值密度較高。但這顯然會遺漏壹些引用率較低的網絡文獻,寬度優先搜索策略的橫向價值富集效應會導致這些鏈接較少的信息源被無限忽略;在此基礎上,補充線性搜索策略會緩解這種情況,不斷將更新的數據信息引入現有數據倉庫,通過多輪價值判斷決定是否繼續保存這些信息,而不是簡單粗暴地將其剔除,將新信息擋在封閉循環之外。

網絡爬蟲技術的發展趨勢

近年來,隨著網絡爬蟲技術的不斷發展,搜索策略也在不斷優化。目前,網絡爬蟲的未來發展主要呈現以下趨勢。

動態網頁數據

傳統的網絡爬蟲技術主要局限於靜態頁面信息的抓取,模式較為簡單。近年來,隨著Web2.0/AJAX技術成為主流,動態頁面因其強大的交互能力成為網絡信息傳播的主流,已經取代靜態頁面成為主流。AJAX采用JavaScript驅動的異步(asynchronous)請求和響應機制,在不刷新整個網頁的情況下持續更新數據。而傳統的爬蟲技術缺乏JavaScript語義的接口和交互能力,難以觸發動態不刷新頁面的異步調用機制和分析返回的數據內容,無法保存所需信息。

另外,各種封裝了JavaScript的前端框架,比如JQuery,都會對DOM結構做很多調整。即使是網頁上的主要動態內容,也不需要在請求剛建立時就以靜態標簽的形式從服務器發送到客戶端,而是不斷響應用戶的操作,通過異步調用機制動態繪制。這種模式壹方面極大地優化了用戶體驗,另壹方面也極大地減輕了服務器的交互負擔,但是對於習慣於DOM結構(相對不變的靜態頁面)的爬蟲程序來說,卻是壹個極大的挑戰。傳統的爬蟲程序主要基於“協議驅動”,但在互聯網2.0時代,基於AJAX的動態交互技術環境下,爬蟲引擎必須依靠“事件驅動”從數據服務器獲得持續的數據反饋。要實現事件驅動,爬蟲程序必須解決三個技術問題:壹是JavaScript的交互分析和解釋;第二,DOM事件的處理、解釋和分發;第三,動態DOM內容的語義提取。

數據采集和分發

分布式爬蟲系統是運行在計算機集群上的爬蟲系統。集群各節點上運行的爬蟲程序與集中式爬蟲系統的工作原理相同,但不同的是,分布式爬蟲系統需要協調不同計算機之間的任務劃分、資源分配和信息整合。在分布式爬蟲系統的計算機終端植入壹個主節點,通過它調用本地集中式爬蟲工作。在此基礎上,不同節點之間的信息交互非常重要,因此分布式爬蟲系統成功的關鍵在於能否設計和實現任務協調。此外,底層硬件通信網絡也很重要。由於可以使用多個節點來抓取網頁,並且可以實現動態資源分配,所以分布式爬蟲系統在搜索效率上要遠遠高於集中式爬蟲系統。

經過不斷進化,各種分布式爬蟲系統在系統組成上各有特點,工作機制和存儲結構也在不斷創新。而主流的分布式爬蟲系統壹般采用“主從結合”的內部構成,即壹個主節點通過任務劃分、資源分配、信息整合來控制其他從節點抓取信息;在工作模式上,基於雲平臺廉價高效的特點,分布式爬蟲系統廣泛使用雲計算降低成本,減少大規模軟硬件平臺建設所需的成本投入;在存儲方式上,目前流行的是分布式信息存儲,即文件存儲在分布式網絡系統中,更方便地管理多個節點上的數據。通常使用的分布式文件系統是基於Hadoop的HDFS系統。

網絡爬蟲技術在商業銀行中的應用

對於商業銀行而言,網絡爬蟲技術的應用將幫助商業銀行實現四個“最懂”,即“最懂自己的銀行”、“最懂客戶的銀行”、“最懂競爭對手的銀行”、“最懂經營環境的銀行”。具體應用場景如下。

網絡輿情監測

網絡輿論是當前社會主流輿論的表現形式之壹。主要是收集和展示公眾對壹些社會焦點和熱點問題的看法和評論,通過互聯網傳播後。對於商業銀行來說,監測網絡輿情是其自身品牌管理和危機公關的重要技術手段,以網絡為“鏡子”,打造“最懂自己的銀行”。

網絡輿情作為當前社會的主流信息媒體之壹,具有傳播速度快、影響力大的特點。對於商業銀行來說,需要建立壹個自動化的網絡輿情監測系統,壹方面可以使商業銀行獲得更準確的社會需求信息,另壹方面可以使商業銀行在新的輿情平臺上傳播服務理念和服務特色,提高業務發展水平。由於網絡爬蟲在網絡輿情監控中具有不可替代的作用,其工作質量將極大地影響網絡輿情收集的廣度和深度。根據采集對象的類型,網絡爬蟲可以分為“通用網絡爬蟲”和“主題網絡爬蟲”。壹般的網絡爬蟲側重於采集更大的數據規模和更廣的數據範圍,而不考慮網頁采集的順序和目標網頁的主題匹配。在當前網絡信息規模呈指數級增長的背景下,通用網絡爬蟲的使用受到信息采集速度、信息價值密度和信息專業化程度的限制。為了緩解這種情況,基於主題的網絡爬蟲應運而生。與壹般網絡爬蟲不同,主題網絡爬蟲更註重目標與網頁信息的匹配程度,避免無關的冗余信息。這個篩選過程是動態的,貫穿於主題網絡爬蟲技術的整個工作流程。

利用爬蟲技術監測網絡輿情,可以更全面深入地了解客戶對銀行的態度和評論,洞察銀行自身經營的優劣勢,同時起到防禦聲譽風險、提升品牌效應的作用。

顧客全景畫像

隨著商業銀行競爭的日益激烈,利潤空間進壹步壓縮,對客戶營銷和風險控制的要求也越來越高。在目前的銀行管理體系中,營銷流程管理和風險流程管理,尤其是潛在客戶和貸後風險的識別和管理,往往需要大量的人力、物力和時間成本。通過引入網絡爬蟲技術,可以有效構建客戶全景畫像,打造“最懂客戶的銀行”,是對傳統“客戶關系管理”和“非現場風控”技術的有益補充,將對銀行客戶的營銷和風險管理起到極大的推動作用。

網絡爬蟲可以用來構建銀行客戶的全維信息視圖,即以簡單的個人客戶身份信息或企業客戶網絡地址作為輸入,經過爬蟲處理後,以特定格式輸出符合預設規則的客戶信息。銀行數據人員以具體的基礎數據為原料,將關鍵詞輸入爬蟲系統,結合客戶信息相關的網址信息,打包成爬蟲種子,傳遞給爬蟲程序。然後,爬蟲程序啟動相應的業務流程,抓取客戶相關信息的網頁並保存。此外,從網絡輿情監測層面入手,將監測對象從自身延伸到銀行客戶,通過網絡第壹時間了解客戶對銀行客戶的評價,及時掌握客戶輿情動態,指導銀行經營決策。

通過使用上述網絡爬蟲系統實時收集、監控和更新客戶相關信息,不僅可以更全面地了解客戶的實時情況,還可以預測客戶的潛在營銷機會和信用風險,有效提高客戶營銷和貸後風險管理的效率,提升商業銀行的綜合效益,形成銀行和客戶的共贏局面。

對手分析

目前,隨著利率市場化的到來和互聯網金融的沖擊,商業銀行之間的競爭日益激烈,新的市場參與者和新產品層出不窮,加劇了業務競爭。在此背景下,各商業銀行充分了解競爭對手的動態,打造“最了解競爭對手的銀行”,及時調整自身,抓住機遇,變得越來越重要。

通過構建基於網絡爬蟲技術的全網信息分析展示平臺,可以有效抓取全網實時數據,及時獲取其他銀行的產品信息和新聞動態,第壹時間了解其他競爭對手的情況,便於本地行內數據的整合分析。網絡爬蟲通過實時采集數據構建動態數據平臺,抓取網絡數據並存儲在本地,便於以後進行深入的數據挖掘分析和應用。網絡爬蟲技術不僅使商業銀行的決策者更容易制定準確的政策來支持公司的運營,而且將網絡輿情信息的監控對象從自身和客戶延伸到競爭對手,從而實時掌握競爭對手的市場競爭態勢及其優劣勢,實現“知己知彼”,真正做到信息對稱。

行業垂直搜索

垂直搜索是指將搜索範圍細分到某個專業領域,在更深層次上整合首次獲得的web信息,最終形成純度更高的專業領域信息。利用這種方法,銀行數據人員可以大大提高獲取有效信息的效率。通過對金融主題的把握和分析,商業銀行可以更全面地了解監管政策的發展趨勢,了解區域經濟和行業經濟的發展狀況,掌握金融業自身經營環境的動態,及時檢查和調整自身策略,緊跟市場趨勢,成為“最了解經營環境的銀行”。

垂直搜索在金融領域的應用可以提高金融主體的信息處理能力。垂直搜索技術最大的亮點是可以對形式多樣、規模巨大的數據進行有針對性、專業化的細分操作,減少垃圾信息,匯聚有效信息,提高搜索效率,甚至在某些條件下提供實時數據,最大限度地整合現有的大量復雜web數據,讓用戶獲得更加便捷、完整、高效的信息檢索服務。

標簽

隨著互聯網技術的發展和數據爆炸,網絡爬蟲技術為商業銀行的數據采集和信息集成應用提供了新的技術路徑。從商業銀行應用實踐來看,網絡爬蟲在銀行日常經營管理中具有巨大的發展潛力。網絡爬蟲技術的應用可以幫助銀行向最了解自己、客戶、競爭對手和商業環境的“智慧銀行”轉型。可以預見,網絡爬蟲技術將成為商業銀行提升精細化管理能力和智能決策水平的重要技術手段。

  • 上一篇:6CrW2Si合金工具鋼常用規格
  • 下一篇:貸款平臺哪個靠譜
  • copyright 2024外匯行情大全網