廣義地說,任何從數據庫中挖掘信息的過程都稱為數據挖掘。從這個角度來說,數據挖掘就是BI(商業智能)。但用專業術語來說,數據挖掘是指對源數據進行清洗,轉化為適合挖掘的數據集。數據挖掘在這個固定的數據集上完成知識提取,最後使用合適的知識模式進行進壹步的分析和決策。從這個狹義的角度,我們可以定義數據挖掘是從特定形式的數據集中提取知識的過程。數據挖掘往往針對特定的數據和特定的問題選擇壹種或多種挖掘算法,發現數據下的隱藏規則,這些規則往往被用來預測和支持決策。
數據挖掘的主要功能
1.分類:根據被分析對象的屬性和特征,建立不同的分組來描述事物。比如銀行部門根據之前的數據將客戶分為不同的類別,現在我們可以根據這些來區分申請貸款的新客戶,從而采取相應的貸款方案。
2.聚類:找出分析對的內在規律,根據這些規律把對象分成幾類。比如申請人分為高風險申請人、中風險申請人、低風險申請人。
3.關聯規則和序列模式的發現:關聯就是這樣壹種聯系,當某件事情發生時,其他的事情也會發生。比如每天買啤酒的人也有可能買煙,比例可以用協會的支持度和公信力來描述。與關聯不同,序列是壹種垂直關聯。比如今天銀行調整利率,明天股市就變了。
4.預測:把握分析對象的發展規律,對未來趨勢做出預測。比如:對未來經濟發展的判斷。
5.偏差檢測:對分析對象的少數極端特例的描述,揭示內在原因。比如銀行的654.38+0萬筆交易,有500起詐騙。為了穩健經營,銀行應該找出這500個案例的內在因素,降低未來經營的風險。
需要註意的是,數據挖掘的功能並不是獨立存在的,而是相互關聯的,在數據挖掘中發揮作用。
數據挖掘的方法和工具
作為壹種處理數據的新技術,數據挖掘有許多新的特點。首先,數據挖掘面對的是海量的數據,這也是數據挖掘的原因。其次,數據可能是不完整的、有噪聲的、隨機的,數據結構復雜,維度大。最後,數據挖掘是許多學科的交叉,利用了統計學、計算機、數學等學科的技術。以下是常見且廣泛使用的算法和模型:
(1)傳統統計方法:①抽樣技術:我們面對的是大量的數據,不可能也沒有必要對所有的數據進行分析,所以要在理論的指導下進行合理的抽樣。②多元統計分析:因子分析、聚類分析等。③統計預測方法,如回歸分析、時間序列分析等。
(2)可視化技術:利用圖表等方式直觀地表達數據特征,如直方圖等。,它使用許多方法來描述統計數據。可視化技術面臨的壹個難題是高維數據的可視化。
職業能力要求
基本能力要求
數據挖掘者需要滿足以下基本條件,才能完成數據挖掘項目中的相關任務。
壹.專業技能
碩士以上學歷,數據挖掘、統計學、數據庫相關專業,精通關系數據庫技術,有數據庫系統開發經驗。
熟悉常用的數據挖掘算法
具備數理統計的理論基礎,熟悉常用的統計工具和軟件。
二、行業知識
有相關行業知識,或者很快熟悉相關行業知識。
第三,合作精神
具有良好的團隊精神,能夠主動與項目其他成員緊密合作。
第四,客戶關系能力
具備良好的客戶溝通能力,能夠清晰地解釋數據挖掘項目的重點和難點,善於調整客戶對數據挖掘的誤解和過高期望。
具有良好的知識轉移能力,能讓模型維護人員盡快了解和掌握數據挖掘方法論和建模實現能力。
高級功能要求
數據挖掘人員具備以下條件,可以提高數據挖掘項目的實施效率,縮短項目周期。
有數據倉庫項目實施經驗,熟悉數據倉庫技術和方法。
精通SQL語言,包括復雜查詢和性能調優。
熟悉ETL開發工具和技術。
精通微軟辦公軟件,包括Excel和PowerPoint中的各種統計圖形技術。
善於將挖掘結果與客戶的經營管理相結合,根據數據挖掘的結果為客戶提供有價值、可行的運營方案。
應用和就業領域
目前數據挖掘的應用主要集中在電信(客戶分析)、零售(銷售預測)、農業(行業數據預測)、web日誌(網頁定制)、銀行(客戶欺詐)、電力(客戶來電)、生物(基因)、天體(明星分類)、化工、醫藥等。目前它能解決的典型問題有數據庫營銷、客戶細分&等;分類、概要分析、交叉銷售等市場分析行為,以及客戶流失分析、客戶信用評分、欺詐檢測等,在很多領域都有成功的應用。如果妳訪問著名的亞馬遜網上書店(),妳會發現當妳選擇壹本書的時候,會有多個相關的推薦,“買了這本書的顧客也買了”,這背後就是數據挖掘技術的作用。
數據挖掘的對象是某壹專業領域積累的數據;挖掘過程是壹個人機交互和重復的過程。挖掘的成果要應用到本專業。因此,數據挖掘的整個過程都離不開應用領域的專業知識。“商業第壹,技術第二”是數據挖掘的特點。因此,學習數據挖掘並不意味著放棄原有的專業知識和經驗。相反,有其他行業背景是數據挖掘的壹大優勢。如果有銷售、財務、機械、制造、呼叫中心等工作經驗。,可以通過學習數據挖掘提高自己的專業水平,在不改變原來專業的情況下,從原來的事務性角色轉變為分析性角色。從20世紀80年代末出現到90年代末廣泛應用,以數據挖掘為核心的商業智能(BI)已經成為IT等行業的新寵。
數據采集和分析專家
職位描述:數據采集與分析專員的主要職責是收集公司運營的數據,然後從中挖掘出規律性的信息,指導公司的戰略方向。這個位置經常被忽略,但卻相當重要。因為數據庫技術最早出現在計算機領域,而計算機數據庫具有海量存儲、快速搜索、半自動化分析的特點,所以數據采集與分析專員最早出現在計算機行業,後來隨著計算機應用的普及擴展到各個行業。這個崗位壹般提供給懂數據庫應用,有壹定統計分析能力的人。有計算機專業知識的統計專業人士,或者學過數據挖掘的計算機專業人士都可以勝任這份工作,但最好對所在行業的市場情況有壹定的了解。
求職建議:由於很多公司追求短期利益,不註重長期戰略,所以目前國內很多公司對該職位重視不夠。但是大公司和外企都很重視這個職位,隨著時間的推移,這個職位會升溫。此外,數據采集和分析專員可以很容易地獲得行業經驗,他們可以很容易地掌握行業的關鍵條件,如市場狀況,客戶習慣,渠道分布等等。所以想在某銀行創業,從數據采集分析專員做起是個不錯的選擇。
市場/數據分析師
1.市場數據分析是現代市場營銷科學中不可或缺的關鍵環節:市場營銷/數據分析師工作最多的行業——直接營銷(Direct customer-oriented Marketing),從上世紀90年代開始成為公司推廣產品的主要手段。根據加拿大營銷協會的統計,直銷在1999創造了47萬個工作崗位。從1999到2000年,就業崗位增加了30000個。為什麽直銷需要這麽多分析師?例如,隨著商業競爭的加劇,公司希望從廣告中獲得最大的銷售回報,他們希望更多的用戶對他們的廣告做出回應。所以他們在投放廣告之前必須做大量的市場分析。比如根據自己的產品結合目標市場客戶的家庭收入、教育背景、消費趨勢,分析哪些地區的家庭或居民最有可能響應公司的銷售廣告,購買自己的產品或成為客戶,從而使廣告只針對這些特定的客戶群體。這種對市場上的廣告進行有針對性的篩選不僅節省了資金,還提高了銷售回報。然而,所有這些分析都是基於數據庫,通過數據處理、挖掘和建模,其中市場分析師的工作是必不可少的。
2.行業適應性強:幾乎所有行業都會應用數據,所以作為數據/市場分析師,妳不僅可以在中國傳統IT行業就業,還可以在政府、銀行、零售、醫藥、制造、交通等領域服務。
現狀與展望
數據挖掘是適應信息社會需求,從海量數據庫中提取信息的壹門新興學科。它是統計學、機器學習、數據庫、模式識別、人工智能等學科的交叉。國內重點大學都開設了數據挖掘課程或研究課題。比較著名的有中科院計算所、復旦大學、清華大學。此外,政府機構和大型企業也開始關註這壹領域。
根據IDC對歐洲和北美62家采用了商業智能技術的企業的調查分析,發現這些企業三年的平均投資回報率為401%,其中25%的企業投資回報率超過600%。調查結果還顯示,如果壹個企業想要在復雜的環境中取得成功,高層管理者必須能夠掌控極其復雜的業務結構,如果沒有詳細的事實和數據支持,這是非常困難的。因此,隨著數據挖掘技術的不斷完善和成熟,它將被更多的用戶所采用,並使更多的管理者獲得更多的商業智能。
根據IDC(國際數據公司)的預測,預計2004年BI行業的市場規模為6543.8+04億美元。現在,隨著中國加入世貿組織,中國將在許多領域逐步對外開放,如金融和保險,這意味著許多企業將面臨來自大型國際跨國公司的巨大競爭壓力。國外發達國家各種企業采用的商業智能水平已經遠遠超過中國。美國帕洛阿爾托管理集團公司1999調查了歐洲、北美和日本的375家大中型企業對商業智能技術的采用情況。結果顯示,商業智能技術在金融領域的應用水平已經達到或接近70%,在營銷領域達到或接近50%,未來三年,該技術在所有應用領域的采用水平將提高50%左右。
現在很多企業都將數據視為寶貴的財富,利用商業智能發現其中隱藏的信息,從而獲得巨大的回報。目前國內還沒有關於數據挖掘行業本身的官方市場統計分析報告,但是國內數據挖掘在各個行業都有研究。據國外專家預測,在未來5-10年,隨著數據的日益積累和計算機的廣泛應用,數據挖掘將成為中國的壹個產業。
眾所周知,IT就業市場的競爭已經非常激烈,數據處理的核心技術——數據挖掘受到了前所未有的重視。數據挖掘和商業智能技術位於整個企業IT-業務結構的金字塔頂端。目前,我國數據挖掘專業的人才培養體系並不完善,人才市場上精通數據挖掘技術和商業智能的供給極小。另壹方面,企業、政府機關、科研單位對此類人才的潛在需求巨大,供需缺口巨大。如果妳能把數據挖掘技術和妳現有的專業知識結合起來,妳壹定會開辟出妳職業生涯的壹片新天地!
專業工資
目前國內數據倉庫和數據挖掘的人才需求和大部分IT崗位壹樣,是低端高端,二線成熟,尤其是高端的數據倉庫和數據挖掘。高端數據倉庫和數據挖掘人才需要熟悉多個行業,有至少3年大型DWH和BI經驗,英語讀寫流利,有項目推進能力。這樣的人才壹年能賺20多萬。
專業認證
1,SAS認證的應用行業及職業前景
SAS全球專業認證是數據挖掘和商業智能領域國際公認的權威認證。隨著中國IT環境和應用的成熟,這兩個領域的行業發展空間會很大。獲得SAS的全球專業認證,將為您在數據挖掘和分析方法論領域積累豐富的經驗打下良好的基礎,幫助您開辟職業發展的新天地。
2.SAS認證的有效期
五級SAS認證目前沒有具體的有效期,但是時間太長或者版本太舊的認證證書都會貶值。
3、五級認證的關系
五級認證是遞進關系,即通過上壹級考試科目才能參加下壹級認證考試。
4、SAS全球認證考試方法
考試為機考,時長2小時,包含70道客觀題。
相關鏈接
隨著我國物流業的整體快速發展,物流信息化建設也取得了壹定的進展。無論在IT硬件市場、軟件市場還是信息服務市場,物流行業都有壹定的投資規模,近兩年總投資在20億-30億元之間。政府對現代物流業發展的積極支持和物流市場競爭的加劇,有力地推動了物流信息化建設的穩步發展。
易觀國際最新報告《中國物流行業信息化年度綜合報告2006》指出,中國物流行業正在從傳統模式向現代模式轉變,現代物流模式將引導物流行業信息化需求,而這種轉變的基本驅動力來自市場需求。報告中的數據顯示,從2006年到2010年,傳統物流企業的IT投資規模將超過100億元。2006-2010年,第三方物流企業IT投資規模將超過20億元。
目前行業應用軟件系統在運營層面對終端設備的硬件提出了更高的應用要求,而軟硬件的集成普遍不理想,對應單壹,所以企業會對軟硬件設備的集成提出更高的要求。
物流行業的軟件系統研發將更多考慮運籌學和數據挖掘技術,專業的服務商將更有利於解決研發問題。
物流科學的理論基礎來源於運籌學,非常重視在復雜的數據處理中尋找相關性(基於成本-服務水平系統),因此數據挖掘技術對於相關軟件系統更為重要。