什麼是資料探勘什麼是資料探勘?

2021-03-05 09:21:29 字數 5134 閱讀 2769

1樓:匿名使用者

資料探勘是從大量的資料中,抽取出潛在的、有價值的知識(模型或規則)的過程。

1. 資料探勘能做什麼?

1)資料探勘能做以下六種不同事情(分析方法):

· 分類 (classification)

· 估值(estimation)

· 預言(prediction)

· 相關性分組或關聯規則(affinity grouping or association rules)

· 聚集(clustering)

· 描述和視覺化(des cription and visualization)

2)資料探勘分類

以上六種資料探勘的分析方法可以分為兩類:直接資料探勘;間接資料探勘

· 直接資料探勘

目標是利用可用的資料建立一個模型,這個模型對剩餘的資料,對一個特定的變數(可以

理解成資料庫中表的屬性,即列)進行描述。

· 間接資料探勘

目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關係

· 分類、估值、預言屬於直接資料探勘;後三種屬於間接資料探勘

3)各種分析方法的簡介

· 分類 (classification)

首先從資料中選出已經分好類的訓練集,在該訓練集上運用資料探勘分類的技術,建立分

類模型,對於沒有分類的資料進行分類。

例子:a. 信用卡申請者,分類為低、中、高風險

b. 分配客戶到預先定義的客戶分片

注意: 類的個數是確定的,預先定義好的

· 估值(estimation)

估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的

輸出;分類的類別是確定數目的,估值的量是不確定的。

例子:a. 根據購買模式,估計一個家庭的孩子個數

b. 根據購買模式,估計一個家庭的收入

c. 估計real estate的價值

一般來說,估值可以作為分類的前一步工作。給定一些輸入資料,通過估值,得到未知的

連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運

用估值,給各個客戶記分(score 0~1)。然後,根據閾值,將貸款級別分類。

· 預言(prediction)

通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用

於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。

預言其目的是對未來未知變數的**,這種**是需要時間來驗證的,即必須經過一定時

間後,才知道預言準確性是多少。

· 相關性分組或關聯規則(affinity grouping or association rules)

決定哪些事情將一起發生。

例子:a. 超市中客戶在購買a的同時,經常會購買b,即a => b(關聯規則)

b. 客戶在購買a後,隔一段時間,會購買b (序列分析)

· 聚集(clustering)

聚集是對記錄分組,把相似的記錄在一個聚集裡。聚集和分類的區別是聚集不依賴於預先

定義好的類,不需要訓練集。

例子:a. 一些特定症狀的聚集可能預示了一個特定的疾病

b. 租vcd型別不相似的客戶聚集,可能暗示成員屬於不同的亞文化群

聚集通常作為資料探勘的第一步。例如,"哪一種類的**對客戶響應最好?",對於這一

類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集裡,然後對每個不同的聚集,

回答問題,可能效果更好。

· 描述和視覺化(des cription and visualization)

是對資料探勘結果的表示方式。

2.資料探勘的商業背景

資料探勘首先是需要商業環境中收集了大量的資料,然後要求挖掘的知識是有價值的。有

價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加****。

1)資料探勘作為研究工具 (research)

2)資料探勘提高過程控制(process improvement)

3)資料探勘作為市場營銷工具(marketing)

4)資料探勘作為客戶關係管理crm工具(customer relationship management)

3.資料探勘的技術背景

1)資料探勘技術包括三個主要部分:演算法和技術;資料;建模能力

2)資料探勘和機器學習(machine learning)

· 機器學習是電腦科學和人工智慧ai發展的產物

· 機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決

策樹)· 資料探勘由來

資料探勘是八十年代,投資ai研究專案失敗後,ai轉入實際應用時提出的。它是一個新興

的,面向商業應用的ai研究。選擇資料探勘這一術語,表明了與統計、精算、長期從事預

言模型的經濟學家之間沒有技術的重疊。

3)資料探勘和統計

統計也開始支援資料探勘。統計本包括預言演算法(迴歸)、抽樣、基於經驗的設計等

4)資料探勘和決策支援系統

· 資料倉儲

· olap(聯機分析處理)、data mart(資料集市)、多維資料庫

· 決策支援工具融合

將資料倉儲、olap,資料探勘融合在一起,構成企業決策分析環境。

4. 資料探勘的社會背景

資料探勘與個人預言:資料探勘號稱能通過歷史資料的分析,**客戶的行為,而事實上

,客戶自己可能都不明確自己下一步要作什麼。所以,資料探勘的結果,沒有人們想象中

神祕,它不可能是完全正確的。

客戶的行為是與社會環境相關連的,所以資料探勘本身也受社會背景的影響。比如說,在

美國對銀行信用卡客戶信用評級的模型執行得非常成功,但是,它可能不適合中國

2樓:匿名使用者

簡單理解就是找出海量的資料所蘊含的具有戰略意義的,潛在的規律。

什麼是資料探勘?

3樓:cda資料分析師

簡單地說,資料探勘是從大量資料中提取或『挖掘』知識。該術語實際上有點用詞不當。資料探勘應當更正確地命名為『從資料中挖掘知識』,不幸的是它有點長。

許多人把資料探勘視為另一個常用的術語『資料庫中知識發現』或kdd的同義詞。而另一些人只是把資料探勘視為資料庫中知識發現過程的一個基本步驟。

資料探勘是一個用資料發現問題、解決問題的學科。

通常通過對資料的探索、處理、分析或建模實現。

我們可以看到資料探勘具有以下幾個特點:

基於大量資料:並非說小資料量上就不可以進行挖掘,實際上大多數資料探勘的演算法都可以在小資料量上執行並得到結果。但是,一方面過小的資料量完全可以通過人工分析來總結規律,另一方面來說,小資料量常常無法反映出真實世界中的普遍特性。

隱含性:資料探勘是要發現深藏在資料內部的知識,而不是那些直接浮現在資料表面的資訊。常用的bi工具,例如報表和olap,完全可以讓使用者找出這些資訊。

新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。

價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說資料探勘只是「屠龍之技」,看起來神乎其神,卻什麼用處也沒有。

這只是一種誤解,不可否認的 是在一些資料探勘專案中,或者因為缺乏明確的業務目標,或者因為資料質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導 致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,資料探勘的確可以變成提升效益的利器。

4樓:知於大資料

由於資料科學剛剛興起,資料科學家作為一種新生職業被提出,資料研究高階科學家rachel schutt將其定義為「電腦科學家、軟體工程師和統計學家的混合體「。資料探勘作為一個學術領域,橫跨多個學科,涵蓋了統計學、數學、機器學習和資料庫等,此外還包括各類專業方向比如從油田電力、海洋生物、歷史文字、電子通訊、法律稅務等的各個專業領域。注意每一分類都需要相當的行業經驗。

而要明白某一事物的本質,就需要通過另一些近似的事物特性對比來說明。就好像你單獨提問什麼是男人?很難解釋對不對。

所以咱們來舉個栗子簡單看看:

一、分析報告

在《大鬧天宮》裡孫悟空跟二郎神在花果山下大戰三百回合,咱來寫一篇文章分析。

孫悟空有金剛不壞火眼金睛筋斗雲七十二般變化加上定海神針身法靈活。

二郎神楊戩有三隻眼縛妖索哮天犬銀袍金甲加上三尖兩刃四竅八環刀力量無窮。

所以在大戰開始三百回合時候不相上下,結果後來二郎神派出天兵天將放火燒花果山讓大聖慌了心神被偷襲得手。

最後二郎神贏了。

分析報告完成。

二、統計分析

大聖二戰楊戩。這次在二位大戰之前做個數理統計來**結果。

首先根據歷史樣本史書記載發現兩人在之前的五百年裡打過100次,其中孫悟空贏60次。

然後有記錄顯示,之前孫悟空和牛魔王戰鬥的勝率是80%,而楊戩鬥牛魔王勝率是70%。

所以可以得出綜合**總體勝率是孫悟空贏面大。

結論依靠歷史記錄,使用樣本**總體,根據經驗做出假設。

統計分析完成。

三、資料探勘

孫悟空和楊戩終極決戰。這次咱們根據兩位的詳細資料(如家庭出身、教育背景、工作經驗、婚育情況等)讓計算機做協同過濾關聯分析。計算機通過資料清洗建模後發現:

貧苦出身的孩子一般比皇親國戚更能吃苦所以功夫底子更好平時訓練更加紮實。

戰鬥經驗豐富的鬥戰勝佛因為平時經常打架擅長利用天時地利環境因素而勝算更大。

在都得到大師指點的情況下,貧苦出身的孩子可以利用後天的努力來彌補先天悟性的欠缺。

樣貌奇特註定孤獨終老的神仙總是會比同等條件下美若天仙喜歡拈花惹草處處留情的神仙功夫好。

綜上所述,我們可知道:

論出身兩位大神不分伯仲。一個從石頭出來,一個是凡人與神仙結合所生。

悟空的**菩提老祖(準提道人)和二郎神的**玉鼎真人的**元始天尊同為鴻鈞老祖的高足所以前者更勝一籌。

鬥戰勝佛戰鬥經驗相對整日快活逍遙無憂無慮的二郎神來說更加豐富。

另孫行者由於樣貌原因始終單身(好傷感)。

所以可以得出結論,這次大戰孫悟空贏面大。

資料探勘完成。

四、最後總結:

分析報告一般是整個事件發生結束以後的總結(描述性)。

統計分析能利用大量的歷史樣本來**整個事件總體未來的走向(**性概率)。

資料探勘則透過事件的表象發現隱藏在背後的蛛絲馬跡,從而找到潛伏的規律以及看似無關事物之間背後的聯絡,用此來洞察未來(規範性)。

資料探勘中提升度是什麼意思,什麼是資料探勘

別被樓上誤導了,資料提升度就是未分析之前的潛在率與分析之後潛在率之比 例如,1000人中有20名潛在使用者,根據模型分析的前10 有5名潛在使用者,提升率則為0.05 0.02 2.5 採用資料探勘bai方法作分析du後,對於問題 客戶識別等 zhi判斷效率dao的提升幅度。回 如,貸款客戶的違約率...

資料探勘的定義,資料探勘的概念和原理是什麼

就是從未知的大量資料中找到自己需要的知識。嘿嘿,上面這位的回答就這麼一句但恰好錯了。資料探勘是從大量資料中尋找到有價值有意義有趣事先未知的知識而不是從 未知的資料 中找到 自己需要的 知識。資料當然是已知的。可能找到的知識的結構決定於使用的方法資料模式。而具體知識是不是 知識 有沒有用,你需不需要,...

大資料資料分析資料探勘有什麼區別

資料分析與資料探勘的目的不一樣,資料分析是有明確的分析群體,就是對群體進行各個維度的拆 分 組合,來找到問題的所在,而資料探勘的目標群體是不確定的,需要我們更多是是從資料的內在聯絡上去分析,從而結合業務 使用者 資料進行更多的洞察解讀。資料分析與資料探勘的思考的方式不同,一般來講,資料分析是根據客觀...