9久久伊人精品综合,亚洲一区精品视频在线,成 人免费va视频,国产一区二区三区黄网,99国产精品永久免费视频,亚洲毛片多多影院,精品久久久无码人妻中文字幕,无码国产欧美一区二区三区不卡
學習啦 > 知識大全 > 知識百科 > 百科知識 > 什么是聚類分析

什么是聚類分析

時間: 謝君787 分享

什么是聚類分析

  聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。那么你對聚類分析了解多少呢?以下是由學習啦小編整理關于什么是聚類分析的內容,希望大家喜歡!

  聚類分析的介紹

  聚類分析的目標就是在相似的基礎上收集數據來分類。聚類源于很多領域,包括數學,計算機科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。

  聚類分析的區別

  聚類與分類的不同在于,聚類所要求劃分的類是未知的。

  聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。

  從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統計分析軟件包中,如SPSS、SAS等。

  從機器學習的角度講,簇相當于隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。

  聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。

  從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。

  聚類分析的主要應用

  商業

  聚類分析被用來發現不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。

  聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。

  生物

  聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識

  地理

  聚類能夠幫助在地球中被觀察的數據庫商趨于的相似性

  保險行業

  聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據住宅類型,價值,地理位置來鑒定一個城市的房產分組

  因特網

  聚類分析被用來在網上進行文檔歸類來修復信息

  電子商務

  聚類分析在電子商務中網站建設數據挖掘中也是很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。

  聚類分析的主要步驟

  1、 數據預處理,

  2、 為衡量數據點間的相似度定義一個距離函數,

  3、 聚類或分組,

  4、 評估輸出。

  數據預處理包括選擇數量,類型和特征的標度,它依靠特征選擇和特征抽取,特征選擇選擇重要的特征,特征抽取把輸入的特征轉化為一個新的顯著特征,它們經常被用來獲取一個合適的特征集來為避免“維數災”進行聚類,數據預處理還包括將孤立點移出數據,孤立點是不依附于一般數據行為或模型的數據,因此孤立點經常會導致有偏差的聚類結果,因此為了得到正確的聚類,我們必須將它們剔除。

  既然相類似性是定義一個類的基礎,那么不同數據之間在同一個特征空間相似度的衡量對于聚類步驟是很重要的,由于特征類型和特征標度的多樣性,距離度量必須謹慎,它經常依賴于應用,例如,通常通過定義在特征空間的距離度量來評估不同對象的相異性,很多距離度都應用在一些不同的領域,一個簡單的距離度量,如Euclidean距離,經常被用作反映不同數據間的相異性,一些有關相似性的度量,例如PMC和SMC,能夠被用來特征化不同數據的概念相似性,在圖像聚類上,子圖圖像的誤差更正能夠被用來衡量兩個圖形的相似性。

  將數據對象分到不同的類中是一個很重要的步驟,數據基于不同的方法被分到不同的類中,劃分方法和層次方法是聚類分析的兩個主要方法,劃分方法一般從初始劃分和最優化一個聚類標準開始。Crisp Clustering,它的每一個數據都屬于單獨的類;Fuzzy Clustering,它的每個數據可能在任何一個類中,Crisp Clustering和Fuzzy Clusterin是劃分方法的兩個主要技術,劃分方法聚類是基于某個標準產生一個嵌套的劃分系列,它可以度量不同類之間的相似性或一個類的可分離性用來合并和分裂類,其他的聚類方法還包括基于密度的聚類,基于模型的聚類,基于網格的聚類。

  評估聚類結果的質量是另一個重要的階段,聚類是一個無管理的程序,也沒有客觀的標準來評價聚類結果,它是通過一個類有效索引來評價,一般來說,幾何性質,包括類間的分離和類內部的耦合,一般都用來評價聚類結果的質量,類有效索引在決定類的數目時經常扮演了一個重要角色,類有效索引的最佳值被期望從真實的類數目中獲取,一個通常的決定類數目的方法是選擇一個特定的類有效索引的最佳值,這個索引能否真實的得出類的數目是判斷該索引是否有效的標準,很多已經存在的標準對于相互分離的類數據集合都能得出很好的結果,但是對于復雜的數據集,卻通常行不通,例如,對于交疊類的集合。
看過“聚類分析的應用”的人還看了:

1.試論R軟件在系統聚類分析中的應用

2.淺析聚類分析方法在食堂消費數據中的應用論文

3.孤立點分析在防火墻入侵檢測的研究論文

4.淺析我國區域物流節點城市發展的統計評價

5.基于人力資源強省視角的省市比較分析論文

6.基于灰色聚類的機場跑道侵入人為風險綜合評價淺析論文

1651987 主站蜘蛛池模板: 国产一级二级三级毛片| 91精品一区二区蜜桃| 一区二区三区在线 | 欧洲| 精品偷拍被偷拍在线观看| 国产午夜亚洲精品久久| 亚洲欧美自偷自拍视频图片| 国产久免费热视频在线观看| 国产精品一区二区不卡91| 乱码午夜-极品国产内射| 亚洲美女厕所偷拍美女尿尿| 亚洲精品国产一区二区三区在线观看| 日韩有码av中文字幕| 国产精品一品二区三区日韩| 中文毛片无遮挡高潮免费| 久久精品蜜芽亚洲国产av| 国产中文三级全黄| 亚洲红杏AV无码专区首页| 亚洲天堂激情av在线| 国产午夜亚洲精品国产成人| 丰满少妇被猛烈进出69影院| 91精品乱码一区二区三区| 亚洲一区二区av偷偷| 人妻熟妇乱又伦精品无码专区| 草草浮力影院| 亚洲大尺度无码无码专线| 又爆又大又粗又硬又黄的a片| 国产福利姬喷水福利在线观看| 久久亚洲av午夜福利精品一区| 欧美在线观看www| 无码人妻av免费一区二区三区| 巨胸美乳无码人妻视频漫画| 欧美性猛交xxxx乱大交丰满| 国产高清在线不卡一区| 国产精品天干天干综合网| 亚洲欧美日韩成人综合一区| 日韩女同一区二区三区久久| 天天做天天爱夜夜夜爽毛片| 亚洲理论在线A中文字幕| 天堂网在线观看| 7878成人国产在线观看| 偷偷做久久久久免费网站|