1. 聚类分析测度相似性的方法有哪些
因果测度是聚类分析测度相似性的方法。
聚类(Clustering)就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同。
聚类分析定义
聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。
聚类效果的好坏依赖于两个因素:1.衡量距离的方法(distance measurement) 2.聚类算法(algorithm)
聚类分析常见算法
K-均值聚类也称为快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据K-均值算法对孤立点的敏感性,K-中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。
也称为层次聚类,分类的单位由高到低呈树形结构,且所处的位置越低,其所包含的对象就越少,但这些对象间的共同特征越多。该聚类方法只适合在小数据量的时候使用,数据量大的时候速度会非常慢。
2. 聚类分析中测度相似性的方法主要有
聚类分析测度相似性的方法包括:分层聚类法和迭代聚类法。
聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。 聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。
例如,我们可以根据各个银行网点的储蓄量、人力资源状况、营业面积、特色功能、网点级别、所处功能区域等因素情况,将网点分为几个等级,再比较各银行之间不同等级网点数量对比状况。
基本思想:我们所研究的样品(网点)或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。
把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。
在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。
3. 聚类分析测度相似性的方法包括
聚类分析测度相似性的方法包括:分层聚类法和迭代聚类法。
聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。 聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。例如,我们可以根据各个银行网点的储蓄量、人力资源状况、营业面积、特色功能、网点级别、所处功能区域等因素情况,将网点分为几个等级,再比较各银行之间不同等级网点数量对比状况。
基本思想:我们所研究的样品(网点)或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。
把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。
在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。
4. 聚类分析中常用的相似性测度主要有
距离测度、相似测度和匹配测度。距离测度例如欧氏距离、绝对值距离、明氏距离、马氏距离等。相似测度有角度相似系数、相关系数、指数相似系数等。
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。
聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。
采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
5. 常见相似度衡量方法
参考邹博的PPT对5种常见的相似度的衡量方法进行一下汇总。
1、 Minkowski distance :
2、 Jaccard distance :
3、 cosine similarity :
4、 pearson correlation coefficient :
关于欧式距离、余弦相似度和pearson系数的关系可以查看 知乎上的讨论 。总结的说:
a、 在数据标准化后,Pearson相关性系数、余弦相似度、欧式距离的平方可认为是等价的。
b、 pearson相关系数是余弦相似度在维度值缺失情况下的一种改进。
5、 Kullback-Leibler divergence(相对熵、KL散度)
a、 KL散度是不对称的,即P到Q的距离不等于Q到P的距离;
b、 KL散度不满足三角距离公式,两边之和大于第三边,两边之差小于第三边。
参考文献:
1、 https://en.wikipedia.org/wiki/Minkowski_distance
2、 https://en.wikipedia.org/wiki/Simple_matching_coefficient
3、 https://en.wikipedia.org/wiki/Jaccard_index
4、 https://en.wikipedia.org/wiki/Cosine_similarity
5、 https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
6、 https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
7、 https://blog.csdn.net/u012885320/article/details/81059915
8、 https://blog.csdn.net/zb1165048017/article/details/48937135
9、 https://www.zhihu.com/question/19734616
10、 https://www.zhihu.com/question/41252833
6. 相似系数聚类分析法
聚类分析是多元变量统计分析中的一种方法,其中Q型分析是依据标本的测定数据,定量确定标本间存在的相似性或亲疏关系,构成分类谱系图。实验室光谱曲线的相似性不外乎表现在以下3个方面:①光谱之间反射率的接近程度,可以用n维欧氏空间中两点之间的距离系数表示;②光谱之间反射率的成比例程度,可以用n维向量空间中的相似系数表示;③光谱之间反射率相互消长的密切程度,可以用相关系数表示。
矿物的光谱识别可以采用基于矿物标形谱的特征匹配提取。然而岩石是矿物的集合体,不能简单套用上述方法。目前成像光谱技术的岩性识别实质上仍然是矿物识别的模型为主,而遥感应用中面临的大量问题是没有特征吸收带或特征吸收很弱的岩石光谱信息。因此基于谱形总体相似性的识别就显得很有意义。
相似系数方法不考虑样品的总体反射水平,因此不易区别“异类同谱”现象。这也部分解释了光谱角度填图方法在实际应用中效果不理想的原因。另一方面,岩石和土壤中的有机质会产生极为敏感的光谱“淬火效应”(quenching effect,Clark,l983)PI,当有机质含量达到0.1%以上即可强烈压抑吸收和反射强度。磁铁矿等不透明金属矿物以及岩石的不同风化程度也对光谱具有类似的压抑作用。上述影响类似于物体的灰体吸收,使同类岩石的总体反射水平发生变异,但基本谱形不变;因此,仅仅依据光谱的矢量角度就难以区分这种差异。为解决这些问题,选取反射率平均值(Pm)和方差(Pυ)两个统计量,可以对同类样品进一步加以区分。这两个统计量参与图像处理过程,将有助于改善光谱角度填图方法的不足。
7. 常用相似性、相关性度量指标
原文: http://blog.csdn.net/OrthocenterChocolate/article/details/38596633
本文将介绍一些数据挖掘、 机器学习 、信息检索等领域中常用的一些相似性、相关性度量指标:
(1)Euclidean Distance(欧几里德距离、欧氏距离)
设有两个向量
它们之间的Euclidean Distance为:
(2)Manhattan Distance(曼哈顿距离)
设有两个向量
它们之间的Manhattan Distance为:
(3)Minkowsk Distance(闵可夫斯基距离)
设有两个向量
它们之间的Minkowsk Distance为:
(4)Hamming Distance(海明距离)
Hamming Distance可以用来度量两个串(通常是二进制串)的距离,其定义为这两个二进制串对应的位有几个不一样,那么海明距离就是几,值越小越相似。例如x=1010,y=1011,那么x和y的海明距离就是1。又如x=1000,y=1111,那么x和y的海明距离就是3。
(5)Jaccard Coefficient( Jaccard 系数 )
Jaccard Coefficient用来度量两个集合的相似度,设有两个集合
例如
(6) Pearson Correlation Coefficient (皮尔森相关系数 )
设有两个向量
它们之间的 Pearson Correlation Coefficient 为:
(7)C osine Similarity ( 余弦相似度 )
设有两个向量
它们之间的Cosine Similarity为:
(8) Mahalanobis Distance(马氏距离)
设有两个向量
它们之间的Mahalanobis Distance为:
其中
(9) Kullback-Leibler Divergence (KL散度)
KL散度用来度量两个分布之间的距离,分布P和分布Q的KL散度定义为:
(10)PMI (Pointwise Mutual Information,点对互信息)
PMI利用co-occurance来衡量两个东西x和y的相似度,定义为:
其中
(11)NGD( Normalized Google Distance)
NGD可以用来度量两个东西x和y之间的相关性,作用和PMI有点类似,定义为:
8. 聚类分析中对聚类过程及结果的可能性影响最大的是什么?是测度方法的不同还是标准化方法的不同,还是变量
一个模拟数据的例子,模拟数据有三个类别,每个类别有100个样本。我们比较了各种标准化方法之后再进行聚类的误判情况,可以大概看出各种标准化方法的差异。但此例并不能说明以下方法中误分类数小的方法就一定优与误分类数大的方法。有时候还跟数据本身的分布特征有关。这个例子也提醒我们有时候我们常用的std和range标准化并不见得是最好的选择。【摘要】
聚类分析中对聚类过程及结果的可能性影响最大的是什么?是测度方法的不同还是标准化方法的不同,还是变量组合的差异,还是聚类方法的不同?【提问】
【回答】
从图1中不太容易看清楚标准化对于聚类分析的影响【回答】
【回答】
从图2可以清晰的看到标准化对于聚类分析的影响【回答】
一个模拟数据的例子,模拟数据有三个类别,每个类别有100个样本。我们比较了各种标准化方法之后再进行聚类的误判情况,可以大概看出各种标准化方法的差异。但此例并不能说明以下方法中误分类数小的方法就一定优与误分类数大的方法。有时候还跟数据本身的分布特征有关。这个例子也提醒我们有时候我们常用的std和range标准化并不见得是最好的选择。【回答】
【回答】