文摘
大规模数据分类基于聚类特征树分解
作者(年代):延锋李当训练数据集的规模很大,对传统分类器的计算资源的需求将快速增长。所以我们需要扩展支持向量机算法对大规模的数据集。与分析的发展和方向国内外semi-supervised算法,介绍了聚类特征树组织大规模数据使用当地的学习策略。首先,基于局部学习的想法,我们使用CF树组织单独的样品为一系列当地的子集,将原问题转化为有限的小规模的子问题;接下来,我们提出的计算方法来提高CF树的欧氏距离,测量测试样本之间的距离和多个局部分类器,并选择最接近的分类器进行测试;最后,支持向量机是用于构造多个局部分类器为本地集群的标签。那么这些地方分类器结合全球分类器获得一个集成的分类模型。几组大规模数据实验表明,改进算法提高了训练速度和测试速度,较高的测试精度。
分享这