搜索结果: 1-15 共查到“计算机科学技术 离散化”相关记录29条 . 查询时间(0.188 秒)
燕山大学电气工程学院自动化系计算机控制技术课件第八章 连续域-离散化设计。
目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾,针对粗糙集给出了基于逐级均值聚类的信息熵的离散化算法。首先使用改进的逐级均值聚类算法分别对单个属性的候选断点按其信息熵值进行聚类分析,生成新的规模更小的候选断点集,然后用基于信息熵的离散化算法完成断点的选取并对连续值属性进行离散化。实验结果表明,该方法在识别率相当的情况下比传统的离散化方法的时间代价更低。
粗糙集理论中要求离散化保持原有决策系统的不可分辨关系,但以往的一些算法在离散过程中会使近似精度控制在可以接受的范围,即允许一定的错分。针对此不足,在保证决策属性绝对不改变的情况下,提出一种新的区间拆分方法,更合理有效地对连续属性进行离散化。实验通过C4.5和支持向量机分别对离散化后的数据进行识别与分类预测,实验结果证明了算法的有效性。
新的基于最近邻聚类的属性离散化算法
离散化 最近邻聚类 粗集
2009/10/10
连续属性离散化是知识发现研究中重要的预处理过程,基于最近邻聚类和粗集的相关理论,提出一种新的有监督的多属性离散化方法。该算法分两个阶段来处理,首先利用最近邻聚类动态调整聚类的类别数,生成初始聚类。然后基于类信息的相似性定义合并相似区间,减少了聚类区间。通过实例分析,该算法是非常有效的。
基于粗糙集的贝叶斯网络连续变量离散化算法
粗糙集理论 连续变量离散化 候选断点
2009/9/25
分析了布尔逻辑和粗糙集理论相结合的离散化算法在贝叶斯网络建模中应用的局限性,提出基于断点值逐次扫描划分实例对的连续变量离散化算法,改变了原算法中基于断点区间划分实例对的计算方法,应用实例表明,该算法时间复杂度和空间复杂度较低,具有较强的实用性,更适用于贝叶斯网络中的连续数据离散化处理。
集成学习中基于离散化方法的基分类器构造研究
离散化 支持向量机集成 集成学习
2009/9/18
为构造集成学习中具有差异性的基分类器,提出基于数据离散化的基分类器构造方法,并用于支持向量机集成。该方法采用粗糙集和布尔推理离散化算法处理训练样本集,能有效删除不相关和冗余的属性,提高基分类器的准确性和差异性。实验结果表明,所提方法能取得比传统集成学习算法Bagging和Adaboost更好的性能。
基于推理信息量的BN参数学习变量离散化方法
参数学习 推理信息量 离散化方法
2009/8/12
提出推理信息量的概念,将其作为贝叶斯网络连续变量离散化评价标准。在连续变量离散化的过程中,采用遗传算法寻求最优解,设计个体编码方式、交叉算子和变异算子,将推理信息量作为衡量个体适应度的标准。实例分析证明,通过该方法对变量进行离散化后学习得到的贝叶斯网络在推理时能得到更大的推理信息量。
连续属性离散化的Imp-Chi2算法
Chi2算法 属性重要性 训练集类比例抽取
2009/7/30
连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,离散化是否合理决定着表达和提取相关信息的准确性。经过研究Chi2系列算法,提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确地对连续属性进行离散化。文章通过C4.5和支持向量机分别对离散化后的结果进行了实验,在实验过程中,提出一种训练集类比例抽取方法,...
粗糙集与粒子群算法结合的属性离散化方法
粒子群优化 粗糙集 离散化
2009/7/23
提出了一种结合粗糙集和粒子群的连续属性离散化算法,采用了MPSO算法的思想,提高了粒子群摆脱局部极值的能力,得到了较好的离散化效果。对不同的数据集进行了多次测试,结果表明该算法在对数据离散化时有较好的性能。
基于粗糙集和聚类的纳税属性离散化方法
离散化 数据预处理 税源分析
2009/7/20
将粗糙集理论中属性重要度和依赖度的概念与分级聚类离散化算法相结合,提出了一种纳税人连续型属性动态的离散化算法。首先将纳税数据对象的每个连续型属性划分为2类,然后利用粗糙集理论计算每个条件属性对于决策属性的重要度,再通过重要度由大至小排序进行增类运算,最后将保持与原有数据对象集依赖度一致的分类结果输出。该算法能够动态地对数据对象进行类别划分,实现纳税人连续型属性的离散化。通过采用专家分析和关联分析的...
基于粗糙集理论的属性离散化算法
离散化 候选断点 结果断点
2009/7/20
决策系统中连续属性离散化,即将一个连续属性分为若干属性区间并为每个区间确定一个离散型数值,对后继阶段的机器学习具有重要的意义。首先研究了满足决策系统最优划分的一种计算候选断点集合的算法,然后在基于条件属性重要度和贪心算法的基础上提出了一种确定结果断点子集的新启发式算法。所提出的属性离散算法考虑并体现了粗糙集理论的基本特点和优点,并能取得较理想的连续属性离散化结果。
基于粗集和概率分布的混合决策表离散化算法
决策表 离散化 区间概率
2009/7/20
为解决经典粗糙集理论在处理连续、离散混合属性决策表离散化时规则数多、准确率低的问题,采用基于贪心算法和属性值区间概率相结合的离散化方法,该方法针对传统的对混合决策表仅考虑连续属性离散化的问题。首先运用改进的贪心算法对混合决策表中的连续属性进行初步离散化,然后计算连续属性各属性值区间概率,并对取值概率大的区间细化,最后再考虑对原来的离散属性进一步离散化,从而增强系统分辨能力;且离散化后的决策表总是相...
基于区分矩阵的数据离散化算法
断点核 候选断点 启发式算法
2009/7/16
由于传统的粗糙理论只能对数据库中离散数据进行处理,而绝大多数现实的数据库既包含了离散数据,又包含了连续数据。针对这一问题,提出了一种基于候选断点区分矩阵的数据离散化算法。该方法以断点核为起点,以候选断点在区分矩阵中出现的频率作为启发信息,逐次选择最重要的断点加入到结果断点子集中,并由最终的断点集得离散化后的信息系统。最后通过实例分析表明,该算法具有较好的离散化效果。
决策表连续属性离散化的一种方法
决策表 连续属性 信息量
2009/7/15
提出了一种基于区间数据分布特征的决策表连续属性离散化的方法。方法在断点的选择上考虑了属性值的出现频率,在区间内的一致性和区间之间的差异性基础上,利用条件信息量作为反馈信息合并区间。通过实验分析表明了算法的有效性,能保持决策表较高的分类能力,提高约简效率。