搜索结果: 1-15 共查到“中国语言文字信息处理 文本”相关记录35条 . 查询时间(0.192 秒)
清华大学社会科学学院政治学系副教授胡悦受邀出席傅璇琮学术讲座并做主题发言:计算机辅助文本分析概论(图)
清华大学社会科学学院政治学系 胡悦 傅璇琮 学术讲座 计算机辅助文本分析概论
2022/7/13
基于本体及相似度的文本聚类研究
本体 相似度 文本聚类 语义
2010/8/23
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(text clustering based on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来...
基于双混沌映射的文本hash函数构造
混沌 hash函数 Logistic映射 斜帐篷映射
2010/8/23
提出了一种基于混沌Logistic 映射和斜帐篷映射的文本hash函数算法。该算法将明文信息分组并转换为相应的ASCII码值,然后把该值作为Logistic映射的迭代次数,迭代生成的值作为斜帐篷映射的初始值进行迭代,然后依据一定的规则从生成值中提取长度为128 bit的hash值。通过仿真对该算法的单向性、混乱与扩散、碰撞等性能进行分析,理论分析和仿真实验证明该算法可以满足hash函数的各项性能要...
漏洞数据库的文本聚类分析
漏洞数据库 文本聚类 聚类重叠指标 主导漏洞类型
2010/8/23
为解决现有软件漏洞分类重叠性和实用性低等问题,提出了在漏洞实例聚类基础上的漏洞分类方法。对漏洞数据库(national vulnerability database, NVD)的漏洞描述字段进行文本聚类,并且使用聚类重叠性指标评估Simplekmean、BisectingKMeans和BatchSom聚类算法的效果,依据领域主导度选择典型的漏洞类型。实验结果显示近NVD中四万条漏洞数据聚类成45类...
针对大多数基于向量空间模型的中文文本聚类算法存在高维稀疏、忽略词语之间的语义联系、缺少聚簇描述等问题,提出基于语义列表的中文文本聚类算法CTCAUSL(Chinese text clustering algorithm using semantic list)。该算法采用语义列表表示文本,一个文本的语义列表中的词是该文本中出现的词,从而降低了数据维数,且不存在稀疏问题;同时利用词语间的相似度计算解...
基于语义特征的文本情感倾向识别研究
语义特征 倾向识别 情感分类 主题分类
2010/8/30
由于网络评论用语的多样性,常用的文本主题分类方法并不能完全适应情感倾向识别。针对这个问题,从语义理解的角度出发,提出一种基于语义特征的情感倾向识别方法,通过增加语义特征使得原始文本表现出更加明确的情感倾向,并且更加容易区分。实验结果表明了该方法的有效性。
一种基于文本分类的知识树自动构建方法
概率潜在语义分析 潜在语义空间 知识管理 知识树
2010/8/31
针对当前知识管理系统中知识树的创建和维护问题,设计了一种新的基于文本聚类的知识树构建方法。由于从传统的K-means和SOM等文本聚类的结果中难以提取知识树中节点对应的概念和词汇列表,选取PLSA方法进行聚类和知识层次树构建。实验表明,新方法除了在聚类精确度上优于传统方法,聚类结果还包含文档的主题与词汇之间的概率关系,因此新方法在聚类的同时,可以方便地提取知识树上每个节点对应的概念或概念集合。
针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使用调整后的矩阵进行线性重建从而实现数据降维;针对半监督LLE中使用欧氏距离的缺点,采用高斯核函数将欧氏距离进行变换,并用新的核距离取代欧氏距离,提出了基于核的半监督局部线性...
汉语语体的计量特征在文本聚类中的应用
语言结构 汉语口语 汉语书面语
2009/10/22
提出了将语言计量研究成果应用于文本聚类研究的方法。通过两个50万词的语料样本发现了在现代汉语口语体和书面语体中具有显著分布差异的16个语言结构特征;以其中7个作为文本表示特征准确地将实验文本聚类为口语体(相似度89.84%)和书面语体(相似度86.93%)两类。以语言结构的计量特征表示文本的方法加强了聚类/分类研究的可解释性,具有较高的理论和应用价值。以语料库和统计方法进行语体特征计量研究是汉语语...
基于文本挖掘的话题发现技术
话题发现与跟踪 层次聚类 文本挖掘 动态阈值
2009/9/27
在分析灾害新闻特点的基础上,提出一种基于文本挖掘的话题发现技术,采用基于平均分组的层次聚类算法,对灾害新闻资料进行组织,从而生成新闻专题,为用户提供个性化服务,并形成专题检测系统,同时介绍基于时间和地点权值向量的相似度计算模型以及基于时间的动态阈值模型。实验结果表明,该算法能够获得较好的性能。
使用Logistic回归模型进行中文文本分类
Logistic回归模型 支持向量机 文本分类
2009/7/10
使用Logistic回归模型进行中文文本分类,通过实验,比较和分析了不同的中文文本特征、不同的特征数目、不同文档集合的情况下,基于Logistic回归模型的分类器的性能。并将其与线性SVM文本分类器进行了比较,结果显示它的分类性能与线性SVM方法相当,表明这种方法应用于文本分类的有效性。
一种基于GN算法的文本概念聚类新方法
GN算法 文本聚类 概念格
2009/7/8
文本聚类是当前文本信息挖掘的基础和研究的重点。给出一种新的文本聚类方法,它将概念格和复杂网络有机地结合起来,以达到更优的聚类效果。首先计算关键词特征权值并对特征向量进行降维处理,然后根据关键词权值大小映射到形式背景中,通过本文所给出的新的相似度公式,计算出形式背景中概念相似度的大小,从而构造GN网络并应用GN算法进行文本概念聚类。最后通过实例,验证了方法的可行性。
文本分类中词语权重计算方法的改进与应用
向量空间模型 特征选择 TFIDF
2009/6/30
文本的形式化表示一直是信息检索领域关注的基础性问题。向量空间模型(Vector Space Model)中的tf.idf文本表示是该领域里得到广泛应用,并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一。但是其IDF的计算,并没有考虑到特征项在类间的分布情况,也没有考虑到在类内分布相对均匀的特征项的权重应该比分布不均匀的要高,应该赋予其较高...
文本排歧语义图式的自动获取与选择
召回率 语义图式 文位赋值
2009/6/30
通过对A Farewell to Arms中章节值和文本召回率值拉锯式攀升状态的分析,验证了文本排歧语义图式的正确性和相关性:具有读者参与的文本歧义推动了情节的发展,而这种推动源自于读者期待和文本顿悟点自动匹配的顺序性和读者纠错控制的选择性。