工学 >>> 计算机科学技术 >>> 计算机应用 >>> 中国语言文字信息处理 >>>
搜索结果: 91-105 共查到知识库 中国语言文字信息处理相关记录355条 . 查询时间(4.109 秒)
针对当前知识管理系统中知识树的创建和维护问题,设计了一种新的基于文本聚类的知识树构建方法。由于从传统的K-means和SOM等文本聚类的结果中难以提取知识树中节点对应的概念和词汇列表,选取PLSA方法进行聚类和知识层次树构建。实验表明,新方法除了在聚类精确度上优于传统方法,聚类结果还包含文档的主题与词汇之间的概率关系,因此新方法在聚类的同时,可以方便地提取知识树上每个节点对应的概念或概念集合。
提出了一种基于关键帧识别的多级分类的手语识别方法,该方法采用HDR(多层判别回归)/DTW(动态时间规正)模板匹配多级分类方法。根据手语表达由多帧构成的特点,采用SIFT(尺度不变特征变换)算法定位获取手语词汇的关键帧,并提取其特征向量;根据手语词汇的关键帧采用HDR方法缩小搜索范围,然后采用DTW比较待识别的手语词特征与该范围内每一个手语词进行匹配比较,计算概率最大的为识别结果。这种方法在相同识...
提出了一种在领域本体指导下对网页进行语义标注的方法。该方法利用编辑距离和Google距离从词语的语法和语义两方面综合度量词汇与本体概念之间的语义相关度,从而在网页与本体之间建立映射关系。此外,对网页进行语义标注后,利用标注结果对本体进行有效扩充,使本体更趋于领域化。实验结果表明该方法是行之有效的。
提出基于贝叶斯网络的中文分词模型,使用性能更好的平滑算法,可同时实现交叉、组合歧义消解以及译名、人名识别。应用字齐Viterbi算法求解,在保证精度和召回率的前提下,有效提高了分词效率。实验结果显示,该模型封闭测试的精度、召回率分别为99.68%和99.7%,分词速度约为每秒74 800字。
研究如何帮助少数民族人民利用本民族语言上网获取信息成为一个重要的现实问题。主要研究了支持少数民族域名的关键技术问题,提出了组成藏文、蒙文和维文三种代表性少数民族语言域名的字符集、组成规范和注册解析关键技术框架;研究了相关工程问题,实现了可运行的少数民族域名注册和解析系统。这些研究和实现工作对利用互联网保护和弘扬少数民族文化具有重要意义。
针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并依据最优效用选择策略进行新加入样本的选择。在大规模真实语料上与co-training方法进行了比较实验,实验结果表明,此方法能有效利用大量未标注语料提高算法的泛化能力。 ...
在现代汉语复句教学和研究中,为了分析复句的逻辑语义关系,经常需要绘制复句关系层次结构图。传统的做法是利用手工方式绘制,以图片的形式存储,但这种方式具有存储容量大、绘制工作量大的缺点。采用VML技术,在标注复句的基础上,研究了复句关系层次树的自动生成方法以及复句关系层次树在网页中的可视化。通过对不同类型复句进行试验,结果表明各种类型的复句均能准确显示。这就表明该可视化方法能够有效地应用到复句信息工程...
为提供比单纯词汇信息更高效的概念特征信息和深层语义信息,并满足面向同一文本的多检索需求,在半自动化智能检索框架中引入本体视图,提出一种基于本体视图的特征项抽取方法。此方法首先针对文本特征建立本体视图;然后结合文本信息进行特征项抽取和类型映射,得到特征项集;最后基于特征项集完成检索过程。检索结果显示,基于本体视图特征项抽取方法能改善检索系统的性能,提高检索的准确率和效率。
DNA编码问题是DNA计算中的第一步也是最重要的一步,是DNA计算中的一个基本问题。引入部分字与其洞的定义,研究了部分字的洞与沃森—克里克汉明距离的内在联系,得到沃森—克里克汉明距离与DNA编码的关系;通过分析不完全匹配部分字中洞的出现位置,对发生错误匹配的DNA码进行了优化。解决了DNA编码中除去洞分散分布在DNA双链中的不完全匹配问题,有效弥补了杂交过程中出现的假阳性的缺陷,为DNA编码的研究...
根据模糊熵理论和改进的空间信息分布,提出了颜色空间特征语义图像检索模型。阐述基于语法规则的颜色空间特征语义描述方法,构造从低层颜色空间特征到高层语义之间的映射,根据这些模糊语义值进行图像检索。实验结果表明,该模型能够有效地对图像高层语义进行刻画,由此实现的模型不仅能获得高效和稳定的检索结果,获得与人类视觉感知较好的一致性,该算法还能很好地消除低层图像空间特征和高层语义之间的语义鸿沟。
目前本体学习的研究重点在于概念及关系的提取,概念提取领域一致度与领域相关度相结合的方法取得了比较好的效果,而关系提取则主要采用基于关联规则的方法。这种本体概念、关系学习方法由于只考虑词频,提取结果准确性欠缺。针对这种缺陷,在统计的基础上考虑了语义因素,利用词汇上下文计算概念的语义相似度并将其应用到概念与关系提取中。实验结果表明,词汇上下文与传统统计相结合的方法能够有效改进概念和关系提取的准确度。 ...
特征空间的高维特点限制了分类算法的选择,影响了分类器的设计和准确度,降低了分类器的泛化能力,从而出现分类器过拟合的现象,因此需要进行特征选择以避免维数灾难。首先简单分析了几种经典特征选择方法,总结了它们的不足;然后给出了一个优化的文档频方法,并用它过滤掉一些词条以降低文本矩阵的稀疏性;最后应用模式聚合(PA)理论建立文本集的向量空间模型,从分类贡献的角度强化词条的作用,消减原词条矩阵中包含的冗余模...
针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使用调整后的矩阵进行线性重建从而实现数据降维;针对半监督LLE中使用欧氏距离的缺点,采用高斯核函数将欧氏距离进行变换,并用新的核距离取代欧氏距离,提出了基于核的半监督局部线性...
该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不同搜索片段在Web上的Page Count作为主要消歧信息。词模型定义了汉语词汇与英语词汇之间的双语词汇Web相关度,根据汉语上下文词汇与英语译文之间的相关度进行消歧;N-gram模型首先假设不同语义下的多义词N-gram序列行为模式不同,从而可对多义词不同语义类下词汇...
字音转换是德语语音合成系统不得不解决的难题。可以使用基于规则驱动的迭代有限状态转录机来解决这一问题。在该算法中,首先在一个词库的基础上制定一些字音转换规则,然后在此规则的基础上通过迭代有限状态转录机将德语单词中的所有字素转换成音素。经过对整个词库进行算法测试,单词的字音转换正确率可以达到94.4%。

中国研究生教育排行榜-

正在加载...

中国学术期刊排行榜-

正在加载...

世界大学科研机构排行榜-

正在加载...

中国大学排行榜-

正在加载...

人 物-

正在加载...

课 件-

正在加载...

视听资料-

正在加载...

研招资料 -

正在加载...

知识要闻-

正在加载...

国际动态-

正在加载...

会议中心-

正在加载...

学术指南-

正在加载...

学术站点-

正在加载...