工学 >>> 计算机科学技术 >>> 计算机科学技术基础学科 人工智能 计算机系统结构 计算机软件 计算机工程 计算机应用 计算机科学技术其他学科
搜索结果: 1-15 共查到计算机科学技术 分词相关记录28条 . 查询时间(0.082 秒)
中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性.
构造一种中文分词和词性标注的模型,在分词阶段确定N个最佳结果作为候选集,通过未登录词识别和词性标注,从候选结果集中选优得到最终结果,并基于该模型实现一个中文自动分词和词性自动标注的中文词法分析器。经不同大小训练集下的测试证明,该分析器的分词准确率和词性标注准确率分别达到98.34%和96.07%,证明了该方法的有效性。
并列式四字格是一种特殊却数量众多的四字格。介绍了在有词性标注语料库中基于条件随机场模型的四字格抽取工作,并在此基础上分析了并列式四字格的结构特点,提出了一种基于分词语料库环境的并列式四字格识别方法。通过不同语料库间的对比实验,结果表明该识别方法具有比较好的精确度和一定的适应性。
分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。
提出基于贝叶斯网络的中文分词模型,使用性能更好的平滑算法,可同时实现交叉、组合歧义消解以及译名、人名识别。应用字齐Viterbi算法求解,在保证精度和召回率的前提下,有效提高了分词效率。实验结果显示,该模型封闭测试的精度、召回率分别为99.68%和99.7%,分词速度约为每秒74 800字。
在最大匹配法(The Maximum Matching Method)的基础上,提出了一种回溯正向匹配(The Backtracking Matching Method)的中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配和尾词匹配来有效发现歧义字段;利用长词优先兼顾2词簇的方式对交集型歧义字段进行切分。最后对该算法进行的定性分析说明了该方法的先...
首先说明了分词在中文信息处理中的作用,然后介绍了分词系统中的关键技术。提出了一种基于有向图的中文分词算法,该算法首先构造中文分词有向图,然后计算中文分词有向图中所有可能的切分路径,最后利用了最少分词原则、汉字之间的互信息和词语的频率等信息给中文分词有向图中的每条切分路径打分,分数最高的路径就对应正确的切分结果。开放测试结果表明分词精确率可达90%以上。
针对英文现在分词词性标注这一特定问题存在的难点分析了隐马尔可夫模型(HMM)的不足,提出了贝叶斯决策树模型。对一个已经标注好的语料库进行统计,运用决策树C4.5算法从单边条件和双边条件两个方面对英语现在分词的三种词性进行合理的分类消歧。对于双边条件下仍然存在歧义的情况,用贝叶斯最小风险对决策树改进,用标注好的语料库对模型进行训练。最后,采用一个未经过标注的语料库进行测试,取得了非常好的效果,证明了...
结合顺序表和跳跃表的快速查询特性,提出一种改进的整词分词词典结构,主要采用哈希法和二分法进行分词匹配,并针对机械分词算法的特点,引入随机数,探讨一种基于最大匹配的分词概率算法。实验表明,该算法具有较高的分词效率和准确率,对消去歧义词也有较好的性能。
针对基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法所存在的缺陷,提出基于本体和句法分析的某领域分词方法,通过建立体裁本体进行句法分析,从智能化的角度进行查词,避免了传统方法不考虑上下文信息导致的语义丢失等情况。实验结果证明,该方法可以较大地提高分词的精度。
针对汉语分词词典中双字哈希索引机制未能充分利用索引分词,而分词效率又明显优于首字哈希索引机制的问题,在充分分析汉语构词特点的基础上,提出了基于三字哈希索引的分词词典机制,并通过将字串的三态标记与下一索引指针的乘积作为哈希值的链地址法,简化了词典结构,节省了内存空间。理论分析和真实语料仿真均证明了三字哈希索引机制与不同字数的其他索引机制相比,具有更好的分词效率。
将多种平滑算法应用于基于二元语法的中文分词,在1998年1月人民日报语料库的基础上,讨论了困惑度和实际分词性能之间的关系,对比分析各平滑算法的实际性能,结果表明,简单的加值平滑算法性能最优,封闭精度、召回率分别为99.68%、99.7%,开放精度、召回率为98.64%、98.74%。
提出了一种基于字典与统计相结合的中文分词方法,该方法利用改进的字典结构能够快速切分,在其基础上进一步利用统计的方法处理所产生未登录词,并且能解决大部分交集歧义问题。
在中文自动分词及词性标注系统中,电子词典是系统的重要组成部分,也是影响系统性能的重要因素之一。介绍了电子词典应该具备的查询功能及常用的组织结构,给出了一种结构为系统词典+用户词典的可扩展式电子词典机制。其系统词典是基于首字Hash散列的逐字二分词典结构,用户词典采用基于首字Hash散列的链接表词典结构,具有很强的扩展性和实用性。
中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分...

中国研究生教育排行榜-

正在加载...

中国学术期刊排行榜-

正在加载...

世界大学科研机构排行榜-

正在加载...

中国大学排行榜-

正在加载...

人 物-

正在加载...

课 件-

正在加载...

视听资料-

正在加载...

研招资料 -

正在加载...

知识要闻-

正在加载...

国际动态-

正在加载...

会议中心-

正在加载...

学术指南-

正在加载...

学术站点-

正在加载...