专利名称:基于组合词的词典挖掘方法及系统专利类型:发明专利
发明人:吴先超,何径舟,龚天雪申请号:CN201310102769.X申请日:20130327公开号:CN104077298A公开日:20141001
摘要:本发明提出一种基于组合词的词典挖掘方法及系统。其中,方法包括以下步骤:服务器获取多个语料并将多个语料中每一个句子分词为多个文节;服务器从多个文节中挖掘特殊文节;服务器对特殊文节进行过滤和筛选以获得特殊文节中的组合词;服务器通过特殊文节中的组合词的出现频次生成组合词词典;服务器通过组合词词典更新输入法模型。根据本发明实施例的方法,通过从大规模语料库中挖掘出特殊文节的组合词并建立组合词词典,使得用户输入特殊文节的组合词的一部分内容时,服务器将特殊文节的组合词中的另一部分内容或全部内容显示在输入界面中,从而提高了用户的录入速度,方便用户使用。
申请人:百度国际科技(深圳)有限公司
地址:518057 广东省深圳市南山区高新中二道5号生产力大楼D单元三层301
国籍:CN
代理机构:北京清亦华知识产权代理事务所(普通合伙)
代理人:宋合成
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容