专利名称:一种对提取的Web表格数据进行集成的方法及装
置
专利类型:发明专利
发明人:鲜学丰,赵朋朋,崔志明申请号:CN201610016013.7申请日:20160111公开号:CN105677874A公开日:20160615
摘要:本发明公开了对提取的Web表格数据进行集成的方法及装置,能够提高对Web表格数据进行集成形成的数据库准确性。包括:获取Web表格语料库;获取每个表格的候选语义;计算每个表格的候选语义与数据语义的不一致性;若不一致性大于第一预定阈值,表格候选语义不正确,利用众包确认该表格的候选语义,根据该表格语义似然值和众包反馈结果重新计算该表格候选语义,并重新计算不一致性;若不一致性大于第二预定阈值小于第一预定阈值,利用知识库和众包模式确认该表格中数据正确性,重新计算不一致性;若不一致性小于第二预定阈值,该表格候选语义正确,对该表格中的数据进行标注;确定所有表格候选语义均正确时,进行模式映射和数据清洗。
申请人:江苏省现代企业信息化应用支撑软件工程技术研发中心
地址:215104 江苏省苏州市国际教育园致能大道106号
国籍:CN
代理机构:北京远大卓悦知识产权代理事务所(普通合伙)
代理人:史霞
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容