实体关系抽取技术突破!渊亭科技再获发明专利

2024-10-12


近日,渊亭科技再次彰显其卓越的科技创新实力,公司研发的“基于先验知识的实体关系抽取方法、装置及存储介质”成功获得国家知识产权局颁发的发明专利证书。此创新技术为自然语言处理领域带来了创新的解决方案,不仅大幅提升了实体关系抽取的效率与精确度,还显著增强了信息抽取系统的智能化水平。



在信息爆炸的当下,如何有效地从海量的非结构化文本中自动化地挖掘出有价值的信息,已成为各行业面临的一项共同挑战。实体关系抽取作为自然语言处理领域中一项核心任务,为知识图谱、信息检索、推荐系统等应用的效率提供了关键支撑。然而,传统实体关系抽取方法在处理数据过程中面临诸多挑战,如误差积累、忽视任务间的关联性以及信息冗余等,这些问题制约了模型的准确性、推理效率及泛化能力,进而难以适应不断增长的信息抽取需求。


为应对这一技术挑战,渊亭科技创新性地提出了一种基于先验知识的实体关系抽取方法。该方法通过将行业领域的先验知识与深度学习技术相结合,构建了一个具备关系过滤的实体关系抽取模型,显著提升了模型的准确率和推理速度。


在实际应用中,该方法在关系推理之前,先过滤掉不合理的实体关系,从而减少了需要进行训练或推理的实体对数量。这不仅降低了实体关系推理的频次,还有效提升了训练和推理的效率,从而显著提高了整体效益



渊亭科技的这项专利技术通过将行业领域的先验知识与深度学习技术相结合,构建了高效的实体关系抽取模型,其流程主要包括以下步骤:


1. 收集特定行业领域的先验知识、关系类型和语料库,利用先验知识自动生成命名实体识别和关系抽取模型所需的训练数据;


2. 将先验知识融合到预训练的深度学习模型中,并结合BERT架构与知识图谱嵌入(KGE)模型,构建一个具备关系过滤的关系抽取模型


3. 在训练命名实体识别模型和实体关系抽取模型中,通过计算待预测实体对与已有先验知识中实体对的相似度,识别和过滤掉存在不合理的实体对,减少训练和推理过程的计算负担


4. 使用经过训练的模型,采用Pipeline方式对文本进行实体识别和实体间关系抽取。通过使用先验知识与预训练模型融合构建能够关系过滤的实体关系抽取模型,加快了实体关系抽取的训练速度和推理速度,显著提升了模型的准确率


方法步骤




该专利技术的成功研发和应用,为大规模实体关系抽取提供了高效、稳定的解决方案,这一突破推动了该技术在国防军事、政务服务、金融风控等众多领域的广泛应用和发展,并促进了助力数据分析、知识图谱构建及自然语言处理等领域的深入应用。该方法不仅显著提升了信息抽取的效率,降低了处理成本,还大幅增强了模型的泛化能力和准确性,为人工智能技术的商业化应用提供了坚实的技术支撑。


近年来,渊亭科技积极推进自然语言处理等关键领域的技术攻关,已拥有200余项人工智能类发明专利和软件著作权,技术质量和研发水平持续提升,构筑了专利布局的战略优势。


未来,渊亭科技将继续秉持创新精神,深入探索自然语言处理等领域的前沿技术,力求创造更多技术突破,为行业发展注入新动能。


关键字:
实体关系抽取
自然语言处理