ner命名实体识别_命名实体识别算法怎么实现「建议收藏」

ner命名实体识别_命名实体识别算法怎么实现「建议收藏」今天和华泰总部的陈姓算法总监聊天,聊到了当前较为实用的处理NER任务的算法方案;今天借着这个机会和大家简单交流下,有心的小伙伴拿好小本子,要开始记笔记了!!!我们算法组陆陆续续做了HTZQ的81个大类的序列标注任务,

今天和华泰总部的陈姓算法总监聊天,聊到了当前较为实用的处理NER任务的算法方案;今天借着这个机会和大家简单交流下,有心的小伙伴拿好小本子,要开始记笔记了!!!

在这里插入图片描述

我们算法组陆陆续续做了HTZQ的81个大类的序列标注任务,个人这边做了接近30个类别的NER任务,属实是试验了多种多样的NER方案,感受颇多。接下来我这边针对金融领域上市公司的公告数据中的实体识别任务,进行简单总结:

1、金融领域数据特点:

  • 数据稀缺,金融领域的数据稀缺程度超出了我的想象,在我亲自操刀处理的近30个类别中,数据较为充盈的训练集+验证集+测试集全部数据也就300-400条,例如:股份转让、借款类的关联交易等;而更多的是数据稀缺的类别,例如:申请破产清算和法院受理破产清算等,全量数据仅50-60条;
  • 数据标注质量参差不齐,其实这个问题也可以理解,一共就这么点数据,还没标顺手呢,就结束了…,还有一个问题就是各个类别之间要素标注差异较大,很难确定一个一锤定音的标准。

2、个人尝试NER方案包括:

  • LSTM + CRF
  • BERT + CRF
  • LAC(分词 + NER) + textcnn 分类(字模型、词模型)
  • 规则(文本 + 表格)

3、各方案效果介绍
在起初尝试的相关类别数据上,数据量408条:

  • LSTM + CRF :召回率不足70%;
  • BERT + CRF:召回率不足72%;
  • LAC(分词 + NER) + textcnn 分类(字模型):召回率接近76%;
  • LAC(分词 + NER) + textcnn 分类(词模型):召回率超过80%;

4、各分项准召率数据展示
在这里插入图片描述

今天的文章ner命名实体识别_命名实体识别算法怎么实现「建议收藏」分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/88757.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注