凉心半浅良心人

  • 6

    获得赞
  • 0

    发布的文章
  • 1

    答辩的项目

使用fast-bert进行医疗文本分类

Batch大小为1,循环次数为1次,损失函数优化完,最终完成评分为83.23。

医疗文本分类
文本分类
最后更新 2020/05/11 11:51 阅读 270

医疗文本分类

最后更新 2020/05/11 11:51

阅读 270

文本分类

一、赛题分析

医疗文本的分类能够及时快速的对患者的病症和问题进行判断分类,然后分配相应的科室和专家来进行答疑。这样会极大的减少资源的浪费、更快更及时的病症判断。  本次竞赛需要根据患者的病症和问题来预测属于240个类别中的哪一类,如:普通内科、肝病科、健身、急诊科、手足外科等等。

通过使用pandas分析了下本地提供的3万条数据,可以发现数据标签分布不均衡(主要的分类为:妇产科,神经科,消化科,呼吸科,内科等。)(看评分标准用的是准确率,所以也就没有对不平衡数据标签进行处理)

image.png然后又简单的分析了下文本(title+text)的长度

image.png二、 核心思路

(1)数据处理:train.csv文件中有三个字段,分别为title,text和label。使用pandas将title和text字段进行拼接以生成新的字段作为bert模型的输入。(使用transformers的tokenizer的encode方法可以快速的将text转化为token id)

(2)本地实验:(使用fastai库进行快速的文本分类)

image.png

           本地结果:

image.png

bert-base模型:使用的是bert最后一层输出的cls标签进行分类。通过上表发现mean-max这种结果的效果好点,于是在线上使用了mean-max模型。

(3)线上实验:(使用kaushaltrivedi/fast-bert库来快速的进行文本分类)

参数设置如下表:(线上1个epoch需要花费1个半小时)

image.pngTensorboard输出:

image.png

训练集的损失曲线呈阶梯下降趋势。
image.png学习率衰减方面,分别使用了linear_cosine衰减和linear衰减。

线上结果:

image.pngimage.pngimage.pngimage.png三、比赛经验总结 

  1. 学习了一下fastbert的使用,学会了使用fastbert快速的进行文本分类任务。 
  2. 学习了一下fastai的使用,学会在fastai中使用huggingface的transformers快速的进行文本分类。 
  3. 没有使用其他模型,专注于使用bert-base-chinese,并在此基础上进行改进模型。 
  4. 学会了使用学习率衰减策略,使用了linear_cosine和linear衰减。 
  5. 学会了使用pandas库,对数据进行简单的分析。
本文为作者在FlyAI平台发布的原创内容,采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,转载请附上原文出处链接和本声明。
本文链接地址:https://www.flyai.com/n/132699
立即参加 医疗文本分类
代码展示

文本分类

选择查看文件
$vue{codeKeys}
  • $vue{ix}
赞赏贡献者还可以查看和下载优质代码内容哦!
赞赏 ¥65.98元
©以上内容仅用于在FlyAI平台交流学习,禁止转载、商用;违者将依法追究法律责任。
讨论
500字
表情
每日参与讨论奖励 20FAI
发送
每日参与讨论奖励 20FAI
删除确认
是否删除该条评论?
取消 删除
感谢您的关注
该篇内容公开后我们将会给你推送公开通知
好的
发布成功!
您的公开申请已发送至后台审核,
通过后将公开展示本详情页!
知道了
向贡献者赞赏
¥65.98
微信支付
支付宝

请先绑定您的微信账号 点击立即绑定

立即支付
温馨提示:
支付成功后不支持申请退款,请理性消费;
支付成功将自动解锁当前页面代码内容,付款前请确认账号信息。
微信扫码支付
请前往Web网页进行支付

敬请谅解,如有疑问请联系FlyAI客服

知道了
举报
请选择举报理由
确定
提示
确定要删除?
取消删除