sakuranew

  • 0

    获得赞
  • 0

    发布的文章
  • 0

    答辩的项目

参赛心得分享给大家!

Batch大小为500,循环次数为10次,损失函数优化完,最终完成评分为92.4。

最后更新 2019/10/29 15:52 阅读 285

仇恨言论识别

最后更新 2019/10/29 15:52

阅读 285

BERT PyTorch

【数据样例】
Text:good she's a ghetto thug so fpd just arrested for being in the street ferguson
Label:2

【数据分析】
这份数据集是来自于社交网站上用户的发言,其中包含着用户的感情色彩,具有特定的情感倾向,所以可以把这个问题当做一般的情感分析问题来解决。
针对于情感分析问题,其实也就是文本分类问题,可以使用一般的lstm,attention,textcnn等模型,不过由于bert的预训练涵盖更好的文本表征的特点,这里选用了bert模型来做分类。
而且针对于社交网络的发音信息的不规范性,数据还是需要一定的预处理,去除掉一些无意义的字符。
【核心思路】
BERT:
Bert模型是Google在2018年10月发布的语言表示模型,Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers,是通过训练Masked Language Model和预测下一句任务得到的模型。
BERT模型沿袭了GPT模型的结构,采用Transfomer的编码器作为主体模型结构。Transformer舍弃了RNN的循环式网络结构,完全基于注意力机制来对一段文本进行建模。
Transformer所使用的注意力机制的核心思想是去计算一句话中的每个词对于这句话中所有词的相互关系,然后认为这些词与词之间的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度。因此再利用这些相互关系来调整每个词的重要性(权重)就可以获得每个词新的表达。这个新的表征不但蕴含了该词本身,还蕴含了其他词与这个词的关系,因此和单纯的词向量相比是一个更加全局的表达。
Transformer通过对输入的文本不断进行这样的注意力机制层和普通的非线性层交叠来得到最终的文本表达。

优化器采用Adam优化器,weight decay设置为5e-4。
训练batch size设置为16
optimizer = Adam(model.parameters(),lr=config.lr,weight_decay=5e-4)
本文为作者在FlyAI平台发布的原创内容,采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,转载请附上原文出处链接和本声明。
本文链接地址:https://www.flyai.com/n/58097
立即参加 仇恨言论识别
代码展示
选择查看文件
$vue{codeKeys}
  • $vue{ix}
赞赏贡献者还可以查看和下载优质代码内容哦!
赞赏 ¥24.00元
©以上内容仅用于在FlyAI平台交流学习,禁止转载、商用;违者将依法追究法律责任。
讨论
500字
表情
每日参与讨论奖励 20FAI
发送
每日参与讨论奖励 20FAI
删除确认
是否删除该条评论?
取消 删除
感谢您的关注
该篇内容公开后我们将会给你推送公开通知
好的
发布成功!
您的公开申请已发送至后台审核,
通过后将公开展示本详情页!
知道了
向贡献者赞赏
¥24.00
微信支付
支付宝

请先绑定您的微信账号 点击立即绑定

立即支付
温馨提示:
支付成功后不支持申请退款,请理性消费;
支付成功将自动解锁当前页面代码内容,付款前请确认账号信息。
微信扫码支付
请前往Web网页进行支付

敬请谅解,如有疑问请联系FlyAI客服

知道了
举报
请选择举报理由
确定
提示
确定要删除?
取消删除