文本分类

文本分类一般包括了文本的表达、 分类器的选择与训练、 分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。

练习比赛

仇恨言论识别

此数据集包含25000多条推文内容。仇恨言论识别任务:查看短文,并确定它是否为 0(包含仇恨言论),1(冒犯性的,但没有仇恨言论),2(一点也没有冒犯性)。

实时奖金

中文微博的立场检测

奖金池 ¥ 5,000

本次立场检测任务旨在自动确定微博作者对某一话题赞成给定topic(FAVOR),反对给定topic(AGAINST),或者两者都不是(NONE)。注意到给定topic可能不在微博文本中。这意味着立场检测不同于传统的目标检测/部分情绪分析。

实时奖金

中文垃圾短信识别

奖金池 ¥ 5,000

此数据集包含80万条中文短信,内容涉及广告、推销、生活等。 垃圾短信是指未经用户同意向用户发送的用户不愿意收到的短信息,或用户不能根据自己的意愿拒绝接收的短信息,主要包含以下属性:(一)未经用户同意向用户发送的商业类、广告类等短信息;(二)其他违反行业自律性规范的短信息。垃圾短信泛滥,已经严重影响到人们正常生活、运营商形象乃至社会稳定。通过查看短信,确定它是否是垃圾短信 0)非垃圾短信,1)垃圾短信

实时奖金

社交网站消息内容分类

奖金池 ¥ 2,500

此数据集包含超过10000条社交平台Twitter上的推文,其中包括对一些'着火'、'隔离'、'混乱'等关键词的搜索,判断推文内容是否涉及灾难性的事件(这里排除对一些文字、电影评论或者非灾难事件等开玩笑的内容)。

实时奖金

今日头条新闻分类

奖金池 ¥ 2,000

今日头条中文新闻(文本)分类数据集由今日头条客户端提供,共计382688条数据,15个分类。 分类code:民生/文化/娱乐/体育/财经/房产/汽车/教育/科技/军事/旅游/国际/证券/农业/电竞

实时奖金

测测星座文本分类

奖金池 ¥ 1,000

首次由测测星座提供文本分类数据,致力于发掘在当下的AI时代为娱乐产业赋能升级的最佳解决方案。目前测测已经发展成为中国最大的移动星座社区,积累了近千万的个人档案数据,构建了全闭环、高频率、语音化的在线咨询服务场。

练习比赛

搜狗新闻文本分类预测

该数据集来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据。根据新闻正文内容分析新闻的类别