文本分类

文本分类一般包括了文本的表达、 分类器的选择与训练、 分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。

实时奖金

仇恨言论识别

奖金池 ¥ 5,000

此数据集包含25000多条推文内容。仇恨言论识别任务:查看短文,并确定它是否为 0(包含仇恨言论),1(冒犯性的,但没有仇恨言论),2(一点也没有冒犯性)。

实时奖金

中文微博的立场检测

奖金池 ¥ 5,000

本次立场检测任务旨在自动确定微博作者对某一话题赞成给定topic(FAVOR),反对给定topic(AGAINST),或者两者都不是(NONE)。注意到给定topic可能不在微博文本中。这意味着立场检测不同于传统的目标检测/部分情绪分析。

实时奖金

社交网站消息内容分类

奖金池 ¥ 2,500

此数据集包含超过10000条社交平台Twitter上的推文,其中包括对一些'着火'、'隔离'、'混乱'等关键词的搜索,判断推文内容是否涉及灾难性的事件(这里排除对一些文字、电影评论或者非灾难事件等开玩笑的内容)。

实时奖金

今日头条新闻分类

奖金池 ¥ 2,000

今日头条中文新闻(文本)分类数据集由今日头条客户端提供,共计382688条数据,15个分类。 分类code:民生/文化/娱乐/体育/财经/房产/汽车/教育/科技/军事/旅游/国际/证券/农业/电竞

练习比赛

搜狗新闻文本分类预测

该数据集来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据。根据新闻正文内容分析新闻的类别