自然语言处理

自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。自然语言处理的主要范畴:文本朗读;语音识别;中文自动分词;词性标注;句法分析;自然语言生成;文本分类;信息检索;信息抽取;文字校对;问答系统;机器翻译;自动摘要;文字蕴涵;命名实体识别。来源:维基百科

赢在九月

AI医疗—智能问答算法赛

20万元大奖(最新MacBook Pro+GPU资源)
本赛题为9月活动赛题,截止2019年9月30日下午20点整所有训练完成结果均为有效成绩!!

实时奖金

仇恨言论识别

奖金池 ¥ 5,000

此数据集包含25000多条推文内容。仇恨言论识别任务:查看短文,并确定它是否为 0(包含仇恨言论),1(冒犯性的,但没有仇恨言论),2(一点也没有冒犯性)。

练习比赛

ATEC-问题相似度计算练习赛(内置BERT)

ATEC-问题相似度计算是由蚂蚁金服主办的赛题,在智能客服业务场景中提升用户体验、高效问题匹配、减轻客服压力等方面具有重要的价值。 基于对问题相似度计算研究,FlyAI为优秀的算法研究者提供此类赛题并通过FlyAI训练框架内置Google BERT 预训练模型。以客服业务为切入点,与大家一起探讨在自然语言处理领域的研究价值、普惠金融领域的商业发展价值。 Google BERT简介:2018年谷歌AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%)等。
简单 自然语言处理
语义相似度
3957

实时奖金

中文微博的立场检测

奖金池 ¥ 5,000

本次立场检测任务旨在自动确定微博作者对某一话题赞成给定topic(FAVOR),反对给定topic(AGAINST),或者两者都不是(NONE)。注意到给定topic可能不在微博文本中。这意味着立场检测不同于传统的目标检测/部分情绪分析。

实时奖金

中文的命名实体识别

奖金池 ¥ 5,000

命名实体识别,英文简称NER,主要任务是识别文本中具有特定意义的实体,主要包括人名、地名、机构名称、专有的名词等,以及关于时间、数量、货币、比例数值等文字。
简单 自然语言处理
命名实体识别
5735

实时奖金

中文垃圾短信识别

奖金池 ¥ 5,000

此数据集包含80万条中文短信,内容涉及广告、推销、生活等。 垃圾短信是指未经用户同意向用户发送的用户不愿意收到的短信息,或用户不能根据自己的意愿拒绝接收的短信息,主要包含以下属性:(一)未经用户同意向用户发送的商业类、广告类等短信息;(二)其他违反行业自律性规范的短信息。垃圾短信泛滥,已经严重影响到人们正常生活、运营商形象乃至社会稳定。通过查看短信,确定它是否是垃圾短信 0)非垃圾短信,1)垃圾短信

实时奖金

社交网站消息内容分类

奖金池 ¥ 2,500

此数据集包含超过10000条社交平台Twitter上的推文,其中包括对一些'着火'、'隔离'、'混乱'等关键词的搜索,判断推文内容是否涉及灾难性的事件(这里排除对一些文字、电影评论或者非灾难事件等开玩笑的内容)。

实时奖金

用户商场评价情感分析

奖金池 ¥ 1,000

此数据集涵盖了24 万家餐馆,54 万用户,440 万条评论/评分数据。每条数据包含用户对餐馆的四个维度的评分(总体,环境,口味,服务),评分为从1到5的整数。该数据集适合做推荐系统、情感/观点/评论 倾向性分析

实时奖金

Stanford-Sentiment-Treebank 情感分析

奖金池 ¥ 5,000

随着我们越来越多地通过社交网络分享这些观点,一个结果是创造了大量的情感储备,如果系统地分析,可以提供关于我们在产品,个性和问题方面的集体喜好和不喜欢的线索。 这个项目由斯坦福大学的研究生 Richard Socher 发起,在构建 NaSent 的过程中,Socher 和他的团队从烂番茄网站拿来了 1.2万 个句子,将其拆分为 21.4 万个短语,标记为非常消极、消极、中性、积极、非常积极等,然后将这些数据输入系统之中,并以此为基础对句子做分析。
中等 自然语言处理
情感分类树
4211

实时奖金

中文阅读理解练习赛

奖金池 ¥ 2,000

该数据集提供一个中文问题并列出与其有关联的句子描述,建立判断模型并从列出的所有句子中正确选择一个或多个具有相关联的句子作为答案. 数据格式为:提供的问题(第一列),问题的相对应句子(第二列),以及他们的答案注释(第三列);如果文档句子是问题的正确答案,则其注释将为1,否则其注释将为0。 所有数据集文件都以UTF-8编码。
简单 自然语言处理
文本相似度
2182

实时奖金

COLA 英文句子可理解性分类

奖金池 ¥ 5,000

完整句式的英文句子语料库(COLA)代表是可以被正常人听得懂的可接受语料,由语言学专家标记为可理解和不可理解的10657个英文句子组成。
中等 自然语言处理
文本可接受度
2151

实时奖金

今日头条新闻分类

奖金池 ¥ 2,000

今日头条中文新闻(文本)分类数据集由今日头条客户端提供,共计382688条数据,15个分类。 分类code:民生/文化/娱乐/体育/财经/房产/汽车/教育/科技/军事/旅游/国际/证券/农业/电竞

实时奖金

Quora-检测两个问题是否重复

奖金池 ¥ 3,000

此数据集是Quora网站公开的数据集,包含了40万条数据。每条数据由两个看起来相似的问题及问题是否重复的标签组成。该数据集可用来训练具有判断能力的NLP模型。

实时奖金

美国点评网站Yelp评价预测赛

奖金池 ¥ 5,000

该数据集包含美国15万用户对18万家企业的100万条点评,涵盖超过140万个商业属性,包括营业时间,停车位,便利性和环境等等。每条数据包括企业名称,位置,属性和类别

实时奖金

测测星座文本分类

奖金池 ¥ 1,000

首次由测测星座提供文本分类数据,致力于发掘在当下的AI时代为娱乐产业赋能升级的最佳解决方案。目前测测已经发展成为中国最大的移动星座社区,积累了近千万的个人档案数据,构建了全闭环、高频率、语音化的在线咨询服务场。

练习比赛

搜狗新闻文本分类预测

该数据集来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据。根据新闻正文内容分析新闻的类别