本篇文章933字,读完约2分钟

雷锋。(公开号码:雷锋。人工智能技术评论新闻。最近,美国最大的评论网站yelp发布了其内部数据集。根据官方网站,这是一个通用的数据集,打开这个数据集的主要目的是帮助学习。

美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

该数据集是yelp涵盖的商家、评论和用户数据的子集,可用于个人、教育和学术目的。现在你可以得到这个数据集的json和sql文件,用它来教学生关于数据库的知识,学习nlp,或者在学习制作移动应用程序的时候用它作为产品样本数据。

美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

数据集详细信息

该数据集包括470万用户评论、15万多条商家信息、20万张图片和12个大都市。此外,它还涵盖了110万用户的100万个提示,120多万个业务属性(如营业时间、停车场可用性、预订可用性和环境等)。),以及一段时间内登录每个企业的用户总数。

美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

如何使用它?

用户可以使用json和sql数据集。

json

可以立即设置和运行

作为单独的文件呈现,您可以随意选择

它可以用于任何应用

json数据集中的每个文件都由一个对象类型组成,一行代表一个json对象。

以下是业务登记用户数量的示例。

github上有更多的示例:github/yelp/dataset-示例

结构化查询语言

与大多数关系数据库兼容

填充的表具有引用完整性

只有一个文件,易于导入

下表显示了表之间的连接和结构:

下载地址:S3-media2.fl.yelpcdn/assets/srv0/engineering _ pages/5176 da 685 fac/assets/卖主/yelp _ schema.zip

数据集面临的挑战

Yelp希望更多的学生能够利用这些数据在他们的研究中提出创新的方法,并且他们也提供了一些目前感兴趣的话题。

一是图片的分类。目前,他们可以在图片中识别像汉堡包这样的食物,但是如何评价图片是否好看还有待研究。

第二,自然语言处理和情感分析。在用户评价数据中有许多可以挖掘的元数据,可以用来推断语义、商家属性和情感。他们想知道评价中表达了什么,是好是坏。

美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

第三是图像挖掘。例如,挖掘用户之间的关系就是如何定义他们的使用规则,以及在商店着火之前,时尚趋势向导去哪里吃饭。

via:yelp/dataset

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

地址:http://www.hcsbodzyz.com/hcxw/6865.html