本篇文章2029字,读完约5分钟

雷锋。(公开号码:雷锋。《科学与技术评论》:对于那些关注数据科学的学生来说,海量的数据集是一个很好的资源库,但是如何才能更准确地搜索到如此多的数据呢?最近,kaggle的官方博客发表了rachael tatman的一篇文章,告诉大家安利如何更有效地搜索数据集,以及如何具体做到这一点。雷锋。《com ai技术评论》编辑了如下文章:

如何在Kaggle中高效搜索数据集?快吃下这枚安利

目前,kaggle上有成千上万的数据集,每天都有新的数据集加入。虽然kaggle是一个很好的资源库,但有时要找出这么多数据集中你感兴趣的主题有点棘手。在过去的几个月里,我学到了一些技巧和窍门,可能会对你有所帮助!

如何在Kaggle中高效搜索数据集?快吃下这枚安利

从数据集页面搜索

大多数时候,我更喜欢打开数据集页面来搜索数据集。你可以点击kaggle主页顶部的数据集标签直接进入这个页面。

数据集搜索

使用“数据集”页面上的搜索框进行搜索不同于在页面顶部进行搜索,您将能够看到页面上的所有搜索结果。

搜索提示

当我写这篇文章的时候,kaggle上的搜索已经支持了一些额外的语法,所以您可以通过下面的限制进行更准确的搜索。

" ":在用双引号将搜索文本括起来后,您可以准确地进行搜索。例如,如果你搜索“巧克力蛋糕”,你会得到关于巧克力蛋糕的结果,但不会有巧克力棒或红色天鹅绒蛋糕。

如何在Kaggle中高效搜索数据集?快吃下这枚安利

+:用加号连接两个搜索词,中间没有空框,您将得到包含第一个单词和第二个单词的搜索结果。搜索“巧克力+蛋糕”会得到巧克力和蛋糕,而不是巧克力蛋糕。

如何在Kaggle中高效搜索数据集?快吃下这枚安利

|:在两个搜索词之间插入这个符号,你会得到第一个词或第二个词的搜索结果。例如,搜索“蛋糕|巧克力”将得到蛋糕或巧克力的结果。

*:如果您正在搜索具有多种拼写的内容,可以使用*进行搜索。例如,如果您搜索“choc*”,结果中将出现以“choc”开头的关键字,如“阻塞”或“阻塞锁”。

如何在Kaggle中高效搜索数据集?快吃下这枚安利

-:在搜索词前添加减号将导致结果不包含该词。例如,搜索“蛋糕-巧克力”将获得与蛋糕相关的结果,但所有含有巧克力的结果都将被阻止。

在搜索结果中进行更详细的搜索

如果你发现太多的结果,浏览器中的页面搜索功能将发挥很大的作用。在大多数网络浏览器中,您可以键入ctrl+f(MAC上的cmd+f),然后在出现的框中输入要进一步搜索的文本。

如何在Kaggle中高效搜索数据集?快吃下这枚安利

将结果分类

您可以用不同的方式对搜索结果进行分类:

热量:这是默认的分类方法。受欢迎程度取决于许多因素,包括整体受欢迎程度和一段时间内的活动增长。

投票数:该排名取决于搜索结果获得的投票数。

更新时间(我推荐这种排序):这种排序是基于最新的更新时间(创建或添加新版本),这是我个人最喜欢的排序。其他人可能更喜欢流行的和旧的数据集,而我更喜欢找到一些新的数据集。此外,我还发现,最近更新数据集的出版商更有可能回答您的问题并对内核发表评论。

如何在Kaggle中高效搜索数据集?快吃下这枚安利

最近的活动:这种排序方法取决于用户最近是否与数据集交互过,例如评估数据集、启动或运行内核。

相关性:这种排名方法取决于搜索结果和查询词之间的相关性。

选定数据集和所有数据集

默认情况下,“数据集”页面仅显示选定的数据集,这些数据集由kaggle团队成员手动挑选,经过详细记录、清理并可供使用。然而,并非所有数据集都是选定的数据集,一些高质量的数据集可能尚未选定。如果您想查看所有数据集,您可以单击页面上“选定”旁边的“全部”选项卡。选择所有数据集后,您可以通过数据集标题旁边是否有灰色选择标签来判断它们是否是选定的数据集。

如何在Kaggle中高效搜索数据集?快吃下这枚安利

数据集标签

找到数据集的另一种方法是使用标签(一个相对较新的特性)。您可以通过两种方式搜索特定的标签。第一种方法是单击数据集列表或数据集页面上的标签,这将返回一系列带有匹配标签的数据集列表。第二是在搜索框中搜索标签。您可以在搜索的单词后添加用单引号括起来的标记:标记名称,即以标记:标记名称的形式。如果标签上有空,记得打出来。

如何在Kaggle中高效搜索数据集?快吃下这枚安利

标签:食物和饮料:搜索带有食物和饮料标签的数据集

标签:互联网::使用互联网标签搜索数据集

一些标签涵盖了广泛的主题,数据发布者将这些标签放在他们自己的数据上,以便于查找。目前,用户没有办法添加自己独特的标签。我建议你可以通过点击搜索结果中的标签进行搜索,而不是输入文本进行搜索,并尝试猜测标签是否存在。

如何在Kaggle中高效搜索数据集?快吃下这枚安利

使用卡格尔主页顶部的搜索框进行搜索

只有在这种情况下,我才会使用kaggle页面顶部的搜索框:搜索我知道已经存在的数据。顶部的搜索框非常方便,但我更喜欢深度搜索时的数据集页面。

使用kaggle页面顶部的搜索栏,您不会得到所有的搜索结果,只会得到前十个搜索结果列表。如果你想快点找到东西,那是非常方便的。如果您正在搜索数据集,您可以在关键字后添加:数据集,这将使您的搜索更加准确。

如何在Kaggle中高效搜索数据集?快吃下这枚安利

这些几乎是我寻找卡格尔数据的建议!如果你想在kaggle上找到一个特定类型的数据,但是你不能一直找到它,记住,你可以随时上传你自己的数据。

雷锋网络人工智能技术综述

via:kaggle的官方博客

雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。

标题:如何在Kaggle中高效搜索数据集?快吃下这枚安利

地址:http://www.hcsbodzyz.com/hcxw/7277.html