示例数据集
本指南系列中的操作示例都是基于同一个示例数据集。该数据集包含了从 2020 年 1 月至 2020 年 8 月期间在各知名出版物上发表的 5000 多篇 Medium 文章的详细信息。
获取数据集
数据集存放在公共 S3 存储桶中,您可以通过以下命令下载文件:
curl https://assets.zilliz.com/medium_articles_2020_dpr_a13e0377ae.json \
--output medium_articles_2020_dpr.json
# 输出:
#
# % Total % Received % Xferd Average Speed Time Time Time Current
# Dload Upload Total Spent Left Speed
# 100 60.4M 100 60.4M 0 0 12.8M 0 0:00:04 0:00:04 --:--:-- 12.9M
有关数据集的更多信息,请访问 Kaggle 相关页面。
数据集 Schema
数据集中的记录具有 8 个共同属性。创建 Collection 时,请以此表作为参考。
字段名 | 类型 | 属性 |
---|---|---|
| INT64 | N/A |
| FLOAT_VECTOR | 维度:768 |
| VARCHAR | 最大长度:512 |
| VARCHAR | 最大长度:512 |
| INT64 | N/A |
| VARCHAR | 最大长度:512 |
| INT64 | N/A |
| INT64 | N/A |