机器学习数据集可重复可共享
在模型开发过程中,训练数据和测试数据对开发人员来说非常重要。如何对数据进行版本管理,让训练可重复,开发人员之间数据共享?今天介绍开源的数据版本管理工具Data Version Control(DVC)。 Data Version Control(DVC) DVC一般和Git一起使用,Git用来存储机器学习代码和DVC元数据文件,DVC将数据文件和模型文件存储到类型S3等远程存储上,dvc上传和拉取数据文件像git操作代码文件一样平滑。 安装DVC pip install dvc -i https://pypi.tuna.tsinghua.edu.cn/simple pip install 'dvc[s3]' -i https://pypi.tuna.tsinghua.edu.cn/simple 在项目代码目录dvc初始化 dvc init Initialized DVC repository. You can now commit the changes to git. +---------------------------------------------------------------------+ | | | DVC has enabled anonymous aggregate usage analytics. | | Read the analytics documentation (and how to opt-out) here: | | <https://dvc.org/doc/user-guide/analytics> | | | +---------------------------------------------------------------------+ What's next? ------------ - Check out the documentation: <https://dvc.org/doc> - Get help and share ideas: <https://dvc.