分享CML工具在github上的一个原创例子


标签

MLOPS,CML,ONNX,textcnn,CLUE,Continuous

简要

  • 开源一个使用CML工具的原创例子。
  • 在github的actions中,训练和批测iflytek数据集,批测准确率55%,onnx加速后,在github的action分配的资源中,单核cpu单条预测2-4ms

开源地址

CML

CML是什么

CML(Continuous Machine Learning)是Iterative.ai公司研发的一款开源工具,是在CICD中实现MLOPS(持续机器学习)的关键一步。当提交代码触发github的action或gitlab的pipeline时,可以自动把流水线上算法训练评测的关键指标通过markdown报告、图片甚至TensorBoard的形式存入commit信息中,如本项目所示。

链接地址

为什么要做持续机器学习

网上有很多介绍材料,这里不再赘述,仅谈一下对我个人的实际意义

  1. 记录每个迭代commit版本,算法指标信息;
  2. 流水线中统一的资源条件(私有化runner);
  3. 在多分支合作开发中,合入代码的指标信息供合入管理员参考。

textcnn模型

仅使用textcnn模型,加载开源词向量sgns.merge.word中训练集出现过的词的词向量矩阵,训练和评测著名榜单CLUE中的iflytek数据集,验证集准确率最高至55%,借助ONNX加速,单核cpu单条推断平均用时仅2-4ms(github服务器实际可用资源可能受到高峰期影响),相比较12层以上的transformers模型,例如CLUE上github首页的RoBERTa-wwm-ext(60.31%),有很高的生产落地价值。

参考致谢

  1. CLUE
  2. cml
  3. cml.dev
  4. onnx
  5. textcnn
  6. word2vec


文章作者: 金属成色
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 金属成色 !
评论
 上一篇
转载:人工智能能否实现? 转载:人工智能能否实现?
以下通篇转载自http://fancyerii.github.io/2019/03/14/philosophy/ 本文讨论人工智能是否可以实现这个哲学问题。本文是《深度学习理论与实战:提高篇》的一章,更多内容请点击深度学习理论与实战:
2021-10-18
下一篇 
.li域名注册教程 .li域名注册教程
简要本文记录了在列支敦士登公国注册.li域名,用于个人博客的踩坑过程,仅供参考。
2021-09-25
  目录