标签
MLOPS,CML,ONNX,textcnn,CLUE,Continuous
简要
- 开源一个使用
CML
工具的原创例子。 - 在github的
actions
中,训练和批测iflytek
数据集,批测准确率55%
,onnx加速后,在github的action分配的资源中,单核cpu单条预测2-4ms
。
CML
CML是什么
CML(Continuous Machine Learning)是Iterative.ai公司研发的一款开源工具,是在CICD
中实现MLOPS
(持续机器学习)的关键一步。当提交代码触发github的action或gitlab的pipeline时,可以自动把流水线上算法训练评测的关键指标通过markdown报告、图片甚至TensorBoard的形式存入commit信息中,如本项目所示。
为什么要做持续机器学习
网上有很多介绍材料,这里不再赘述,仅谈一下对我个人的实际意义
- 记录每个迭代commit版本,算法指标信息;
- 流水线中统一的资源条件(私有化runner);
- 在多分支合作开发中,合入代码的指标信息供合入管理员参考。
textcnn模型
仅使用textcnn模型,加载开源词向量sgns.merge.word中训练集出现过的词的词向量矩阵,训练和评测著名榜单CLUE中的iflytek数据集,验证集准确率最高至55%
,借助ONNX加速,单核cpu单条推断平均用时仅2-4ms(github服务器实际可用资源可能受到高峰期影响),相比较12层以上的transformers模型,例如CLUE上github首页的RoBERTa-wwm-ext(60.31%)
,有很高的生产落地价值。