大浪淘沙,风起帆扬
  文章分类
DataMeasurementsTool介绍 DataMeasurementsTool介绍
资源 翻译自 Huggingface Blog 在线工具 GitHub 引子随着机器学习数据集统一平台的快速发展(Lhoest et al. 2021),HuggingFace团队开始探索如何管理数据集文档(McMillan-Major
2022-02-05
bigbird长文本预训练模型介绍 bigbird长文本预训练模型介绍
本博客翻译自huggingface blog。 文末有惊喜 前言基于Transformer的模型已经被证明了在许多NLP任务中的价值,但这类模型的时间复杂度、内存使用复杂度都是$n^2$(n为序列长度),因此当序列长度超过常规的512时
2021-12-12
Transformers仓库做语言生成的解码方法介绍 Transformers仓库做语言生成的解码方法介绍
本博客翻译自huggingface blog 简介最近几年,以OpenAI公司的GPT3为代表,基于transformer结构的大模型都已经开始在上百万级别的网页上面训练。因此大家对开放领域语言生成的期待值也越来越高。开放领域的条件语言
2021-11-08
谁说torchtext不能做多标签任务 谁说torchtext不能做多标签任务
背景最近刷到一篇博客,吐槽torchtext不能做多标签任务,特来为torchtext鸣不平,看好,我要用torchtext做多标签任务了。 简要 解读 torchtext库,做多标签任务 实践 textcnn模型,跑百度事件多标签比赛
2021-10-24
转载:人工智能能否实现? 转载:人工智能能否实现?
以下通篇转载自http://fancyerii.github.io/2019/03/14/philosophy/ 本文讨论人工智能是否可以实现这个哲学问题。本文是《深度学习理论与实战:提高篇》的一章,更多内容请点击深度学习理论与实战:
2021-10-18
分享CML工具在github上的一个原创例子 分享CML工具在github上的一个原创例子
标签MLOPS,CML,ONNX,textcnn,CLUE,Continuous 简要 开源一个使用CML工具的原创例子。 在github的actions中,训练和批测iflytek数据集,批测准确率55%,onnx加速后,在github的
2021-10-15
.li域名注册教程 .li域名注册教程
简要本文记录了在列支敦士登公国注册.li域名,用于个人博客的踩坑过程,仅供参考。 引子 为什么要制作独立博客相比较公众号, 知乎专栏, 小密圈等平台,独立博客,因为有属于自己的域名,可以自由的排版,自由地说话。更重要的是,有一种尽在掌握的
2021-09-25
Transformers仓库解读之一DataCollator Transformers仓库解读之一DataCollator
简要上接Transformers仓库解读之序,对transformers库中的DataCollator的子类进行调用介绍 DataCollatortransformers的DataCollator的几个类,都是用于对原始数据集进行前处理
2021-09-25
Transformers仓库解读之序 Transformers仓库解读之序
Transformers仓库是HuggingFace公司开源的非常火的预训练模型仓库,它把预训练模型处理的流程抽象包装成了高级的api接口,非常适合掉包侠快速使用。但如果是新手第一次分析源码,拆开一步步的功能的话,是有一定学习成本的。而且仓
2021-09-18
python服务镜像编译so python服务镜像编译so
为什么要编译so 源码安全: 当服务部署后,别人很容易进入docker容器内部,对你的py脚本一览无余。 即使py脚本编译pyc再部署,也是可以很轻易反编译的。但是若编译成so文件,反编译成本就非常高了。 什么是so文件Unix系統下
2021-03-18
2 / 3