模型蒸馏,谷歌新蒸馏法火了
深度学习模型太大怎么办?
你好。谢邀。首先模型太大的影响可以分为:训练阶段(training)和预测阶段(inference)。不同的阶段解决的方式不太一样。以下就从这两个方面来回答这个问题。训练阶段选择这么大的模型是否合理?是否有等价方案?例如在语音合成方面WaveNet可以是几十层的CNN结构,而WaveRNN仅仅有一层GRU单元,但最终在合成性能上却取得了相近的结果,这就是说如果你一开始经过了充分的调研分析,并且找到一种更优的结构就能从根本上避免模型过大问题的产生。
简单感受下下面两张图,也许你就会认识到充分调研,仔细选取模型的重要性。使用GPU进行训练GPU的多核架构决定了它的计算吞吐量远超过传统CPU。在经济条件允许的条件下选用算力强大的GPU,显然能够在模型大小不变的情况下提供更强的算力支持。使用集群和云资源进行训练目前tensorflow、mxnet、paddle都支持云上训练和集群训练,只需要简单配置就能实现多机多卡训练,显然使用多台服务器能够更快的将数据处理完,极大的加速训练过程。
使用集合通信机制和更先进的网络互连技术采用Nvidia ncll 或其他框架提供的All-reduce等集合算子可以极大的加快反向传播的梯度计算和损失回传,多机能够快速的实现数据同步。同时使用RDMA传输技术也显然要比采用传统TCP有更高效的数据交互能力,通过减少数据传输损耗降低计算延迟来加快深度学习的训练。
其他优化这里涉及到具体的代码书写,降低内存缺页,数据读写等待等计算机常用优化方法来加快代码的运行速度,从而提高训练速度。预测阶段预测阶段也有很多种方法来做到减小模型大小和运算速度的方法。模型量化通过更少的比特位(bit)来表示模型权重,显然能够成比例的将模型变小。目前8bit量化已经使用的比较多了,2bit量化或者0-1量化也被一些模型所采用。
模型裁剪通过将接近于0的权重值进行裁剪可以有效的减小网络规模和计算量。模型蒸馏distilling model又叫teacher student model,损失函数通过hard target和soft target ce loss共同作用,从而训练出一个比原始teacher 模型小的多的student model,从而可以部署的资源更小的端上。
使用tensorrt等更加快速的推理框架这些框架都经过高度优化,显然具备更高的运算性能,数据吞吐量成倍增加。大模型的推理速度显然能够显著提高。计算图优化任何神经网络最终都可以表示成图的形式,图优化的各种算法都能应用于神经网络的优化,通过构建更小的计算图,减少分支等来加速大模型的运算。并行及指令优化通过多进程,多线程,使用向量指令等技术充分利用单指令多数据,或者多指令多数据优势加快计算优势。
本文地址:http://www.xs.55jiaoyu.com/show-738671.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦
推荐文档
- 11.往年大连中考满分是多少
- 12.为什么说学播音毁一生,原因有哪些
- 13.淘宝店铺的优质好评语大全
- 14.考研可改变第一学历吗、专科考研可以改变第一学历吗
- 15.民学网查出的学历国家承认吗(民学网查出的学历国家承认吗是真的吗)
- 16.往年轻薄商务笔记本电脑推荐-商务轻薄本性价比排行
- 17.承德护理职业学院(承德护理职业学院2023年招生计划)
- 18.wreak是什么意思wreak的翻译(wake,area是什么意思中文翻译)
- 19.电子科技大学A+类学科名单有哪些(含A、B、C类学科名单)
- 20.systematic是什么意思systematic的翻译(systematically是什么意思中文翻译)
- 21.leant是什么意思leant的翻译(lean,on什么意思中文意思)
- 22.华南农业大学是几本大学,华南农业大学是一本还是二本
- 23.包头中考考试科目时间预测安排,包头中考考哪几门考哪些课程
- 24.高考430分能上什么大学,430分高考能报啥学校
- 25.朱自清的散文代表作有什么(朱自清的散文代表作有什么散文集有什么散文诗集有什么)
- 26.浙江有几所大学是985和211,全国985和211大学名单汇总
- 27.i5,1155G7和R5,5600U哪款好-对比评测
- 28.荷兰什么叫-荷兰弟为什么叫荷兰弟,出演蜘蛛侠原因曝光
- 29.警察警衔工资改革新政策及新方案【全文】解读
- 30.电大专科(电大专科毕业论文)
- 31.广东省高级技工学校官网
- 32.广州大学专科
- 33.大连陆军学院,原大连陆军学院校址现在什么是什么学校
- 34.亲们,谁给一份南京大学的研究生招生简章?(河海大学
- 35.他日若遂凌云志全诗及出处
- 36.铜绿的化学式是什么有哪些性质
- 37.「佛山市顺德养正西山学校初中部」往年录取分数线
- 38.公办本科(公办本科和民办本科有什么区别)
- 39.外交学院是名牌大学吗
- 40.往年湖南高考成绩排名一分一段表
- 41.全国有8所烟草院校是哪些(这4所大学门槛低)
- 42.私人垄断资本主义基本概念是私人垄断资本主义
- 43.难以启齿,这8部影片可以一看(性教育适合看的影片)
- 44.美国独立战争的性质爆发战争的原因是什么
- 45.往年东莞市高中排名前十最新
- 46.大朗网络教育(大朗教育)
- 47.往年甘肃省高中排名最好的高中
- 48.逻辑思维训练有哪些方法优秀训练方法推荐
- 49.浙江大学教务管理系统
- 50.人类的动物老师有哪些这属于什么学科
- 51.往年山西高考状元榜_山西历届高考理科状元和文科状元
- 52.往年北京舞蹈学院艺术类招生简章招生人数及专业
- 53.航空最好的5个专业就业前景如何
- 54.太原科技大学怎么样及评价好不好太原科技大学口碑如何
- 55.满招损谦受益这句话的意思是什么出自哪
- 56.舍本逐末发生在什么时期含义是什么
- 57.女孩子首选十大专业什么专业适合女生
- 58.国防生是什么意思指的是什么
- 59.河南省三本学院有哪些2018最新三本院校名单
- 60.往年龙岩高中学校排名榜单龙岩十大优秀高中
- 51.河钢供应链管理平台,致力于建设最具竞争力钢铁企业
- 52.磋商公告与开标时间预测相隔多少,竞争性磋商开标流程
- 53.长春个人求职信息,长春招聘网哪个网站比较权威比较好一点
- 54.低代码开发平台,开源低代码平台
- 55.年金险太坑了,买了600万的年金险
- 56.百老汇电器香港官网(香港百老汇官网首页)
- 57.睡衣洗涤晾晒方法大全,夏天什么面料睡衣舒服
- 58.惠普cq41,206tx,惠普cq41206tx怎么样啊散热好吗还有配置什么的
- 59.铺子利润要怎么算,零食店利润多大
- 60.海尔小神童洗衣机图片,wwwhaiercom我家的电脑自动洗衣机小小神童型号XQBM2312
- 61.竹子林什么时候改造,大力改造低效林
- 62.开标后取消招标怎么办,公开招标废标后
- 63.坝肩是哪里,薅资本主义羊毛
- 64.什么是图书馆专用网,经开区图书馆上线新服务
- 65.王庄路小学叫什么,扬州又将新建一所小学
- 66.旺瑶农贸市场在哪里,新地旺农贸市场
- 67.上马人才公寓什么开工,开建人才公寓筑巢引凤
- 68.我想在医院里送胶片找什么人,衡山医院分集剧情介绍第1
- 69.招标需要什么工作能力,如何做好招标准备工作
- 70.广德县誓节镇海拔多少,流洞桥不仅仅是一座桥

