12秒内AI在手机上完成作画!谷歌提出扩散模型推理加速新方法
声明:本文来自于微信公众号 量子位 (ID:QbitAI),明敏 发自 凹非寺 ,授权站长之家转载发布。
只需12秒,只凭手机自己的算力,就能拿Stable Diffusion生成一张图像。
而且是完成了20次迭代的那种。
(相关资料图)
要知道,现在的扩散模型基本都超过了10亿参数,想要快速生成一张图片,要么基于云计算,要么就是要本地硬件够强大了。
而随着大模型应用逐渐普及开来,在个人电脑、手机上跑大模型很可能是未来的新趋势。
由此,谷歌的研究员们带来了这篇新成果,名字就叫Speed is all you need:通过GPU优化加速大规模扩散模型在设备上的推理速度。
三步走优化加速
该方法是针对Stable Diffusion来做的优化,但同时也能适应其他扩散模型。面向的任务是从文本生成图像。
具体优化可以分成三个部分:
设计专门的内核
提升Attention模型效率
Winograd卷积加速
首先来看专门设计的内核,它包括了组归一化和GELU激活函数。
组归一化是在整个UNet体系结构中实现,这种归一化的工作原理是将特征映射的通道划分为更小的组,并对每个组独立归一,使组归一化较少依赖于批大小,并且能适应更大范围的批处理大小和网络架构。
研究人员以GPU着色器(shader)的形式设计了一个独特的核,能在没有任何中间张量的情况下,在单个GPU命令中执行所有内核。
GELU激活函数中,包含大量的数值计算,如惩罚、高斯误差函数等。
通过一个专用着色器来整合这些数值计算以及伴随的分割和乘法操作,使得这些计算能放在一个简单的draw call里。
Draw call是CPU调用图像编程接口,命令GPU进行渲染的操作。
接下来,到了提升Attention模型效率方面,论文介绍了两种优化方法。
其一是部分融合softmax函数。
为了避免在大矩阵A上执行整个softmax计算,该研究设计了一个GPU着色器来计算L和S向量以减少计算,最终得到一个大小为N×2的张量。然后将softmax计算和矩阵V的矩阵乘法融合。
这种方法大幅减少了中间程序的内存占用张量和总体延迟。
需要强调的是从A到L、S的计算映射的并行是有限的,因为结果张量中的元素比输入张量A中的元素数量要少得多。
为了增加并行、进一步降低延迟,该研究将A中的元素组成block,将归约操作(reduction operations)切分为多个部分进行。
然后在每个block上执行计算,然后将其简化为最终结果。
利用精心设计的线程和内存缓存管理,可以在多个部分实现使用单个GPU命令降低延迟。
另一种优化方法是FlashAttention。
这是去年火起来的IO感知精确注意力算法,具体有两种加速技术:按块递增计算即平铺、并在后向传递中重新计算注意力,将所有注意力操作融合到CUDA内核中。
相较于标准Attention,这种方法能减少HBM(高带宽内存)访问,提高整体效率。
不过FlashAttention内核的缓存器密集度非常高(register-intensive),所以该团队是有选择性地使用这一优化方法。
他们在注意力矩阵d=40的Adreno GPU和Apple GPU上使用FlashAttention,其他情况下使用部分融合softmax函数。
第三部分是Winograd卷积加速。
它的原理简单来说就是使用更多的加法计算来减少乘法计算,从而降低计算量。
但弊端也很明显,将会带来更多的显存消耗和数值错误,尤其是在tile比较大的情况时。
Stable Diffusion的主干非常依赖3×3卷积层,尤其是在图像解码器方面,这里90%的层都是由3×3卷积层构成的。
研究人员分析后发现,在使用4×4大小的tile时,是模型计算效率和显存利用率的最佳平衡点。
实验结果
为了评估提升效果,研究人员先在手机上进行了基准测试。
结果表明,两部手机在使用了加速算法后,生成图片的速度都明显提升。
其中三星S23Ultra的延迟降低了52.2%,iPhone14Pro Max上的延迟降低了32.9%。
在三星S23Ultra上端到端从文本生成一张512×512像素的图片,迭代20次,耗时在12秒以内。
论文地址:
https://arxiv.org/abs/2304.11267
(举报)
标签:
精彩推送
12秒内AI在手机上完成作画!谷歌提出扩散模型推理加速新方法
只需12秒,只凭手机自己的算力,就能拿Stable+Diffusion生成一张图像。且是完成了20次迭代的那种。在三星S2
第一针新冠疫苗和第二针间隔多久_第一针新冠疫苗和第二针间隔时间 天天快看
欢迎观看本篇文章,小升来为大家解答以上问题。第一针新冠疫苗和第二针间隔多久,第一针新冠疫苗和第二针间
全球微头条丨Mysql的timestamp时间戳详解及2038问题
本文主要介绍了Mysql的timestamp时间戳详解及2038问题,文中通过示例代码介绍的非常详细,对大家的学习或者
0cr19ni10nbn是什么材质_0Cr18Ni10Ti Q是什么材质 环球看热讯
1、对应牌号“321”,是Ni-Cr-Mo型奥氏体不锈钢。2、其性能与“304”非常相似,但是由于加入了金属钛,...
新闻快讯
新闻快讯
- 12秒内AI在手机上完成作画!谷歌提出扩散模型推理加速新方法
- 每日视点!中国海军南宁舰、微山湖舰紧急撤离我在苏丹人员
- 【全球热闻】多地试水发放数字人民币工资 专家建议普及关键在“好用”
- 转载 | 基于词嵌入技术的心理学研究: 方法及应用
- 第一针新冠疫苗和第二针间隔多久_第一针新冠疫苗和第二针间隔时间 天天快看
- 全球微头条丨Mysql的timestamp时间戳详解及2038问题
- 45+3等于几_45的1 3 是多少 列式是_ 结果是_|环球短讯
- 0cr19ni10nbn是什么材质_0Cr18Ni10Ti Q是什么材质 环球看热讯
- 发簪
- 【热闻】建设银行手机银行转账限额_建设银行手机银行
- 超越传统辅导:作业帮智能辅导机的实际效果评测
- 环球快播:“五一”临近,各地密集发放消费券,你领了吗
- 【全球新视野】巨人城废墟自爆幽灵-自爆幽灵
- 马卡:巴萨与马竞在1月份签署协议,可花费1900万欧签卡拉斯科 天天新资讯
- 北京 焦点速读
- 热消息:撑大肚子6
- 共促政企应用现代化 多方助力数字中国高质量落地
- 头条焦点:国家发改委组织召开促进中部地区崛起工作部际联席会议
- 海天味业“翻车” ,上市以来首次!| 年报解码㉓
- 人工智能处于萌生自我意识的边缘?AMCS 公开信呼吁采取行动
- 4月27日山东地区顺酐市场行情下行|天天讯息
- 全球今亮点!百元股数量达158只 一日增加3只
- 恒大汽车2块钱甩卖地产项目给中国恒大,业内:此举为恒大汽车减负同时或可推动债权人“债转股”|速读
- 周六福黄金价格今天多少一克(2023年04月27日)参考价格-每日快讯
- 我的地盘周杰伦在线试听 我的地盘在元末
- 2425万元大奖得主原来是他!“中奖号我才守了2期”
- 全球即时看!仔猪大涨、饲料猛增!陶一山再度预警:按老经验养猪,死路一条!
- 青藏高原生态有了保护法 环球微动态
- 现代市场营销_关于现代市场营销介绍
- 亿欧智库发布《2022年中国储能产业发展研究报告》|天天观速讯
- 天天看点:三门峡市投资集团完成发行5亿元超短融,票面利率3.2%
- 2023年汕头二模试卷及各科参考答案详解!
- 重点聚焦!上海癫痫病治疗排名_【癫痫】上海治疗癫痫病医院哪个好?
- 阿诺德·克拉克凭借两个新的起亚特许经营权和一家宝马经销店的开业而成长-要闻速递
- 天津严厉打击消费领域侵权假冒违法行为 侵犯注册商标专用权典型案例曝光
- “双第一”!江苏银行荣获江苏金融类省属企业综合考核第一等次 焦点信息
- 世界热议:标普确认小米集团"BBB-"长期发行人信用评级 展望下调至稳定
- 《量子破碎》游戏更新许可证,重返微软 XGP 订阅库 |观速讯
- 离开赵本山后拿影帝,范伟的电影和人生以余味定输赢 天天实时
- 3-0横扫日本张本智和,全国冠军3-2逆转,非洲一哥3-2逆转 全球速讯
- 人类的群星闪耀时好词好句好段摘抄_人类的群星闪耀时好词好句|环球通讯
- 新产品批量沦为“迷你”基 公募“上新”仍需控制节奏
- 4月27日重点数据和大事件前瞻_每日观点
- 【天天聚看点】忆旧游·九月十八日独游惠麓 寄畅园
- 每日观察!上海医药:一季度实现营收662.26亿元 同比增长逾16%
- 当前速读:惊了!10几万,买这车当家用MPV
- 当前速讯:潘云峰简介_潘阿峰
- 经济实惠!申花开局三场1-0,收获三连胜-环球热资讯
- 华西证券:给予天奈科技增持评级|焦点关注
- 糖价“涨”声继续 机构称未来走势需关注三大因素