CPU 算法训练深度神经网络比 GPU 快 15 倍

标签: cpu 算法 训练 | 发表时间:2021-04-11 20:18 | 作者:
出处:https://www.solidot.org
AI 的一大瓶颈是训练成本,深度神经网络(DNN)的训练通常是一系列矩阵乘法操作,这是 GPU 非常擅长的工作,但 GPU 尤其是专业级显卡要比 CPU 昂贵得多。Rice 大学的计算机科学家和英特尔的研究人员从 2019 年就开始探讨使用 CPU 训练深度神经网络,他们采取的方法是将 DNN 训练转变成能用哈希表解决的搜索问题,他们的 "sub-linear deep learning engine" (SLIDE) 设计运行在商业 CPU 上。2019 年的 研究显示,SLIDE  训练所需时间为 GPU 的 2/7。现在,研究人员利用现代 CPU 的向量化和内存优化加速器 改进了 SLIDE 的性能,用 CPU 算法训练深度神经网络比 GPU 快 15 倍。他们的 代码发布在 GitHub 上。

相关 [cpu 算法 训练] 推荐:

CPU 算法训练深度神经网络比 GPU 快 15 倍

- - 奇客Solidot–传递最新科技情报
AI 的一大瓶颈是训练成本,深度神经网络(DNN)的训练通常是一系列矩阵乘法操作,这是 GPU 非常擅长的工作,但 GPU 尤其是专业级显卡要比 CPU 昂贵得多. Rice 大学的计算机科学家和英特尔的研究人员从 2019 年就开始探讨使用 CPU 训练深度神经网络,他们采取的方法是将 DNN 训练转变成能用哈希表解决的搜索问题,他们的 "sub-linear deep learning engine" (SLIDE) 设计运行在商业 CPU 上.

8086 CPU 寄存器简介

- 田野 - 博客园-首页原创精华区
打算写几篇稍近底层或者说是基础的博文,浅要介绍或者说是回顾一些基础知识,. 自然,还是得从最基础的开始,那就从汇编语言开刀吧,. 从汇编语言开刀的话,我们必须还先要了解一些其他东西,. 像  CPU ,内存这些知识点还是理解深刻一点的比较好,. 所以这一篇博文就绕着 80x86  CPU 中寄存器的基础部分下手,至于其他的一些将会在后续的博文中介绍.

CPU架构:i386,x86,AMD64

- - 脚本爱好者
IA32 : 32 bits Intel Architecture (32位带宽Intel构架). IA64 : 64 bits Intel Architecture (64位带宽Intel构架). i386 : Intel 386 ( 老的386机器,也泛指IA32体系的CPU). i586 : Intel 586 ( Pentium ,K6 级别CPU ).

从Java视角理解CPU缓存(CPU Cache)

- - 淘宝网通用产品团队博客
从Java视角理解系统结构连载, 关注我的微博( 链接)了解最新动态众所周知, CPU是计算机的大脑, 它负责执行程序的指令; 内存负责存数据, 包括程序自身数据. 同样大家都知道, 内存比CPU慢很多. 其实在30年前, CPU的频率和内存总线的频率在同一个级别, 访问内存只比访问CPU寄存器慢一点儿.

Leetcode 编程训练

- - 酷 壳 - CoolShell.cn
Leetcode这个网站上的题都是一些经典的公司用来面试应聘者的面试题,很多人通过刷这些题来应聘一些喜欢面试算法的公司,比如:Google、微软、Facebook、Amazon之类的这些公司,基本上是应试教育的功利主义. 我做这些题目的不是为了要去应聘这些公司,而是为了锻炼一下自己的算法和编程能力.

GPU对战CPU,试验出真知

- nasachn - IFLONELY
MythBusters的两个科学怪才的牛做. 新奇图片搜索引擎Sprixi.

Erlang监测系统CPU、内存、磁盘

- chuang - Jobin的主页
Erlang的os_mon服务中提供了一些用于监测系统信息的服务. cpu_sup:监测CPU负载和使用率(Unix). disksup:监测磁盘(Unix、Windows). memsup:监测内存(Unix、Windows、VxWorks). os_sup:监测系统日志(Solaris、Windows).

[视频]蜘蛛为高通CPU充电

- Shiming - cnBeta.COM
不过高通处理器最近的一则广告却暗示我们,他们的处理器是最省电的广告向我们展示了一个小小的昆虫马戏团的忙碌工作过程:螳螂、蜘蛛、蝎子(好吧这俩货都不是昆虫)、甲虫用自己的绵薄之力成功驱动了发电机,并成功为一台内置了Snapdragon处理器的Android手机充满了电.

Java定位CPU使用100%的方法

- cong - 龙浩的blog
流程:把线程dump出来,然后分析. 1:Threaddump的方法:. jvisualvm中来thread dump.  对应的线程id是十进制的,需要转换为十六进制的在threaddump文件中才可以看到. 找到对应的线程,把相关的方法找出来,可以精确到代码的行号,自己修改相关源码来fix bug.

CPU缓存刷新的误解

- - 并发编程网 - ifeve.com
原文地址  作者: Mechanical Sympathy  译者:潘曦  校对: Simon-SZ ,方腾飞. 即使是资深的技术人员,我经常听到他们谈论某些操作是如何导致一个CPU缓存的刷新. 看来这是关于CPU缓存如何工作和缓存子系统如何与执行核心交互的一个常见误区. 本文将致力于解释CPU缓存的功能以及执行程序指令的CPU核心如何与缓存交互.