字体
关灯
   存书签 书架管理 返回目录
  
网址改成为 m.011bz.cc 请牢记

第255章 美**惑 (第1/4页)

    此章节稍后订阅由于断网可能会赶不上全勤所以复制了一些乱七八糟的东西明天之前就会改正

    teextptfor评论称,tp并不复杂,看上去更像是雷达应用的信号处理引擎,而不是标准的x86衍生架构。jopp说,虽然tp有很多矩阵乘法单元,但tp比“gp在思路上更接近浮点单元协处理器”,tp没有任何存储程序,仅执行从主机发送的指令。

    由于要获取大量的权重并将这些权重送到矩阵乘法单元,tp上的dr是作为一个独立的单元并行运行。同时,矩阵乘法单元通过减少统一缓冲区的读写降低能耗,也就是进行所谓的“脉动运行”(sstolexeto)。

    tp有两个内存,还有一个用于存储模型中参数的外部dr。参数进来以后,从矩阵乘法单元的上层开始加载。同时,可以从左边加载激活,也就是“神经元”的输出。这些都以“sstol”脉动的方式进入矩阵单元,然后进行矩阵相乘,每个周期可以做64,000次累积。

    鉴于大多数使用机器学习的公司(除了febook)都使用p做推理,因此谷歌tp论文将英特尔“sell”xeoe5v3处理器和tp做了对比,而且从数据可以看出,后者在多维度推理方面性能远超前者。teextptfor也由此评论,难怪用惯了x86处理器集群做机器学习的谷歌要自己研发一款新的芯片做推理。

    在谷歌的测试中,使用64位浮点数学运算器的18核sellxeoe5-2699v3处理器,以23g运行的情况下每秒能够处理13s(每秒万亿次运算),提供51gb/秒的内存带宽,sell芯片的能耗是145瓦,系统(包括了256gb的内存)繁忙时耗能455瓦特。

    相比之下,tp使用8位整数数学运算器,拥有256gb的主机内存和32gb的自身内存,片上内存带宽34gb/秒,峰值92s,推理吞吐量高了71倍,而托管tp的服务器的热功率为384瓦

-->>(第1/4页)(本章未完,请点击下一页继续阅读)
上一章 目录 下一页