路科验证(Rocker IC)专注于验证系统思想和前沿工程资讯,拥有一支活跃的技术原创团队,著有《芯片验证漫游指南》一书,致力为高校微电子相关专业学生与IC从业人员提供技术食粮。 您可以在手机移动端同步关注微信订阅号“路科验证”或是登录网页www.rockeric.com了解更多资讯。如果您需要联系我们,请发送邮件至 rocker.ic@vip.163.com 。

AI时代:软件已经起飞,硬件还在路上?(续)

上一篇 / 下一篇  2018-12-01 21:23:23 / 个人分类:验证前沿资讯

硬件衡量指标

如果要对某个方案进行优化,那么就必须有可以对解决方案进行充分量化评估的指标。Imagination Technologies的视觉和人工智能产品经理Francisco Socal指出,目前对于机器学习的综合性能评估,我们还没有一个统一的可以用来量化评估的行业基准。例如,对于图形处理的评估,我们可能会有曼哈顿以及T-Rex分数(Manhattan and T-Rex score)来衡量。虽然目前已经有一些神经网络模型出现,但它们绝不具备代表性。Socal也希望明年可以有一个行业认同的测试基准。


对于硬件来说,功耗,性能和面积一直是衡量芯片的关键指标。Rowen说,对于机器学习来说,延迟,数据吞吐量以及功耗是与之相关的重点指标。我们可以简单地通过应用更多并行硬件(parallel hardware)来改善数据吞吐量,但是如何改善延时,就没那么简单了。采用并行硬件的解决方案在某些情况下会有很大帮助,但是由于诸如处理窗口等因素的影响可能会对延时有很多约束和限制。


Socal进一步解释道,从高层次来看,数据吞吐量和功耗确实是衡量机器学习硬件性能的正当指标,就像其他硬件设计一样,这些指标是影响芯片的关键因素。低延时实际上更多的像是一个设计需求,而不是一个设计指标。


对延迟的要求取决于不同的应用场景,有的时候甚至可能容忍以秒计的大延时。例如对于一些实时应用程序,只要数据处理的吞吐量足够大,延时大一点也没什么影响。但是在一些其他应用中,特别是一些人机直接交互或者汽车和机器人等对安全要求非常严格的系统中,我们可能需要将延时控制在毫秒或者数十毫秒以内。


对于机器学习硬件设计来说,还有一些其他指标也值得考虑,比如说,预判的准确度或者设计的前瞻性。


功耗

在一定的算力条件下,功耗是首要考虑的因素之一。Rowen说,功耗通常与成本密切相关,而成本至关重要,尤其是随着工艺的成熟以及产品的大规模应用,成本显得越来越重要。功耗也会影响设备的便携性,我们希望能够将处理器的计算能力应用到任何我们需要的地方。最先进的神经网络引擎(包括处理器,可编程阵列,协处理器)会针对计算模式和神经网络数据类型进行专业化的网络推理设计。其单数据通道消耗的功耗大约会比通用处理器降低100倍左右。


但对于功耗要求来说,还远远不够。Mentor Calypto系统部营销总监Ellie Burns说,许多自动驾驶汽车所耗费的算力大约相当于100台笔记本电脑全速运行时所提供的算力。但是我们几乎不可能给每台汽车配置大约100台笔记本电脑的计算资源,所以必须要降低功耗。这也是目前业界正在努力解决的一个问题。从很长一段时间来看,GPU还是唯一一个适合于机器学习的硬件设备。这就是为什么很多人都在考虑使用高层次综合(High level synthesis)来生成定制化的硬件结构的原因了。


更低的功耗可以衍生出一些新的应用。OneSpin Solutions总裁兼首席执行官Raik Brinkmann表示,中国大约有100万台监控摄像机。每台摄像机每秒大约会生成2.5Mb数据。想象一下,如果我们都在云端完成数据处理,需要消耗巨大的功耗以及需要进行大量的数据传输。我们需要体积更小,价格更便宜,功耗更低的设备。为此我们引入了新的硬件架构。由于数据需要不断传输,常用的硬件架构存在着功耗瓶颈。我们试图设计一种新的架构使其能够降低硬件的功耗或者减少网络中数据的传输。


机器学习的硬件设计中功耗问题是设计权衡中最重要的因素之一,而数据带宽则是限制其硬件设计的标准之一。


Socal补充说到,由于需要将大量数据加载到硬件加速器中来运行网络推理,所以运算神经网络需要很高的数据带宽。从系数或者权重,输入输出数据大小的角度来看,随着神经网络模型规模的增加,比如,如今的端到端(end to end)以及一体化(all in one)的神经网络模型,内存带宽的需求也会增加。这些都给SoC设计人员以及原始设备制造商(OEM)带来了更高的挑战。对外部存储器的高带宽需求,需要使用更快的存储器模块来满足,这显然价格会更昂贵,功耗会更大。许多机器学习硬件设计的解决方案一般不会受到运算引擎的计算能力的限制。但是可能会受到硬件性能的限制,比如说,系统为神经网络加速器提供高数据带宽的能力。


Lanza TechVentures的董事总经理Lucio Lanza补充说,优化机器学习硬件设计的一个主要方面就是保持给处理器单元的数据供应能力,即处理器的占用率。这些涉及到延迟以及数据吞吐量的设计。随着摩尔定律的失效,我们可能会看到更多的面向单任务的芯片,并且有逐步向单指令,多数据(SMID)发展,抛弃多指令,多数据(MIMD)的趋势。


功耗会影响设计的很多方面,Lattice Semiconductor的营销高级主管Deepak Boppana说,由于电池电源和冷却系统的限制,会对功耗产生更严格的要求。低成本和小尺寸的设计要求使得芯片很难使用具有大量引脚的封装形式,这些都会限制外部DRAM的带宽。即使有这些限制,大多数应用还是需要进行实时操作。


准确度

准确度在统计过程中意味着什么呢?Mentor的Allen说,对于机器视觉来说,没有一个明确的算法和解释,我们可以尝试看一下错视(Optical illusion)图,显然它允许我们以不同的视角来解释图上的这些东西。不同的人可能看到的是不同的东西,并没有百分百正确的答案。这个例子比演绎(deductive)的方式更具有归纳性(inductive)。如果你能在使用训练数据进行测试时获得97%的准确率,该算法和硬件的表现就是非常好了。


与其他评价指标一样,我们不能太绝对依赖某一指标。Cadence的Tensilica Vision DSP产品线产品营销总监Pulin Desai指出,汽车电子和消费电子在准确度方面有着截然不同的最终目标。汽车电子中,我们需要确保其始终是一种安全的设备,因此其需要很高的准确度。但是在消费电子中,我们可能会设计低功耗模式和正常工作模式。在待机时,我们希望最大限度地省电,但是在正常工作时我们希望能够提高功耗来获取更大的性能效果。


设计的前瞻性

机器学习正在迅速发展。Cooper说,世界正在快速发展,我们必须要考虑到产品的易用性和前瞻性。即使目前我们的硬件设计已经做的非常优秀了,但是也有可能在以后达不到我们的预期目标。所以我们必须确保无论我们现在做的是什么,在以后都会有用得到的地方。我们当前的硬件设计工作与集成我们芯片的产品之间有着密切的联系。从整个产品的生命周期来看,我们所做的设计工作还处于整个周期的早期阶段,还需要持续很长一段时间。


Desai也有着类似的观点。例如我们今天设计的芯片有可能于2019年投入生产,并在2021年集成进汽车里面。当然,芯片被应用在哪些领域取决于细分市场。但是芯片的可编程性有助于提供更大的灵活性。我们可以开发硬件加速器,来实现最佳的解决方案,但是其不能很好地随着技术发展而发展。专用加速器核心或许还可以为CPU/GPU组合解决方案提供更好的性能和功耗选择。


但是某些应用无法承担针对更高性能或者更低功耗的需求去重新设计硬件的这种方式。Burns认为,随着时间的推移,我们将有可能看到将硬件和软件结合起来的解决方案。


弥合软硬件之间的分离

缩小软硬件之间的鸿沟更多的可能是硬件人员的职责。软件已经处于领先地位了,该行业可以很容易地就让投资者看到其投资的合理性。硬件可能还不习惯于这种位置,但是如果投资者们想要看到硬件的变化,他们只能开始进行投资。


原文来自于Semiengineering“Machine Learning’s Growing Divide

https://semiengineering.com/machine-learnings-growing-divide/



TAG:

 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

路科验证

路科验证

路科验证(Rocker IC)专注于验证系统思想和前沿工程资讯,拥有一支活跃的技术原创团队,为高校微电子相关专业学生与IC从业人员提供技术食粮。 您可以在手机移动端同步关注微信订阅号“路科验证”。如果您需要联系我们,请发送邮件至 rocker.ic@vip.163.com 。

日历

« 2018-12-13  
      1
2345678
9101112131415
16171819202122
23242526272829
3031     

数据统计

  • 访问量: 199207
  • 日志数: 268
  • 建立时间: 2016-06-25
  • 更新时间: 2018-12-09

RSS订阅

Open Toolbar
博聚网