2008年初,阿里达摩院发布《达摩院2020年十大技术趋势》,其中预测的趋势二是:计算与存储的融合突破AI计算能力瓶颈。
冯诺依曼架构中存储和计算的分离不再适合数据驱动的人工智能应用。频繁的数据处理所带来的计算能力和功耗的瓶颈,已经成为探索更先进算法的限制因素。内存计算架构类似于大脑神经结构,集成了数据存储单元和计算单元,可以显著减少数据处理,大幅提高计算并行性和能效。硬件架构上存储集成的创新,将突破AI计算能力的瓶颈。
事实上,类脑处理器的研究一直在进行。近日,清华大学微电子研究所、未来芯片技术高级创新中心的何谦教授和吴华强教授及其合作者在《自然》杂志在线发表研究论文,报告了基于忆阻器阵列芯片的卷积网络的完整硬件实现。其处理卷积神经网络的能效比GPU芯片高两个数量级,大大提高了计算设备的计算能力,以更低的功耗和更低的硬件成本成功实现了复杂计算。
很多人看到忆阻器可能就蒙了,先解释一下。忆阻器,全称记忆电阻器,是一种代表磁通量与电荷关系的电路器件。它是一个具有记忆功能的非线性电阻。可以通过控制电流的变化来改变电阻值。如果将高阻值定义为“1”,低阻值定义为“0”,那么电阻就可以实现数据存储的功能,实际上是一个具有记忆功能的非线性电阻。用常见的水管做比喻。当电流是通过的水量,阻力是水管的粗细时,当水流向一个方向时,水管会随着水流越来越粗。此时,如果关闭水流,水管粗细不变;反之,当水流方向相反时,水管会越来越细。这种元件被称为忆阻器,因为它会“记住”之前的电流量。忆阻器由于体积小,能耗低,可以很好地存储和处理信息。忆阻器的工作量相当于一个CPU芯片中十几个晶体管的效用。
清华的团队实现了具有高能效比和高性能均匀忆阻器交叉阵列的CNN,其中集成了8个PE,每个PE包含2048个忆阻器阵列,以提高并行计算效率。此外,研究人员还提出了一种高效的混合训练方法,以适应设备缺陷,提高整个系统的性能。研究人员构建了一个基于忆阻器的五层CNN来执行MNIST图像识别任务,识别准确率超过96%。
除了使用不同的卷积核对共享输入执行并行卷积之外,忆阻器阵列还复制多个相同的卷积核以并行处理不同的输入。与目前的最优图形处理器相比,基于忆阻器的CNN神经形态系统的能量效率高出一个数量级,并且实验证明该系统可以扩展到大型网络,比如残差神经网络。该结果可能会促进为深度神经网络和边缘计算提供基于忆阻器的非冯诺依曼硬件解决方案。卷积神经网络在处理时的能量效率比GPU芯片高两个数量级,大大提高了计算设备的计算能力,成功实现了以更低的功耗和更低的硬件成本完成复杂计算。