国芯物联网AI芯片GX8010发布,万物智能时代呼之欲来
更新时间:2017-12-04 12:00:00 来源:
当前,人工智能技术正在飞速发展,在语音识别、图像识别等领域不断取得突破。如何让万物尽快享受到这些技术所带来的成果,让日常生活中的音箱、玩具、家电等产品都能听会说,是我们一直期盼的目标。
昨日,国芯在深圳召开了隆重的产品发布会,发布全新芯片GX8010——搭载NPU的物联网人工智能芯片,它将为各种物联网产品赋能。
国芯针对人工智能与物联网的特点,将算法、软件、硬件深度整合,创新性地采用了NPU、DSP等多项最新技术,推出这款全新的AI芯片,核心目标就是让日常生活中各种产品智能化,都“看得见”、“听得到”、“说得出”。AI芯片里到底有什么,它和传统芯片有何差别,以及各种在物联网上部署人工智能的难点和痛点,GX8010是怎么解决的呢?让我们一起来走进这颗AI芯。
解决痛点一:本地神经网络计算困难
GX8010中内置了国芯自主研发的gxNPU神经网络处理器,它专门为人工智能而定制,针对神经网络加速,解决传统芯片在神经网络运算时效率低下的难题。gxNPU针对物联网人工智能量身定做,支持定点和浮点运算,支持当前主流的各种模型,如DNN、CNN、LSTM等,也可根据算法需要,自由设计和扩展网络结构,自定义运算单元。
为了解决物联网设备中内存带宽小的特点,国芯专门设计了神经网络压缩引擎NCompressor。它能利用神经网络中的数据稀疏特性,压缩计算权重,在几乎不影响精度的情况下,实现6~10倍的压缩效果。神经网络经过压缩后,需要的内存容量和带宽大幅减少,同时运算的速度也得到了提高。针对压缩,国芯还提供编译工具,一键实现模型的量化压缩,通过芯片中的硬件引擎解压,无需重训练和额外处理。
和编译压缩工具一起,国芯还发布了全套神经网络开发SDK,能完成模型从服务器到芯片的部署。第一步,在Tensorflow等平台训练,生成模型的网表文件;第二步,使用gxNPUC进行编译和压缩,生成指令bin文件。最后在芯片上使用gxDNN加速库,将编译的模型在芯片本地运行即可。
考虑到物联网应用中的成本和功耗因素,这一代gxNPU中并没有堆砌非常多的MAC阵列,而是选择了64x64的配置。但在典型应用的性能评测中,gxNPU@200MHz仍然比树莓派中的多核CPU@1GHz,快了近30倍,能效提升100倍以上。
gxNPU与Google TPU、华为麒麟970芯片的NPU有何不同之处呢? Google TPU是应用于服务器上的处理器,它更关注算力的大小,对成本和功耗不是那么敏感。与Google TPU相比,gxNPU针对物联网而设计,增加了神经网络压缩引擎,在计算时需要的内存和带宽更少,功耗更低,更适于在各种物联网产品中部署。而华为的NPU针对手机场景设计。
解决痛点二:AI交互系统复杂,成本高
AI芯片要真正落地,光有NPU还远远不够。整个AI交互是一个非常复杂的过程,除了神经网络计算还包括传感器接入,信号处理,检测识别,以及软件层面的决策和反馈等。环节众多,每一处需要的算法和计算特性还不一样,对此国芯提出了“全面集成,全栈打通”的策略。
以智能语音交互为例,当前语音识别的巨大挑战仍在前端的语音降噪,为了解决噪声和有效语音分离问题,业内引入了麦克风阵列,利用空间信息进行降噪滤波。多个麦克风的引入首先对硬件上的接口就提出了要求,一些传统芯片没有这么多接口只能通过其它器件来扩展。同时多路信号的接入,也使得前端语音处理计算量大增,传统芯片中大家用CPU软解已是十分吃力。
GX8010集成了Cadence Tensilica最高阶的语音DSP Hifi-4,可以高效地进行各种语音信号处理计算。同时GX8010芯片中支持8通道麦克风接口,不仅支持PDM和I2S数字接口,还内置了8路ADC直接支持模拟麦克风。DSP+8通道ADC,这个配置目前在业界还是第一次出现。
除了语音系统外,GX8010还构建了视觉系统,支持1080P摄像头输入,图像预处理,MJPEG编码等模块。
整个芯片采用了多核异构的架构,集成了国芯gxNPU,ARM Cortex A7 CPU,Hifi-4 DSP等多个处理器,其中DSP负责语音信号处理增强、NPU负责深度学习计算、CPU负责软件运行和应用决策控制等。这些模块全面整合在一颗芯片上,构成了一个完整的AI处理系统,实属真正的AI SOC芯片。
GX8010还在通过SIP的方式直接集成了一颗DRAM,整个芯片外围需要的器件极少,整体产品的BOM成本将会大幅降低。尤其在智能音箱、语音交互模块等语音应用领域,具有极高的竞争力。
解决痛点三:功耗大
物联网产品的一大应用难点在于体积较小、场景多样,很多时候需要电池供电,这便对产品的功耗提出了较高的要求。
在动态功耗上,GX8010充分利用多核异构的优势,合理安排每个模块的工作频率和启停时机,可以做到按需使用、用完即停的效果。在典型的语音交互中,GX8010只需要100-200MHz即可完成离线语音识别,DSP工作在300-400MHz即可实现多麦克风阵列处理,CPU更是可以根据系统负荷进行动态调整。据测试,在离线语音交互的场景下全速运行,GX8010的功耗可以做到0.7W以内(包括DRAM)。
待机问题也一直是语音交互设备的难点。因为系统要求待机时仍能被语音唤醒,也就意味着待机时还要做语音采集、降噪、激活词识别等一系列动作。GX8010提出了多级唤醒机制,可以根据是否有声音、是否有人声,是否是关键词这多个等级来做硬件划分,逐级唤醒系统。在待机时,GX8010应用最新的VAD(Voice Activity Detection)技术,检测麦克风有没有语音输入,一旦接收到语音指令,DSP程序启动降噪,接着NPU启动激活词识别,如检测到关键词才激活整个应用系统。这种逐级唤醒的机制,既保证了语音助手能实时响应指令,又能大幅延长设备的续航时间。据测试,GX8010可以在0.05W的待机功耗下实现语音唤醒。
凭借着本地离线神经网络计算、超高集成度、低功耗等特点,GX8010芯片将在多个应用领域展现出它的实力。重点应用领域将包括智能音箱、语音接口、和智能玩具等市场。
分享到: