关于AIIA DNN benchmark 的几点说明
发表于 2020-07-09 15:38
AI芯片被认为是打造“中国芯”的重要突破口,相关企业纷纷加快市场布局。随着多种AI芯片产品进入市场,如何规范国内自主的AI芯片测评标准,助力和引导市场的有序发展成为行业发展的焦点。
AIIA DNN benchmark项目是由中国人工智能产业发展联盟(以下简称“AIIA”或“联盟”)组织20余家企业、高校及科研机构发起的AI芯片测评项目,目标为提供专业评估评测服务,所有度量指标旨在提供客观的比对维度,和可信、可复现的测试结果。
AIIA DNN benchmark已初步形成端+云 全方位基准测试方案
AIIA DNN benchmark已经制定两套评估规范,并根据评估规范,发布三轮v0.5版本评估结果,其中,端侧推断任务基准测试完成两轮共7款芯片,云侧推断任务首轮共4款芯片。v0.6版本公布1款芯片结果。评估结果涉及九类应用场景共三十余种网络模型,发布的能力榜单助力企业展示产品同时,用户选型也一目了然。具体评估方案与评测结果见AIIA 基准测试官网(www.aiiaorg.cn/benchmark )。
版本迭代+多维度指标 客观全面衡量AI芯片性能
在缺乏评估标准的情况下,芯片企业无法清晰确认自己的技术优势及目标市场。联盟根据实际部署中所考虑的指标,经过前期向十余家企业、科研机构的相关专家进行意见征集及展开专业讨论,最终确定AIIA DNN benchmark v0.5版本端侧推断任务以吞吐率、时延和准确率为主要基准测试指标,云侧推断任务从以下五个维度出发,衡量云侧加速卡整体性能,可客观反映当前产品现状。
延迟:作为推断任务的重要指标,能够直观反映芯片处理任务的速度。
精度损失:在部署深度学习任务过程中,各家加速卡都有自己的推理框架用于模型的转换和部署,精度损失可客观反映测试数据集推断所达到的处理效果。
吞吐量:在实际深度学习推理任务部署中,多batch size的处理能力尤为重要。
功耗:芯片的晶体管数量和芯片面积决定了算力,面积越大,算力越强,但功耗也将随之增加,应作为推断芯片性能的指标之一。
能效比(每瓦算力):该指标可测算AI芯片能效比,反馈给企业及时改良,助其进一步实现高性能与低功耗、低延迟、低成本之间的平衡。
AIIA DNN benchmark v0.6版本中,端侧增加功耗指标,云侧推断增加芯片利用率指标,以反映加速卡性价比与软硬件及存储系统的整体能力。
当前AI芯片性能如何?
面向不同场景的人工智能算法对芯片提出了不同的要求,如:硬件架构、延迟、吞吐量、能耗、体积、神经网络模型、参数等都是用户方选择AI芯片的重要参考。因此,单纯的算力指标已不能全面的反映AI芯片产品在实际应用场景中的表现,多维度、多场景特定硬件环境下的表现以及软硬件生态的完备性成为AI芯片的综合考量因素。
AIIA 对于AI芯片的性能,注重于特定场景和硬件测试环境下的指标为衡量,该评测结果主要提供可信、可复现的第三方评测结果,并不延伸为不同产品的优劣比较。目前并未有发布产品性能(在场景、硬件环境、batch size均一致情况下)指标超越同类产品( 如:NVIDIA T4)性能的AI芯片(截止2020年6月29日AIIA 官方测试数据)。
同时通过不断更新评测场景以贴近真实应用,AIIA 希望基准测试结果可以帮助用户选择适用于自己需求的AI芯片。
推动形成AIIA 全栈benchmark体系
AIIA致力于建立和维护一套基于AI应用的软硬件系统标准化基准评测套件,于2020年5月启动首批评测(链接:https://mp.weixin.qq.com/s/YL3JT1qREnbh0xsevC6_bQ ),构建面向人工智能典型技术能力和产业应用的基准测试体系。AIIA benchmark体系包含行业应用、基础应用技术(计算机视觉、自然语言处理、智能语音等)、硬件/系统三大维度,AIIA DNN benchmark 项目属于硬件/系统部分。
AIIA 全栈benchmark将始终坚持以公平、公正、公开为原则,以版本迭代、不断丰富、不断完善为目标,期待更多企业的指导和参与!
评论 (0人参与)
最新评论