h1_key

当前位置:首页 >新闻资讯 > 技术文章>意法半导体>STM32 MCU优化的STM32Cube.AI库
STM32 MCU优化的STM32Cube.AI库
2022-11-14 1660次

STM32Cube.AI是意法半导体AI生态系统的一部分,是STM32Cube的一个扩展包,它可以自动转换和优化预先训练的神经网络模型并将生成的优化库集成到用户项目中,从而扩展了STM32CubeMX的功能。它还提供几种在桌面PC和STM32上验证神经网络模型以及测量模型性能的方法,而无需用户手工编写专门的C语言代码。

  本文将更深入地介绍它的一些高级特性。将涉及以下主题:

  运行时环境支持:Cube.AI vs TensorFlow Lite

  量化支持

  图形流与存储布局优化

  可重定位的二进制模型支持

  运行时环境支持:Cube.AI vs TensorFlow Lite

  STM32Cube.AI支持两种针对不同应用需求的运行时环境:Cube.AITensorFlow Lite。作为默认的运行时环境,Cube.AI是专为STM32高度优化的机器学习库。而TensorFlow Lite for Microcontroller是由谷歌设计,用于在各种微控制器或其他只有几KB存储空间的设备上运行机器学习模型的。其被广泛应用于基于MCU的应用场景。STM32Cube.AI集成了一个特定的流程,可以生成一个即时可用的STM32 IDE项目,该项目内嵌TensorFlow Lite for Microcontrollers运行时环境(TFLm)以及相关的TFLite模型。这可以被看作是Cube.AI运行时环境的一个替代方案,让那些希望拥有一个跨多个项目的通用框架的开发人员也有了选择。

  

 

  虽然这两种运行时环境都是为资源有限的MCU而设计,但Cube.AI在此基础上针对STM32的独特架构进行了进一步优化。因此,TensorFlow Lite更适合有跨平台可移植性需求的应用,而Cube.AI则更适合对计算速度和内存消耗有更高要求的应用。

  下表展示了两个运行时环境之间的性能比较(基于一个预训练的神经网络参考模型)。评价指标是在STM32上的推断时间和内存消耗。

  

 

  如表中所示,对于同一模型,Cube.AI运行时环境比TFLite运行时环境节约了大概20%flash存储和约8%RAM存储。此外,它的运行速度几乎比TFLite运行时环境快了2倍。

  对于TFLite模型,用户可以在STM32Cube.AI的网络配置菜单中对2个运行时环境进行选择。

  

 

  量化支持

  量化是一种被广泛使用的优化技术,它将32位浮点模型压缩为位数更少的整数模型,在精度只略微下降的情况下,减少了存储大小和运行时的内存峰值占用,也减少了CPU/MCU的推断时间和功耗。量化模型对整数张量而不是浮点张量执行部分或全部操作。它是面向拓扑、特征映射缩减、剪枝、权重压缩等各种优化技术的重要组成部分,可应用在像MCU一样资源受限的运行时环境。

  通常有两种典型的量化方法:训练后量化(PTQ)和量化训练(QAT)PTQ相对容易实现,它可以用有限的具有代表性的数据集来量化预先训练好的模型。而QAT是在训练过程中完成的,通常具有更高的准确度。

  STM32Cube.AI通过两种不同的方式直接或间接地支持这两种量化方法:

  首先,它可以用来部署一个由PTQQAT过程生成的TensorFlow Lite量化模型。在这种情况下,量化是由TensorFlow Lite框架完成的,主要是通过“TFLite converter” utility导出TensorFlow Lite文件。

  其次,其命令行接口(CLI)还集成了一个内部的训练后量化(PTQ)的过程,支持使用不同的量化方案对预训练好的Keras模型进行量化。与使用TFLite Converter工具相比,该内部量化过程提供了更多的量化方案,并在执行时间和精确度方面有更好的表现。

  

 

  下表显示了在STM32上部署量化模型(与原有浮点模型相比)的好处。此表使用FD-MobileNet作为基准模型,共有12层,参数大小145kMACC操作数24M,输入尺寸为224x224x3

  

 

从表中很容易看出,量化模型节省了约4倍的flash存储和RAM存储,且运行速度提高了约3倍,而精确度仅仅下降了0.7%。

  在文档的末尾还附上了一个快速实践示例:量化一个MNIST模型

  图形流与存储布局优化

  除了量化技术,STM32Cube.AI还通过使用其C代码生成器的优化引擎,针对推理时间优化内存使用(RAM & ROM)。该引擎基于无数据集的方法,无需验证或测试数据集来应用压缩和优化算法。

  一种方法:权重/偏置项压缩,采用k -均值聚类算法。该压缩算法仅适用于全连接层。其优势是压缩速度快,但是结果并不是无损的,最终的精度可能会受到影响。STM32Cube.AI提供验证功能,用于对所生成的C模型中产生的误差进行评估。

  压缩选项可以在STM32Cube.AI的网络配置中激活,如下图所示:

  

 

  第二种方法:操作融合,通过合并层来优化数据布局和相关的计算核。转换或优化过程中会删除一些层(“Dropout”“Reshape”),而有些层(如非线性层以及卷积层之后的池化层)会被融合到前一层中。其好处是转换后的网络通常比原始网络层数少,降低了存储器中的数据吞吐需求。

  

 

  最后一种方法是优化的激活项存储。其在内存中定义一个读写块来存储临时的隐藏层值(激活函数的输出)。此读写块可以被视为推理函数使用的暂存缓冲区,在不同层之间被重复使用。因此,激活缓冲区的大小由几个连续层的较大存储需求决定。比如,假设有一个3层的神经网络,每一层的激活值分别有5KB, 12KB3KB,那么优化后的激活缓冲区大小将是12KB,而不是20KB

  可重定位的二进制模型支持

  非可重定位方法(静态方法)指的是:生成的神经网络C文件被编译并与最终用户应用程序堆栈静态链接在一起。

  如下图所示,所有对象(包括神经网络部分和用户应用程序)根据不同的数据类型被一起链接到不同的部分。在这种情况下,当用户想要对功能进行部分更新时(比如只更新神经网络部分),将需要对整个固件进行更新。

  

 

  相反,可重定位二进制模型指定一个二进制对象,该对象可以安装和执行在STM32内存子系统的任何位置。它是所生成的神经网络C文件的编译后的版本,包括前向核函数以及权重。其主要目的是提供一种灵活的方法来更新AI相关的应用程序,而无需重新生成和刷写整个终端用户固件。

  生成的二进制对象是一个轻量级插件。它可以从任何地址(位置无关的代码)运行,其数据也可放置于内存中的任何地方(位置无关的数据)

  STM32Cube.AI简单而高效的AI可重定位运行时环境可以将其实例化并使用它。STM32固件中没有内嵌复杂的资源消耗型动态链接器,其生成的对象是一个独立的实体,运行时不需要任何外部变量或函数。

  下图的左侧部分是神经网络的可重定位二进制对象,它是一个自给自足的独立实体,链接时将被放置于终端用户应用程序的一个单独区域中(右侧部分)。它可以通过STM32Cube.AI的可重定位运行时环境被实例化以及动态链接。因此,用户在更新AI模型时只需要更新这部分二进制文件。另外,如果有进一步的灵活性需求,神经网络的权重也可以选择性地被生成为独立的目标文件。

  

 

  可重定位网络可以在STM32Cube.AI的高级设置中激活,如下图所示:

  

 

  最后,作为意法半导体人工智能生态系统的核心工具,STM32Cube.AI提供许多基本和高级功能,以帮助用户轻松创建高度优化和灵活的人工智能应用。

 

  • ST VIPERGAN50/65/100系列高压氮化镓转换器
  • VIPERGAN50、VIPERGAN65和VIPERGAN100是意法半导体VIPerGaN系列中首款高压GAN转换器,可在宽范围工作电压(9V至23V)中分别提供50W、65W和高达100W的功率。我们还推出了EVLVIPGAN100PD,这是我们首款用于USB-PD应用的VIPERGAN100评估板。
    2023-07-21 239次
  • ADAS 处理器超过 100A 的电流
  • 高级驾驶辅助系统 (ADAS),包括自动驾驶视觉分析、泊车辅助和自适应控制功能中的汽车系统电气化日益普及。智能连接、安全关键型软件应用以及神经网络处理都需要增强的实时计算能力。
    2023-07-07 236次
  • TTTech和ST合作开发的首款芯片被阿丽亚娜6
  • 随着全球航天工业的发展,越来越多的项目需要高度可靠的“航天级”芯片和稳定的供应链。安全网络计算平台的技术领导者TTTech和服务多重电子应用领域意法半导体庆祝双方在航天领域合作七年。TTTech采用ST芯片开发的先进、安全、可靠的网络芯片和平台解决方案已被部署于航天工业的重大商用和科学探索项目。继TTTech和ST合作开发的首款芯片被阿丽亚娜6(Ariane 6)运载火箭项目选用后,第二款针对外太空的恶劣环境优化的芯片已被美国航天局(NASA)的Artemis计划重要组成部分Gateway空间站选用。
    2023-07-07 209次
  • 意法半导体单片天线匹配IC
  • 意法半导体单片天线匹配IC系列新增两款优化的新产品,面向BlueNRG-LPS系统芯片(SoC)的MLPF-NRG-01D3,以及面向STM32WB1x和STM32WB5x*无线MCU的MLPF-WB-02D3。这两款产品有助于简化电路设计,优化STM32WB无线微控制器和可编程蓝牙低能耗无线应用处理器(BlueNRG LPx)的射频传输。
    2023-04-27 300次
  • L9908栅极驱动器一款芯片搞定多种汽车电机控制
  • L9908 高集成度车规三相栅极驱动单元(GDU),是 ST 在无刷电机相关应用领域的明星产品,是 ST 首款支持 48V 电池的 GDU,满足了混合动力和新能源汽车的普及产生的最新动力要求。
    2023-03-30 443次

    万联芯微信公众号

    元器件现货+BOM配单+PCBA制造平台
    关注公众号,优惠活动早知道!
    10s
    温馨提示:
    订单商品问题请移至我的售后服务提交售后申请,其他需投诉问题可移至我的投诉提交,我们将在第一时间给您答复
    返回顶部