h1_key

当前位置:首页 >新闻资讯 > 行业资讯>英伟达orin芯片算力和技术详解
英伟达orin芯片算力和技术详解
2023-02-17 10652次

  探讨Orin的硬件和软件架构,包括新一代的GPU、CPU、深度学习加速器,以及基于Orin的软件栈,我们在之后将会介绍英伟达端到端的解决方案。


英伟达orin芯片算力和技术详解

  英伟达2019年推出了DRIVE AGX Orin平台,最高算力(INT8)达到2000TOPS,是一个既覆盖从L2到L5自动驾驶全场景,也包含可视化、数字仪表、车载信息娱乐及交互的高性能AI平台,且在硬软件上与上一代Xavier完全兼容,下图为基于单Orin和双Orin从L2到L5自动驾驶的系统方案。

英伟达orin芯片算力和技术详解

  DRIVE AGX Orin平台中,内置了Orin SoC芯片,下图为基于Jetson AGX Orin机器人计算平台,供参考。

英伟达orin芯片算力和技术详解

  2. Orin的系统架构

  Orin SoC采用7纳米工艺,由Ampere架构的GPU,ARM Hercules CPU,第二代深度学习加速器DLA、第二代视觉加速器PVA、视频编解码器、宽动态范围的ISP组成,同时引入了车规级的安全岛Safety Island设计,下图为Orin SoC的系统架构。


英伟达orin芯片算力和技术详解


  Orin支持204GB/s的内存带宽和最高64GB的DRAM,高速I/O接口与上一代Xavier SoC的接口兼容,可实现275TOPS的INT8算力,是Xavier的7倍,功耗55W。


 3. Orin的硬件架构3.1 Ampere GPU

  Orin采用了新一代的Ampere架构GPU,由2个GPC(Graphics Processing Clusters,图形处理簇)组成。

  每个GPC又包含4个TPC(Texture Processing Clusters, 纹理处理簇),每个TPC由2个SM(Streaming Multiprocesor,流处理器)组成,下图为Orin的GPU架构。


英伟达orin芯片算力和技术详解

  每个SM有192KB的L1缓存和4MB的L2缓存,包含128个CUDA Core和4个Tensor Core。

  因此Orin总计2048个CUDA Core和64个Tensor Core,INT8稀疏算力为170 TOPS(Tensor Core提供),INT8稠密算力为54TOPS,FP32算力为5.3TFLOP(由Cuda Core提供)。

  与上一代Volta架构的GPU相比,Tensor Core引入了对稀疏性的支持, 稀疏性Sparsity是一种细粒度的计算结构,可以使吞吐量翻倍并减少内存使用量。


  3.2 第三代张量核稀疏化技术

  Ampere架构中第三代Tensor Core是亮点,首次引入了细粒度结构化稀疏性技术(Fine-grained structured sparsity ,稀疏性),也是支撑英伟达对外宣传“AI算力标杆”的关键控制点。


英伟达orin芯片算力和技术详解




  稀疏化技术主要分为两个部分:

  一是对权重网络先进行密集训练(Dense trained weights),再将网络权重修剪(pruning)为2:4的稀疏矩阵,稀疏矩阵中每个4个元素中有2个非零值,最后再对非零权重进行微调(fine-tune),通过权重网络压缩,使得数据占用空间和带宽减少为原来的一半;

  二是在Tensor Core中加入选择电路,称为稀疏的tensor core),根据权重的索引过滤掉0的位置,让weights不是0的部分和输入的Tensor对应的部分做内积,使矩阵乘法所需计算量大大减少,即通过跳零(skipping the zeros)将数学计算的吞吐量加倍。


  3.3 第二代DLA

  Orin上推出了第二代深度学习加速器DLA,相比于第一代,主要有两个变化:

  第一是增加了本地缓冲,以提高效率并减少DRAM带宽;第二是引入了结构化稀疏功能(structured sparsity),增加了深度卷积处理器(depth wise convolution processor)和硬件调度器(hardware scheduler),下图为第二代DLA架构。

英伟达orin芯片算力和技术详解

  总体使得DLA的INT8稀疏算力为105TOPS,INT8稠密算力为11.4TOPS,而Xavier中的第一代DLA为5TOPS。

  TensorRT可以在DLA上INT8或FP16运行各种网络,并支持卷积、反卷积、全连接、激活、池化、batch归一化(batch normalization)等各种层。


  3.4 Arm A78 CPU

  Orin系统架构中,CPU从之前自研的Carmel架构回到了到5纳米工艺的ARM Cortex-A78上,下图为CPU架构。

英伟达orin芯片算力和技术详解

  Orin多达12个CPU内核,每个内核包含了64KB的L1指令缓存和64KB的L1数据缓存,以及256KB的L2缓存。

  每4个CPU内核组成一个CPU簇,共同使用一个2MB的L3缓存,支持的最大CPU频率达到了2.2GHz。

  相比于上一代Xavier的8核Carmel CPU,Orin的12核A78 CPU性能提升1.9倍。


  3.5 内存和通讯

  Orin最高支持64GB的256位LPDDR5和64GB的eMMC。

  DRAM支持3200MHz的最大时钟速度,每个引脚6400Gbps,支持204.8GB/s的内存带宽,是Xavier内存带宽 memory bandwidth 的1.4倍、存储storage的2倍。

  下图显示了Orin各组件中,通过内存控制器结构(Fabric)和DRAM如何通讯和数据交互。


英伟达orin芯片算力和技术详解



  3.6 视频编解码器

  Orin包含一个多标准视频编码器 (ENC)、一个多标准视频解码器 (DEC) 和JPEG处理块 (JPEG)。

  ENC和DEC支持完整硬件加速的编解码标准,包括H.265、H.264 、AV1等;JPEG用于JPEG静止图像的解压缩计算、图像缩放、解码(YUV420、YUV422H/V、YUV444、YUV400)和色彩空间转换(RGB到YUV)等功能。

  3.7 第二代视觉加速器PVA和VIC

  Orin中对PVA进行了升级,包括双7路VLIW(超长指令字)矢量处理单元、双DMA和Cortex-R5,支持计算机视觉中过滤、变形、图像金字塔、特征检测和FFT等功能。

英伟达orin芯片算力和技术详解

  Orin还包含一个Gen 4.2视频成像合成器 (Video Imaging Compositor,VIC) 2D 引擎,支持镜头畸变校正和增强、时间降噪、视频清晰度增强、像素处理(色彩空间转换、缩放、混合和合成)等图像处理功能。

  为了调用Orin SoC上的多个硬件组件(PVA、VIC、CPU、GPU、 ENC等),英伟达开发了视觉编程接口 ( Vision Programming Interface,VPI)。作为一个软件库,VPI附带了多种图像处理算法(如框过滤、卷积、图像重缩放和重映射)和计算机视觉算法(如哈里斯角检测、KLT 特征跟踪器、光流、背景减法等)。


  3.8 I/O接口

  Orin包含大量的高速 I/O,包括了22通道PCIe Gen4、以太网接口(千兆、10千兆)、显示端口、16通道MIPI CSI-2、USB3.2等。


英伟达orin芯片算力和技术详解

  Orin中带有电源管理集成电路 (Power Management Integrated Circuit,PMIC)、稳压器和电源树,支持15W、30W 、50W、60W功率模式。


  4. Orin的软件栈

  Orin的软件栈是基于软件开发工具包SDK(Software Development Kit)来提供支撑的。

  主要是板级支持包 (BSP),包括了引导程序Bootloader、Linux内核、驱动程序Driver、工具链Tool chain和基于Ubuntu的参考文件系统,BSP也支持各种安全功能(安全启动、可信执行环境、磁盘和内存加密等)。

  在BSP之上,有多个用于加速应用程序的用户级库,包括深度学习加速库(CUDA、CuDNN、Tensor RT),加速计算库(cuBLAS、cuFTT),计算机视觉和图像处理库(VPI),多媒体和相机库(libArgus 和 v4l2)。

  TensorRT是用于深度学习推理的运行时库( Runtime library)和优化器( Optimizer ),可提供更低的延迟(Latency)和更高的吞吐量( Throughput ), 即通过模型量化、融合内核节点( Fusing nodes in a kernel)和选择最佳数据层和算法(Best data layers and algorithms )来优化GPU内存和带宽(Memory and bandwidth)的使用。

  cuDNN( CUDA Deep Neural Network Library,深度神经网络库),是英伟达专门为深度神经网络所开发出来的GPU加速库,针对卷积、池化等常见操作做了非常多的底层优化,比一般的GPU程序要快很多,大多数主流深度学习框架都支持 cuDNN。

  此外,Orin软件栈上也支持特殊场景的SDK,包括用于智能视频分析应用程序的DeepStream、用于机器人应用程序的Isaac和用于自然语言处理应用程序的Riva,以支撑更多生态应用发展。

  下图是基于Jetson AGX Orin机器人计算平台供参考。


英伟达orin芯片算力和技术详解

  对于边缘部署场景,推出了预训练模型 (PTM) ,已经采用了数百万张图像进行了预训练,模型库中包括了人车检测、自然语言处理、姿势估计、车牌检测、人脸检测等模型,可以实现开箱即用;

  此外配合TAO工具包( TAO toolkit ),使客户能够使用自己的数据集进行训练、微调和优化这些预训练模型,形成快速部署。

  针对已经部署在边缘端的模型,借助云,通过容器和容器编排技术实现定期更新,包括具有Docker集成的 NVIDIA Container Runtime,以简化大规模 AI 模型的部署。


  5. 地表最强,车企疯抢

  目前Orin的订单火爆,已经有越来越多的车企和初创公司宣布搭载Orin平台。

  上汽的R和智己,理想L9、蔚来ET7、小鹏新一代P7,威马M7、比亚迪、沃尔沃XC90,还有自动驾驶卡车公司智加科技,Robotaxi等众多明星企业Cruise、Zoox、滴滴、小马智行、AutoX、软件公司Momonta等等,都搭载Orin平台进行开发。

  很多车企在拿到Orin样板都迫不及待地官宣,试图对外展示是Orin的首装,Orin的交付,可以看作是今年智能汽车里程碑事件。


英伟达orin芯片算力和技术详解



  6. 汽车人参考小结

  燃料汽车向电瓶车和智能汽车过渡,高电池寿命成为标准,以电池寿命为代表的电气化基本进入下半年;对于智能汽车,行业自然达成共识,从“马力”到“计算率”,所以从电池寿命到马力时代。英伟达的卖点是计算率,非常准确,是利用自己的优势开始计算能力的军备竞争。汽车公司的智能仍在竞争中,特别是在高端车型中,迫切需要有卖点和标签,市场上只有英伟达可选芯片,所以汽车公司疯狂抢劫。汽车人员认为,一方面,orin芯片算力率稀疏,计算利用率和成本性能需要更详细的分析,汽车公司对其计算能力的认识将越来越清晰;另一方面,在主流车型中,芯片的计算率将逐渐向电池寿命收敛,最终达到平衡,回归成本性能的真实状态。

  • 瑞萨收购Transphorm扩展电源产品阵容
  • 瑞萨与Transphorm宣布双方已达成最终协议,根据该协议,瑞萨子公司将以每股5.10美元现金收购Transphorm所有已发行普通股,较Transphorm在2024年1月10日的收盘价溢价约35%,较过去十二个月的成交量加权平均价格溢价约56%,较过去六个月的成交量加权平均价格溢价约78%。
    2024-01-11 440次
  • 瑞萨电子预先公布了第五代R-Car SoC
  • 瑞萨电子预先公布了第五代R-Car SoC的相关信息,该SoC面向高性能应用,采用先进的Chiplet小芯片封装集成技术,将为车辆工程师在设计时带来更大的灵活度。举例来说,若高级驾驶辅助系统(ADAS)需要兼顾更突出的AI性能时,工程师可将AI加速器集成至单个芯片中。
    2023-12-12 481次
  • ROHM罗姆半导体采用SOT-223-3小型封装的600V耐压Super Junction MOSFET
  • ROHM罗姆半导体开发出采用SOT-223-3小型封装(6.50mm×7.00mm×1.66mm)的600V耐压Super Junction MOSFET*1,新产品非常适用于照明用小型电源、电泵和电机等应用。
    2023-12-12 464次
  • MPS全系列电机驱动产品
  • MPS芯源系统在上海举办了一场电机驱动产品媒体发布会。MPS 公司模拟产品线总监瞿松(Song Qu)协同 MPS 公司中国区负责电机驱动和传感器产品的 BD 经理潘兴卓(Patrick Pan)分享了在汽车电子,特别是汽车电机驱动的发展方向、技术及市场优势,以及未来的布局和规划,并介绍了一些新产品。
    2023-11-06 751次
  • 美国柏恩汽车电子元件全系列介绍
  • 美国柏恩日前出版最新汽车零组件选型指南, 展示公司多元的AEC-Q200认证零组件, 内容涵盖调节及过滤电子电路的电阻和磁性产品。此外还有Bourns专为汽车应用而设计的大量电路保护产品, 这些产品满足新一代照明、舒适性、定位、网路、电气和娱乐应用对零组件的需求。
    2023-11-02 307次

    万联芯微信公众号

    元器件现货+BOM配单+PCBA制造平台
    关注公众号,优惠活动早知道!
    10s
    温馨提示:
    订单商品问题请移至我的售后服务提交售后申请,其他需投诉问题可移至我的投诉提交,我们将在第一时间给您答复
    返回顶部