chatgpt采用什么计算模型

4人浏览 2025-03-12 13:32
chatGPT
chatGPT在线试用

新一代对话式人工智能,历史上增长最快的消费者应用程序

7个回答

  • 最佳回答
    左宗洁芝
    左宗洁芝

    ChatGPT是是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。

    它能够通过学习和理解人类的语言来进行对话,不仅上知天文下知地理,知识渊博,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,但ChatGPT不单是聊天机器人的简单,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。同时也引起无数网友沉迷与ChatGPT聊天,成为大家讨论的火爆话题。

  • 尹强固刚
    尹强固刚

    ChatGPT采用了一种称为\"transformer\"的计算模型。Transformer是一种基于注意力机制的神经网络模型,由Google于2017年提出,主要用于机器翻译任务。Transformer模型通过自注意力机制来建立输入序列中各个位置之间的依赖关系,能够捕捉到不同位置之间的上下文信息。

    ChatGPT是基于GPT模型(Generative Pre-trained Transformer)进行改进和优化而来。GPT模型是一个无监督的语言模型,通过大规模的预训练数据进行训练。ChatGPT继承了GPT模型的结构和训练方式,但在训练数据上进行了一些调整,使其适用于对话生成任务。ChatGPT能够根据输入的对话历史和当前的提示来生成下一步的回复。

    Transformer模型的核心是多层的自注意力机制,它能够在计算中考虑输入序列中各个位置之间的关联性,从而更好地理解上下文信息。Transformer模型还包含了位置编码、多头注意力机制和前馈神经网络等组件,用于进一步提高模型的表现能力和处理复杂语言结构的能力。

    ChatGPT采用了基于注意力机制的Transformer计算模型,结合了自注意力、位置编码和前馈神经网络等技术,在对话生成任务中表现出色。

  • 申伦颖清
    申伦颖清

    ChatGPT使用了一个基于transformer架构的计算模型。transformer是一种用于自然语言处理的深度学习模型,由Google提出,用于机器翻译任务,具有很好的并行性和可扩展性。

    transformer模型由编码器和解码器组成,分别用于处理输入和生成输出。ChatGPT采用了单向的transformer模型,即只使用编码器来进行输入处理。

    具体来说,ChatGPT使用了一个12层的transformer编码器,每层包含相同数量的自注意力机制和前馈神经网络层。自注意力机制能够自动捕捉输入中的上下文相关性,前馈神经网络则用于增强模型的表示能力。

    ChatGPT还引入了一些技术来改进模型的生成能力和控制性能。使用了标记为专用的“系统”和“用户”令牌来指示生成的对话的不同方面,同时还使用了一种称为“顶级采样”的技术,以便在生成回复时平衡多样性和合理性。

    ChatGPT采用了transformer模型作为计算模型,通过自注意力机制和前馈神经网络层来处理输入并生成输出。这种模型能够在对话任务中生成准确、流畅且有上下文的回复。

  • 任昭固朗
    任昭固朗

    GPT之于自动驾驶意味着什么?

    文丨智驾网 黄华丹

    ChatGPT带火了AI,当GPT遇到自动驾驶,又会发生怎样的化学反应?

    GPT全称Generative Pre-trained Transformer,即生成式预训练Transformer。简单概括即是一种基于互联网可用数据训练的文本生成深度学习模型。

    4月11日,在第八届毫末AI DAY上,毫末CEO顾维灏正式发布了基于GPT技术的DriveGPT,中文名雪湖·海若。

    DriveGPT能做到什么?又是如何构建的?顾维灏在AI DAY上都做了详细解读。AI DAY还展示了毫末自动驾驶数据体系MANA的升级情况,主要是其在视觉感知能力上的进展。

    01.

    什么是DriveGPT?能实现什么?

    顾维灏首先讲解了GPT的原理,生成式预训练Transformer模型本质上是在求解下一个词出现的概率,每一次调用都是从概率分布中抽样并生成一个词,这样不断地循环,就能生成一连串的字符,用于各种下游任务。

    以中文自然语言为例,单字或单词就是Token,中文的Token词表有5万个左右。把Token输入到模型,输出就是下一个字词的概率,这种概率分布体现的是语言中的知识和逻辑,大模型在输出下一个字词时就是根据语言知识和逻辑进行推理的结果,就像根据一部侦探小说的复杂线索来推理凶手是谁。而作为适用于自动驾驶训练的大模型,DriveGPT雪湖·海若三个能力:

    1.可以按概率生成很多个这样的场景序列,每个场景都是一个全局的场景,每个场景序列都是未来有可能发生的一种实际情况。

    2.是在所有场景序列都产生的情况下,能把场景中最关注的自车行为轨迹给量化出来,也就是生成场景的便会产生自车未来的轨迹信息。

    3.有了这段轨迹之后,DriveGPT雪湖·海若还能在生成场景序列、轨迹的输出整个决策逻辑链。

    也就是说,利用DriveGPT雪湖·海若,在一个统一的生成式框架下,就能做到将规划、决策与推理等多个任务全部完成。具体来看,DriveGPT雪湖·海若的设计是将场景Token化,毫末将其称为Drive Language。

    Drive Language将驾驶空间进行离散化处理,每一个Token都表征场景的一小部分。目前毫末拥有50万个左右的Token词表空间。如果输入一连串过去已经发生的场景Token序列,模型就可以根据历史,生成未来所有可能的场景。也就是说,DriveGPT雪湖·海若同样像是一部推理机器,告诉它过去发生了什么,它就能按概率推理出未来的多个可能。

    一连串Token拼在一起就是一个完整的驾驶场景时间序列,包括了未来某个时刻整个交通环境的状态以及自车的状态。

    有了Drive Language,就可以对DriveGPT进行训练了。

    毫末对DriveGPT的训练过程根据驾驶数据以及之前定义的驾驶尝试做一个大规模的预训练。通过在使用过程中接管或者不接管的场景,对预训练的结果进行打分和排序,训练反馈模型。也就是说利用正确的人类开法来替代错误的自动驾驶开法。

    后续就是用强化学习的思路不断优化迭代模型。

    在预训练模型上,毫末采用Decode-only结构的GPT模型,每一个Token用于描述某时刻的场景状态,包括障碍物的状态、自车状态、车道线情况等等。毫末的预训练模型拥有1200亿个参数,使用4000万量产车的驾驶数据,本身就能够对各种场景做生成式任务。

    这些生成结果会按照人类偏好进行调优,在安全、高效、舒适等维度上做出取舍。毫末会用部分经过筛选的人类接管数据,大概5万个Clips去做反馈模型的训练,不断优化预训练模型。在输出决策逻辑链时,DriveGPT雪湖·海若利用了prompt提示语技术。输入端给到模型一个提示,告诉它“要去哪、慢一点还是快一点、并且让它一步步推理”,经过这种提示后,它就会朝着期望的方向去生成结果,并且每个结果都带有决策逻辑链。每个结果也会有未来出现的可能性。这样我们就可以选择未来出现可能性最大,最有逻辑的链条驾驶策略。可以用一个形象的示例来解释DriveGPT雪湖·海若的推理能力。假设提示模型要“抵达某个目标点”,DriveGPT雪湖·海若会生成很多个可能的开法,有的激进,会连续变道超车,快速抵达目标点,有的稳重,跟车行驶到终点。这时如果提示语里没有其他额外指示,DriveGPT雪湖·海若就会按照反馈训练时的调优效果,最终给到一个更符合大部分人驾驶偏好的效果。

    02.

    实现DriveGPT毫末做了什么?

    DriveGPT雪湖·海若的训练和落地,离不开算力的支持。

    今年1月,毫末就和火山引擎共同发布了其自建智算中心,毫末雪湖·绿洲MANA OASIS。OASIS的算力高达67亿亿次/秒,存储带宽2T/秒,通信带宽达到800G/秒。光有算力还不够,还需要训练和推理框架的支持。毫末也做了以下三方面的升级。

    一是训练稳定性的保障和升级。大模型训练是一个十分艰巨的任务,随着数据规模、集群规模、训练时间的数量级增长,系统稳定性方面微小的问题也会被无限放大,如果不加处理,训练任务就会经常出错导致非正常中断,浪费前期投入的大量资源。

    毫末在大模型训练框架的基础上,与火山引擎共同建立了全套训练保障框架,通过训练保障框架,毫末实现了异常任务分钟级捕获和恢复能力,可以保证千卡任务连续训练数月没有任何非正常中断,有效地保障了DriveGPT雪湖·海若大模型训练的稳定性。

    二是弹性调度资源的升级。毫末拥有量产车带来的海量真实数据,可自动化的利用回传数据不断的学习真实世界。由于每天不同时段回传的数据量差异巨大,需要训练平台具备弹性调度能力,自适应数据规模大小。

    毫末将增量学习技术推广到大模型训练,构建了一个大模型持续学习系统,研发了任务级弹性伸缩调度器,分钟级调度资源,集群计算资源利用率达到95%。

    三是吞吐效率的升级。在训练效率上,毫末在Transformer的大矩阵计算上,通过对内外循环的数据拆分、尽量保持数据在SRAM中来提升计算的效率。在传统的训练框架中,算子流程很长,毫末通过引入火山引擎提供的Lego算之库实现算子融合,使端到端吞吐提升84%。

    有了算力和这三方面的升级,毫末可对DriveGPT雪湖·海若进行更好的训练迭代升级。

    03.

    MANA大升级,摄像头代替超声波雷达

    毫末在2021年12月的第四届AI DAY上发布自动驾驶数据智能体系MANA,经过一年多时间的应用迭代,现在MANA迎来了全面的升级。

    据顾维灏介绍,本次升级主要包括:

    1.感知和认知相关大模型能力统一整合到DriveGPT。

    2.计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化,并集成到OASIS当中。

    3.增加了使用NeRF技术的数据合成服务,降低Corner Case数据的获取成本。

    4.针对多种芯片和多种车型的快速交付难题,优化了异构部署工具和车型适配工具。

    前文我们已经详细介绍了DriveGPT相关的内容,以下主要来看MANA在视觉感知上的进展。

    顾维灏表示,视觉感知任务的核心目的都是恢复真实世界的动静态信息和纹理分布。因此毫末对视觉自监督大模型做了一次架构升级,将预测环境的三维结构,速度场和纹理分布融合到一个训练目标里面,使其能从容应对各种具体任务。目前毫末视觉自监督大模型的数据集超过400万Clips,感知性能提升20%。在泊车场景下,毫末做到了用鱼眼相机纯视觉测距达到泊车要求,可做到在15米范围内达测量精度30cm,2米内精度高于10cm。用纯视觉代替超声波雷达,进一步降低整体方案的成本。在纯视觉三维重建方面,通过视觉自监督大模型技术,毫末不依赖激光雷达,就能将收集的大量量产回传视频转化为可用于BEV模型训练的带3D标注的真值数据。

    通过对NeRF的升级,毫末表示可以做到重建误差小于10

    【本文来自易车号作者智驾网,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】

  • 洪羽龙飞
    洪羽龙飞

    “在 AI 技术生态上,生成式大模型已成为自动驾驶系统进化的关键,基于 Transformer 大模型训练的感知、认知算法,将逐步在车端进行落地部署。”

    在最新的毫末 AI DAY 上,毫末智行董事长张凯给出了这一判断,并基于这一判断发布业内首个自动驾驶生成式大模型 DriveGPT,中文名“雪湖·海若”。

    自去年年末以来, GPT 的热度一直高涨不下,尤其是 ChatGPT 的大火更是引发全行业关注。此前,GPT 多应用于文本生成、代码生成或是搜索领域,但由于缺乏数据支撑,GPT 在自动驾驶行业这一垂类的应用并不高。

    截至业内也仅有毫末一家率先将 GPT 应用到自动驾驶领域,即 DriveGPT 雪湖·海若。 DriveGPT 能为智能驾驶做什么?

    GPT 的全称是生成式预训练 Transformer 模型,本质上是在求解下一个词出现的概率。即根据输入的前序文本,模型会输出可能出现的下一个字的几率分布,再从中取样出几率较高的字。如此循环往复,直到完整地写完下文。

    据官方介绍,DriveGPT 雪湖·海若的底层模型采用 GPT(Generative Pre-trained Transformer)生成式预训练大模型,与 ChatGPT 使用自然语言进行输入与输出不同,DriveGPT 输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景 Token 化,形成“Drive Language”。 Drive Language 基于毫末的 CSS 场景库理论,将驾驶空间进行离散化处理,每一个 Token 都表征场景的一小部分,相当于许多个可能在未来出现的平行宇宙,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。截至毫末从真实驾驶场景库中提取的token序列,规模达到 50 万个。

    有了 Drive Language,毫末就可以用人类驾驶的数据对模型进行预训练。 在预训练阶段通过引入量产驾驶数据,训练初始模型,再通过引入驾驶接管 Clips 数据完成反馈模型(Reward Model)的训练,然后再通过强化学习的方式,使用反馈模型去不断优化迭代初始模型,形成对自动驾驶认知决策模型的持续优化。

    DriveGPT 雪湖·海若会根据输入端的提示语以及毫末 CSS 自动驾驶场景库的决策样本去训练模型,让模型学习推理关系,从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程,完成可理解、可解释的推理逻辑链生成。

    毫末智行 CEO 顾维灏表示,毫末 DriveGPT 雪湖·海若通过引入驾驶数据建立 RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化。据毫末方面的说法,在 RLHF 的加持下,Hard Case 通过率提升了 48%。毫末 DriveGPT 雪湖·海若实现了模型架构与参数规模的升级,参数规模达 1200 亿,预训练阶段引入 4000 万公里量产车驾驶数据,RLHF 阶段引入 5 万段人工精选的困难场景接管 Clips。

    毫末方面表示,DriveGPT雪湖·海若现阶段主要用于解决自动驾驶的认知决策问题。“在感知到了周围的世界之后,怎么样把车开得更安全,把车开得更顺滑,怎么样跟周围的交通参与者互相博弈。”顾维灏说道。

    毫末判断,DriveGPT雪湖·海若还将在城市 NOH、智能陪练、驾驶捷径推荐、脱困场景中得到应用,最终目标是要实现端到端自动驾驶

    毫末在 AI DAY 上宣布,DriveGPT雪湖·海若将在即将量产上市的新摩卡DHT-PHEV首发。

    毫末基于GPT技术的探索,毫末衍生出服务于业界的能力和新的商业模式,即向业界开放DriveGPT的能力,4月11日开放单帧自动标注服务,可降低标注成本,之后还将陆续开放驾驶行为验证、困难场景脱困等功能。 DriveGPT 背后的支持

    DriveGPT 雪湖·海若的训练和落地,离不开算力的支持。

    今年 1 月,毫末和火山引擎共同发布了其自建智算中心“毫末雪湖·绿洲 MANA OASIS”。毫末表示,OASIS 的算力高达 67 亿亿次/秒,存储带宽 2T /秒,通信带宽达到 800G /秒。

    只有算力还不够,还需要训练和推理框架的支持,由此毫末进行了三方面升级——

    一是训练稳定性优化。毫末在大模型训练框架的基础上,与火山引擎共同建立了全套训练保障框架,可以通过集群调度器实时获取服务器异常,将异常节点从训练 Task group 中删除,再结合CheckPoint 功能,利用 VePFS 高性能存储和 RDMA 网络高效分发,以保障 DriveGPT雪湖·海若大模型训练的稳定性。 二是弹性调度资源的升级。毫末构建了一个大模型持续学习系统,数据以动态数据流的形式结合增量学习,持续不断地将量产回传和筛选的存量数据,传入认知和感知 Pretrain 大模型。

    三是吞吐效率的升级。在 Transformer 的大矩阵计算上,毫末通过对内外循环的数据拆分,尽量保持数据在 SRAM 中提升计算的效率;在传统的训练框架中,通过引入火山引擎提供的 Logo核心算子库实现融合,端到端吞吐提升 84%。

    毫末表示,自动驾驶数据智能体系MANA架构已迎来全线升级。截至2023年4月, MANA 学习时长超 56 万小时,相当于人类司机 6.8 万年。

    在 MANA 发布迭代一年后,在本次 AI DAY 也迎来升级,具体包括:MANA 感知和认知相关大模型能力统一整合到 DriveGPT 雪湖·海若中;MANA计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化,并集成到 OASIS 中;第三,增加了使用NeRF技术的数据合成服务,降低 Corner Case 数据的获取成本;针对多种芯片和多种车型的快速交付难题优化了异构部署工具和车型适配工具。

    在视觉感知能力上,毫末对视觉自监督大模型做了一次架构升级,将预测环境的三维结构,速度场和纹理分布融合到一个训练目标里面,强迫模型练好内功,使其能从容应对各种具体任务。目前毫末视觉自监督大模型的数据集超过 400 万 Clips,感知性能提升 20%。顾维灏举例称,在泊车场景下,毫末将鱼眼相机也引入到视觉 BEV 的感知框架当中,鱼眼图像通过 2D backbone 提取出视觉特征,经过空间转换映射至 BEV 空间,并在该空间下对于障碍物的轮廓边界进行识别和测量,目前可做到在 15 米范围内达测量精度 30cm,2 米内精度高于 10cm。

    除了用自监督大模型练内功,毫末还公开了在纯视觉三维重建方面的一些进展。

    毫末对 NeRF 做了升级,将视觉感知结果转化为可用于 BEV 模型训练的带 3D 标注的真值数据,目前可以做到重建误差小于 10cm。

    单趟重建有时会受到遮挡的影响,不能完整地还原三维空间,因此毫末尝试了多趟重建的方式——即将同一地点不同车辆在不同时间经过的数据合并做多趟重建,由此提升场景还原度,重建效率可提升 5 倍。

    重建之后,MANA 可以编辑场景合成难以收集的 Corner Case。毫末表示,近期训练了一个可以在静态场景做虚拟动态物体编辑的模型,可以控制虚拟物体在场景中按照设定的轨迹运动,由此合成各种 hardcase,例如近距离回车,行人、电动车交互行为等。

    2023年将是智驾产品大考之年

    “2023 年智驾产品进入全线爆发期。”毫末智行董事长张凯在活动上表示。

    张凯判断,城市导航辅助驾驶产将在 2023 年将围绕量产上车发力,主要玩家的城市导航辅助驾驶产品进入到真实用户覆盖和多城市落地的比拼。

    行泊一体和末端物流自动配送产业商业化将成为自动驾驶公司深耕的重点。在乘用车领域,搭载行泊一体功能的智驾产品将迎来前装量产潮;在末端物流自动配送领域,末端物流自动配送车在商超、快递等场景迎来爆发,2023 年将在这些场景实现可持续商业化闭环。在 AI DAY 上,毫末表示其城市 NOH 已在北京、保定、上海等城市开启泛化测试,即将量产上车。张凯表示,到2025 年,毫末城市 NOH 将有序落地 100 城。

    一年之内,从三座城市扩张至百城,毫末给出的目标可以说十分激进。

    截至毫末三代乘用车产品搭载车型近 20 款,毫末辅助驾驶用户行驶里程突破4000万公里,HPilot2.0 日均里程使用率 12.6%。

    毫末智行透露,目前已与 3 家主机厂(包括长城)签署定点合同,相关项目正在交付中。 结合毫末往届 AI DAY 的动态来看,从发布中国首个数据智能体系 MANA,到建设智算中心雪湖·绿洲,再在其基础上训练出参数规模达 1200 亿作为 DriveGPT 雪湖·海若模型,毫末的闭环思维始终贯彻其技术始末,并逐渐形成数据驱动的闭环。

    正如毫末所言,2023 年将是智能驾驶冲刺之年、大考之年。这对毫末来说,这也是长久技术布局走向落地应用的关键时期;毕竟,毫末要在 2025 年实现城市 NOH 落地 100 城,这并不是一个简单的事情。

    【本文来自易车号作者钛AUTO,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】

  • 娄月有钧
    娄月有钧

    2023伊始,先是开年毫末智行举办HAOMOAIDAY,放出自动驾驶行业最大智算中心,再有小鹏、理想新春全员信剑指城市导航辅助驾驶,随后是对话式AI大模型ChatGPT火遍全网,自动驾驶AI技术再次成为顶流。

    无论是自动驾驶的“进城”,还是ChatGPT的“进化”,其背后都是对数据、算力需求指数级增长的态势以及对大模型的训练。当需求上来了,智算中心作为自动驾驶的“新基建”也就被业界越来越多的提及。智算中心即智能计算中心,是基于人工智能理论,采用领先的AI计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,换句话说,智算中心其实是一个算力的供应和生产平台。那为什么有了它“自动辅助驾驶”就可以变为“自动驾驶”了?

    “降服”自动驾驶边际成本 自动驾驶智算中心“专云专用”

    有人说,智算中心是自动驾驶发展的助推器,因为自动驾驶算法模型训练是机器学习的典型场景之一,其视觉检测、轨迹预测与行车规划等算法模型需要同时完成高并发的并行计算,对算力有着极高的需求,而智算为提高算法模型的成熟度提供了巨大的算力。在自动驾驶领域,说起智算中心,还得先提特斯拉。2017年,Transformer网络出现后,奠定了当前大模型领域主流的算法架构基础,随后,2020年,特斯拉将Transformer大模型引入自动驾驶领域中,是AI大模型应用于自动驾驶的开端。在这之后,特斯拉开始着手打造属于自己的AI计算中心——Dojo,总计使用了1.4万个英伟达的GPU来训练AI模型。为了进一步提升效率,特斯拉在2021年发布了自研的AI加速芯片D1,并计划将25个D1封装在一起组成一个训练模块(Training tile),然后再将训练模块组成一个机柜(Dojo ExaPOD)。最近一期的特斯拉AI DAY上,马斯克称将于2023年一季度部署完成特斯拉超级计算机群组ExaPOD。国内方面,2022年8月,小鹏汽车和阿里云合建了当时国内最大的自动驾驶智算中心“扶摇”,专门用于自动驾驶模型训练,算力规模达600PFLOPS,相当于每秒可以完成60亿亿次浮点运算。不过这个记录仅仅维持了4个多月。

    今年1月,毫末智行联合火山引擎,共同推出自动驾驶行业最大的智算中心MANA OASIS(雪湖·绿洲),每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G。吉利也在1月28日上线了吉利星睿智算中心,目前已接入智能驾驶和车联网实验数据近百PB,在线车辆的并发计算支持达百万辆。从现有情形来看,成本和需求两重因素,是智算中心的诱人之处。

    成本层面,算力作为自动驾驶的基本要素,需要更高性能的智算中心来完成训练、标注等工作。以毫末的MANA OASIS为例,通过部署Lego高性能算子库、ByteCCL通信优化能力,以及大模型训练框架,软硬一体,毫末把算力优化到极致。在训练效率方面,基于Sparse MoE,通过跨机共享,轻松完成千亿参数大模型训练,且百万个clips(毫末视频最小标注单位)训练成本只需百卡周级别,训练成本降低100倍。搭建高效、低成本的数据智能体系是自动驾驶技术健康发展的基础,也是自动驾驶系统能够不断迭代前行的重要环节,更是自动驾驶商业化闭环的关键所在。

    小鹏汽车董事长何小鹏曾表态,“如果现在不以这样的方式(智算中心)提前储备算力,那么今后5年内,企业算力成本会从亿级,加到数十亿级。”

    如果持续使用公有云服务,边际成本不断上涨只是一方面,更重要的是,智算中心可以让自动驾驶企业实现“专云专用”。自动驾驶的开发包括从数据采集到数据筛选、打标、模型训练、回放性验证、仿真测试等等环节。而云计算的本质是租赁计算设备,云服务商的设备都是统一采购,为了获得更多客户,这些设备都具备很大的通用性,设备内部使用的CPU、GPU/AI加速器、内存的型号与规格都相对固定,很难与车企和自动驾驶公司的算法形成最佳匹配。云服务厂商对自动驾驶算法的了解程度不高,不可避免的会在调度算力时出现损耗和效率不高的问题。从需求的角度来看,智算中心似乎可以成为自动驾驶和车企的托底神器。

    同样以毫末为例,有了MANA OASIS的加持,毫末MANA五大模型全新亮相升级,车端感知架构实现跨代升级,毫末的技术栈布局继续保持完整领先的态势,尤其在感知、认知等层面领跑行业,引领大模型、大算力、大数据发展方向,冲刺进入自动驾驶3.0时代。拿数据采集、筛选和标注来说,自动驾驶系统在前期开发阶段,需要采集大量的道路环境数据,以此让车辆像人类驾驶员一样快速准确地识别车道、行人、障碍物等驾驶环境中的关键信息。唯一的办法是,通过在海量数据基础上不断的重复训练与验证,车辆对道路环境的认知水平逐渐趋近于真实情景,判断的准确性在这一过程中不断提升。

    车企收集到的数据还需要进行模型训练,算法通过在数据上进行运算产生模型,而智算中心将是驱动大模型和海量数据训练的加速器。基于Sparse MoE,毫末根据计算特点,进行稀疏激活,提高计算效率,实现单机8卡就能训练百亿参数大模型的效果,实现跨机共享exper的方法,完成千亿参数规模大模型的训练,训练成本降低到百卡周级别;毫末设计并实现了业界领先的多任务并行训练系统,能同时处理图片、点云、结构化文本等多种模态的信息,既保证了模型的稀疏性、又提升了计算效率;MANA OASIS训练效率提升了100倍。

    毫末智行CEO顾维灏也在详细阐释了建设智算中心的底层逻辑:“自动驾驶对智算中心的第一要求肯定是算力。智算中心的超大算力代表了有多少的AI工程师在这个练武场中能够做出什么大模型,能训练多少大模型。”

    智能辅助驾驶“进城” MANA OASIS帮助毫末解决了哪些难题?

    现在很多车企和自动驾驶技术企业已经开始把打造智算中心当成下一阶段竞争重点。今年1月的HAOMO AI DAY上,毫末智行董事长张凯给出了2023年自动驾驶行业趋势的十大新预测,超算中心赫然位列“超算中心会成为自动驾驶企业的入门配置。”

    当下,随着新能源汽车品牌普遍已经把高速公路场景下的辅助驾驶列为标配,赛场已经悄然从高速路转向城市。与高速导航辅助驾驶相比,城市行车涉及了红绿灯、十字路口、行人电动车、遮挡、固定障碍物、频繁刹停起步等一系列难题,复杂度又提升了好几个数量级。

    如果仅用实测车辆去挑战这些城市场景无法穷尽的Corner Case,成本、安全性、时间都将成为企业发展的壁垒。由此,虚拟仿真就成为了解决部分成本及场景多样性的关键,大规模的长尾场景需要数据中心提供充足的算力支持。仿真场景对现实的回归过程,同样需要巨大的算力提供支持。

    在MANA OASIS的加持下,毫末的数据智能体系MANA五大模型全新亮相升级。而在五大模型助力下,MANA最新的车端感知架构,从过去分散的多个下游任务集成到了一起,形成一个更加端到端的架构,包括通用障碍物识别、局部路网、行为预测等任务,毫末车端感知架构实现了跨代升级。这也意味着毫末的感知能力更强,产品力更强,向全无人驾驶加速迈进。视觉自监督大模型,让毫末在中国首个实现4D Clip的自动标注。毫末利用海量videoclip,通过视频自监督方式,预训练出一个大模型,用少量人工标注好的clip数据进行Finetune(微调),训练检测跟踪模型,使得模型具备自动标注的能力;将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成clip,其中10%是标注帧,90%是未标注帧,再将这些clip输入到模型,完成对90%未标注帧的自动标注,进而实现所有单帧标注向clip标注的100%的自动转化,同时降低98%的clip标注成本。毫末视频自监督大模型的泛化性效果极佳,即使是在一些非常困难的场景,例如严重遮挡的骑行者,远处的小目标,恶劣的天气和光照,都能准确地完成自动标注。3D重建大模型,助力毫末做数据生成,用更低成本解决数据分布问题,提升感知效果。面对“完全从真实数据中积累corner case困难且昂贵”的行业难题,毫末将NeRF技术应用在自动驾驶场景重建和数据生成中,它通过改变视角、光照、纹理材质的方法,生成高真实感数据,实现以低成本获取normal case,生成各种高成本corner case。3D重建大模型生成的数据,不仅比传统的人工显式建模再渲染纹理的方法效果更好、成本更低。增加NeRF生成的数据后,还可将感知的错误率降低30%以上,且数据生成可实现全程自动化,无需任何人工参与。多模态互监督大模型则可以完成通用障碍物的识别。毫末在成功实现车道线和常见障碍物的精准检测后,针对城市多种异形障碍物的稳定检测问题,毫末正在思考和探索更加通用的解决方案。毫末的多模态互监督大模型,引入了激光雷达作为视觉监督信号,直接使用视频数据来推理场景的通用结构表达。该通用结构的检测,可以很好地补充已有的语义障碍物检测,有效提升自动驾驶系统在城市复杂工况下的通过率。动态环境大模型,可以精准预测道路的拓扑关系,让车辆始终行驶在正确的车道中。在重感知技术路线下,毫末为了将对高精地图的依赖度降到最低,面临着“道路拓扑结构实时推断”的挑战。毫末在BEV的feature map(特征图)基础上,以标精地图作为引导信息,使用自回归编解码网络,将BEV特征,解码为结构化的拓扑点序列,实现车道拓扑预测。让毫末的感知能力,能像人类一样在标准地图的导航提示下,就可以实现对道路拓扑结构的实时推断。毫末认为,解决了路口问题实际就解决了大部分城市NOH问题。目前在保定、北京,毫末对于85%的路口的拓扑推断准确率高达95%。即便是非常复杂、非常不规则的路口,毫末也能准确预测,比老司机还老司机。

    人驾自监督认知大模型在今年2月已经被正式升级为DriveGPT,这也是全球首个自动驾驶认知大模型。它能让毫末的驾驶策略更加拟人化,安全及顺畅。毫末DriveGPT已完成模型搭建和第一阶段数据的跑通,参数规模可对标GPT-2的水平。DriveGPT将持续引入大规模真实接管数据,通过人驾数据反馈的强化学习,来不断提升测评效果,同时也将DriveGPT作为云端测评模型,用来评估车端小模型的驾驶效果。仿真测试能有效缩短技术和产品开发周期,降低研发成本。业内典型的长尾场景问题不够丰富,现实中可遇而不可求的极端场景,利用仿真平台可以便捷生成。由于仿真测试中的模拟环境需要实现多模态融合,以支持传感器模组的复杂性,因而也需要大算力的支持。

    除了毫末,特斯拉超算中心拥有近2万张GPU,对自动驾驶训练效率产生立竿见影的效果,最大限度地提升了自动驾驶系统的开发效率;大陆集团的高算力集群,将开发周期从几周缩短至几个小时,使自动驾驶得以在中短期商业计划中落实;机器学习时间的缩短加快了新科技进入市场的速度;“扶摇”支持小鹏自动驾驶核心模型的训练时长从7天缩短至1小时内,大幅提速近170倍……

    当前,一个不争的事实就是,在自动驾驶领域具有长期规划的车企,无论是造车新势力还是传统品牌,或者技术供应商,都在搭建自己的超算中心,以掌握稳定的算力资源,缩短开发周期,加快自动驾驶产品的上市。相反,如果没有超算中心,那么自动驾驶训练速度将明显放缓,自动驾驶企业间的差距也将愈发明显。用智算中心打造数据护城河 数字新基建逐步成为发展“标配”

    自动驾驶发展至今,业界发现乘用车智能辅助驾驶是最有可能大规模铺开的商业场景。据高工智能汽车研究院数据显示,2022年中国市场(不含进出口)乘用车前装标配搭载L2级辅助驾驶的搭载率,已经连续第二个月超过30%。智研咨询数据显示,预计到2025年,全球新车L2自动驾驶的渗透率可达53.99%。

    今年,城市导航辅助驾驶也开启了量产的征程。西部证券预测,2023~2025年,国内市场上搭载城市导航辅助驾驶的车型将分别达到70万、169万和348万辆,占比将分别达到17%、40%和70%。

    在城市导航辅助驾驶落地加速的背景下,更容易复制、拓展的重感知的方案,受到了更多关注。在重感知技术路线下,面对“道路拓扑结构实时推断”的挑战,毫末的选择是在特征图基础上,以标精地图作为引导信息,使用自回归编解码网络,通过结构化的拓扑点序列解码,实现车道拓扑预测。由此不难看出,业界逐渐达成共识的重感知路线,相比高精地图方案,更依赖算力加持。

    人工智能是创新的加速器,智算中心则可以为各类技术创新提供支撑。一方面,智算中心可以为构建安全可信、可复用的技术研发环境提供算力设施支撑,为各领域科技研发提供智能计算服务,加速科技研发的进程;另一方面,智算中心是新一代信息技术的集成应用载体,智算中心的快速建设推广与规模化应用将推动通信服务网络、大数据、人工智能等技术的快速迭代,从而促进技术创新。自动驾驶数据是片段式的,特点是小文件多,达到百亿个,而且训练需要交换的数据多,智算中心可以提供充足的带宽,并且可以让自动驾驶模型拥有更好的并行计算框架,在训练的时候把硬件资源都利用起来。

    2020年4月20日,国家发展改革委首次明确新型基础设施的范围,其中就包括以智能计算中心为代表的算力基础设施。2023年1月10日,国家工业信息安全发展研究中心推出《智能计算中心2.0时代展望报告》,指出经过5年多发展,智算中心正由1.0粗放扩张阶段走向2.0精细规划阶段。

    根据相关统计和测算,目前全国超过30个城市在建或筹建智算中心,未来5年我国智能算力规模年复合增长率将达52.3%。智算中心的创新发展,将进一步为人工智能夯实“算力底座”,成为带动人工智能及相关产业快速发展的新引擎。

    “我们测算,智算中心带来的成本优化是惊人的,将达到亿元级别。”这是今年1月,张凯提出的预测。从目前及未来的规划量产规模来看,毫末自建智算中心可节约巨额成本;其带来的效率提升也非常明显。

    人工智能发展很快,新的算法层出不穷,需尽快引入新的技术和模型,与此数据是智能化发展最大的驱动力,也占据了大量成本构成。用自建智算中心来打造数据护城河,不仅能够完善产业智能生态,更能让企业在智能化方面占据先发优势,智算中心作为数字新基建,未来势必将引领自动驾驶技术持续迭代升级。

    【本文来自易车号作者车业视界,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】

  • 卞刚波莉
    卞刚波莉

    ChatGPT不会完全取代人工。

    ChatGPT的“模式化”无法取代人类的“差异化”。 ChatGPT再“神通广大”,也只是人工智能实验室OpenAI开发的语言模型,其流畅对话的背后是大量文本数据,机器智能一旦被概念框架限定,就只能在既有框架内运行,有时难免陷入“模式化”“套路化”的窠臼。而我们人类,生而不同,正是这些“独一无二”的差异性才让人类文明得以延绵、生生不息。ChatGPT的“理性化”也无法取代人类的“感性化”。人工智能的“智能”更多是一种理性能力,而人类的智能还包括价值判断、意志情感、审美情趣等非理性内容。就像ChatGPT在回答中所说“我不具备自主意识,我的回答不包含意见或情感”。关于与人类之间的关系ChatGPT自己给出答案:

    我不会替代人类,作为一个AI程序,我可以帮助人类解决困难和提高工作效率,但我永远无法用自己的感情去了解人类,也不能靠自己的判断去思考问题。只有真正的人才能拥有这样的能力。

    在那条看不见前路的黑暗隧道中,也许ChatGPT也可以是给你提供光亮、指引方向的同伴,正视它、直面它、利用它,毕竟,人工智能的前缀依然是“人工”。

相关推荐

更多

chatGPT,一个应用广泛的超级生产工具

  • 扫码优先体验

    chatGPT小程序版

    chatGPT小程序版
  • 关注公众号

    了解相关最新动态

    关注公众号
  • 商务合作

    GPT程序应用集成开发

    商务合作

热门服务

更多
    暂无数据

    最新问答

    更多