商汤王晓刚:通用人工智能能完成从人到车、到模型的闭环互动

2023伊始,ChatGPT掀起了通用人工智能的热潮。商汤科技联合创始人王晓刚就“通用人工智能和多模态的大模型给智能汽车带来的机遇和挑战“发表了观点。

图片1.png

商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁 王晓刚 图片来源:中国电动汽车百人会论坛

首先,什么是通用人工智能?与现有的人工智能系统相比,现有的人工智能也能够接收多模态的数据,但是它输出的任务都是事先定义好的。如果给系统增加一个新的任务,就要对系统进行重新的设计、采集大量的样本。而在在通用人工智能时代,只要输入提示词和多模态的数据,它可以去生成多模态的数据,更重要的它可以用自然语言去生成对任务的描述,自然语言可以以非常灵活的方式去覆盖大量的长尾的问题和开放性的任务,甚至是一些主观描述。

在自动驾驶领域,通用人工智能可以帮助训练模型,比如给系统规定图片,决定是否需要减速。在现有的AI系统中,首先要做物体的检测,再做文字的识别,最后做这样决策,所有过程里面的每一个模块都是事先定义好的任务。

在通用人工智能下,给定图像,只需要用自然语言去问这个图像问题,比如这个图标是什么意思,我们应该做什么?它的输出就会通过自然语言的方式,还能够给一系列的逻辑推理,最后得出结论。比如说,它可以告诉我们这里面的限速是30公里,前面100米是学校的区域,应该小心,需要将车速降速到30公里以下等等这一些。这都是一些开放式的新的任务,可以对人工智能系统进行非常大的变革。

另外,通用人工智能还能够产生内容,而且是有智慧的内容。自动汽车有“数据飞轮”的说法,模型能够从驾驶终端采取高质量的数据,对模型进行更新,然后再去从终端提升数据的量和质。

在通用人工智能时代,它会有智慧的飞轮,这里面人和模型会产生互动,通过人的反馈,它能更好地理解人需要它展示什么样的能力,而去解锁这个模型更多的技能。同时,这个模型给人输出的是有智慧的内容,这些内容会激发人的各种创作和智慧的产生,这里面又会产生智慧的飞轮。

不过,AGI(通用人工智能)对算力的需求非常大,ChatGPT一次训练的成本是上千万的美金,每天的推理成本也有几百万美金高昂的成本在。

王晓刚介绍,商汤在这个领域有一些布局。2021年,商汤在上海的临港建立了AIDC的超算中心,有5000P的算力,1万块的A100,而且可以实行数千卡的大规模的并行的训练。并且,商汤到今天已经有320亿最大规模的视觉的模型。

在NLP领域,商汤也有SenseChat 1800亿参数的模型,有能力训练1800亿参数的多模态的模型。基于这个多模态的模型,可以做内容的生成和决策。

商汤绝影是商汤下面做汽车的业务板块,其坚持驾舱云三位一体的这样的一个发展的策略。自动驾驶领域,BEV是主流的技术路线,未来可以朝多模态、通用智能的方向发展。商汤AIGC可以去生成困难的样本,以及输入多模态数据。在这里面,自动驾驶多模态的大模型可以做到感知和决策的一体化。输出对3D的环境进行重建,行为解码可以生成完整的路径的规划。同时,动机的解码器可以用自然语言去描述推理的过程,使自动驾驶的系统变得可以解释。

基于这些多模态的大模型,商汤可以做到数据感知的闭环和决策的闭环,从前端自动的去采集高质量的数据,利用大模型自动的数据的标注,包括检测,是产品的检测,是能够几百倍的去提升我们模型迭代的效率和降低它的成本。

在智能座舱里面,通用人工智能使我们AGI模型具备空间环境的理解、用户状态的感知,多模态的指令,还有多轮对话,内容生成等一系列的能力,其可以去赋能,作为我们情绪的感知,智能助手,完成基于情感的对话、创意、内容的生成,以及个性的交互等等,使场景从上车、行车、停车、离车拓展到娱乐、办公、购物、休息。

总而言之,王晓刚认为,智能汽车是通用人工智能实现闭环的非常好的场景。目前我们已经有人机共驾,未来车和模型之间可能会产生更有效的互动,这样便完成了从人到车、到模型的闭环的互动。

标签:人工智能

免责声明:本站登载此文仅出于信息分享,并不意味着赞同其观点及其描述,不承担侵权行为的连带责任。如涉及版权等问题,请与我们联系(联系QQ:26887486),我们将及时删除处理。
本文链接:https://www.zhongzhouauto.com/article/32/31217.html

CopyRight © 2020- zhongzhouauto.com All rights reserved.郑州思创网络技术有限公司备案编号:豫ICP备18046062号-6
地址:中国·郑州市郑汴路和未来路交叉口绿都广场B栋1908室合作QQ:81307333邮箱:81307333@qq.com
部分文章或图片转载自网络,版权归原作者所有。如有侵权请联系我们,我们立刻删除。