元宇宙网

您现在的位置是:首页 > 元宇宙项目 > 腾讯数字人

腾讯数字人

新智者首席Time对谈何晓冬博士:生成式AI盘“活”虚拟数字人

2023-09-27腾讯数字人
新智者首席Time对谈何晓冬博士:生成式AI盘“活”虚拟数字人

日前,由微博、新浪新闻共同打造的AI跨界对话栏目《新智者首席Time》推出新一期访谈,不同于传统的对谈形式,此次栏目首次运用数字分身,采用虚拟数字人来完成对谈。参与这次特别谈话的分身数字人,分别是人工智能学者高庆一,与京东集团副总裁、京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬博士。两位嘉宾分享了对数字人应用的理解,对产业发展的洞察,以及生成式AI技术对世界、行业、日常生活的改变。

谈及数字人技术, 嘉宾主持高庆一抛出问题:数字人是否是多模态大模型技术的代表?何晓冬博士从数字人的来源进行回答。他认为,数字人是融合语音、语义、视觉等多种模态技术集大成者。多模态技术已应用到AI外呼营销、政务热线的智能接线等,甚至能变成智能选基助手,或者是智能问诊的“医生”。

后续的交流中,两位嘉宾先后对生成式AI摸鱼、为打工人提效、就业前景等方面进行了深入沟通。何晓冬提出,生成式AI以后与日常生活和生产工作的结合度会越来越高,可能会成为每个人都需要掌握的通识教育。

展望未来,对于生成式AI是否能够推动工业革命和人类社会向前发展,何晓东博士充满信心,但同时指出,必须在两个方向上跟产业相结合,一是多模态,具备视觉能力以及再进一步的嗅觉、触觉;二是走向实体,包括机器人、机械臂、无人车等都可以更智能。

以下是“新智者首席Time”对话实录,内容经过编辑略有删减:

高庆一:欢迎收看由新浪新闻出品的《新智者首席TIME》,我是高庆一。

今天我将与京东集团副总裁、京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬博士进行一次特别的对谈。今年以来,生成式AI可以说为整个互联网行业注入了一针强心剂,包括京东在内的很多知名公司都加入到了大模型这条最火赛道。

京东是一家敢于使用新技术的公司,比如说无人机的快递投送、智能客服等等,何晓冬博士就是京东AI技术背后的掌舵人。在我和何博士第一次对谈后,他提出了一个大胆的想法,让我们各自的数字人来完成今天的对谈。这个提议也让我非常兴奋。下面就让我们一起来检验一下,京东制造的数字人,到底怎么样?

接下来,请大家跟随我,一起听听何博士对生成式AI的理解,以及对产业发展的洞察,AI能否真正改变世界、改变行业,甚至改变我们的日常生活呢?

高庆一:最近大模型火热,我们发现科技的创新总是产生很多的热点,热点驱动了媒体的关注,也驱动了资本的投入,还驱动了公众的期待,引起了极大的社会讨论。但是,我们如果往前看,上几次科技重大改变之后所造成的结果,比如说元宇宙,比如说虚拟现实和增强现实,这些技术在2020年的高潮之后陷入了长久的低谷期,到今天老百姓依旧感知不到这些新技术给我们的生活带来了什么新体验。

那么您觉得这一次大模型的出现是否能够像当初蒸汽机,煤炭,钢铁推动了工业革命和人类社会的向前发展那样,再次带来真实的新应用场景,还是说这又是一次媒体和资本狂欢过后的泡沫?

何晓冬:人工智能经历了“三起两落”,对我来说始终是对AI充满信心的。人工智能如果要真正的成为长期生存、有生命力的学科,必须走跟产业相结合的道路,现在也正是AI在产业应用落地上的黄金窗口期。

大模型为什么火,不是因为它参数大,而是因为大家看到了它的智能“涌现”,看到了它改造、优化产业的潜力。边际成本越来越小,它是能够带来社会的普惠价值的。AI的研发是没有魔法的,需要有耐心。

高庆一:确实是这样,那能不能给大家讲讲,什么是“涌现”?

何晓冬:这样说吧,当模型大小过千亿后,会发现AI突然间“聪明了”、“开窍了”,对话效果上去了,这个就是智能的“涌现”。我认为“涌现”是大模型最令人着迷的地方。大模型让生成式AI有了更多的可能,生成的内容更生动、对话更流畅,让AI具备了更多的知识储备,应用空间也会更多。比如说视觉大模型可以提高AI的感知能力、语言大模型能增强AI的创作、认知能力、多模态大模型升级了AI交互能力。

高庆一:像AI突然开“智”了?

何晓冬:有点这个意思。训练大模型的过程就像教育,对一个学生,我们做9年的义务教育,让这个小朋友有了通识,然后他还可以念大学、读研究生、进修博士。这个路径和现在大模型是一样的,先有通用能力,然后向垂直发展。

高庆一:对于通识到常识再到专识的跃迁是不是能够通过大模型来实现?换句话来说,这个大模型是不是人工智能发展的终极杀手锏??

何晓冬:预训练大模型的路线仍处于探索阶段。

基于transformer的大规模预训练模型,通过预测下一个字的方式生成各类任务,目前只是一条路线。是不是最高效率?未来或许还会有更高效率的路线出现?目前一切还都是未知。

但这条技术路线给世界带来了极大的体验和兴趣,ChatGPT在1个月的时间内就拥有了上亿用户,也带来了很多资源投入到这个技术方向中。

高庆一:有没有一些大模型的应用是可以让我们可以直接感受到的?比如说能改变我们交往的方式吗?

何晓冬:现在有很多C端的应用,比如说,帮我们提高个人内容生产力,国内外有很多一些软件可以支持通过自然语言的输入,去让机器输出画作、脚本。其实就我而言,我认为大模型更有价值的地方,是可以提高社会生产力。

在京东我们已经有一些具体实践了,比如数字人直播、AI外呼营销、政务热线的智能接线等。还有一个广大股民可能比较关心的,基金。在金融行业,大模型也可以变成智能选基助手,或者是智能问诊的“医生”。我们比较坚信并且期待的是,大模型产生技术普惠价值。

高庆一:在我的认知中元宇宙是一种虚拟现实,它给我们塑造了一个新的世界,而大模型是存在于我们所生活的这个真实世界的,因为大模型是我可触达的,而元宇宙我们老觉得它是存在于手机里、电视里、眼镜儿里的。就像我们生活在世界的A面,这一面有大模型,而元宇宙在我们世界的B面,那世界的A面和B面之间到底有什么本质区别呢?

何晓冬:从技术的角度来说,区别主要在于应用场景和功能。

大模型面向真实的场景,主要是为了解决各种复杂的任务;

元宇宙是一个虚拟的数字世界,可以提供更加丰富和多样化的体验。高老师如果看过《夏日大作战》,其实那个里面呈现的就很类似元宇宙的概念。

所以,就现在而言,A和B就是真实和虚拟。

高庆一:包括马斯克在内的很多AI领域的大佬提出要谨慎发展大模型,并且大模型会给人类带来威胁,那他们到底在恐惧什么呢?

何晓冬:我觉得可以用几个层面去回答这个问题。

首先从个人的认识层面上,在新技术兴起时,通常会面临所谓的“科林格里奇困境”。因为技术刚刚出现,我们无法提前预测它的影响、并采取行动。而当它已经出现一些BUG的时候,我们再采取行动,往往就为时已晚了,或者那时候成本过高。

第二个,我想谈的就是通用大模型和产业大模型。ChatGPT刚出来的时候,我们第一反应是惊异!它是第一款AI原生产品,有流畅的交互、有逻辑性;但是呢,当你用得越多,就会发现它有时候会出现事实性错误、逻辑性强于内容。这个就不可信了。

在一些领域我们是有基础知识的,可以分辨它说的对不对。但如果我们没有这个储备,会不会被误导呢?

其实我觉得,说到底,AI是工具,我们需要的是一个可信、可用的工具。这也是为什么我们会聚焦产业大模型的原因。

高庆一:千军万马过独木桥,那谁能先过去?这个桥够宽吗?如果是所有人都能过去,只是早晚的问题?那么决定这个早晚的核心因素是什么?

何晓冬:让产业先“用起来”是最重要的。

高庆一:有些看法认为技术是核心,只有技术的不断迭代才会产生更重量级的产品,然后自然会涌现出落地的应用场景,但是另一种看法认为产品创新是核心,产品创新需要服务于用户,理解用户可以让产品更好的创新。这两种看法之间,您认为哪条路更重要?

何晓冬:我觉得两者都有。

从技术走向应用,产品的形式一般不会让人感觉特别稀奇,但应用的效果会让人感觉到惊艳。

在人工智能领域,形态创新并不重要,基础形态是既定的,问题在于效果达不到,当有一天效果达到了,才是一个大的飞跃。

就像去年底出现的ChatGPT、Midjourney,他们的对话能力、图片生成能力让普通人感受到了质的飞跃。

现在很多企业都在尝试把大模型落地,去服务用户、服务客户,但是真正落到产业上的时候,问题就一个个浮现出来了,需要解决这些问题才能真正用起来。

高庆一:京东遇到过落地的问题吗?

何晓冬:肯定会有挑战,但在京东,技术的实践路径实际是从场景反哺技术和应用。

举一个例子,在物流领域的对话,AI机器人跟客户沟通安排送货时间的时候,过程当中用户有很多思考,明天我可能还有别的安排,这个时间段我不一定有时间,停顿会很长,对话就会断断续续的,如果不能解决好,怎么判断用户已经表达完整的意图,你给他回复,还是用户在思考,还没想完,你就切进去,这个技术难题解决不好,就会使得对话体验变得很差。

这个问题在年初的时候大家可能没想到过,一看ChatGPT对话,觉得很好了,但是技术落地的时候,很多问题就会变成拦路虎,所以从真实场景中提炼需求,打磨技术也是至关重要的。

高庆一:京东在大模型这块核心优势是什么?

何晓冬:简单的说看得懂、摸得到、起跑早。

高庆一:看得懂是懂什么?

何晓冬:懂业务场景。

京东做的是面向产业的大模型,专门服务垂直行业的真实场景。简单的来说,它是面向严肃场景的,任务驱动的、产业知识增强的大模型。

技术语言和业务语言是不一样的,有时候评判标准也不一样。

比如以机器对话来说,学术角度上可以是轮次越多越好。但是你真的放到真实的场景中,比如智能客服,消费者是希望能够尽快的解答问题,尤其是在售后场景。

AI技术要真实落地产业,80%的问题一开始就应该从真实场景和需求当中凝练出来,而不是只是纯粹在实验室做学术推动。

对于大模型,大家现在下半年可能关心真正产生的行业落地和行业价值如何呈现,不再简单地看大家比赛打榜,做高考题、写诗,虽然也很有意思,但是最终行业的价值肯定不会产生在这些上。这就要求大模型在懂产业、懂业务上有进一步的进修。

高庆一:大模型也需要进修。

何晓冬:没错,这个非常重要。

举个例子,我们接受了9年义务教育,还需要继续学习,上了大学会选专业,在垂直领域再训练你,大模型也是这样。

我们在训练言犀大模型时除了70%的通用数据,还用了30%数智供应链原生数据,包括零售、物流、金融这些京东产业的实践数据,就是在通识教育的基础上,给它完成“专业教育”。

高庆一:最近WAIC很多家企业都展示了数字人的能力,数字人算是大模型这一波的代表产物吗?

何晓冬:可以说是的,数字人是多模态技术的集大成者,其中融合了语音、语义、视觉等多种AI技术。通过咱们的这期对谈节目,大家对数字人会有一个更直观的认知。

高庆一:有人说,大模型是通往AGI的必由之路。其实对于AGI的定义一直很模糊,没有人能够真正描述它是什么样子。在一个比较浪漫的观点认为,不受睡眠需求或者人类交流效率限制的AI智能可以帮助解决气候变化、贫困、饥饿、老龄化等复杂的问题。那么对于通用人工智能时代,您是怎么看的?

何晓冬:我本人还是比较期待的。我们在研究中关注让AI走向实体,包括具身智能这块内容。比如机械臂辅助物流分拣搬运、无人车配送也是具身智能的体现,让AI走向物流世界,这些京东早就在做了。

高庆一:这听起来会有些科幻。包括您之前聊到不能只关注语音大模型,还有多模态的应用,现在包括视觉,包括语音之外,像嗅觉,像触觉是不是都有可能?

何晓冬:我个人觉得,从技术的角度来说,如果说GPT技术让大家看到了AGI的可能性,目前大模型的研究还是只停留在语言这个领域。

下面我个人觉得至少两个方向要走,一个方向是多模态,必须具有视觉能力,可能嗅觉、触觉是再进一步的,但是至少要具有视觉能力。

第二是刚提到的,走向实体,走向具身智能,包括机器人,机械臂,无人车,各种各样的载具,都可以更智能。

如果每个人都能有个JAVIS(),谁不乐意呢。

高庆一:利用AI摸鱼可行吗?

网络话题“同事已经利用AI偷偷摸鱼了”引发热议,讲的是一群打工人分享自己利用AI软件高效工作,剩下时间做自己喜欢的事的经历。有人觉得过度利用AI工作是一种“偷懒”行为;也有人担心如果过度利用AI,自己的工作会不会被AI抢走;还有人担心AI产出的内容,还算是本人的工作成果吗?您对上班时用AI摸鱼怎么看?

何晓冬:这个我觉得很有意思。其实就我了解到,已经有不少工程师在用GPT帮助写代码。还有一些设计同事,在用文生图的能力,去做一些设计初稿。

因为很多时候我们给大模型下brief,就是prompt是一样的,我们前面聊过业务语言和技术语言是两套语言,那,设计语言和业务语言也是。现在设计师就是先把业务诉求转化成prompt下给AI应用,然后拿AI生成的图给客户确认风格、方向,没问题了她再创作。

所以,我觉得AI某种程度上能够帮大家提升效率,也算不上“摸鱼”,因为他也不是什么都不干,下prompt也很费脑。我们的年轻同事也会日常开玩笑,说以后应该有个岗叫“项目需求经理岗”专门给AI写prompt。

高庆一:有用得比较好,确认能够给打工人提效的情况吗?

何晓冬:有一些已经发生的例子,比如说营销,以前是需要导购员去通知,或者是发短信,打开率很低,效果非常差,而通过AI外呼的方式可以迅速触达海量的人群。

现在流行的电商直播,我们开发的言犀虚拟主播,不需要让一个主播一天说上8小时、10小时,又具备很强的直播技巧和电商知识储备,可以轻松做到提高商家的营销效率,也能提高用户的购物体验,同时我们再继续把技术提升,成本降低,通过很低的训练成本和运营成本,就能够部署这样的数字人,这样的话,就变成了多赢的局面。

高庆一:您对人工智能领域就业前景怎么看,建议今年的大学新生选修AI相关专业吗?

何晓冬:我是比较推荐的。

因为我们已经明显看到,21世纪以来,我们已经在人工智能领域取得了巨大的突破。

如果从历史发展的轨迹来看,AI也在融入我们的生活,20年前,自动翻译工具还存在在科幻小说是吧,但是过去10年它已经是可以真真实实用到的工具了。

我们可以相信,AI以后与日常生活和生产工作的结合度会越来越高,可能会成为每个人需要掌握的通识教育。

高庆一:最后,我还想问观众朋友们一个问题,大家觉得我和何博士的数字分身像我们吗?如果从节目开始,我们没有明示,您能很快看出来这不是真人在对话吗?

文章评论