24小时资讯

ChatGPT是什么？AIGC是什么？

2023-04-1024小时资讯

小白进专业出：ChatGPT及AIGC刨根问底17问

　　AIGC 什么时候火起来？
　　
　　AIGC（AI generated content）去年上半年开始有话题度，去年上半年出现了“文本生成图片”比较火的概念，（AI 可以精准的理解输入文本的含义，并精美的生成图片，在 10 张中有 2-3张质量很高），最早的参与者是 mid journey、stable diffusion等公司，在学界和产业届都有声音。当前国内很多公司（美团、字节等）也接入了画图的功能。
　　
　　下半年时，AIGC 范围更宽泛。之前主要是文本生成图片，其实 AI 对文本理解的要求度没有那么高，只要知道每个物体对应的是什么，就可以画出不错的图片。下半年出现chatGPT ，可以精准的理解人类提出的问题并给出回答，并且交互过程和人类的交互很相似（有举一反三、推理能力），形成了很强的 AI 能力。从那时起，AIGC 的概念更多是 AI 可以从很多角度理解内容，产生高质量的文本和图片，可以被认为是更宽泛的概念，即生成式AI（各种类型理解并生成输出的AI 都属于这一类范畴）。
　　
　　为什么短时间内 AI 能力变强，和之前的区别是什么？
　　
　　文本线看：15 年时做的NLP 都不太智能，比如做机器翻译时需要叠加很多中间任务（词性识别、主体的识别、主谓宾识别等），通用性很差。但现在用 chatGPT 中译英，直接就生成了，是真正的高级通用生成模式。
　　
　　非通用到通用这一过程，主要是如下的几个变化产生：1） 2017年论文发布后 transformer 出现，即高效率利用矩阵乘法做复杂运算，让原本文本领域可以更高效的并行化（因此可以真正堆高模型参数，GPT3 参数量是 1750 亿，之前不是不想做到 1750 亿，是模型结构和算力有限堆不到这个量级，只有到这个量级才有更好的效果。） 2）基于transformer 最早火的是 Google 的 bard 模型，质量不错，但有问题（需要上游任务迁就下游任务，比如做机器翻译，需要把下游内容专门做一个训练集交给模型去刷新参数，这也意味着模型还是不通用），但是 chatgpt 做各种类型任务都是没有时间缝隙以同样速度产出的，这是bard 做不到的。这也是 open AI 通过 GPT 框架真正做好的事情，即 GPT 框架非常擅长自回归的生成（类似于最早的股价预测，以最近的历史信息为参考进行平滑），人类说话上下文有一定关联，GPT 用这种思路进行生产（最适合 NPL 生产的方式），GPT 在这条路上不停训练，就产生质变，出现了一个真正的通用泛用的框架。质变指模型的突现能力，比如某些任务在小模型情况下只能做到 30%-40%，但一旦量级达到多少参数，效果一下子飙升到 80%左右。机器的智能不是连续发展，是量变产生质变的情况。文字走到今天，就因为选对了框架，一步步量变产生质变的过程。
　　
　　图片线看：15 年有 AI 换脸的风潮，当时的模型是对抗生成网络 GAN 模型，但生成结果不稳定（对抗用的类似于博弈论，但最后不一定能收敛到纳什均衡）。diffusionmodel 扩散模型解决了这个问题，它可以把这一类任务做得非常高分辨率，且输出结果稳定。图片线是 21 年从GAN 模型转变为 diffusion model 后效果就非常好。
　　
　　接下来技术变化的方向是什么？
　　
　　会在视频和 3D 做得更好。视频是一分钟 3600 张图片有逻辑的叠加，当前模型和算力有难度，视频有很多物理世界的理解，需要机器学习更多数据+算力完善和补足。未来技术路线看，图片和视频 3D 生成会更好。
　　
　　AI 的落地场景有哪些？
　　
　　以生成的方式看落地场景包括：
　　
　　文本/图片生成：营销（去年 Jasper AI 公司用GPT3 做了一年 9000 万收入）AI 自动生成营销文案，直接切到公司的营销预算。销售、客服等。但随着 GPT4 GPT5 的发布，不够专业的公司可能会被通用大模型替代。这是很好的商业机会，但长期看壁垒不会很强，未来壁垒可能是用户数据的积累，才不会被通用大模型被替代。此外，机器语言代码等生成，提升写代码效率10%-20%，对 IT 行业提效明显，前景很好。
　　
　　游戏中的剧本、电影的剧本、新闻场景（美国美联社、雅虎等 70%-80%的快速通报是 AI 生成的）。游戏/电影中重复劳动/早期找灵感的过程可以用 AI 来做，从而降本与提效。
　　
　　成为新的交互方式：未来如果大语言模型生成，可能会形成自动调用工具的能力。比如 GPT3.5 目前有了耳朵，GPT4 加入了眼睛，未来可能有手（捣鼓工具执行任务），这是随着 plugin 工具是可以预见到的变化，商业机会很大。
　　
　　大模型相关公司有哪些？
　　
　　海外方面。最有名的是 Open AI（top1），工程能力、科学设计能力、产品推出等方面都是最好的，与微软合作，office套件集成 AI 等商业化会更顺利。Google、Meta 也可能做好。小公司：Deepmind（OpenAI 此前创业的老大哥，擅长强化学习）；Anthropic（团队为OpenAI 的原版人马）。
　　
　　国内方面。互联网公司：百度、字节、腾讯、阿里等，已有路径下追到 3-3.5 很乐观，创业公司；研究所（背靠清北国家师资和算力支撑）目前国内落后海外 2-3 年水平，很难说差距会缩进，但至少短期不会越来越大。长期随着H100 算力的突，可能被拉开差距。
　　
　　国内做大模型的卡点？
　　
　　1）算力，A100 国内货比较少，之前大家囤了一些货，理论目前够用。下半年 A800 发货可以解决燃眉之急；
　　
　　2）数据，中文移动互联网太强，所以公域数据量差于海外。国外 PC 互联网生态中有高质量的博客文本发布等，国内数据是相对垂直的，数据上限有差距；
　　
　　3）清洗，国外 AI 学界话语权太高，发论文要清洗数据集，国内学界话语权比较低，在数据清洗方面需要很多时间和精力补足；
　　
　　4）AI 需要很强科学工程和科学素养的人才，国内在顶级人才差一些，大部分在国外，国内人才密度存在缺陷。
　　
　　大模型的成本拆分？
　　
　　训练一个 GPT3 模型，大概成本未 300-400 万美元，是一次性固定成本，如果第一次失败，就需要多次训练。推理端成本：可变成本，生成一张图或一轮对话，是 1 美分左右成本。当数据访问量达到亿级别，成本在百万美元左右。短期成本集中在训练环节，长期成本集中在推理环节。
　　
　　国内创业公司是否可以接入 GPT3.5？
　　
　　国内有小的创业公司在用类似 3.5 的能力，通过海外程序代理或者单次租海外的服务器（需要使用VPN），这是短期生态（短期接或复刻类似的能力，目前主要是做早期的数据积累和反馈积累），长期不太可能实现。商业模式达到一定规模后，违反了OpenAI 的禁令。这个禁止也是给了国内大模型商业的空档，未来长期创业公司肯定是接百度、字节等模型。
　　
　　有了 AI 工具后，对营销中介、外包公司等的影响，是否这类公司价值大幅降低？
　　
　　开放问题，目前没有明确的答案，但很可能会发生。随着大模型能力越来越强。公司原先的壁垒可能不再是壁垒，除非找到独特的切入点，利用好数据，不然可能出路不太明晰。
　　
　　国内外模型的状态？模型之间的差异？算力在不同行业中是否有分类？
　　
　　模型方面，国外都比较接近，OPENAI 最前面，但海外模型都是 GPT3.5-4 左右水平。国内模型，拿得出手的是GPT3 左右水平（20 年OPENAI 的水平）。模型本质差异不大，结构比较接近，但细节上 openAI 做得更好（e.g.：推理逻辑）。算力分类没有那么细，芯片从设计到流片到最后的磨合使用要 7 年左右的时间，行业定制不太可能。目前可以评估算力的层面：1）训练芯片，对算力精准度高，TPU 和GPU 最好；2）推理芯片，精度要求不那么高，国内公司在努力做。可以分为云端推理和边缘端推理（地平线），大模型主要使用云端推理芯片。
　　
　　大模型会不会对很多细分行业 AI 降维打击？大模型整合所有行业的可能性？
　　
　　有可能，但不是所有行业。如果某一类场景有自己专用数据且不那么公开，对精度要求高，比如人脸识别，大模型可能拥有做不到 95%+准确率。高精度和高专用数据的，不对通用性要求很高的，不太容易被大模型颠覆掉。如果专业壁垒不那么高可能会被颠覆。
　　
　　算力国内外的差距？国内追赶难度？
　　
　　追赶难度可能会变大。算力差距让我们成为大模型领域的追赶者，这是确定性的事情。差距是否会越拉越大，现在不能定论。短期还好，A800 要到货了，和 A100 差距不是很大。但是 H100 出现的话（能力极强，但国内公司拿不到），可能就会差距越来越大。人海战术堆服务器不可能，芯片的传输能力有限，老的芯片在该种场景下作用有限。
　　
　　AI 对中国算力、服务器的拉动程度？
　　
　　短期国内还在训练端，本质问题是市面上只有这么多GPU，不会爆炸式增长，服务器需求也不会爆炸式增长。等未来大模型训练好，需要部署更多芯片做推理+A800顺利供货，推理端需求会暴涨。展望 5-10 年，大模型部署到智能设备上，会有很多推理和服务器需求的暴涨。
　　
　　未来是否会出现全新的 OS 操作系统，是以语言为基础的交互系统？
　　
　　有可能，未来可能会有一种功能，即 AI 自己打开很多APP，帮我们做好任务的安排。目前很多数据没有被用起来，如果更多数据被用起来，就有新的交互方式。目前卡点在时间，目前很多大模型在边缘端推理不了，手机芯片不支持大模型（500-1000 亿）量级推理，顶多是文本生成图片的推理（10 亿参数）。抛开壁垒和难度，是看好这个方向。
　　
　　国内几家做大模型机构的进展？投入节奏？
　　
　　大家都在尽量做投入，关键不是投入多少，而是提高优先级之下，有多少资源可以调配。互联网大厂已经在努力调配资源给大模型，算力上字节稍领先，百度腾讯阿里算力储备还不错，但都和国外公司的差距比较大。人才上，字节本身产品AI 驱动，理论上有人才和性能部署的后发优势。百度有先发优势，文心一言产品在及格水准；腾讯阿里也能做出来。
　　
　　创业公司：投入度主要看融资能力，这一波热潮很高，一级市场给的资源倾斜度很高，可能做成，但未来会收敛到几家。
　　
　　研究所：智谱华章、智源研究院，清北背景，做 TO G 大模型方案（背后有师资和政府算力）
　　
　　百度发布会上提到的架构指什么？大模型中算力、数据、算法中哪个是瓶颈，最关键的是哪个？
　　
　　百度架构指的是部署深度学习神经网络的框架（飞浆），指的是在芯片上如何更好更方便更快捷部署大模型的能力。但客观来说，没有这个架构国内公司也可以做，国外有很多开源框架支持这个事情，这不是必要的事情。
　　
　　短期瓶颈是数据，中文互联网数据没有清洗好，数据不互通，很吃时间和金钱，是短期卡点；长期看，算力问题可能比较大，H100 出现后差距可能会拉开。人才是自始至终的。
　　
　　Plugin 未来的生态是否已微软自己为主？Plugin 插件是否可以在第三方入口展现？
　　
　　Plugin 非常看好，抢了很多创意公司做得事情，使得 chatGPT 能做得事情更多了。这些工具不完全是微软旗下的，不是一个闭塞的商业生态，类似于 APP store。至于未来是否接入中国第三方公司，中国公司不太可能接入这种 API，openAI 不能在中国使用，如果有类似的中文大模型是可以用的。

很赞哦！ ()

上一篇
“灯会”遇上“元宇宙”：苏州打造别样“夜生活”

“灯会”遇上“元宇宙”：苏州打造别样“夜生活”

元宇宙

元宇宙网

24小时资讯

ChatGPT是什么？AIGC是什么？

“灯会”遇上“元宇宙”：苏州打造别样“夜生活”

相关文章

文章评论