元宇宙网

您现在的位置是:首页 > 全球快讯 > 24小时资讯

24小时资讯

元宇宙里还有爬虫吗?

2022-06-2424小时资讯
元宇宙里还有爬虫吗?

     元宇宙构建了一种新的社会形态,模糊了虚实之间的联系,是数字经济的重要载体。虽然当前对于元宇宙的愿景,还存在正反观点之争。但是不管怎么样,互联网、移动互联网技术和生态模式总是要向前发展,Faceboob(Meta)计划在2025年建成元宇宙社交,也给了我们一个大概的参考时间。我们有必要思考现有信息技术应用形态在元宇宙中将如何进化。基于对网络爬虫技术的深入理解,我对此做些思考,欢迎留言轻拍。
     元宇宙里是否还存在爬虫?爬虫技术将会如何演进?为了深入理解这些问题,我们有必要细分爬虫的主要能力。爬虫的主要能力可以细分为:爬行能力、感知能力、获取能力和处理能力。我们下面的分析也是基于这些角度。
元宇宙里还存在爬虫吗?
     当前爬虫的主要需求来自搜索引擎、数据采集、信息代理、安全监测等,在元宇宙里,虚实结合,信息量更大,每个人有多个虚拟化身,扮演不同的信息处理角色,因此各类信息内容必然快速增加(符合数据界的摩尔定律),信息的搜索聚合仍是一个重要话题
虚拟数字人,特别是真人驱动型的,将承载更多的个人隐私数据。人的数字身份、社交、信用、情感、精神需求、数字资产等会变得越来越重要,而随着相关的数据安全法律规范的实施,对于数据采集的合规性在元宇宙里将得到强化。并且到时随着数据产权归属的清晰化,爬虫的爬行、感知、获取和处理能力都可能受到一定限制。除此之外,元宇宙必继续继承互联网的开放性,仍有大量开放信息,是爬虫的主要数据源。
         安全监测是爬虫技术一个很好的应用典范,只是现在很多人忽略了它,比如我们可以用它来检测SQL注入、页面挂马(具体例子可以参见《Python大数据采集与挖掘》第12章的12.3)等等。在元宇宙里安全问题愈发突出,攻击手段更加丰富,各种伪装造假也是会更加普遍,如何让自己的虚拟化身避免受到伤害,爬虫可以在元宇宙安全方面有所表现。比如,在元宇宙同陌生人联系之前,可以先让爬虫前去探探虚实,因为爬虫是一个简化版的虚拟人,在陌生人带有恶意的情况下不至于受到影响。
       而对于个人信息代理,由于每个人有多个化身,如何管理这些分身,普遍认为博客之类的聚合技术会得到进一步发展,与此相对应,爬虫技术作为一种个人信息代理来处理聚合信息、处理多分身信息也是一个很好的选择,比如充当聊天机器人,见文后链接。
爬虫技术的演化
        爬虫之所以能爬,主要是基于页面之间的超链接。到了元宇宙,互联网信息的组织及其形式是否还是以Web页面和超链接为主,这个问题就决定了爬虫是否能继续存在的依据了。由于Web本质上是一种知识表示,因此在上层变换莫测的情况下,我们就需要从更根本的知识表示层面来看这个问题。当前的知识表现形态有文本、图片、视频,到了元宇宙,知识表现要变得丰富得多。元宇宙里,人数字化成为虚拟数字人,并在AI或真人驱动下完成微表情、微动作、微心理、微情感等等的生成、迁移或交互,从而极大丰富知识形态。但是知识本身的框架特征和关联特征在过去和将来都一直会是主要形式
      一般认为元宇宙的Web是在当前的Web2.0上增加了价值分配。比如,个人信息将成为用户自主掌控的数据资产,用户可以在数据流转和交易中真正获益,使自己的数据不再是互联网平台的免费资源。相应底,价值交换技术也必将成为爬虫技术体系的重要部分。
从Web技术的角度看,我们经历了只读的1.0,可读写的2.0,将来以可读写+拥有/价值交换的3.0。浏览器仍将是接入元宇宙的途径,不过是会增加一些3D功能,当前的WebXR大概就是支持这些的。
关于爬虫、元宇宙的进一步阅读
       参考书《Python爬虫大数据采集与挖掘》(清华大学出版社,2020),该书侧重于采集、文本处理和Python实现,可实践性强,有效解决大数据教学“无米之炊”的问题

文章评论