2022 年 11 月 30 日,OpenAI公司的对话式人工智能应用ChatGPT正式发布,因其对话能力远超同类应用而迅速引爆互联网。2023年1月份,其月活用户数已经破亿,成为史上发展最快的应用。2023年3月15日,GPT-4的发布再次引爆互联网,原有的自然语言理解、推理和对话能力继续增强,更引入了识图等多模态识别功能,有研究认为可以将其视为“通用性人工智能”的初步阶段。在国内,百度同类产品“文心一言“的发布同样引起了极大关注。
本文旨在分析ChatGPT类生成式人工智能产品及技术对我国网信工作和舆情工作的影响。主要内容为:1. 该类产品可能会形成新的、占据大量用户使用时间的互联网流量入口。2. 技术上短期内会呈现OpenAI领跑,其他国内外的大型科技公司跟随的局面。3. 该类产品和技术短期内可以提升特定行业的生产力,并在长期对社会各行各业都有有利影响。4. 该类产品在提供监管和引导的情况下对社会文化发展有利,但也有部分需要特别关注的问题。5. 应该采取一系列措施,鼓励该类产品健康发展,并在形成规模后配套一系列监管措施保证其符合社会伦理。6.具体建议。
1. 产品发展预测。
该类产品可以分核心产品和衍生产品。
核心产品是类似ChatGPT的对话式聊天工具。该类产品从OpenAI已经建立了较为明显的领先优势。其产品ChatGPT能力明显领先于竞争对手,甚至在一项之前被人类认为自身独有的能力创造力评估中,只有9.4%的人可以超过GPT4 (arxiv.org/abs/2303.12003)。谷歌作为其底层技术(transformers)的发明者,在公司高层非常重视、不缺技术不缺资金的情况下,其同类产品bard在功能、体验上仍然明显落后于ChatGPT。在短期内,仍然会呈现ChatGPT占据市场主要份额,其他类产品如Bard、Sage、Claude等竞争少量剩余市场份额的局面。国内来看,上海秘塔网络科技有限公司在2023年2月28日推出了“对话写作猫”类产品,采用秘塔自研MetaLLM大模型,主要聚焦于写作辅助场景。不过更具影响力的还是3月16日百度发布的生成式AI产品“文心一言”。
衍生产品国际上以微软为主导。因为微软和OpenAI的深度合作关系,微软率先在自家搜索引擎bing中引入对话机器人而抢占了不少Google的市场份额。同时还在自己的多个产品线如Office、Github、Loop中宣布引入类似的技术。国内因发展较晚,衍生产品还没有大规模发展。
从ChatGPT的发展来看,该类产品可能会形成新的、占据大量用户使用时间的互联网流量入口,并逐渐侵入其他垂直领域。
2. 技术发展预测。
ChatGPT采用的GPT-4语言模型为目前公认的效果最好的语言模型,但其技术细节OpenAI并没有公布。Facebook开源了他们的大语言模型LLaMA。国内来看,复旦大学在2月份曾打算公开发布类ChatGPT模型MOSS,但因热度过大而暂停公开。清华大学在3月14日发布了ChatGLM-6B开源双语对话语言模型,其中文对话能力较强。百度的文心一言模型为非开源的自研大语言模型。
值得注意的是,已经有多个研究发现基于一个并不先进的开源大型语言模型 (LLM),结合OpenAI的语言模型或其他先进语料进行微调,即可获得相似于ChatGPT 的能力。如斯坦福大学开源的Alpaca和databricks的Hello Dolly,都可以利用已发布的语言模型和较少的训练资源来达到类似于ChatGPT的能力。
从底层技术上看,大预言模型的训练都要使用大量的先进GPU。目前该项技术主要为NVIDIA所独有。我国的GPU技术起步较晚,目前且NVIDIA最先进的产品如Tesla A100已被美国禁运,国内只能提供性能差一级的特供版。
综上来看,技术上短期内仍然呈现OpenAI一家独大的局面,与其深度合作的微软公司可以共享其技术成果。其他国内国外的大型科技公司公司虽然无法达到OpenAI的高度,但也可以在短期内拥有一个效果类似于ChatGPT初期的语言模型。对国内企业来说,相对于美国企业有两个额外的难点:1. 用于训练的中文高质量语料不足。2. 先进GPU进口受限。
本章节主要预测ChatGPT类生成式人工智能产品在发展到一定程度后的社会影响。
其影响显然是多方面的,限于能力和篇幅,本文仅尝试从社会生产力影响、社会文化影响舆论动员能力、互联网产业影响、网络数据安全影响角度做浅析。
1. 社会生产力影响
工作效率方面,该类产品在一些领域可以显著的提高工作效率。目前来看,ChatGPT类产品和技术在外语翻译、写作辅助、编程辅助等领域都体现出了非常好的效果。其对专业技术文章的快速总结能力也已经得到了验证。在其他一些较为小众的专业领域,也可以通过诸如ChatGPT Retrieval Plugin这样的插件结合专业文档来得到一个帮助用户快速入门和检索的问答式机器人。OpenAI的研究人员估计 ChatGPT 和使用该程序构建的未来应用可能影响美国大约 19% 的工作岗位,和他们至少 50% 的工作任务(相关论文:arxiv.org/pdf/2303.10130v1.pdf )。
总体来说,该类产品还是会显著的增加各行各业的生产力。
2. 社会文化影响和舆论动员能力
该类应用的舆论动员能力主要体现在显式和隐式两个方面。
显式方面,因为该类应用可能会发展成为新的互联网流量入口。其首页上的推荐信息等会成为新闻门户,其影响力类似于现有其他类互联网门户。
隐式方面则更为重要。在有大量用户的前提下,语言模型可以被认为获得了对世界观价值观人生观的解释权。语言模型的意识形态是隐藏在训练数据和训练过程中的,无法直接通过文字或代码来检查验证。在2022年12月,清华大学·交叉信息研究院·助理教授于洋带领团队对GPT-2做了性别歧视水平评估,测试结果发现其存在一定的歧视行为。2月份 OpenAI 首席执行官 Sam Altman 在 2 月初发推文表示其在偏见方面存在偏见。
虽然语言模型的偏见是不可避免的,但从另一个角度来说,正式上市的语言模型,包括国外的ChatGPT类,整体还是表现出了较高的伦理/道德水准,相对于日常人们接触到的互联网环境,接触ChatGPT带来的影响可能更为正面。对语言模型只需加以监管和引导,其益处会明显大于坏处。非正式上市的语言模型,因可能不做伦理方面的训练而更容易被用作灰产,这类产品可以生成大量的争议性文章用作引流、在封闭性社群挑逗吸粉等,如果被用作未成年教育可能危害极大。
教育领域,ChatGPT是否可应用于教学,特别是大学生在完成作业时能否使用ChatGPT也产生了巨大争议。
除了对话类产品,还应该考虑ChatGPT类技术带来的影响。ChatGPT类技术可以在短期内生成大量的同类但不完全相同的文章,目前已可被用于灰产、批量广告、SEO技术等。如果和水军机器人技术结合,可能会产生大量以假乱真的帖子搅乱互联网空间。对互联网平台和管理部门而言,如何监控人工智能生成的批量数据是个新的监管难点。
3. 互联网产业的影响
该类应用可能会重塑互联网格局。ChatGPT成为最快达到1亿月活用户的互联网公司。根据分析公司Similarweb的数据,在微软将OpenAI的AI聊天技术整合到搜索引擎必应(Bing)之后,必应的页面访问量较一个月前增长15.8%,而谷歌同期搜索引擎的访问量下降了近1%。在ChatGPT开放插件体系后,已有预测其将成为一个新的互联网门户。
4. 网络数据安全的影响
OpenAI作为一个已AI研究起家的小公司,其产品能力要明显弱于其他老牌互联网大厂,上线以来已经历过多轮宕机和数据丢失现象。3月25日,OpenAI公司披露有1.2% 的 ChatGPT Plus 用户可能向其他用户泄露了个人数据。
从OpenAI和隐私协议看,用户在使用ChatGPT期间的提示和回复等数据,将被该公司继续用于训练AI算法模型。这也是ChatGPT能力可以持续提升,保持对其他同类产品竞争力的一个重要原因。
如果国外产品在国内提供服务,主管部门需要考虑跨境数据的安全问题以及产品本身的安全能力。如果是国内产品在国内提供服务,也需要考虑其训练数据是否确实剔除了隐私内容,特别是有多项业务的互联网大厂,是否会挪用用户的输入数据用于其他业务。
这部分尝试从上文中的分析,对网信等互联网主管部门如何引导ChatGPT类产品和技术健康发展提出初步建议。仅供参考。
1. 鉴于其对社会生产力进步的积极作用,因积极鼓励互联网公司大力发展同类产品和技术,并在一些具体问题上给予支持。
a) 数据问题:可以开放可公开的政务数据作为训练数据。这部分数据内容质量高且符合。在合法、保证隐私的前提下引导各互联网平台数据流通。
b) 算力问题:可协调国家超算为互联网公司提供有偿服务,弥补算力不足的因素。
c) 对训练数据的使用过程中,法律不明确的地方提供支持。
2. 网信部门可以总结符合我国社会文化发展需要的语言伦理模型或其他可供参考的条款供互联网公司训练模型时应用。同时,对于用户数超过一定数量级的产品应定期监控评估其伦理模型的合理性。
3. 可主动应用该类技术,为群众提供领域内的咨询服务,如网络安全、政策法规问答等。
4. 鉴于对该类技术监控存在技术难点,可鼓励第三方公司开发评估大语言模型的伦理是否恰当的监测工具。为AI发展的监管提供技术支撑能力。
5. 鉴于新技术可能带来的争议性,应监测该项技术在互联网上引发的争议,对涉及社会公共领域的问题及时回应。
6. 鉴于该类技术可能在短期内应用于水军类黑灰产,可要求互联网平台加强在该技术下对水军的识别,并鼓励第三方公司提供该类技术下的监测能力。
7. 鉴于对该类技术在大量应用后可能会取代部分岗位,可以牵头评估短期内影响较大工作岗位,并提请其他相关部门提前做出应对。
8. 鉴于该类技术存在安全性的心理预期偏差(用户认为自己面对的是机器人而实际这些数据可能被用于其他研究)。可提醒群众注重自身的数据安全,详细了解其使用协议,并监管厂商是否依法依规使用用户数据。
(部分文字、图片来自网络,如涉及侵权,请及时与我们联系,我们会在第一时间删除或处理侵权内容。电话:4006770986 邮箱:zhangming [at]eefung.com 负责人:张明)