您当前的位置:首页 > 公告新闻 > 中物财经

ChatGPT等大型语言模型对劳动力市场影响潜力的初步评估

2023-05-08 来源:

 

编者语

近年来,生成式人工智能和大型语言模型(Large Language Models, LLMs)领域的研究进展十分迅速。除了LLMs本身的生成能力外,研究者们更加关注对于其互补技术(如嵌入)的开发广度、规模、能力等,LLMs正在被集成到更加专业、全面的工具系统中。为了预测这些新技术的应用对于劳动力市场的影响,本文采用了一种创新性评级方法,用来评估GPT模型在不同行业的工作任务中的暴露度。研究发现,大约80%的美国劳动力可能会因为GPT的应用而受到影响,而约19%的工作可能会有至少50%的工作任务受到影响。敬请阅读。

文/Eloundou, T., Manning, S., 

     Mishkin, P., & Rock, D.

来源/微信公众号“当代经济学基金会”

01

研究背景

生成式人工智能模型通常用于执行特定任务,例如从文本中生成图像或从语音中转录文本。这种系统正在重新配置整个经济中的现有流程,已被应用于写作辅助、编程和法律研究等领域的工作流程。GPT模型可能存在事实错误、固有偏误、隐私顾虑和虚假信息等风险,因此需要专业的工作流程系统来解决这些缺陷。当LLMs的性能超过特定阈值时,它们也能够通过积极的反馈循环进行自我改进和完善。

本文试图通过评估GPT对不同行业中工作任务的差异来探究LLMs的进步对于劳动力市场的影响。

 

02

数据和研究方法

2.1 职业、详细工作活动(DWA)和任务数据

 

微信截图_20230508200855.jpg


本文利用 O*NET 27.2 数据库中的 1016 条职业信息,包括职业名称和 2087 个对应的详细工作活动(Detailed Work Activities, DWAs) 等。同时,本文制定了共 19265 项任务用于评估 GPT-4 对工作的辅助效果,这些任务大多数与 DWAs 相关。上表显示了计算机工程师/设计师、紧急救护、赌场服务、电商、幼儿园教师、小学教师等职业的工作活动内容和任务描述。

2.2 工资、就业和人口统计数据

本文使用美国劳工统计局(Bureau of Labor Statistics, BLS)提供的2020-2021年职业就业系列数据,其中包括职业名称、每个职业的就业人数及工资、2031年这些职业的就业预测、职业准入的教育水平以及获得职业能力所需的在职培训情况等信息。BLS数据库可以与O*NET数据库联动,通过当前人口调查(Current Population Survey, CPS),将O*NET中的任务和工作活动数据集与BLS劳动力人口统计数据进行关联,形成截面数据。

2.3 某一项任务可以利用GPT的程度【暴露度(Exposure)】

研究采用暴露度(Exposure)作为GPT对工作任务影响的评估标准。暴露度的定义为:是否能够通过利用GPT将完成特定工作任务的时间减少至少50%。具体而言,本文主要采用了三种评估标准:

1.无暴露度(E0):应用模型不能减少完成任务50%的耗时,或者降低了任务的完成质量。

2.直接暴露度(E1):在保障任务质量的前提下,完成任务耗时减少50%。

3.LLM+暴露(E2):虽然无法直接节省50%的任务耗时,但在LLM的基础上开发其他额外功能以节省50%以上的耗时(E3包括图像生成能力,本文在分析时将其合并进E2)。

值得注意的是,本文所采用的暴露度评估标准旨在评估GPT对于特定任务的辅助效果,而非评估其完全替代人类完成任务的能力。

本文构建了三个度量变量:𝛼、𝛽 和 ζ,用于评估GPT模型对工作任务的冲击程度。其中,𝛼=E1,表示受影响任务比例的下限;𝛽=E1+0.5*E2,E2的权重设定为 0.5,考虑到使用补充工具和应用程序部署技术需要额外投资;ζ=E1+E2,用来评估GPT及其驱动系统在工作任务中的最大暴露程度。

2.4 评估方法

在评估职业的GPT系统整体暴露度时,文章使用了两种评估方法,分别为人工评分和GPT-4评分。


03

研究结果

3.1 描述性统计

𝛼(即E1):根据人类和GPT-4的评分,平均职业水平的𝛼值介于0.14和0.15之间,这表明对于普通职业来说,大约15%的任务会对GPT直接暴露(即耗时缩短一半以上)。在𝛽中,这个暴露程度增加到超过30%,甚至在某些情况下增加到超过50%。巧合的是,人类和GPT-4评分均将整个数据集中14%-15%的任务评为直接暴露。

𝛽(E1+0.5*E2):根据𝛽值的估计,80%的员工至少有一项任务暴露于GPT,而19%的员工有一半以上的任务被标记为暴露于GPT。

3.2 工资和就业

 

2.jpg


上图展示了整个经济体相对于GPT的暴露强度,左图显示受影响职业的百分比,右图显示受影响工人的百分比。暴露的分布在职业和工人之间是相似的,这表明职业的工人集中度与职业相对于GPT的暴露度没有很高的相关性。我们预计它可能与为特定领域开发GPT驱动软件的投资密切相关。

3.jpg

 

上图表明工资较高的职业往往更容易受到GPT的影响,但GPT和某一职业从业人数的关系并不明显。

 

3.3 职业技能的重要性

为探究职业技能的重要性和暴露度(𝛼,𝛽,𝜁)的关系,本文使用了O*NET数据集提供的基本技能及编程技能(见下表),并对每个职业的技能重要性进行量化,对暴露度进行了回归分析,以探究技能重要性与暴露程度之间的关联。

4.jpg

研究结果表明,科学和批判性思维技能的重要性与暴露度呈现出强烈的负相关性,这意味着需要这些技能的职业不太可能受到GPT的影响。相反,编程和写作技能与暴露呈现出强烈的正相关关系,这意味着涉及这些技能的职业更容易受到GPT的影响。

3.4 进入门槛

本文了还探讨行业的进入门槛,观察不同工作类型的暴露差异。其中一个代理变量为O*NET职业的 “工作区域”。工作区域将相似的职业分组,分组的标准为:(a)获得该职业所需的教育水平,(b)完成工作所需的相关经验量,以及(c)完成工作所需的现场培训程度。

在O*NET数据库中,共有5个工作区域,其中区域1需要的准备时间最短(3个月),而区域5需要的准备时间最长(4年及以上)。本文发现,随着所需准备程度的提高,中位数收入在不同工作区域之间单调递增。其中,区域1工人收入的中位数为30230美元,而区域5工人收入的中位数为80980美元。

评估GPT对劳动力可能产生潜在影响的趋势需要能区分他们所在的工作区域, 包括所需教育(获取技能的代表)和所需准备工作,文章在BLS职业数据中使用了两个变量:“入门所需的典型教育”和“在职获得职业能力所需的培训”。 

 5.jpg

上表结果表明,持有学士、硕士和专业学位的人比没有正式教育证书的人更容易接触到GPT和GPT驱动软件,部分完成大学课程但没有学位的人也具有高水平的GPT暴露度。

 6.jpg

上表显示,暴露最少的工作需要最长时间的培训,起薪水平也不高。相反,不需要在职培训或仅需要实习/住院的工作似乎有更高的收入,但更容易暴露于GPT。

3.5 风险暴露程度最高的职业

文章附录给出了人工评估与GPT-4评估下不同行业的风险暴露程度,

在人工评估下,风险暴露程度最高的十大行业分别为:证券、大宗商品合同及其他金融投资及相关,保险公司及相关,数据加工托管及相关,其他信息服务,出版相关 (除了互联网),借贷信用中介及相关,出租非金融无形资产 (版权作品除外),基金,信托及其他金融工具,央行及货币当局,电子批发市场及中介机构。

在GPT-4评估下,风险暴露程度最高的十大行业分别为:数据处理托管及相关服务,其他信息服务,出版行业(互联网除外),保险公司及相关服务,借贷信用中介及相关,证券、大宗商品合约及其他金融服务相关,科学及技术专业服务,非金融无形资产出租(版权作品除外),广播电视(互联网除外),货币当局-央行。

 

04

结论

本文有以下主要结论:

第一,大多数职业都在一定程度上暴露于GPT(LLMs),而高薪工作通常具备更高的暴露度。

第二,根据当前GPT的技术水平,约19%的工作岗位至少有50%的任务暴露于GPT。

研究结果显示,大型语言模型(如GPT)的广泛应用对美国经济发展和劳动力市场产生了重要影响,随着人工智能和自动化技术的不断发展,这种影响可能会不断扩大,可能导致经济不平等和劳动力市场的混乱。因此,政策制定者需要关注大型语言模型可能带来的伦理和安全风险,如偏见、虚假事实和错位等问题,并采取措施来减轻其可能带来的负面影响。

本文的政策含义是,政策制定者应该关注教育、工人培训、社会福利计划改革等方面,以平稳地过渡到一个越来越广泛采用大型语言模型的经济发展阶段。


 

 


友情链接