gao1
您的位置:首页 > 聚焦 >

Science:ChatGPT缩小了打工人的差距

2023-07-18 14:44:13     来源:IT之家    阅读量:5804   阅读量:16218   

Science 正刊发表对 ChatGPT 的调查报告,《生成式人工智能对生产力影响的实验证据》。

对于一些文书任务,ChatGPT 不仅能在节省 40% 时间的同时提高 18% 的绩效,还降低了不同人之间的绩效差异。

MIT 官方也对这一研究成果进行了报道。

对照组也会偷用

这场实验一共邀请了 453 名受试者,分为实验组和对照组。

这些受试者是来自不同领域、受过高等教育的专业人士。两个组中人员的薪资水平、职业等信息如下表所示:

在为期一个月的实验中,他们被要求完成与职业相关的写作任务。

这些任务包括撰写新闻稿、简短报告、分析计划和电子邮件,时长约为 20 到 30 分钟。评估的指标包括效率和质量两部分,每份成果分别交由三名相关领域的专业人士进行盲评。

结果显示,实验组所用时间减少了 0.75 个标准差,评分则提高了 0.41 个标准差。

如果换算成百分数,时间缩短和质量提高的比例分别是 40% 和 18%。

具体而言,实验组首先被安排完成一项任务,之后注册 ChatGPT。他们被告知,如果觉得 ChatGPT 好用,那么就要在第二个任务中使用。

而对照组则被要求注册一款 LaTex 编辑器,但没有类似的告知。

结果,有 80% 的实验组人员在第二个任务中使用了 ChatGPT,而对照组中只有不到 5% 使用了 LaTex 工具。

对于第二个任务,实验组平均耗时为 17 分钟,比对照组少了 10 分钟。质量方面,实验组的平均成绩为 4.53,对照组的平均成绩则为 3.802。

除了提质增效,ChatGPT 还降低了不同人之间工作质量的差异。

根据第一个任务完成情况的不同,研究人员将这些人第二次任务的评分进行了线性拟合。结果显示,实验组评分的拟合斜率为 0.414,比对照组低了 0.272。

那么这些人又是如何使用 ChatGPT 的呢?是直接使用输出结果或仅做微调,还是只用来打草稿?

跟踪结果显示,有 33% 的受试者提交的是原汁原味的 ChatGPT 结果,而 53% 进行了修改。但这些修改可能十分微小,比如只是调整一下格式等等。

得出这一结论的理由是,他们在 ChatGPT 生成回复后的平均活动之间只有 3.3 分钟,且大部分位于 0-2 分钟之间。

需要说明的是,在实验开始之前,70% 的受试人员已经听说过 ChatGPT,32% 曾经使用过。所以,在实验过程中,研究人员发现,对照组中也有 10~20% 的人使用了 ChatGPT。

这一现象对实验结果存在一定影响,研究人员利用了统计学方法进行修正。

实验结束后,研究人员还对这些受试者进行了两次回访,分别有 92% 和 83% 的人给出了回复。

第一次回访是在实验结束后两周,实验组和对照组分别有 34% 和 18% 的人仍在使用 ChatGPT。六周之后,也就是实验结束后两个月,这组数字分别提升到了 42% 和 27%。

综上所述,研究人员认为,ChatGPT 在提升工作质效方面确实有显著作用,但其能否取代人类仍不明确。

作者简介

该研究由 MIT 华裔经济学博士生 Whitney Zhang 和同学 Shakked Noy 共同完成。

Zhang 从 2017 年开始一直在 MIT 就读,目前的研究领域包括行为经济学等经济学分支领域。Zhang 还是波士顿华人社区大学初入者帮扶项目导师。

Noy 则来自新西兰,2022 年进入 MIT 攻读经济学博士。

论文地址:

参考链接:

广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

上一篇:消息称微软Xbox金会员服务将被砍,“XboxGamePassCore”
下一篇:返回列表

精彩阅读

  • 可换电的中大型SUV 睿蓝9重庆车展亮相可换电的中大型SUV 睿
  • 极星将发布Polestar 5 对标保时捷Taycan极星将发布Polesta
  • 试驾丨江铃福特领睿,中国特供的高性价比“真福特”试驾丨江铃福特领睿,中国
  • 捷尼赛思电动版G80发布时间推迟捷尼赛思电动版G80发布
  • 福克斯换装四缸机上市,长安福特迎产品黄金期福克斯换装四缸机上市,长
  • 加入BJ60“共创家计划”,与北京越野一起秀IDEA赢好礼加入BJ60“共创家计划