评估大型语言模型（LLM）对知识工作者的影响

42.9K 00

原文：https://www.hbs.edu/ris/Publication%20Files/24-013_d9b45b68-9e74-42d6-a1c6-c72fb70c7282.pdf

本文旨在探讨人工智能对知识工作者生产力和质量的影响，通过实地实验得出结论。研究团队包括来自哈佛商学院、宾夕法尼亚大学沃顿商学院、麻省理工斯隆管理学院等机构的专家。研究结果将有助于了解人工智能在工作场景中的应用。

大型语言模型（LLM）的发布引起了人们对人工智能在知识工作者生产力和质量方面的影响的关注。LLM对知识工作者的绩效产生重大影响，特别是在创新、分析和写作任务方面。通过预注册的随机对照实验，可以评估LLM对高人力资本专业人员的影响。LLM在能力范围内显著提高了生产力和质量。

在LLM能力范围外，LLM降低了正确率。用户采用“半人马”和“赛博格”两种不同的LLM使用模式。LLM创建了一个“参差不齐的技术边界”，对工作的影响因任务的不同而不同。

用户需要判断任务是否在LLM能力范围内，以及如何与LLM有效协作。组织需要重新思考人机协作、新角色、利益相关者等，以充分发挥LLM的潜力。LLM将对知识工作产生深远影响，用户和组织需要适应这种影响。采用“半人马”模式，即根据LLM和人类各自的优势进行分工，是当前LLM能力范围内外的实验中证明最有效的AI使用方式。

AI在现实、复杂和知识密集型任务中的绩效影响

人工智能（AI）的能力创造了一个“崎岖的技术前沿”，其中一些任务可以由人工智能轻松完成，而其他任务则超出了当前人工智能的能力范围。在人工智能能力前沿内的任务中，使用人工智能的顾问的生产力显著提高，而前沿之外的任务中，人工智能的输出不准确，用处较小，会降低人类的绩效。专业人士很难确切知道在给定时刻这个前沿的边界可能是什么。善于导航这个前沿的专业人士在与人工智能合作时获得了巨大的生产力益处。人工智能的效用可以在专业人员的工作流程中波动，其中一些任务位于前沿内，而其他任务位于前沿外。对于前沿内的任务，人工智能显著提高了每个模型规范的绩效和质量。人工智能似乎既平衡了不同能力水平的绩效差异，又提高了前沿内任务的质量。人工智能使用可能导致想法多样性减少的挑战可能会给组织带来挑战。人工智能似乎有望显著影响人类的认知和解决问题的能力。人工智能的转型潜力，并提供了利用其能力以实现最佳结果的见解。人工智能在高端知识工作任务中的能力的乐观态度，例如快速创意生成、写作、说服、战略分析和创意产品创新。人工智能的前沿仍然具有挑战性，需要重新校准对前沿的理解。人工智能可能在降低与人类思考和推理相关的成本方面发挥类似作用，可能会产生广泛而具有变革性的影响。

AI对顾问表现的影响

AI对顾问表现有显著影响。GPT+概述治疗比仅GPT治疗有更明显的正面影响。概述增加了“保留”，并与更好的表现相关联。性别、母语流利度、任期、地点和技术开放性等因素对结果有影响。AI工具能显著提高任务完成率和质量。技能水平较低的受试者是使用AI的最大受益者。GPT-4有助于生成更优质的内容，但也可能导致更同质化的输出。AI能在需要密集人类互动的任务中提供性能益处。在位于前沿之外的任务中，AI治疗组在表现上明显下降。AI治疗对位于前沿之外的实验任务的正确性有显著负面影响。AI治疗能减少受试者在位于前沿之外的实验任务中完成任务所需的时间。使用AI的受试者在位于前沿之外的实验任务中提供的建议质量更高。在高技能专业人士的工作流程中，AI可以以多种方式影响性能。对于位于前沿内的任务，AI能提高人类的性能。对于位于前沿之外的任务，过度依赖AI可能会导致错误。AI的使用可以提高任务完成率。AI的使用可能会导致内容生成的多样性减少。AI的使用可能会导致时间的节省，但也可能影响工作质量。

AI对知识工作者的影响

研究发现，AI对知识工作者有正面和负面的影响。

正面影响包括：

提升生产力：使用AI的知识工作者能够更快地完成任务，平均速度提高了25.1%。

提高任务质量：AI的使用不仅加快了工作速度，还使得工作质量得到了显著的提升，评分平均提高了40%以上。

特别是对能力较低的知识工作者，AI的辅助能够极大地提升他们的绩效，绩效提升高达43%。

AI的使用能够减少工作流程中重复性和计算密集型的任务，从而让知识工作者有更多的时间和精力专注于更需要人类独特能力的工作。

负面影响包括：

在某些任务上，AI的使用反而会降低表现，例如在AI能力范围之外的任务中，使用AI的顾问正确率降低了19个百分点。

过度依赖AI可能会导致知识工作者放弃自己的判断，这在需要人类独特判断和创意的任务中尤其危险。

AI的使用可能会降低创意的多样性，这对于需要多元创意的领域来说是一个潜在的问题。

对于AI的误用或滥用，可能会带来道德和法律上的问题，这需要组织和员工特别注意。

总的来说，AI对知识工作者的影响是双重的，它既可以作为提升生产力和任务质量的强大工具，也可能在某些情况下导致绩效下降。因此，组织和员工需要学会如何有效地利用AI，同时也要意识到AI的局限性，避免在AI不擅长的任务上过度依赖它。

评估AI对知识工作者生产力和质量的影响

通过两次随机对照实验来评估AI对知识工作者生产力和质量的影响。实验对象是来自波士顿咨询集团（BCG）的758名个体贡献者顾问。这些顾问被随机分配到控制组或实验组，并要求在五个小时内完成18个真实的咨询任务。这些任务涵盖了AI的能力范围，包括分析、创意、重复性和计算密集型的任务。

在实验中，控制组的顾问被要求使用传统的咨询工具和搜索引擎来完成任务，而实验组的顾问则被允许使用GPT-4来辅助他们的工作。研究人员通过比较两组的任务完成情况，来评估AI的影响。他们测量了每个参与者完成的任务数量、任务完成时间和任务质量。任务质量由外部专家进行评分，这些专家不知道每个任务是人工完成的还是AI辅助完成的。

研究结果显示，使用AI的知识工作者比不使用AI的对照组平均多完成了12.2%的任务，并且任务完成速度提高了25.1%。此外，使用AI的顾问所生产的任务质量评分平均提高了超过40%。特别是对于那些能力较低的顾问，使用AI后绩效提升了43%。这些结果表明，AI能够显著提升知识工作者的生产力和任务质量。

然而，研究也发现，在某些AI能力范围之外的任务中，使用AI的顾问表现反而不如不使用AI的对照组。这表明AI的影响是双重的：它既可以作为提升生产力和任务质量的强大工具，也可能在某些情况下导致绩效下降。因此，组织和员工需要学会如何有效地利用AI，同时也要意识到AI的局限性。

有效整合AI和人类工作以提升工作效率和质量

有效整合AI和人类工作以提升工作效率和质量的策略包括：

任务分配策略：根据AI和人类的擅长领域，合理分配任务。例如，让AI处理那些需要大量数据处理和分析的工作，而人类则专注于需要创造性、情感智能和复杂人际交往的任务。

半人马策略（Centaurs）：这种策略是指人类工作者在任务中结合使用AI，充分发挥AI在信息处理和语言生成等方面的优势，同时保留人类在战略决策和创新思维方面的主导地位。人类工作者需要具备判断何时以及如何最好地使用AI的能力。

半机械人策略（Cyborgs）：这种策略强调人类与AI的紧密结合，人类工作者在任务流程中持续与AI互动，通过不断试验和反馈来优化AI的输出，从而提高工作效率和质量。

培训和教育：为了有效整合AI，组织和员工都需要接受适当的培训和教育，以便更好地理解AI的能力和局限性，以及如何最有效地利用AI。

监控和评估：组织应该监控AI的使用情况，并定期评估其对工作效率和质量的影响。这有助于识别AI的潜在问题，并采取相应的措施。

伦理和法律考虑：在整合AI的过程中，组织需要考虑伦理和法律上的问题，确保AI的使用不会侵犯客户隐私、知识产权或其他法律法规。

创新工作流程：重新设计工作流程，以适应AI的能力。这可能涉及到对现有工作流程进行彻底的改革，以便最大限度地发挥AI的潜力。

维持创意多样性：尽管AI在某些任务上表现出色，但人类工作者仍需保持创意多样性，避免过度依赖AI导致创意枯竭。

通过这些策略，组织可以更好地利用AI的优势，同时避免其潜在的负面影响，从而实现工作效率和任务质量的双重提升。

文档中提出的重要观点和结论

文档中提出的重要观点和结论包括：

AI对知识工作的影响：AI能够显著提升知识工作者的生产力和任务质量。例如，在实验中，使用AI的顾问比不使用AI的对照组平均多完成了12.2%的咨询任务，且任务完成速度提高了25.1%，质量评分也显著提高。

AI的使用策略：研究中提到的“Centaurs”（半人马策略）和“Cyborgs”（半机械人策略）是两种不同的使用AI的策略。前者是指那些能够有效分配AI和人类工作任务的顾问，而后者是指那些将AI集成到自己的工作流程中，与AI进行频繁互动的顾问。

AI在创意任务上的表现：AI在创意任务上的表现尤为突出，这可能对未来的创新组织方式产生影响。但同时，AI可能导致创意多样性降低，这需要组织在AI的使用上保持谨慎，并考虑如何维持创意多样性。

AI的局限性：研究也发现，在某些AI能力范围之外的任务中，使用AI的顾问表现反而不如不使用AI的对照组。这表明AI的局限性，以及过度依赖AI可能带来的问题。

AI对市场营销的影响：AI可以协助生成市场营销策略，包括市场细分、选择目标市场、制定营销口号等。但是，AI在创意多样性上的潜在不足也需要关注。

AI在产品开发中的作用：AI可以协助产品开发，从最初的想法到最终的市场发布。例如，AI可以提供产品创意、帮助选择最佳产品、设计产品原型、进行市场细分和营销策略制定。

AI对决策的影响：AI的使用可能会影响人类工作者的决策过程，包括增加对AI的依赖，以及在某些情况下AI可能会导致决策者放弃自己的判断。

AI在市场中的潜在竞争优势：AI可以帮助企业预测市场趋势、优化产品设计、提高生产效率，从而在市场竞争中获得优势。

AI对工作流程的潜在影响：AI可以改变工作流程，提高效率，但同时也需要对员工进行适当的培训和教育，以便他们能够有效地利用AI。

AI在行业中的应用潜力：研究强调了AI在各个行业中的应用潜力，尤其是在那些需要大量数据处理和分析的任务中。

这些观点和结论不仅基于研究者的分析，还有具体的实验数据和案例支持。例如，研究中提到的随机对照实验、对波士顿咨询集团顾问的表现分析，以及关于AI在产品开发和市场营销中作用的具体描述，都为这些观点提供了实证支持。

AI的局限性

AI的局限性包括：

AI的错误倾向：AI模型有产生错误结果的倾向，这些错误包括“幻觉”（hallucinations）或“虚构”（confabulations），以及在数学和提供引用方面的问题。例如，在实验中，使用AI的顾问在某些任务上的正确率反而不如不使用AI的对照组，下降了19个百分点。

AI的能力范围：AI的能力并不是均匀分布的，它有一个“锯齿状的技术前沿”（jagged technological frontier）。这意味着AI在某些任务上非常擅长，但在其他看似相似的任务上却表现不佳。这可能导致在设计任务时，难以找到AI表现明显逊色于人类工作者的领域。

AI对人类判断的影响：研究发现，人类工作者在使用AI时可能会过度依赖AI的输出，甚至放弃自己的判断。例如，在实验中，人类工作者在AI生成的错误答案上评分更高，这表明AI的输出可能会影响人类工作者的判断。

AI在创意多样性上的潜在不足：尽管AI在创意任务上表现突出，但它可能导致创意多样性的降低。这对于需要多元创意的领域来说是一个潜在的问题。

高质量提示的重要性

“高水平的保留度可以来自参与高质量提示”这一观点表明，知识工作者在利用AI助手（如ChatGPT）时，可能会通过提供高质量的提示来引导AI生成更有用的内容，从而提高工作效率和任务质量。这种高质量的提示行为可能包括帮助AI迭代改进其响应，直到达到完美状态，然后再将其大部分内容纳入自己的答案中。

在提供的文档信息中，研究者通过实验观察到，一些参与者倾向于高度依赖AI的输出，即“保留”（retain）大量AI生成的内容。这些参与者可能在理解AI的能力和局限性的基础上，通过精心设计的提示来引导AI产生高质量的内容。这种提示行为可能是导致高保留度的重要因素，因为它能够有效地利用AI的能力，同时确保最终输出的内容是准确和有用的。

例如，文档中提到，在创意问题解决的实验中，参与者需要通过一系列问题来构想新的产品创意。研究者发现，那些能够有效利用AI的参与者，他们的答案不仅包含了更多的AI生成的内容，而且这些内容的质量也得到了外部专家的高分评价。这表明，通过高质量的提示来引导AI，可以显著提高创意任务的工作效率和成果质量。

然而，研究者也指出，目前的研究分析还无法区分高保留度是由于高质量的提示行为还是由于对AI的过度依赖所导致。因此，这一观点虽然提供了一种可能的解释，但还需要进一步的研究来证实。同时，这也提示我们在实际工作中，应该重视对员工进行适当的培训和教育，以便他们能够更好地理解和利用AI的能力，同时避免对其过度依赖。

文档中提及的所有观点

以下是文档中提及的所有观点的列表：

1. AI对知识工作者的影响：AI能够显著提升知识工作者的生产力和任务质量。
2. AI的使用策略：研究中提到的“Centaurs”（半人马策略）和“Cyborgs”（半机械人策略）是两种不同的使用AI的策略。
3. AI在创意任务上的表现：AI在创意任务上的表现尤为突出，这可能对未来的创新组织方式产生影响。
4. AI的局限性：研究也发现，在某些AI能力范围之外的任务中，使用AI的顾问表现反而不如不使用AI的对照组。
5. AI对市场营销的影响：AI可以协助生成市场营销策略，包括市场细分、选择目标市场、制定营销口号等。
6. AI在产品开发中的作用：AI可以协助产品开发，从最初的想法到最终的市场发布。
7. AI对决策的影响：AI的使用可能会影响人类工作者的决策过程，包括增加对AI的依赖。
8. AI在市场中的潜在竞争优势：AI可以帮助企业预测市场趋势、优化产品设计、提高生产效率。
9. AI对工作流程的潜在影响：AI可以改变工作流程，提高效率，但同时也需要对员工进行适当的培训和教育。
10. AI在行业中的应用潜力：研究强调了AI在各个行业中的应用潜力，尤其是在那些需要大量数据处理和分析的任务中。
11. AI的错误倾向：AI模型有产生错误结果的倾向，这些错误包括“幻觉”（hallucinations）或“虚构”（confabulations）。
12. AI的能力范围：AI的能力并不是均匀分布的，它有一个“锯齿状的技术前沿”（jagged technological frontier）。
13. AI对人类判断的影响：研究发现，人类工作者在使用AI时可能会过度依赖AI的输出，甚至放弃自己的判断。
14. AI在创意多样性上的潜在不足：尽管AI在创意任务上表现突出，但它可能导致创意多样性降低。
15. 高质量提示的重要性：知识工作者通过提供高质量的提示来引导AI生成更有用的内容，从而提高工作效率和任务质量。
16. 保留度的影响因素：研究者观察到，一些参与者倾向于高度依赖AI的输出，即“保留”（retain）大量AI生成的内容。
17. AI在创意问题解决中的作用：AI可以协助生成市场营销策略，包括市场细分、选择目标市场、制定营销口号等。
18. AI在产品开发中的角色：AI可以协助产品开发，从最初的想法到最终的市场发布。
19. AI对市场营销的影响：AI可以协助生成市场营销策略，包括市场细分、选择目标市场、制定营销口号等。
20. AI在产品开发中的作用：AI可以协助产品开发，从最初的想法到最终的市场发布。
21. AI对决策的影响：AI的使用可能会影响人类工作者的决策过程，包括增加对AI的依赖。
22. AI在市场中的潜在竞争优势：AI可以帮助企业预测市场趋势、优化产品设计、提高生产效率。
23. AI对工作流程的潜在影响：AI可以改变工作流程，提高效率，但同时也需要对员工进行适当的培训和教育。
24. AI在行业中的应用潜力：研究强调了AI在各个行业中的应用潜力，尤其是在那些需要大量数据处理和分析的任务中。
25. AI的错误倾向：AI模型有产生错误结果的倾向，这些错误包括“幻觉”（hallucinations）或“虚构”（confabulations）。
26. AI的能力范围：AI的能力并不是均匀分布的，它有一个“锯齿状的技术前沿”（jagged technological frontier）。
27. AI对人类判断的影响：研究发现，人类工作者在使用AI时可能会过度依赖AI的输出，甚至放弃自己的判断。
28. AI在创意多样性上的潜在不足：尽管AI在创意任务上表现突出，但它可能导致创意多样性降低。
29. 高质量提示的重要性：知识工作者通过提供高质量的提示来引导AI生成更有用的内容，从而提高工作效率和任务质量。
30. 保留度的影响因素：研究者观察到，一些参与者倾向于高度依赖AI的输出，即“保留”（retain）大量AI生成的内容。

这些观点涵盖了AI对知识工作者、市场营销、产品开发等多个方面的潜在影响，以及AI在使用过程中需要注意的局限性和策略。

LLM的发布和影响

LLM（大型语言模型）的发布引起了人们对人工智能在知识工作者生产力和质量方面的影响的关注。LLM对知识工作者的绩效产生重大影响，特别是在创新、分析和写作任务方面。为了评估LLM对高人力资本专业人员的影响，研究人员进行了预注册的随机对照实验。实验结果显示，LLM在能力范围内显著提高了生产力和质量，但在能力范围外则降低了正确率。

用户采用“半人马”和“赛博格”两种不同的LLM使用模式。LLM创建了一个“参差不齐的技术边界”，对工作的影响因任务的不同而不同。用户需要判断任务是否在LLM能力范围内，以及如何与LLM有效协作。组织需要重新思考人机协作、新角色、利益相关者等，以充分发挥LLM的潜力。

LLM将对知识工作产生深远影响，用户和组织需要适应这种影响。采用“半人马”模式，即根据LLM和人类各自的优势进行分工，是当前LLM能力范围内外的实验中证明最有效的AI使用方式。

随机对照实验方法

研究采用了预注册的随机对照实验方法，以评估LLM对高人力资本专业人员的影响。实验涉及758名来自波士顿咨询集团的顾问，他们被要求完成18个真实的咨询任务。实验组被允许使用LLM来辅助完成任务，而控制组则使用传统方法。研究人员通过比较两组的任务完成情况，来评估LLM的影响。

结果显示，使用LLM的知识工作者比不使用LLM的对照组平均多完成了12.2%的任务，并且任务完成速度提高了25.1%。此外，使用LLM的顾问所生产的任务质量评分平均提高了超过40%。特别是对于那些能力较低的顾问，使用LLM后绩效提升了43%。

然而，研究也发现，在某些LLM能力范围之外的任务中，使用LLM的顾问表现反而不如不使用LLM的对照组。这表明LLM的影响是双重的：它既可以作为提升生产力和任务质量的强大工具，也可能在某些情况下导致绩效下降。因此，组织和员工需要学会如何有效地利用LLM，同时也要意识到LLM的局限性。

如何有效整合AI和人类工作

为了有效整合AI和人类工作以提升工作效率和质量，可以采取以下策略：

1. 任务分配策略：根据AI和人类的擅长领域，合理分配任务。例如，让AI处理那些需要大量数据处理和分析的工作，而人类则专注于需要创造性、情感智能和复杂人际交往的任务。
2. 半人马策略（Centaurs）：这种策略是指人类工作者在任务中结合使用AI，充分发挥AI在信息处理和语言生成等方面的优势，同时保留人类在战略决策和创新思维方面的主导地位。人类工作者需要具备判断何时以及如何最好地使用AI的能力。
3. 半机械人策略（Cyborgs）：这种策略强调人类与AI的紧密结合，人类工作者在任务流程中持续与AI互动，通过不断试验和反馈来优化AI的输出，从而提高工作效率和质量。
4. 培训和教育：为了有效整合AI，组织和员工都需要接受适当的培训和教育，以便更好地理解AI的能力和局限性，以及如何最有效地利用AI。
5. 监控和评估：组织应该监控AI的使用情况，并定期评估其对工作效率和质量的影响。这有助于识别AI的潜在问题，并采取相应的措施。
6. 伦理和法律考虑：在整合AI的过程中，组织需要考虑伦理和法律上的问题，确保AI的使用不会侵犯客户隐私、知识产权或其他法律法规。
7. 创新工作流程：重新设计工作流程，以适应AI的能力。这可能涉及到对现有工作流程进行彻底的改革，以便最大限度地发挥AI的潜力。
8. 维持创意多样性：尽管AI在某些任务上表现出色，但人类工作者仍需保持创意多样性，避免过度依赖AI导致创意枯竭。

通过这些策略，组织可以更好地利用AI的优势，同时避免其潜在的负面影响，从而实现工作效率和任务质量的双重提升。

结论

LLM的发布为知识工作者带来了生产力和质量方面的提升，但也存在一定的局限性和风险。为了更好地利用LLM，用户和组织需要采取适当的策略，包括重新思考人机协作、新角色、利益相关者等，以及学会如何有效地与LLM合作。同时，也需要重视AI的伦理和法律问题，避免AI的使用带来负面影响。只有在充分理解和应对AI的潜在风险的基础上，才能更好地发挥AI的优势，实现工作效率和质量的双重提升。