新闻业AI评估指南 / 翻译
注:本文由 Charlotte Li 和 Nicholas Diakopoulos 共同撰写。
原文:https://generative-ai-newsroom.com/blueprints-for-evaluating-ai-in-journalism-e702c9e8c4f3
在当今时代,新闻机构越来越依赖AI工具提升工作效率和生产力,这一变化正在深刻地重塑新闻行业的结构。然而,随着AI工具的不断演进,我们发现,面对新闻领域特有的使用场景和规范,我们缺乏一个全面的评估策略来审视这些技术。同时,公众对于AI在新闻制作中的应用持怀疑态度,主要担忧可能出现的偏见和信息不准确的问题。那么,新兴的生成式AI模型是否真的适合新闻制作?它们是否能在新闻生产中广泛的任务上真正带来性能上的提升?
基于对此问题的深入研究,我们提出了一个评估框架,旨在针对新闻用例评估生成式AI模型。该框架不仅对于那些负责构建和测试系统的设计师和工程师极具价值,对于那些需要选择和融合这些系统以应用到实际工作中的新闻从业者来说,也同样重要。此外,我们建议的评估指标能够为读者提供所需的透明度。
复杂、交错而又常常难以直观理解的AI系统评估可谓是一项挑战。插图来自《相对论》,艺术家M. C. Escher,1953年作。
AI系统的常规评估方法
目前评估AI系统的方法多种多样,最知名的方法之一是通过定量指标来评估AI系统的“质量”。这些方法通常依赖于特定任务的“金标准”数据集,并使用自动化指标来评估模型的性能。尽管这些方法在AI研究中因其高效和可扩展性而受到青睐,但它们往往因只能评估测试数据集中固定和片段化的“质量”概念而难以适用于现实世界情境。
另一种评估方法源于人机交互(HCI)领域,更侧重于AI工具使用中的具体交互和具体情境。通过与AI工具的少数用户互动,研究人员探究人们如何在一定时间内感知、使用并适应新工具。这种方法有助于了解AI工具在特定情境下的表现,但考虑到它们所需的大量时间和资源,对频繁发布的AI模型进行迭代评估变得颇具挑战。
为了使记者和编辑能够高效有效地评估和选择合适的工具,我们必须开发出既符合新闻领域需求又能适应不同新闻工作环境和实践的AI评估策略。
评估框架的构建
我们在此提出的评估框架旨在引导对新闻领域AI工具使用的评估。该框架建议从三个维度对工具进行评估:(1) 基于编辑兴趣和目标的AI模型输出质量;(2) 基于用户需求和工作流程的AI应用交互质量;(3) 基于专业价值观和新闻室标准的伦理一致性。我们还建议从业者与研究人员合作,共同开发出一套标准,以评估新闻室中AI的这些方面。
输出质量
谈及AI模型输出的质量,我们面临的是一个复杂问题,因为“质量”本身就是一个多元化的概念。在评估文本生成模型时,研究人员考虑了清晰度、流畅度、连贯性等多种指标。然而,针对新闻用途生产的文本还必须基于领域特定的标准进行评估。
例如,根据特定的新闻价值(如新颖性、争议性、社会影响等)来评估AI系统生成的可能标题。这些新闻价值可能根据新闻室甚至是报道主题的不同而有所差异。另一方面,从用户的目标出发,作家可能偏好那些能够支持他们创造力的工具。因此,模型输出所展现的创意想法的多样性也成为一个重要的评估指标。
随着生成式AI的应用范围不断扩大,新闻机构需要在评估模型使用效果的同时,也考虑如何在更广阔的信息生态中突显其内容的质量。新闻行业的利益相关方应该协同定义不同新闻用途和情境下的质量标准,从而发展出一套系统性、可重复的质量评估方法。
交互质量
除了AI模型本身,现代AI系统还包括复杂、分层的软件架构。因此,评估AI模型输出的同时,我们还需要考虑使用AI的体验,即用户界面设计。从GPTs的聊天界面,到Claude的Slack应用,再到使用Llama的命令行体验,每种界面都为用户提供了独特的交互适应性。我们需要根据特定的领域需求来评估这些交互适应性。
在开放式任务中,研究人员评估了使用易用性、使用愉悦感以及用户对产出的归属感等标准。鉴于新闻工作中广泛存在的开放式任务,这些标准对于新闻制作中的记者和创意工作者同样重要。基于任务的具体要求,可能还会出现其他评估标准。长期来看,那些能促进个人成长和灵活使用的系统可能更受欢迎。深入理解不同利益相关方的短期和长期目标,有助于设计出更加精细的交互评估指标。
伦理一致性
在AI评估的伦理一致性方面,众所周知,它对于有效的AI系统至关重要,同时实现这一目标也充满挑战。我们建议,AI评估的伦理定义应当基于新闻实践中的主观和多元化原则,如真实、独立和问责。评估实践还可以参照不同新闻室的行为准则和风格指南。
AI模型,尤其是生成式AI模型,可能会针对相似的提示产生变化且不一致的输出。如何衡量对任何选定价值观的伦理一致性成为了一个问题。此外,模型的微调或更新进一步增加了这一挑战。因此,迭代评估AI模型和应用的过程中引入AI审计的最佳实践显得尤为重要。
结束语
我们开篇讨论了AI技术在新闻制作中带来的快速变化以及人们对这些技术的保留意见。我们相信,通过开发出坚实的评估框架,可以在一定程度上缓解这些炒作,帮助人们对这些工具进行明智的判断,确保它们的使用真正有助于实现新闻行业利益相关者的目标。这些利益相关者可能各不相同,但我们希望我们提出的框架能够为评估提供指导。要实现这样一个框架,需要研究人员和实践者共同努力,设计出能够支撑人类交流的AI工具评估指标,同时这些工具又要根植于并响应它们所服务的人群的需求。这并不难实现!