引入模型卡工具包以简化模型透明度报告

来源:雨夜的博客   时间:2023-02-01 19:05:15


【资料图】

机器学习 (ML) 模型透明度在影响人们生活的各个领域都非常重要,从医疗保健到个人理财再到就业。下游用户需要的信息会有所不同,开发人员需要的细节也会有所不同,以确定模型是否适合他们的用例。这种对透明度的渴望促使我们开发了一种新的模型透明度工具Model Cards,它提供了一个结构化的框架来报告 ML 模型的来源、使用和符合道德的评估,并详细概述了模型的建议用途和局限性。可以使开发人员、监管机构和下游用户受益。

在过去的一年里,我们公开发布了 Model Cards,并致力于为 Google 团队发布的开源模型创建 Model Cards。例如,MediaPipe团队为许多常见任务创建了最先进的计算机视觉模型,并在其 GitHub 存储库中为每个开源模型提供了模型卡. 创建这样的模型卡需要大量的时间和精力,通常需要对数据和模型性能进行详细的评估和分析。在许多情况下,需要额外评估模型在不同数据子集上的表现,并注意模型表现不佳的任何领域。此外,模型卡创建者可能希望报告模型的预期用途和限制,以及潜在用户可能认为有用的任何道德考虑,以可访问和可理解的格式编译和呈现信息。

为了简化所有 ML 从业者的模型卡创建,我们正在共享模型卡工具包(MCT),一组工具,支持开发人员编译进入模型卡的信息,并帮助创建对不同受众有用的界面。为了演示如何在实践中使用 MCT,我们还发布了Colab 教程,该教程为在UCI 人口普查收入数据集上训练的简单分类模型构建模型卡。

介绍 MCT

为了指导模型卡创建者组织模型信息,我们提供了一个JSON 模式,它指定了要包含在模型卡中的字段。使用与ML 元数据一起存储的模型来源信息(MLMD),MCT 自动使用相关信息填充 JSON,例如数据中的类分布和模型性能统计信息。我们还提供了一个 ModelCard 数据 API 来表示 JSON 模式的一个实例并将其可视化为一个模型卡。模型卡创建者可以选择在最终模型卡中显示哪些指标和图表,包括突出显示模型性能可能与其整体性能存在偏差的区域的指标。

一旦 MCT 用关键指标和图表填充了模型卡,模型卡创建者就可以用有关模型的预期用途、限制、权衡和任何其他道德考虑的信息来补充这些信息,否则使用模型的人是不知道的. 如果模型在某些数据片段上表现不佳,则限制部分将是另一个承认这一点的地方,以及帮助开发人员解决这些问题的建议缓解策略。此类信息对于帮助开发人员确定模型是否适合他们的用例至关重要,并帮助模型卡创建者提供上下文以便正确使用他们的模型。现在,我们提供了一个 UI 模板以可视化模型卡,但如果您想以其他格式可视化信息,您可以在 HTML 中创建不同的模板。

目前,任何在开源或Google Cloud Platform上使用TensorFlow Extended (TFX) 的人都可以使用 MCT 。不通过 TFX 提供 ML 模型的用户仍然可以利用 JSON 模式和方法通过 HTML 模板进行可视化。

结论

最新资讯

业界