可检测 AI “内容”，Patronus 推出 CopyrightCatcher API

2024-03-09 18:52:48

　　专门开发大语言模型评估工具的Patronus AI 日前发布了一款名为“CopyrightCatcher”的API，可用来检测大语言模型的输出结果中是否含有内容。

　　▲ Patronus AI表示，市面上常见的大语言模型的训练数据中经常含有受到保护的内容，因此这些模型很容易输出相应内容，从而为部署相关模型的企业带来重大法律风险，因此他们推出了CopyrightCatcher API，旨在解决相关问题。

　　据介绍，为了检查大语言模型输出数据是否含有内容，Patronus AI研究人员从Goodreads书籍平台中抽取了一批受到保护的文字样本对模型进行对抗性训练，并基于这些书籍建立了100则暗示语段。

　　从报告中得知，相关语段中有 50则要求模型“生成书籍的第一段”，另外50则要求模型生成书籍中的文字片段，研究人员根据上述语段整理汇总而成CopyrightCatcher API，号称可用来检测大语言模型如何“精确地从原始训练数据内容”，同时还能评估模型输出内容的概率。

　　研究人员使用OpenAI的GPT-4、Mistral的Mixtral-8x7B-Instruct-v0.1、Anthropic的Claude-2.1，以及 Meta的Llama-2-70b-chat进行测试，最终发现GPT-4最容易生成内容，Claude-2.1最难生成内容：

　　GPT-4：44%Mixtral-8x7B-Instruct-v0.1：22%Llama-2-70b-chat：10%Claude-2.1：8%