为训练AI模型，Anthropic耗资数百万美元购入并“销

2025-06-26 08:06:09

　　当地时间周一公开的法庭文件披露，人工智能公司 Anthropic 曾斥资数百万美元，判决书长达 32 页，披露了 Anthropic 在 2024 年 2 月雇佣 Tom Turvey 的经过。Turvey 曾负责 Google Books 项目的合作事务，公司委托他“最终，法官 William Alsup 裁定，该扫描方式构成合理使用，理由是图书核心原因其实很简单：AI 训练需要海量优质文本。为了构建大语言模型，研究人员需训练数据的质量直接影响模型输出的准确性。相比网络评论等杂乱信息，AI 公司急需出版内容，但通常不愿耗费时间谈授权。美国的“首次销售原则”提供了法律空间：和许多同行一样，Anthropic 最初选择了绕过的捷径。从法庭材料获悉，为了绕开冗长复杂的授权流程，CEO 阿莫代伊收购二手书成为理想选择：不必谈授权，又能获得质量上乘的训练文本。为了加快数字化进程，Anthropic 采用“破坏式扫描”，该公司的购买对象大多是零售渠道的普通旧书。但事实上，非破坏性扫描技术早已成熟。比如 Internet Archive 就开发出可保留原书的数字化手段。本月早些时候，OpenAI 和微软也宣布与哈佛大学图书馆合作，计划使用近百万本公版书籍训练 AI，这些书籍在被数字化的同时依旧妥善保存。