Reddit CEO：微软等公司必须付费才能抓取数据

2024-08-01 08:20:38

　　Reddit CEO 史蒂夫・霍夫曼近日表示，如果微软等公司希望继续抓取该网站的数据，就必须付费。此前，Reddit 已经与谷歌和 OpenAI 达成协议。

　　霍夫曼指出，如果没有这些协议，Reddit 无法控制或了解其数据的使用方式，这迫使他们不得不屏蔽那些不愿意接受数据使用条件的公司。近几个月来，Reddit 一直在加大力度打击爬虫。7 月初，Reddit 更新了 robots.txt 文件，屏蔽了未经授权的网络爬虫。随后人们发现，Reddit 的内容只出现在谷歌结果中，而 Bing 等其他引擎上则看不到。

　　霍夫曼指责微软未经授权利用 Reddit 的数据训练 AI，并在 Bing 结果中总结 Reddit 内容，甚至通过 Bing API 将这些数据出售给其他引擎。他还回应了微软 AI 负责人穆斯塔法・苏莱曼此前关于互联网公共数据是“免费软件”的言论，针对 Reddit 结果从 Bing 消失一事，微软主管乔迪・里巴斯在社交媒体上表示，Reddit 屏蔽了 Bing 的爬虫，偏袒另一家引擎，影响了 Bing 和基于 Bing 的引擎的竞争。微软发言人凯特琳・劳尔顿也表示，公司尊重网站不希望其内容被用于生成式 AI 模型的意愿。

　　霍夫曼以 OpenAI 的 SearchGPT 为例，强调了付费协议的重要性。今年早些时候，Reddit 和 OpenAI 达成协议，允许 SearchGPT 显示 Reddit 内容。Reddit 发言人蒂姆・拉特施密特表示，目前签订的所有内容许可协议都不涉及数据独占使用权。

　　Reddit 要求付费的做法与传统媒体出版商类似，他们也希望从允许内容用于生成式 AI 中获得收益。霍夫曼认为，引擎的传统价值交换已经改变，、摘要和训练正在融合，单纯依靠爬取内容换取流量的模式变得模糊。