1月10日消息,据外媒报道,随着新闻出版商与人工智能公司签订协议,用新闻故事训练他们的模型,OpenAI等公司愿意为受版权保护的信息支付的价格正在浮出水面。
据The Information报道,OpenAI每年提供100万至500万美元的版权新闻文章授权,以训练其人工智能模型。这是人工智能公司计划为授权材料支付多少费用的迹象之一。与此同时,最近的一份报告称,苹果正在寻求与媒体公司合作,将内容用于人工智能训练,并在多年期间提供至少5000万美元的数据。
报道指出,目前的大模型的训练数据主要是来自互联网的信息。虽然一些人工智能模型没有透露它们是如何获得训练数据的,但通常可以获得有关使用了哪些数据集或网络爬虫的信息。训练数据集的定价因提供者、大小和数据集的内容而异。一些数据提供程序,如LAION,是开源的,完全免费的,被Stable Diffusion等模型使用。人工智能开发人员还经常设置网络爬虫,从互联网上获取数据,以帮助训练他们的模型。
但这种做法现在面临着重大挑战。首先,OpenAI的GPT爬虫已经被一些公司阻止访问数据。另一方面,一些组织认为对他们的数据进行培训构成侵犯版权。
合作伙伴关系让人工智能公司避免了这些问题,在过去的一年里,这已经成为一种更普遍的做法。
OpenAI和苹果并不是唯一希望与新闻机构合作的人工智能开发商。据报道,谷歌向《纽约时报》、《华尔街日报》和《华盛顿邮报》的高管展示了一款名为Genesis的人工智能工具,该工具可以收集事实并发布新闻报道。与此同时,一些新闻机构在新闻编辑室使用了生成式AI工具,结果好坏参半。