卖数据而非卖广告：新媒体的AI商业模式革命？

人工智能重塑互联网商业模式

随着人工智能技术的飞速发展，大型语言模型（LLM）的训练需求日益增长。大型科技公司正急切地寻求合规框架下的优质数据，以提升AI的能力。在这个过程中，拥有丰富数据资源的新闻出版商和社交平台有望成为新的盈利者，数据出售正逐渐成为他们收入的重要来源。

Reddit在公开上市后的首份财报中透露，预计今年从向LLM开发商授权数据的交易中获得6600万美元收入，占年收入的6%。随着与OpenAI达成新的数据授权协议，这一数字有望进一步增长。

作为全球最大的用户生成内容（UGC）平台之一，Reddit拥有超过10亿个帖子和160亿条评论，成为数据采集的宝库。其动态且多样化的数据流为LLM提供了即时的信息来源。

Reddit并非个例。图像库Shutterstock和Freepik，社交平台Tumblr和WordPress，以及新闻机构如美联社、施普林格公司和路透社等，都已与科技公司签订协议，授权用于训练LLM的数据。

LLM对高质量、最新训练数据的需求迫切，为了提高查询响应的精准度，竞争将推动LLM开发商以溢价获取金融、医疗和旅游等领域的优质数据。

据报道，苹果公司曾向新闻出版商提供5000万美元的报价，以获取其内容训练LLM。一些出版商已与OpenAI等公司签约，按照每张图片1-2美元、每段短视频2-4美元、每字0.001美元的定价向其出售内容。

这一趋势凸显了互联网内容提供商在塑造人工智能未来中的关键作用。内容提供商的商业战略可能随之调整，数据销售收入在未来可能成为与广告并驾齐驱的营收来源，甚至取代广告，成为其主要收入来源。

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。