关乎AI生死的诉讼!要求OpenAI销毁其“盗用”的最重要训练数据

发布时间: 2024-01-15 03:03:44 | 作者: 华体育app官方|

  在OpenAI开发者日上,Sam Altman曾宣布推出版权盾计划:当用户无意间因AI生成内容发生侵权被要求法律索赔时,OpenAI将为客户辩护并报销全额费用。

  当时此言一出,获得现场阵阵掌声。谁曾想11月打出的子弹,兜兜转转,第一个击中的竟是自己。

  当地时间周三,《》正式向纽约联邦地方法院起诉OpenAI和微软,指控这两家公司未经许可使用其数百万篇文章用于训练GPT模型,创建包括ChatGPT和Copilot在内的AI 产品。不仅要求它们对“非法复制和使用独特价值的作品承担数十亿美元的法定和实际损害赔偿”,还要销毁所有包含NYT版权材料的模型和训练数据。

  《》在诉状中称,自己的新闻报道是数千名记者辛勤努力的工作成果,雇用他们的成本每年高达数亿美元。而被告“试图免费搭乘NYT在其新闻业务上巨额投资的便车”,无偿使用这一些成果,使得AI聊天机器人分流了原本集中向《》的网络流量,从中窃取观众,令该公司损失了广告、许可和订阅收入。

  诉状还指出,这些AI模型对版权的无视威胁了高质量的新闻业:“如果时报和其他新闻机构无法制作及保护他们的独立新闻,将会出现计算机或人工智能无法填补的真空,产生更少的新闻,社会代价将是巨大的。”

  其实早在今年四月份,《》就曾接触过微软和OpenAI,表达对其知识产权使用的担忧,并试图探索“友好的解决方案”,建立商业协议和技术护栏。只可惜当时双方未能谈妥。而版权问题也是OpenAI前董事会成员Helen Toner那篇与奥特曼发生过争执的论文中提及过的点。

  接到通知后,OpenAI发言人Lindsey Held在一份声明中表示,公司一直在与《》“建设性地”进行对话,对诉讼感到“惊讶和失望”。

  她说:“我们尊重内容创作者和所有者的权利,并致力于与他们合作,确保他们从AI技术和新型收入模式中获益。我们大家都希望找到一种互惠互利的合作方式,就像OpenAI正在与许多其他出版商做的那样。” (目前包括和拥有Politico及Business Insider的德国出版商Axel Springer,都授权OpenAI使用其新闻内容。)

  尽管《》并非首个打响人工智能技术与书面作品知识版权之争的实体,但它却是迄今为止参与此类诉讼规模最大、最知名的出版商,并成为第一家针对OpenAI提起诉讼的主流媒体机构。消息一出就火速占据各大头版头条,引发广泛关注和巨大反响。

  在自家报道文章中,NYT描述此举“开启了关于没有经过授权使用出版作品来训练大模型的法律战新阵地”。案件如何判决,也注定会引导人工智能技术与版权法之间的复杂关系、界定新兴法律轮廓,成为生成式AI技术历史上的标志性事件之一。

  这次《》的诉讼中,首先提及的是《》文章与ChatGPT输出内容之间的“触及和高度相似性”。

  在GPT-3训练权重最高的数据集——公共爬虫网站Common Crawl中,这一个域名是代表度最高的专有来源,仅次于和美国专利文件的数据库,总排名第三。Common Crawl 提供的2019年一个英文子集快照里,清晰显示《》的内容占了1亿个tokens。

  《》还放出了一个例子,证明ChatGPT在回答用户提问时,几乎原文照搬了自己的文章内容。

  下图左侧是GPT-4输出的内容,右侧则来自《》。红字标出的部分全都一模一样,两者仅有细微的用词差别。

  NYT表示,这一些内容来自2019年的一篇报道,该报道是基于对纽约市出租车行业掠夺式贷款事件为期18个月的调查取证、600多次采访、100多次信息公开申请和几千页内部银行记录创作出来的,曾获得普利策新闻奖。

  因此这不单单是在讨论文章本身,更关乎原创性和创作过程。版权需要保护的不只是劳动,还有创造力。

  另外一个例子指出,ChatGPT通过集成的Bing网页浏览插件,输出未经《》授权复制的版权作品。这些合成搜索出来的结果是基于对2023年4月之后的网络信息。图片中显示的就是在用户简单提示后,复制了2023年5月的文章《The Precarious, Terrifying Hours After a Woman Was Shoved Into a Train》前两段。

  当询问关于“NYT旗下网站Wirecutter 2023年最佳无绳直立式吸尘器”的文章时,Bing Chat给出了类似的回应:完整列出Wirecutter推荐的三款吸尘器,并直接复制大量原文内容。

  诉讼中提到:“这些输出显示的原始Wirecutter文章的主要内容远比传统搜索出来的结果中显示的丰富得多。不同于传统的搜索出来的结果,这里并没有包含一个明显的超链接,引导用户访问Wirecutter网站,严重影响了Wirecutter的流量。”

  《》称,“用户依赖Wirecutter提供高质量、经过深入研究的推荐,而这些虚假信息使Wirecutter品牌严重受损。”

  除此之外,Bing Chat还提供过一个号称来自《》的“15种最有益心脏健康的食物”的回答,而其中的12种食物并未在该报文章中提及。诉讼强调媒体品牌可能会因为AI“幻觉”捏造出的不实信息而遭受潜在损害。

  对于这起诉讼,由于知识版权和AI技术、人类学习与机器训练之间的界限本来就模糊不清,网友们当然看法不一,争议很多。

  站在OpenAI一边的网友说:“GPT给的回答难道不是取决于输入的提示是什么吗?若用户输入的提示是‘这里有一篇《》的文章,请只做微小的更改。’然后他们复制粘贴了那篇文章呢?”

  “你说它没包含参考文献?通常情况下,当我看到ChatGPT提供这样的答案时,它都会像搜索引擎一样提供源材料的参考。不过无论如何,这绝对是让《》的信息在未来被排除在外的绝佳方式。”

  “为什么新闻业会是公共利益的一部分,而基于人类累积知识训练的AI模型不会是呢?从各个意图和目的来看,ChatGPT可以充当任何高中或大学学生的私人导师……而《》显然只是在追求金钱…… ”

  还有人说,“人工智能不是在和人类做一样的事情吗——从各种资源中收集信息,然后基于这些资源输出答案?”

  “OpenAI绕过了付费墙,并从被盗取的数据中获利,这是典型的版权侵犯权利的行为。人类并不会复制粘贴整个《》的段落并要求收费。艺术家让人“记住”作品并根据记忆重新绘画,和让摄影师拍摄一幅艺术作品的200MP图像并分发该图像,这是有区别的。”

  我们知道大模型不会分辨信息源自,也不会真的去“读”内容,而是根据提供的训练集形成注意力机制,根据经验输出结果,所以并不存在“抄袭”。

  支持《》的网友认为,这次诉讼案件关注的是大型语言模型的输入,而不是学习过程和输出。关注点不在于输出的风格是否与原作者或艺术家的风格过于相似,而在于版权作品是否应该(或如何)被纳入训练数据集。

  不过,YC现任掌门人Gary Tan也站出来力挺OpenAI,在X转发了一篇数尽NYT黑料的剖析文章,并表示“《》对OpenAI的诉讼是愚蠢的,是由那些不太懂版权法的人撰写的,而且将使《》自己面临被起诉的风险。”

  但不论如何,各界都觉得这是一个值得推敲和重大影响的案例,关系到接下来生成式AI的路如何走下去。“这将是与AI和人类生成数据相关的最重要诉讼之一。这场诉讼的结果将对其他新闻和媒体公司产生巨大影响。”

  并且除OpenAI外,许多AI产品也都在用Common Crawl的数据集来进行训练,此次诉讼结果也许会影响整个AI行业。大家也在猜测,如果胜诉,导致别的媒体机构纷纷效仿,会不会在一段时间内阻碍AI技术的发展?当然,也必定引起对版权法的重新审视,因为就现有的法律来说,可能并不适用于新兴的 AI 技术。

  “最高法院的裁决其实就是不可避免的,”ProPublica前总裁、新闻业务顾问Richard Tofel说道,“一些出版商在一段时间内达成了和解,但足够多的出版商不会这样做,这个新颖且关键的版权法问题将需要得到解决。”

  而在今年2月,美国最大商业图库Getty Images也曾于特拉华州起诉AI艺术公司Stability AI,称后者侵犯了Getty的版权,未经允许复制了超过1200万张照片及其标题和元数据,来训练自己的Stable Diffusion模型。掀起AI与版权的持续讨论。

  据悉,在此次最新诉讼中,《》已聘请Susman Godfrey和Rothwell, Figg, Ernst & Manbeck律师事务所作为诉讼的外部法律顾问。Susman曾代表Dominion Voting Systems在其诽谤案件中对抗福克斯新闻,该案件于4月份以7.87亿美元的和解结果告终。上个月还曾代表非小说类作者提起了针对微软和OpenAI的集体诉讼,这些作者的书籍和其他版权材料被用于训练聊天机器人。

  生成式AI技术与内容知识产权的法律战,终于被《》一纸诉状带到了台面上。尽管这种错综复杂的局面需要抽丝剥茧,在没有参考案例的情况下,短时间内根本不会有结果。但面对建立安全人工智能的终极目标,这些都是一路上必要解决的问题。摸着石头过河,又何尝不是人类自我训练的过程。那么大家对于《》对OpenAI的这起轰动性诉讼,又有什么看法呢?欢迎贡献你的观点!

  在OpenAI开发者日上,Sam Altman曾宣布推出版权盾计划:当用户无意间因AI生成内容发生侵权被要求法律索赔时...

  在OpenAI开发者日上,Sam Altman曾宣布推出版权盾计划:当用户无意间因AI生成内容发生侵权被要求法律索赔时,OpenAI将为客户辩护并报销全额费用。当时此言一出,获得现场阵...

  在OpenAI开发者日上,Sam Altman曾宣布推出版权盾计划:当用户无意间因AI生成内容发生侵权被要求法律索赔时...

  在OpenAI开发者日上,Sam Altman曾宣布推出版权盾计划:当用户无意间因AI生成内容发生侵权被要求法律索赔时...

  在OpenAI开发者日上,Sam Altman曾宣布推出版权盾计划:当用户无意间因AI生成内容发生侵权被要求法律索赔时...

  1月14日消息,据新闻媒体报道,日前美股早盘开盘,微软市值最高上涨至29000......

  1月14日消息,据国内新闻媒体报道,今年CES期间,联想发布了多达40多款智能......

  1月14日消息,据国内新闻媒体报道,华为与北汽智选车模式合作品牌确定为“......

  1月14日消息,据国内新闻媒体报道,日前,交通运输部和国家铁路局、中国民......

  1月14日消息,随着西方国家车企相继退出俄罗斯,国产车则迅速接下了俄......

  1月14日消息,近日,惠普暗影精灵上千人黑屏一事引发关注,官方仅提供......

  1月14日消息,哪吒汽车CEO张勇今日发文称,哪吒S的续航实测结果出来了......

  1月14日消息,按照华为计划,被称为“纯血鸿蒙”的HarmonyOS NEXT开发......

  1月14日消息,据国内新闻媒体报道,低温作为电动车最大的“天敌”,在北方......

  1月14日消息,据微博博主透露,特斯拉正在筹备Cybertruck电动皮卡于国......

  1 月 14 日消息,为缓解新能源汽车续航焦虑,美国交通部宣布拨款 6.23......

  比亚迪驻南美国家董事长亚历山大・巴尔迪表示,已与价值 29 亿美元的巴......

  1 月 14 日消息,日前,也门胡塞武装在红海频频袭击过往船只,引发了红......

  1月14日消息,据新闻媒体报道,苹果近日发布了其在韩国市场的第25次审计报......

  1月13日,北京首家华为旗舰店,华为旗舰店·北京王府井正式开业。......

  【TechWeb】1月13日消息,当地时间1月12日,美国微软公司当天收盘报388......

  2024年1月12日,“人机合一:机器人艺术时代”展览在798CUBE正式开幕,......

  2024年1月11日,荣耀正式对外发布新新一代旗舰智能手机荣耀Magic6系列。......

  【TechWeb】1月12日消息,京东超市发起“2024降低家庭育儿成本公益行动......

  为了在激烈的市场之间的竞争中脱颖而出,智能手机生产厂商正在将AI视作一项重要战......

  美国汽车租赁公司Hertz将出售全球约三分之一的电动汽车,原因是成本上......

  前两天,恒大汽车突然发布了一则公告,称公司执行董事刘永灼因涉及嫌疑违反法律......

  刚刚过去的2023年,传统汽车品牌和经销商们的日子并不算好过。......

  目前所有的主流智能手机生产厂商中,苹果几乎是唯一一家,还没有正式对外发布大......

  【TechWeb】1月13日消息,当地时间1月12日,美国微软公司当天收盘报388......

  近期部分地区运营商对于个人PCDN业务进行整顿的消息在业内引起了反响,......

  国产新能源车在去年的出口量同比大幅度的增加,达到了104万辆,同比增长43......

  当地时间周四,特斯拉表示,由于零部件短缺,它将在1月29日至2月11日期......

  周四,苹果分析师郭明錤表示,苹果首款MR头显Vision Pro初期备货6-8万......

返回列表
+ 微信号:wzh47381484