“盗窃”而来的 3000 亿单词?ChatGPT 摊上事了,遭索赔 30 亿美元!
时间:2023-07-05 23:18:31来源:ZAKER科技

整理 | 郑丽媛


【资料图】

出品 | CSDN(ID:CSDNnews)

2016 年 10 月 19 日,英国剑桥大学理论物理学教授 Stephen Hawking 曾预言:" 强大 AI 的崛起,可能将是人类遇到的最好的事情,也可能是最坏的事情。"

此后 7 年还不到,Stephen Hawking 教授的预言似乎就 " 成真 " 了:在近半年的 ChatGPT 热潮下,很多人看见了它的强悍和优势,但同时也有越来越多人开始担心 AI 时代下的隐私保护——于是,近来凭借 ChatGPT 和 GPT-4 风头正盛的 OpenAI 和微软,突然就被告了。

上周,16 位匿名人士决定起诉微软和 OpenAI,称这两家公司基于 ChatGPT 的 AI 产品在未获得同意或提供充分通知的情况下,收集并泄露了他们的个人信息,要求索赔 30 亿美元。

" 盗窃 " 而来的 3000 亿单词?

根据这 16 人提交给加利福尼亚州旧金山联邦法院、长达 157 页的诉讼书显示,OpenAI 和微软被指控违反了《电子通讯隐私法》,即无视获取 AI 模型数据的合法途径,选择在不付费的情况下收集数据。

" 尽管存在购买和使用个人信息的既定程序,但被告(OpenAI 和微软)还是采取了不同的方式:盗窃。"

在最初 ChatGPT 刚爆火的时候,OpenAI 就曾介绍过 ChatGPT 的强大功能,来自大规模预训练——它有 3000 亿单词的语料库预训练。但原告称,OpenAI 从互联网上的书籍、文章和发帖中所获取的 3000 亿字内容,远远超过其合理授权的范围。

具体来说,这 16 人指控 OpenAI 和微软通过其 AI 产品 " 收集、存储、跟踪、共享和披露 " 数百万人的个人信息,并且获得的信息范围很广,包括产品细节、账户信息、姓名、联系方式、登录凭证、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天日志、Cookie、搜索记录和其他在线活动等等。

原告坚称,在 " 从全球数百万毫无戒心的消费者那里非法收集个人资料 " 后,微软和 OpenAI 将其嵌入至他们的 AI 模型中,这才创造出了现在的 ChatGPT 等 AI 产品:

"OpenAI 大规模使用窃取并盗用个人信息,以此创造了强大且利润丰厚的 AI 产品,并不顾风险地将其对外发布。"

"OpenAl 的技术价值已高达到数百亿美元,而且其进入每一个公共和私营行业的范围还在继续迅速扩大。由于对被盗、盗用数据的培训,这些产品才达到了如今的复杂程度。"

除了指控 OpenAI " 盗窃 " 数百万互联网用户的个人隐私,诉讼书中还强调了 OpenAI 和微软之间的密切合作关系:" 微软对 OpenAl 持续投资,并在其多个平台上都引入了 ChatGPT,强调其与 OpenAl 合作的深度。通过这些投资,微软还获得了独家使用整个 OpenAI 代码库的权利。"

很少提到 AI 的具体伤害案例

整整 157 页诉讼书中,引用了大量媒体报道和学术论文,反复强调了原告对 AI 模型发展下道德规范的担忧。不过据了解,其中并没有提到多少 AI 对人类的具体伤害案例。

例如,在提到 2019 年 OpenAI 重组为一家 " 有限营利企业 " 时,诉讼书表示 "OpenAI 放弃了最初的目标和原则,选择以牺牲隐私安全和道德为代价来追求利润 ",并由此推断 OpenAI 加大了从互联网上 " 秘密获取 " 大量个人数据的力度,而不通知这些数据的所有者或用户。

此外,在指控 OpenAI 无视隐私法的同时,文件引用了 OpenAI 首席执行官 Sam Altman 的一句发言:"AI 很可能会导致世界末日,但与此同时,也会出现伟大的公司。" 而基于这句话,诉讼书表示:" 被告对隐私法的漠视,与他们对人类潜在灾难性风险的漠视不相上下。"

总体而言,在这份 157 页的诉讼书中,微软和 OpenAI 被指控违反了《电子隐私通信法》,即在没有获得授权的情况下使用私人信息以求牟利。同时,因为插件拦截互动数据,微软和 OpenAI 也违反了《计算机欺诈和滥用法》。

基于以上,考虑到被 " 盗取 " 数据的群体应该有数百万人,原告向微软和 OpenAI 提出了 30 亿美元的索赔。

微软和 OpenAI 并未回应

截至目前,微软和 OpenAI 都没有对这份指控作出回应,而网友对于这起诉讼的讨论早已泛滥。

部分人对于 OpenAI 如何 " 窃取 " 并利用个人数据的方式感到好奇,外媒 Firstpost 解释道:" 如果你在最近几十年里一直在网上活跃,你的数据就很可能被纳入 OpenAI 的数据集。因此,OpenAI 语言模型产生的任何输出,如果用于盈利,其中就可能包含通过无声搜刮而获得的你的数据片段。"

对此,起诉 OpenAI 的律师事务所方面也进行了补充:用户的个人数据 " 最初并不是打算给大型语言模型使用的 ",所有信息都是 OpenAI 自己去大规模获取的。

至于这场诉讼的最终结果,目前来看应该并不确定。互联网的基础设施很复杂,在线平台与用户有自己的条款和协议,即使用户向这些平台贡献内容,数据所有权也通常属于平台本身而非用户。

对于这个说法,知识产权律师 Katherine Gardner 也是认同的:当用户将内容上传到社交媒体或任何其他网站时,他们通常会授予平台以各种方式使用其内容,因此普通用户可能很难要求因在训练模型中使用其数据而获得相应的补偿。

除此之外,也有不少网友打趣起了这 30 亿美元的索赔金额:

"30 亿不够,怎么也得 80 亿美元,这样我们每个人都能拿到 1 美元!"

" 不行,我在网上写了 3 篇东西呢,得给我 3 美元才行!"

参考链接:

https://storage.courtlistener.com/recap/gov.uscourts.cand.414754/gov.uscourts.cand.414754.1.0.pdf

https://www.firstpost.com/world/chatgpt-openai-sued-for-stealing-everything-anyones-ever-written-on-the-internet-12809472.html

标签:

生活指南
  • 打女孩子屁股(打女孩光皮股图片)

    (相关资料图)1、无语。2、你去试试就知道了。本文到此分享完毕,希望对

  • 请问突然的近义词是什么(ldquo 突然 rdquo 的近义词是什么)

    来为大家解答以下的问题,问突然的近义词是什么,ldquo突然rdquo的近义

  • 蚂蚁金服和支付宝关系是什么?怎么取消蚂蚁金服?

    蚂蚁金服和支付宝关系是什么?蚂蚁金服和支付宝都是阿里巴巴旗下的子

  • 【当前独家】高考志愿填报,一门月赚百万的生意

    “理科518分,想选自动化有什么学校推荐!”“刚过本科线,高考志愿好

  • 零线火线地线都有电怎么办 零线火线地线都有电|环球视讯

    今天来聊聊线火线地线都有电怎么办,零线火线地线都有电的文章,现在就

  • 《王牌育儿师》家庭育儿有“奇招” 陈铭惠若琪分享育儿观

    金鹰卡通卫视联合a2®牛奶公司推出的全国首档科学育儿观察纪实类节目《

  • 兰花原产地是哪些地方?兰花生长特性有哪些?

    兰花原产地是哪些地方?地生兰大部分品种原产中国,因此兰花又称中国

  • 意大利首都是哪里?意大利说什么语言为主?

    意大利首都是哪里?意大利首都罗马是有着辉煌历史的欧洲文明古城,由

  • 思林杰:未有在机器人和服务器行业的实际应用

    思林杰近日接受投资者调研时称,公司在积极拓展其他领域和行业,而目前

  • 暖阳之下哪个台播出?暖阳之下陆可盈宋唯一第几集离婚?

    暖阳之下哪个台播出?电视剧《暖阳之下》在央视八套电视剧频道播出,

  • 顶楼第三季最终大结局是什么?顶楼3白先生是好人还是坏人? 世界通讯

    顶楼第三季最终大结局是什么?在电视剧《顶楼》的结局中,千瑞珍的罪

  • 香港金管局建议将银行三级制简化为二级制 短讯

    6月26日,香港金融管理局发出检讨银行三级制的公众咨询文件。

  • 张店税务:真诚服务获点赞

    中国山东网-感知山东6月27日讯(记者江学俊通讯员芦艺汀任雪琳)“我来张

  • 郑州航空港区将添两座“新城”

    摘要郑州航空港区将添两座“新城”

  • 2023天津高考录取结果查询时间及入口 在哪查录取状态

    2023天津高考普通类本科批次A阶段录取结果:预计于7月下旬公布;普通类

  • 惠陶集团(08238)独立非执行董事李文洋配偶于禁售期被强制出售236万股公司股份

    惠陶集团(08238)公布,公司获独立非执行董事李文洋知会,由其配偶所持

  • 民生
    • 日本漂移之王盛赞影豹!亲自刷圈逆袭圈速榜!

    • 持续招引优质企业进驻 东湖高新国际健康城一期企业入驻率实现100%

    • 森赫股份中签号码是多少?森赫股份开盘价预测_环球今日报

    • 无人机田间喷药 助力水稻夏管-每日观察