首页 > 聚焦 > > 正文

OpenAI也为数据犯难！公司承认使用爬虫自我设限难消公众怀疑

2023-08-10 10:21:36 来源：金融界

《科创板日报》8月10日讯（编辑宋子乔）数据、算力、算法，被视作生成式AI的三个核心要素，很难说哪个更重要。

(相关资料图)

但是，对于OpenAI这类明星公司来说，算力基本上是一个经济问题，大公司凭借“钞能力”囤积了大量昂贵的硬件，数据稀缺问题才更让其头疼，“不光彩”的数据获取方式总让它们陷入道德危机。

以OpenAI为例，其抓取公开数据训练AI模型的行为早就备受争议。据国外科技媒体Insider最新报道，OpenAI近日承认，其推出了名为GPTBot的网络爬虫机器人，用于抓取和收集数据用于大模型训练。

▌OpenAI被怀疑是“数据小偷”

网络爬虫，是一种模拟人（网络用户）的行为，自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来，数据抓取者对这些数据进行分析等加工再利用，推测出互联网用户的偏好，再顺势推送给与之匹配的用户群体。

目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久，有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。

面对这样的“指控”，OpenAI积极自辩，该公司表示，GPTBot将严格遵守任何付费墙的规则，不会抓取需要付费的信息，并且也不会收集能追踪到个人身份的数据。

此外，OpenAI上线了一种阻止GPTbot的方法，用户可以修改其robots.txt文件，或者屏蔽其IP地址，拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议，OpenAI将付费购买AI训练数据所需的美联社内容。

▌消失的信任

爬虫技术作为一种数据搜集的手段，本身并没有合法与非法之分。但OpenAI主动为其爬虫工具设限的举动，似乎并不能挽回公众对这家大模型头号公司的信任。

老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克（Neil Clarke）表示：“OpenAI和其他大模型公司一再用行动证明，他们不尊重作者、艺术家和其他创意人士的权利，他们的产品很大程度上基于他人受版权保护的作品。”

他还举例，CCBot是Common Crawl组织运营的另一种爬虫机器人，目前Common Crawl是人工智能模型训练数据的主要供应商，“据我所知，没有人成功让Common Crawl删除数据，”克拉克说，“我尝试过，没有得到任何回应。”

另一方面，在与大公司拉扯时，普通人大多时候处于弱势。正如克拉克所说，既然OpenAI愿意为（美联社）等大公司的数据付费，为什么它不为其他人的信息付费呢？“我就此询问了OpenAI，但没有得到回复。”

不过克拉克本身就站在OpenAI的对立面，其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出，在ChatGPT于去年底开放后，AI生成的垃圾投稿激增，而检测这类作品的成本高昂，该杂志一度暂停征稿。

▌结语

此前，OpenAI已经因版权问题被多方状告，既有克拉克森律所推动的集体诉讼，也有保罗•崔布雷（Paul Tremblay）和莫纳•阿瓦德（Mona Awad）等畅销书作家在内的名人实名起诉。

随着生成式AI技术的进一步迭代，类似的纠纷只会多不会少。

大公司更容易成为众矢之的，即使它们敢于承担责任，但要做到数据获取完全合规，并不容易。由于参数量巨大，大模型需要借助分布式计算和云服务等技术来进行训练和部署，又增加了数据被窃取、篡改、滥用或泄露的风险。

如何平衡个人隐私保护和鼓励技术创新，如何找到企业生存与合规生产间的最优路径，已经是每个致力于生成式AI事业的公司绕不开的问题。

标签：

上一篇：郧西山沟聚财富高校师生来取经

下一篇：最后一页

热点聚焦

OpenAI也为数据犯难！公司承认使用爬虫自我设限难消公众怀疑

《科创板日报》8月10日讯（编辑宋子乔）数据、算力、算法，被视作生成

2023-08-10 10:21:36

郧西山沟聚财富高校师生来取经

郧西山沟聚财富高校师生来取经---当地发展香菇、中药材、马头羊、冷水

2023-08-10 10:09:17

国家电网：受灾地区电力设施加速恢复

2023-08-10 09:38:44

“无人瓜摊”5天售出8000斤西瓜

2023-08-10 09:13:22

ipad2018款是几寸的_ipad2018款是第几代

1、Ipad2018是第六代。2、iPad6一般指iPadAir2，IPad6显示的相关功能还是预测性的

2023-08-10 08:22:57

盘前直击：存在风险！盟固利急发公告国内首个省级虚拟电厂管理中心成立

1、中国科学院物理研究所等机构未观测到室温超导；2、深交所：支持发行

2023-08-10 07:57:04

七成上市罕见病药纳入基本医保，患者“用药难”问题依然严峻

目前，在境内已上市的罕见病药品中，已有七成纳入国家医保目录。在近两

2023-08-10 06:42:40

比亚迪第500万辆新能源汽车下线，中国汽车正书写历史

8月9日，新能源汽车领域的一大重要里程碑诞生了——比亚迪达成第500万

2023-08-10 05:22:34

深圳南油集团有限公司深圳南油集团

1、山旱体开口着拒音医带意，着茄，引。2、类究它工电究且且众便水之支

2023-08-10 01:32:00

罗振宇透露：芯片荒时比亚迪曾借给其它厂商很多芯片

【CNMO新闻】8月9日晚上19点30分，比亚迪举办了第500万辆新能源汽车下

2023-08-09 23:04:52

恒智控股(08405.HK)上半年营收增6.98%至1.03亿港元

格隆汇8月9日丨恒智控股(08405 HK)公布，截至2023年6月30日止六个月，

2023-08-09 21:53:58

探访广西工业城市古树群落跨越百年时空缘何苍翠如故？

中新网柳州8月9日电题：探访广西工业城市古树群落跨越百年时空缘何苍翠

2023-08-09 21:03:29

罕见3700%涨幅！市场活力正在枯竭，老股民：逃离还是坚守？

昨天市场成交量重新回到8000亿以下，加上美股隔夜是下跌的，估计已经很

2023-08-09 20:15:45

通领科技拟向银行合计申请2.81亿授信用于满足生产经营及业务发展的资金需要

通领科技拟向银行合计申请2 81亿授信用于满足生产经营及业务发展的资金

2023-08-09 19:23:59

公司解除合同赔偿金是按公司底薪算还是平均工资算，包不包含个人

2023-08-09 18:33:19

沙特阿拉伯宣布新规：2025年起所有手机必须使用 USB Type-C 接口充电

沙特阿拉伯近日发布新规定，自2025年起，所有在沙特市场销售的手机和其

2023-08-09 18:11:13

汽车空调管路也是公司产品的发展方向吗？福事特：产品暂未涉及该领域

每经AI快讯，有投资者在投资者互动平台提问：董秘您好，汽车空调管路也

2023-08-09 17:24:45

纳拉卡刀锋的新英雄泰莎将在这里偷走你的灵魂

纳拉卡刀锋新英雄泰莎，泼妇即将在Steam最酷的大逃杀游戏免费过渡后推

2023-08-09 17:03:05

仙剑主题曲偏爱仙剑主题曲

1、《生生世世爱》是由歌手吴雨霏演唱，也是电视剧《仙剑奇侠传三》的

2023-08-09 16:27:32

2023年上海书展开幕倒计时！主宾省、“国家队”、“上海队”亮点抢先看

8月16日至22日，2023上海书展暨“书香中国”上海周将在上海展览中心亮

2023-08-09 15:59:55

贝瑞基因（000710）8月9日主力资金净买入154.55万元

截至2023年8月9日收盘，贝瑞基因(000710)报收于11 03元，上涨1 75%，换

2023-08-09 15:20:55

高考没考好有什么出路（高考没考好）

1、高考结束了,无论结果如何,尽力则应该高兴,人生中做了一件永不后悔之

2023-08-09 14:52:49

探访河北极值暴雨点临城梁家庄④｜一张明白卡、一个应急包，还有两面铜锣

长城网·冀云客户端记者郭慧岩赵娇莹马宁路钦淋“我们自己就能找到安置

2023-08-09 13:33:12

瀚溥许汉斌：C-REITs的核心问题是审批速度和架构复杂 | 博鳌快讯

国内目前是公募+ABS的架构，这样的架构会带来更多管理人的成本，也会让

2023-08-09 12:58:36

安兔兔上发现OnePlus Ace 2 Pro智能手机关键规格

OnePlusAce2Pro的发布日期即将到来，因为这款手机已确认将于本月在中国

2023-08-09 11:59:09

恒立钻具收购艾盾合金：增加核心原材料关键一环增厚公司业绩切入新能源领域

骁龙8 Gen4三种版本：12核心 10核心 8核心

《全面战争：战锤3》发布新DLC“变革之影”预告将于8 月 31 日正式推出

新疆维吾尔自治区阿勒泰市2023-08-09 09:04发布暴雨橙色预警

湖北文旅集团10亿元私募项目状态更新为“已反馈”

“3D照相馆”、乒乓球机器人……一起感受大运会的智能黑科技

捷昌驱动董秘回复：傅利叶有采购公司执行器零部件用于康复类机器人，

燕子矶中学迈皋桥校区即将投用

立秋农忙

TA记者：巴黎希望法甲首轮本队球迷营造出“反姆巴佩”的氛围

8月8日基金净值：天弘安康颐利混合A最新净值0.9994，跌0.03%

AI图练习（友利奈绪）

2023年全国中小学生五子棋锦标赛在新泰开赛

首搭魅族车机能跑1400km吉利重磅新品领克08开售：21.8万起

给快递小哥多些政策保障

第六届“海青杯”两岸青年棒球交流营在福州举行

一阳穿四线，趋势反转还是下跌中继？看博纳影业3次回测数据nn

中国电信：上半年移动通信服务收入保持良好增长达1016亿人民币

桃园小鸡便当会　侯友宜：团结不只是口号

外汇界新一：黄金会来给我报喜的

立秋不代表酷热终结全国盼秋凉地图看哪里暑热将消

如何合法买卖农村房屋

梁宏正：青年节多元贴地　动漫街舞也都有

长春市总工会扎实推进“县级工会加强年”专项工作

日本破产企业大幅增加

x 广告

电视

汇聚公益力量 2022年“乡村振兴·重庆专场”公益活动开幕

中新网重庆4月21日电 (记者钟旖)2022年“乡村振兴·重庆专场”公益活动开幕暨宣传周启动仪式21日在重...

从前

外国人在上海：奔跑的“洋大白”

“我是一个健康的外国人生活在这个美丽的社区我所有的测试都是阴性我会说一点中文请让我把沉重的货物送...

从前

海南陵水新增3例新冠肺炎确诊病例

中新网海南陵水4月21日电 (记者王晓斌)海南省陵水黎族自治县新型冠状病毒肺炎疫情防控工作指挥部21日...

从前

加快实现社会面清零目标上海崇明继续做好“三区”分级管理

光明网讯(记者赵艳艳)在今日(4月21日)举行的上海市新冠肺炎疫情防控工作第160场新闻发布会上，上海市...

从前

上海金山朱泾镇：居民有序出门购物，商超使用场所码

“我们家是镇里第一批发的通行证，我们家人还是响应号召，非必要不出门。”几天前，上海市金山区朱泾镇...

从前

空调

x 广告

精彩推送

OpenAI也为数据犯难！公司承认使用爬虫 自我设限难消公众怀疑

上一篇：郧西山沟聚财富高校师生来取经

下一篇：最后一页

OpenAI也为数据犯难！公司承认使用爬虫 自我设限难消公众怀疑

《科创板日报》8月10日讯（编辑宋子乔）数据、算力、算法，被视作生成

郧西山沟聚财富高校师生来取经

郧西山沟聚财富高校师生来取经---当地发展香菇、中药材、马头羊、冷水

国家电网：受灾地区电力设施加速恢复

国家电网：受灾地区电力设施加速恢复

“无人瓜摊”5天售出8000斤西瓜

“无人瓜摊”5天售出8000斤西瓜

ipad2018款是几寸的_ipad2018款是第几代

1、Ipad2018是第六代。2、iPad6一般指iPadAir2，IPad6显示的相关功能还是预测性的

盘前直击：存在风险！盟固利急发公告 国内首个省级虚拟电厂管理中心成立

1、中国科学院物理研究所等机构未观测到室温超导；2、深交所：支持发行

七成上市罕见病药纳入基本医保，患者“用药难”问题依然严峻

目前，在境内已上市的罕见病药品中，已有七成纳入国家医保目录。在近两

比亚迪第500万辆新能源汽车下线，中国汽车正书写历史

8月9日，新能源汽车领域的一大重要里程碑诞生了——比亚迪达成第500万

深圳南油集团有限公司 深圳南油集团

1、山旱体开口着拒音医带意，着茄，引。2、类究它工电究且且众便水之支

罗振宇透露：芯片荒时 比亚迪曾借给其它厂商很多芯片

【CNMO新闻】8月9日晚上19点30分，比亚迪举办了第500万辆新能源汽车下

恒智控股(08405.HK)上半年营收增6.98%至1.03亿港元

格隆汇8月9日丨恒智控股(08405 HK)公布，截至2023年6月30日止六个月，

探访广西工业城市古树群落 跨越百年时空缘何苍翠如故？

中新网柳州8月9日电题：探访广西工业城市古树群落跨越百年时空缘何苍翠

罕见3700%涨幅！市场活力正在枯竭，老股民：逃离还是坚守？

昨天市场成交量重新回到8000亿以下，加上美股隔夜是下跌的，估计已经很

通领科技拟向银行合计申请2.81亿授信 用于满足生产经营及业务发展的资金需要

通领科技拟向银行合计申请2 81亿授信用于满足生产经营及业务发展的资金

公司解除合同赔偿金是按公司底薪算还是平均工资算，包不包含个人

公司解除合同赔偿金是按公司底薪算还是平均工资算，包不包含个人

沙特阿拉伯宣布新规：2025年起所有手机必须使用 USB Type-C 接口充电

沙特阿拉伯近日发布新规定，自2025年起，所有在沙特市场销售的手机和其

汽车空调管路也是公司产品的发展方向吗？福事特：产品暂未涉及该领域

每经AI快讯，有投资者在投资者互动平台提问：董秘您好，汽车空调管路也

纳拉卡刀锋的新英雄泰莎将在这里偷走你的灵魂

纳拉卡刀锋新英雄泰莎，泼妇即将在Steam最酷的大逃杀游戏免费过渡后推

仙剑主题曲偏爱 仙剑主题曲

1、《生生世世爱》是由歌手吴雨霏演唱，也是电视剧《仙剑奇侠传三》的

2023年上海书展开幕倒计时！ 主宾省、“国家队”、“上海队”亮点抢先看

8月16日至22日，2023上海书展暨“书香中国”上海周将在上海展览中心亮

贝瑞基因（000710）8月9日主力资金净买入154.55万元

截至2023年8月9日收盘，贝瑞基因(000710)报收于11 03元，上涨1 75%，换

高考没考好有什么出路（高考没考好）

1、高考结束了,无论结果如何,尽力则应该高兴,人生中做了一件永不后悔之

探访河北极值暴雨点临城梁家庄④｜一张明白卡、一个应急包，还有两面铜锣

长城网·冀云客户端记者郭慧岩赵娇莹马宁路钦淋“我们自己就能找到安置

瀚溥许汉斌：C-REITs的核心问题是审批速度和架构复杂 | 博鳌快讯

国内目前是公募+ABS的架构，这样的架构会带来更多管理人的成本，也会让

安兔兔上发现OnePlus Ace 2 Pro智能手机关键规格

OnePlusAce2Pro的发布日期即将到来，因为这款手机已确认将于本月在中国

恒立钻具收购艾盾合金：增加核心原材料关键一环增厚公司业绩切入新能源领域

骁龙8 Gen4三种版本：12核心 10核心 8核心

《全面战争：战锤3》发布新DLC“变革之影”预告 将于8 月 31 日正式推出

新疆维吾尔自治区阿勒泰市2023-08-09 09:04发布暴雨橙色预警

湖北文旅集团10亿元私募项目状态更新为“已反馈”

“3D照相馆”、乒乓球机器人……一起感受大运会的智能黑科技

捷昌驱动董秘回复： 傅利叶有采购公司执行器零部件用于康复类机器人，

燕子矶中学迈皋桥校区即将投用

立秋农忙

TA记者：巴黎希望法甲首轮本队球迷营造出“反姆巴佩”的氛围

8月8日基金净值：天弘安康颐利混合A最新净值0.9994，跌0.03%

AI图练习（友利奈绪）

2023年全国中小学生五子棋锦标赛在新泰开赛

首搭魅族车机能跑1400km吉利重磅新品领克08开售：21.8万起

给快递小哥多些政策保障

第六届“海青杯”两岸青年棒球交流营在福州举行

一阳穿四线，趋势反转还是下跌中继？看博纳影业3次回测数据nn

中国电信：上半年移动通信服务收入保持良好增长 达1016亿人民币

桃园小鸡便当会 侯友宜：团结不只是口号

外汇界新一：黄金会来给我报喜的

立秋不代表酷热终结 全国盼秋凉地图看哪里暑热将消

如何合法买卖农村房屋

梁宏正：青年节多元贴地 动漫街舞也都有

长春市总工会扎实推进“县级工会加强年”专项工作

日本破产企业大幅增加

台属为防疫工作者送去卤肉饭：希望美食能缓解疲惫

报告：超3成白领全年读书不足1本

OpenAI也为数据犯难！公司承认使用爬虫自我设限难消公众怀疑

OpenAI也为数据犯难！公司承认使用爬虫自我设限难消公众怀疑

盘前直击：存在风险！盟固利急发公告国内首个省级虚拟电厂管理中心成立

深圳南油集团有限公司深圳南油集团

罗振宇透露：芯片荒时比亚迪曾借给其它厂商很多芯片

探访广西工业城市古树群落跨越百年时空缘何苍翠如故？

通领科技拟向银行合计申请2.81亿授信用于满足生产经营及业务发展的资金需要

仙剑主题曲偏爱仙剑主题曲

2023年上海书展开幕倒计时！主宾省、“国家队”、“上海队”亮点抢先看

《全面战争：战锤3》发布新DLC“变革之影”预告将于8 月 31 日正式推出

捷昌驱动董秘回复：傅利叶有采购公司执行器零部件用于康复类机器人，

中国电信：上半年移动通信服务收入保持良好增长达1016亿人民币

桃园小鸡便当会　侯友宜：团结不只是口号

立秋不代表酷热终结全国盼秋凉地图看哪里暑热将消

梁宏正：青年节多元贴地　动漫街舞也都有

沙尘追踪：目前沙尘已抵达华北北京高空区域开始泛黄

中新网重庆4月21日电 (记者钟旖)2022年“乡村振兴·重庆专场”公益活动开幕暨宣传周启动仪式21日在重...

“我是一个健康的外国人生活在这个美丽的社区我所有的测试都是阴性我会说一点中文请让我把沉重的货物送...

中新网海南陵水4月21日电 (记者王晓斌)海南省陵水黎族自治县新型冠状病毒肺炎疫情防控工作指挥部21日...

加快实现社会面清零目标上海崇明继续做好“三区”分级管理

光明网讯(记者赵艳艳)在今日(4月21日)举行的上海市新冠肺炎疫情防控工作第160场新闻发布会上，上海市...