OpenAI也为数据犯难!公司承认使用爬虫,自我设限难消公众怀疑 siyushenqi.com • 2025 年 8 月 14 日 上午12:44 • 海外营销 • 阅读 58 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议 OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练;OpenAI表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据;这似乎并不能挽回公众对这家大模型头号公司的信任。 数据、算力、算法,被视作生成式AI的三个核心要素,很难说哪个更重要。 但是,对于OpenAI这类明星公司来说,算力基本上是一个经济问题,大公司凭借“钞能力”囤积了大量昂贵的硬件,数据稀缺问题才更让其头疼,“不光彩”的数据获取方式总让它们陷入道德危机。 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议。据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 1 OpenAI被怀疑是“数据小偷” 网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来,数据抓取者对这些数据进行分析等加工再利用,推测出互联网用户的偏好,再顺势推送给与之匹配的用户群体。 目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。 面对这样的“指控”,OpenAI积极自辩,该公司表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。 此外,OpenAI上线了一种阻止GPTbot的方法,用户可以修改其robots.txt文件,或者屏蔽其IP地址,拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议,OpenAI将付费购买AI训练数据所需的美联社内容。 2 消失的信任 爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分。但OpenAI主动为其爬虫工具设限的举动,似乎并不能挽回公众对这家大模型头号公司的信任。 老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克(Neil Clarke)表示:“OpenAI和其他大模型公司一再用行动证明,他们不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。” 他还举例,CCBot是Common Crawl组织运营的另一种爬虫机器人,目前Common Crawl是人工智能模型训练数据的主要供应商,“据我所知,没有人成功让Common Crawl删除数据,”克拉克说,“我尝试过,没有得到任何回应。” 另一方面,在与大公司拉扯时,普通人大多时候处于弱势。正如克拉克所说,既然OpenAI愿意为(美联社)等大公司的数据付费,为什么它不为其他人的信息付费呢?“我就此询问了OpenAI,但没有得到回复。” 不过克拉克本身就站在OpenAI的对立面,其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出,在ChatGPT于去年底开放后,AI生成的垃圾投稿激增,而检测这类作品的成本高昂,该杂志一度暂停征稿。 3 结语 此前,OpenAI已经因版权问题被多方状告,既有克拉克森律所推动的集体诉讼,也有保罗•崔布雷(Paul Tremblay)和莫纳•阿瓦德(Mona Awad)等畅销书作家在内的名人实名起诉。 随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,即使它们敢于承担责任,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。 文|宋子乔 数据、算力、算法,被视作生成式AI的三个核心要素,很难说哪个更重要。 但是,对于OpenAI这类明星公司来说,算力基本上是一个经济问题,大公司凭借“钞能力”囤积了大量昂贵的硬件,数据稀缺问题才更让其头疼,“不光彩”的数据获取方式总让它们陷入道德危机。 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议。 据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 1 OpenAI被怀疑是“数据小偷” 网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来,数据抓取者对这些数据进行分析等加工再利用,推测出互联网用户的偏好,再顺势推送给与之匹配的用户群体。 目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。 面对这样的“指控”,OpenAI积极自辩,该公司表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。 此外,OpenAI上线了一种阻止GPTbot的方法,用户可以修改其robots.txt文件,或者屏蔽其IP地址,拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议,OpenAI将付费购买AI训练数据所需的美联社内容。 2 消失的信任 爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分。 但OpenAI主动为其爬虫工具设限的举动,似乎并不能挽回公众对这家大模型头号公司的信任。 老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克(Neil Clarke)表示:“OpenAI和其他大模型公司一再用行动证明,他们不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。” 他还举例,CCBot是Common Crawl组织运营的另一种爬虫机器人,目前Common Crawl是人工智能模型训练数据的主要供应商,“据我所知,没有人成功让Common Crawl删除数据,”克拉克说,“我尝试过,没有得到任何回应。” 另一方面,在与大公司拉扯时,普通人大多时候处于弱势。正如克拉克所说,既然OpenAI愿意为(美联社)等大公司的数据付费,为什么它不为其他人的信息付费呢?“我就此询问了OpenAI,但没有得到回复。” 不过克拉克本身就站在OpenAI的对立面,其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出,在ChatGPT于去年底开放后,AI生成的垃圾投稿激增,而检测这类作品的成本高昂,该杂志一度暂停征稿。 3 结语 此前,OpenAI已经因版权问题被多方状告,既有克拉克森律所推动的集体诉讼,也有保罗•崔布雷(Paul Tremblay)和莫纳•阿瓦德(Mona Awad)等畅销书作家在内的名人实名起诉。 随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,即使它们敢于承担责任,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。 本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.siyushenqi.com/35619.html 赞 (0) 打赏 微信扫一扫 支付宝扫一扫 0 0 生成海报 关于作者 siyushenqi.com 关注私信 11.2K 文章 0 评论 298 问题 16 粉丝 私域神器:海外私域营销拓客软件 斯坦福的「虚拟小镇」开源了:25个AI智能体照进《西部世界》 上一篇 2025 年 8 月 14 日 上午12:44 AI产生自我意识,「古墓丽影」劳拉觉醒!电子游戏革命来了 下一篇 2025 年 8 月 14 日 上午12:44 相关推荐 海外营销 嘉御资本卫哲:投跨境电商将是最好的消费投资的风险对冲 中国的资本市场会迎来一个跨境电商出海品牌的板块。这个春天很快就来了。 siyushenqi.com 2025 年 8 月 13 日 60000 海外营销 2023年,跨境电商三大机遇已出现 机遇大于挑战。 siyushenqi.com 2025 年 8 月 13 日 44000 海外营销 私域神器资讯晨报:大咖群聊2022出海新趋势;乐华泛娱乐业务年收入曝光,主要由A-SOUL贡献;20年的亚马逊为何“中年危机”还未到来;详解泡泡玛特出海:从How到Know-How 2022.3.17星期四,一起来看看昨日今晨发生哪些大事 siyushenqi.com 2025 年 8 月 15 日 52000 海外营销 辟蹊径找客户,让你订单不断 找客户是外贸业务员的永恒话题,大家每天都在围着客户转,不停地找邮箱、发开发信,希望能够碰到一两个客户。 但是绝大多数的业务员还是不善于旁敲侧击地找客户,他们还是喜欢直接搜索采购信息,然后找到采购邮箱。诚然,采购信息针对性强邮箱一般是采购的负责人直接使用,如果时效性再强一些,只要你的条件合适,一般都能有不错的效果。 但是,大家都在找采购信息,一条信息可能被几百… siyushenqi.com 2024 年 9 月 20 日 501000 海外营销 字节跳动日本发布漫画应用FizzoToon,2.5亿投资Kiadari引进韩漫 海外漫画市场再添一名强势选手。据Tech星球报道,字节跳动近日在日本上线了漫画APP《Fizzo Toon》,正式进入动漫文化浓厚同时竞争也相当激烈的日本市场。 siyushenqi.com 2025 年 8 月 25 日 84000 海外营销 AI代替“李佳琦们”,已经开始掏女人的钱包了 AI替代网红博主为时尚早。 siyushenqi.com 2025 年 8 月 13 日 40000 海外营销 我在日本,眼睁睁看着腾讯被挤爆了 根据Sensor Tower的报告,腾讯成为日本去年收入增速最快的游戏发行商,其中《胜利女神:妮姬》(NIKKE)是其在日本市场的主要收入来源。 siyushenqi.com 2025 年 8 月 17 日 47000 海外营销 王牌对王牌,天美与微软Xbox Game Studios达成战略合作 5月13日,腾讯天美工作室群(以下简称天美)对外宣布,已正式与微软Xbox Game Studios(以下简称XGS)达成深度战略合作关系。 siyushenqi.com 2025 年 8 月 3 日 69000 海外营销 如何利用Facebook给你的产品有效引流? 许多卖家不再局限于做站内流量,开始研究如何用站外引流。 siyushenqi.com 2025 年 8 月 13 日 108000 海外营销 苹果对Facebook小游戏说不:Gaming应用提交多次被拒 在App Store,苹果公司引用自己地审核规则,不止一次地拒绝了来自Facebook的新游戏应用。 siyushenqi.com 2025 年 8 月 26 日 65000 海外营销 马云要一鸣惊人,阿里巴巴将全面AI 阿里巴巴CEO吴泳铭主张在现有业务中全面实现“AI化”,并计划将AI技术的运用及对业务增长的推动效果纳入2025年绩效评估。淘宝、天猫等核心部门正在与通义千问技术团队合作,开发基于AI的功能,同时阿里巴巴也在开发一系列AI原生应用,部分有望于今年上线。 siyushenqi.com 2025 年 8 月 13 日 52000 海外营销 Temu挑起拼多多大梁,黄峥预言成真 黄峥:一步一步走过去,也不见得没有机会。 siyushenqi.com 2025 年 8 月 12 日 44000 海外营销 钛动科技林焕滨:解读2021年全球游戏出海趋势(附日韩手游营销白皮书下载) 钛动科技推出的出海营销全栈式智能服务平台UniAgency帮助客户解决海外广告管理中的痛点、难点,助力中国游戏高效出海。 siyushenqi.com 2025 年 8 月 3 日 58000 海外营销 两周内快速起量至上万美元量级,社媒营销引流YYDS “流量为王”的时代,店铺运营不仅以销量论输赢,更以流量较高下。流量曝光能够为产品带来浏览量、销量,是商品销售环节中影响销售额最大的因素之一。 siyushenqi.com 2025 年 8 月 13 日 59000 海外营销 中国最神秘千亿独角兽,难解「砍一刀」 被拼多多海外版“砍一刀”,SHEIN陷入增长焦虑? siyushenqi.com 2025 年 8 月 12 日 43000 海外营销 10年4个爆款、总销量超1000万,这个小团队是每个游戏人的梦想 Supergiant应该是把“独立的游戏表达”和“商业收益”结合得最好的工作室了。 siyushenqi.com 2025 年 8 月 26 日 65000 海外营销 一个17岁少年如何闷声发大财,搞出价值112万美刀的AI应用 17岁的Zach Yadegari开发了一款名为Cal AI的应用,通过拍照计算卡路里,月入112万美元。他通过精心设计产品和营销策略,成功吸引了大量用户和关注。他的成功并非偶然,而是通过一系列策略实现的。 siyushenqi.com 2025 年 8 月 13 日 82000 海外营销 聚·你所爱!2025年第二十二届ChinaJoy盛大开幕! 2025年8月1日,第二十二届中国国际数码互动娱乐展览会(ChinaJoy)在上海新国际博览中心盛大开幕。 siyushenqi.com 2025 年 8 月 14 日 49000 海外营销 《生化危机》和《行尸走肉》,为何这些知名IP都与这款三消策略手游联动? 2023年刚过去三个多月,已经颇让新老玩家体会到“大作年”的快乐。 siyushenqi.com 2025 年 8 月 24 日 66000 海外营销 私域神器每周精选 No.57|短剧APP寻开户商投放代理合作;多款游戏产品寻海外发行 本期精选的合作类型涵盖多款精品寻海外合作、发行。接下来就一起看看吧~ siyushenqi.com 2025 年 8 月 21 日 54000 海外营销 流量破百万的女装独立站!她从连衣裙礼服做起 “女装独立站再现隐藏大佬,它是如何打开海外市场?” siyushenqi.com 2025 年 8 月 12 日 56000 海外营销 做了10多年二次元的老牌厂商,一出手就是一款“经费燃烧”的力作 做游戏,不要钱的吗? siyushenqi.com 2025 年 8 月 24 日 62000 海外营销 攻入ToB,快手寻找新支点 2022年8月10日,快手为其ToB品牌StreamLake举行了一场发布会,推出面向各行业的音视频+AI产品以及全链路解决方案,“官宣”进军ToB市场。 siyushenqi.com 2025 年 8 月 24 日 66000 海外营销 网易做了个全场9.9的游戏,把友商纷纷拉下了水。 新生整顿MMO? siyushenqi.com 2025 年 8 月 18 日 58000 海外营销 常见的4种外贸开发信标题模板 有什么安全且保险的外贸开发信标题疤呢?给大家总结了一下四个撰写标题的方向,供大家参考。 一、把客户名字写在标题中 如果我们已经知道客户的名字,则可以直接使用“To+ 客户名字”的格式表示这封邮件是给某个客户的,如 “To Mr.Peter” (给 Peter先生的邮件)。 在 “To” 后面加上客户的名字或者公司的名称,可以给客户一种被重视的感觉再比如 “J… siyushenqi.com 2024 年 9 月 20 日 501000 海外营销 日本区游戏ASA投放观察:休闲热潮持续,国产游戏投放占比超20% 一直以来,我们的近邻日本都是全球最重要的游戏市场之一。 siyushenqi.com 2025 年 8 月 26 日 79000 海外营销 亮相即揽7000+订单!150多种表情动作+“长期记忆”,这款陪伴玩具有何不同? 399美元买一款手掌大小的AI玩具谁在为“TA”买单? siyushenqi.com 2025 年 8 月 26 日 67000 海外营销 “屌丝游戏”爆火!10天狂赚13亿的「幻兽帕鲁」凭什么? 「幻兽帕鲁」这款神奇的游戏到底有什么特别之处,又凭什么拿捏用户,赚得盆满钵满? siyushenqi.com 2025 年 8 月 18 日 60000 海外营销 SHEIN上线一个内衣独立站!流量开始起飞 通过多品牌布局策略,扩大市场领域。SHEIN这次推出的内衣品牌能再造神话吗? siyushenqi.com 2025 年 8 月 13 日 51000 海外营销 印尼版“内涵段子”CocoFun: 视频江湖的“黑马” 在印度尼西亚,短视频赛道早早被TikTok等产品占据,到了2020年,应用市场中却出现了一匹黑马。 siyushenqi.com 2025 年 8 月 26 日 68000 发表回复 请登录后评论...登录后才能评论 提交