OpenAI也为数据犯难!公司承认使用爬虫,自我设限难消公众怀疑 siyushenqi.com • 3天前 • 海外营销 • 阅读 7 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议 OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练;OpenAI表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据;这似乎并不能挽回公众对这家大模型头号公司的信任。 数据、算力、算法,被视作生成式AI的三个核心要素,很难说哪个更重要。 但是,对于OpenAI这类明星公司来说,算力基本上是一个经济问题,大公司凭借“钞能力”囤积了大量昂贵的硬件,数据稀缺问题才更让其头疼,“不光彩”的数据获取方式总让它们陷入道德危机。 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议。据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 1 OpenAI被怀疑是“数据小偷” 网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来,数据抓取者对这些数据进行分析等加工再利用,推测出互联网用户的偏好,再顺势推送给与之匹配的用户群体。 目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。 面对这样的“指控”,OpenAI积极自辩,该公司表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。 此外,OpenAI上线了一种阻止GPTbot的方法,用户可以修改其robots.txt文件,或者屏蔽其IP地址,拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议,OpenAI将付费购买AI训练数据所需的美联社内容。 2 消失的信任 爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分。但OpenAI主动为其爬虫工具设限的举动,似乎并不能挽回公众对这家大模型头号公司的信任。 老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克(Neil Clarke)表示:“OpenAI和其他大模型公司一再用行动证明,他们不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。” 他还举例,CCBot是Common Crawl组织运营的另一种爬虫机器人,目前Common Crawl是人工智能模型训练数据的主要供应商,“据我所知,没有人成功让Common Crawl删除数据,”克拉克说,“我尝试过,没有得到任何回应。” 另一方面,在与大公司拉扯时,普通人大多时候处于弱势。正如克拉克所说,既然OpenAI愿意为(美联社)等大公司的数据付费,为什么它不为其他人的信息付费呢?“我就此询问了OpenAI,但没有得到回复。” 不过克拉克本身就站在OpenAI的对立面,其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出,在ChatGPT于去年底开放后,AI生成的垃圾投稿激增,而检测这类作品的成本高昂,该杂志一度暂停征稿。 3 结语 此前,OpenAI已经因版权问题被多方状告,既有克拉克森律所推动的集体诉讼,也有保罗•崔布雷(Paul Tremblay)和莫纳•阿瓦德(Mona Awad)等畅销书作家在内的名人实名起诉。 随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,即使它们敢于承担责任,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。 文|宋子乔 数据、算力、算法,被视作生成式AI的三个核心要素,很难说哪个更重要。 但是,对于OpenAI这类明星公司来说,算力基本上是一个经济问题,大公司凭借“钞能力”囤积了大量昂贵的硬件,数据稀缺问题才更让其头疼,“不光彩”的数据获取方式总让它们陷入道德危机。 以OpenAI为例,其抓取公开数据训练AI模型的行为早就备受争议。 据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 1 OpenAI被怀疑是“数据小偷” 网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来,数据抓取者对这些数据进行分析等加工再利用,推测出互联网用户的偏好,再顺势推送给与之匹配的用户群体。 目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。 面对这样的“指控”,OpenAI积极自辩,该公司表示,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。 此外,OpenAI上线了一种阻止GPTbot的方法,用户可以修改其robots.txt文件,或者屏蔽其IP地址,拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议,OpenAI将付费购买AI训练数据所需的美联社内容。 2 消失的信任 爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分。 但OpenAI主动为其爬虫工具设限的举动,似乎并不能挽回公众对这家大模型头号公司的信任。 老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克(Neil Clarke)表示:“OpenAI和其他大模型公司一再用行动证明,他们不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。” 他还举例,CCBot是Common Crawl组织运营的另一种爬虫机器人,目前Common Crawl是人工智能模型训练数据的主要供应商,“据我所知,没有人成功让Common Crawl删除数据,”克拉克说,“我尝试过,没有得到任何回应。” 另一方面,在与大公司拉扯时,普通人大多时候处于弱势。正如克拉克所说,既然OpenAI愿意为(美联社)等大公司的数据付费,为什么它不为其他人的信息付费呢?“我就此询问了OpenAI,但没有得到回复。” 不过克拉克本身就站在OpenAI的对立面,其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出,在ChatGPT于去年底开放后,AI生成的垃圾投稿激增,而检测这类作品的成本高昂,该杂志一度暂停征稿。 3 结语 此前,OpenAI已经因版权问题被多方状告,既有克拉克森律所推动的集体诉讼,也有保罗•崔布雷(Paul Tremblay)和莫纳•阿瓦德(Mona Awad)等畅销书作家在内的名人实名起诉。 随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,即使它们敢于承担责任,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。 本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.siyushenqi.com/35619.html 赞 (0) 打赏 微信扫一扫 支付宝扫一扫 0 0 生成海报 关于作者 siyushenqi.com 关注私信 6.3K 文章 0 评论 296 问题 16 粉丝 私域神器:国内海外私域营销拓客软件 斯坦福的「虚拟小镇」开源了:25个AI智能体照进《西部世界》 上一篇 3天前 AI产生自我意识,「古墓丽影」劳拉觉醒!电子游戏革命来了 下一篇 3天前 相关推荐 海外营销 Shopify版“企业购”上线,瞄准工厂型中国卖家,对标Amazon Business? 近日,Shopify在其中文官网发文表示,推出免费的在线批发业务Handshake siyushenqi.com 4天前 8000 海外营销 2024年美国融资超1亿美元AI公司盘点,xAI、OpenAI领衔 尽管全球经济下行,资本市场对AI领域的兴趣依然非常热情,特别是在生成式AI领域。 siyushenqi.com 3天前 7000 海外营销 航海说明书 | Facebook公共主页又又又被封了?一文解决 FB公共主页被封之后要怎么办 siyushenqi.com 2025 年 8 月 3 日 14000 海外营销 月收入暴增476%,红利正当时,语聊转向东南亚再探社交新蓝海 社交+语音,卷不动的中东,和即将卷起的东南亚。 siyushenqi.com 48分钟前 1000 海外营销 2024年,为什么跨境电商仍是最具前景的行业之一? 近十年来,我国跨境电商的市场规模不断扩大,其海外影响力明显高于其他外贸业态。 siyushenqi.com 2025 年 8 月 6 日 12000 海外营销 印度封禁事件启示录:单一市场的隐患 类似印度的大规模封禁不会上演!原因有二,海外内需和中国竞争力。 siyushenqi.com 4天前 7000 海外营销 超全Facebook 广告版位及尺寸要求,这份指南快收好! 在好文案之前,首先我们需要好的视觉效果吸引消费者的注意力。 siyushenqi.com 2025 年 8 月 3 日 15000 海外营销 分享一些私域神器在跨境电商独立站引流中的成功案例 案例一:某时尚独立站借助 TikTok 与私域神器实现流量与销量飞跃 某时尚跨境电商独立站,在使用私域神器前,主要依赖传统搜索引擎广告引流,效果平平,流量获取成本高且转化率低。引入私域神器后,该独立站构建 TikTok 账号矩阵。利用私域神器的智能内容创作功能,针对不同地区、不同年龄层的目标受众,生成风格各异的短视频,如针对欧美市场的潮流穿搭展示、针对东南… siyushenqi.com 2025 年 7 月 30 日 21000 海外营销 OpenAI再获40亿美元,总融资超100亿美元! OpenAI获得66亿美元融资后,又从全球顶级银行获得40亿美元的循环信贷额度,可选择增加至60亿美元,无需抵押,3年内有效,使得OpenAI可调动资金达到126亿美元。 siyushenqi.com 3天前 7000 海外营销 TikTok Shop美区入驻门槛大调整,跨境商家打开新通道 TikTok Shop美区门槛大调整,卖家爆单机会来了。 siyushenqi.com 2025 年 8 月 5 日 14000 海外营销 欧美行李托运费暴涨,意外在TikTok带火一款产品 箱包类的卖家不妨结合上面提到的 TikTok 旅行趋势,把这些痛点揉入到产品当中,围绕相关标签做产品营销,说不定能有不错的效果。 siyushenqi.com 4天前 6000 海外营销 网易收缩战线,腾讯“光子海外兵团”GDC大谈“原创经”、3A成品呼之欲出! 腾讯光子工作室群于2024年11月在日本成立工作室,由前卡普空明星制作人伊津野英昭负责,专注于研发3A级动作游戏。 siyushenqi.com 3小时前 4000 海外营销 AI爆火,阿联酋想抢占先机 阿联酋正开始发挥超出自身实力的作用。 siyushenqi.com 3天前 6000 海外营销 全域联动,聚势共赢 | PAGC2025展会圆满结束 一起回顾精彩瞬间! PAGC2025精彩现场一睹为快! siyushenqi.com 4小时前 1000 海外营销 Gmail邮箱注册情况及最新动态 Gmail邮箱注册情况及最新动态。 siyushenqi.com 2025 年 8 月 3 日 14000 海外营销 中国短剧狂卷全球:老外直呼上头,收入暴增12倍 近两年,中国短剧以前所未有的速度登陆国际舞台,出海短剧App数量从2023年的41款迅速增加到2024年的202款,整体内购收入增长了约12倍。 siyushenqi.com 4小时前 1000 海外营销 用一张图即可生成音乐?瞄向东南亚,AI创作再现新玩法 技术与艺术碰撞,AI音乐创意再升级。 siyushenqi.com 3天前 9000 海外营销 2022游戏出海日本指南:玩家、内容、增长 国内手游发行商在日本市场越来越猛了。 siyushenqi.com 2025 年 8 月 3 日 15000 海外营销 国内头部SLG产品都谁做的?我们统计了进过畅销榜前100的SLG游戏背后的研发商 在曾进入中国大陆地区iOS畅销榜TOP100的60款SLG产品中,研运一体的产品有40款,占比三分之二;在进入iOS畅销榜TOP10的产品中,研运一体占比为56%。 siyushenqi.com 4小时前 1000 海外营销 越南多项税改!跨境电商天塌了? 2024年前10个月,越南B2C电子商务交易额增长了18%至20%,达到政府设定的目标,预计到2025年市场规模将超过250亿美元。 siyushenqi.com 2025 年 8 月 5 日 19000 海外营销 视频号直播电商架构调整,并入微信开放平台 视频号直播电商迎来新变化。 siyushenqi.com 2025 年 8 月 6 日 13000 海外营销 拼多多市值赶超阿里,Temu挑起大梁! 拼多多成为在美中概股中的市值第一股,再度引起了国内外媒体的热议。 siyushenqi.com 4天前 9000 海外营销 杀回直播间,奢侈品变白菜价,百万人美梦成真! “就像远在天上的星星,你突然发现伸伸手就能勾到。” siyushenqi.com 4天前 7000 海外营销 SHEIN、Temu对簿公堂,醉翁之意不在酒 当SHEIN和Temu用户增长发展到一定规模,最后的竞争势必是对供应链有限产品的争夺。 siyushenqi.com 4天前 8000 海外营销 Shopee、TikTok Shop双雄称霸,占据越南电商市场近九成份额 越南电商市场正在经历快速增长,年均增长率约为18%,与去年同期相比,今年的整体增长幅度超过30%。 siyushenqi.com 2025 年 8 月 5 日 16000 海外营销 AI识图进入餐饮赛道,秒成俄罗斯人“减肥新宠” 一键记录卡路里,AI攻克减肥难题? siyushenqi.com 3天前 7000 海外营销 罗永浩与辉同行 7月26日晚间,罗永浩再次在交个朋友直播间点评俞敏洪和董宇辉“分手”事件。谈到俞敏洪,罗永浩多次克制自己情绪,“好吧,我稍稍克制一下,就说到这了,来吧,卖会儿货吧”。 siyushenqi.com 2025 年 8 月 5 日 15000 海外营销 全球AI面临6000亿美元难题,人工智能泡沫正在接近临界点! AI基础设施的巨额投资,和实际的AI生态系统实际收入之间,差距已经到了不可思议的地步。曾经全球AI面临的2000亿美元难题,如今已经翻成了6000亿美元。 siyushenqi.com 3天前 7000 海外营销 大模型应用,独立APP和内嵌AI,谁会胜出? 大模型产品,会往什么样的趋势发展? siyushenqi.com 3天前 6000 海外营销 朱啸虎讲了一个中国现实主义AIGC故事 我们跟在后面,花的钱少一个数量级,风险小很多,干嘛不跟在后面? siyushenqi.com 3天前 6000 发表回复 请登录后评论...登录后才能评论 提交