您现在的位置：首页 > 研究人员建议OpenAI在paywalled O'Reilly书籍上训练人工智能模型

研究人员建议OpenAI在paywalled O'Reilly书籍上训练人工智能模型

来源：网络日期：2025-04-02 点击：0

“一项新的研究表明，OpenAI在未经许可的情况下使用了来自O'Reilly media的付费书籍来训练其最近的一些模型。”

OpenAI被多方指责未经许可就在有版权的内容上训练其AI。现在，一个人工智能监督组织的一篇新论文提出了严重的指控，称该公司越来越依赖未经授权的非公开书籍来训练更复杂的人工智能模型。人工智能模型本质上是复杂的预测引擎。在大量数据——书籍、电影、电视节目等——的训练下，他们学会了从一个简单的提示进行推断的模式和新方法。当一个模特“写”一篇关于希腊悲剧的文章或“画”出吉卜力风格的图像时，它只是简单地从其广博的知识中进行近似。它没有产生任何新的东西。尽管包括OpenAI在内的许多人工智能实验室已经开始采用人工智能生成的数据来训练人工智能，因为它们耗尽了真实世界的资源(主要是公共网络)，但很少有人完全避开真实世界的数据。这可能是因为纯合成数据的训练有风险，比如降低模型的性能。这篇新论文来自人工智能披露项目(AI Disclosures Project)，这是一个由媒体大亨蒂姆·奥莱利(Tim O'Reilly)和经济学家伊兰·施特劳斯(Ilan Strauss)在2024年共同创立的非营利组织，它得出的结论是，OpenAI可能是在奥莱利媒体的付费图书上训练其GPT-4o模型的。(奥赖利是奥赖利传媒的首席执行官。)在ChatGPT中，GPT-4o是默认型号。该报称，O'Reilly与OpenAI没有许可协议。“GPT-4o是OpenAI最新和更强大的模型，与OpenAI的早期模型GPT-3.5 Turbo相比，它展示了对paywalled O'Reilly图书内容的强烈认可[……]”该论文的共同作者写道。"相比之下，GPT-3.5涡轮显示更大的公开访问的奥莱利图书样本的相对认知度."该论文使用了一种称为DE-COP的方法，该方法在2024年的一篇学术论文中首次提出，旨在检测语言模型训练数据中的版权内容。这种方法也被称为“成员推理攻击”，它测试一个模型是否能够可靠地区分人类创作的文本和人工智能生成的同一文本的转述版本。如果可以，则表明该模型可能已经从其训练数据中获得了文本的先验知识。论文的共同作者——O'Reilly，Strauss和AI研究员Sruly Rosenblat——表示，他们调查了GPT-4o，GPT-3.5 Turbo和其他开放AI模型对O ' Reilly媒体书籍的知识，这些书籍在他们的训练截止日期之前和之后出版。他们使用了34本O'Reilly书籍中的13，962段摘录来估计特定摘录被包含在模型训练数据集中的概率。根据论文的结果，GPT-4o比OpenAI的旧型号(包括GPT-3.5 Turbo)“识别”了更多的付费奥莱利图书内容。作者说，这甚至是在考虑了潜在的混淆因素之后，比如新模型在判断文本是否是人类创作的能力方面的改进。合著者写道:“GPT-4o[很可能]认识到，并且事先知道许多在其培训截止日期之前出版的非公开的奥莱利书籍。”合著者小心翼翼地指出，这并不是确凿的证据。他们承认，他们的实验方法并不是万无一失的，OpenAI可能已经从用户那里收集了付费图书的摘录，并将其复制和粘贴到ChatGPT中。进一步搅浑水的是，共同作者没有评估OpenAI的最新模型集，其中包括GPT-4.5和“推理”模型，如o3-mini和o1。有可能这些模型并没有在paywalled O'Reilly book的数据上进行训练，或者训练的数量比GPT-4o少。话虽如此，OpenAI一直在寻求更高质量的训练数据，这不是什么秘密。open ai一直主张放松对使用版权数据开发模型的限制。该公司甚至雇佣记者来帮助微调其模型的输出。这是整个行业的趋势:人工智能公司招募科学和物理等领域的专家，以有效地让这些专家将他们的知识输入人工智能系统。需要注意的是，OpenAI至少为其部分训练数据付费。该公司与新闻出版商、社交网络、股票媒体库和其他公司达成了许可协议。OpenAI还提供选择退出机制——尽管不完善——允许版权所有者标记他们不希望公司用于培训目的的内容。尽管如此，随着OpenAI在美国法院就其训练数据做法和版权法的处理方式打了几场官司，奥莱利的论文并不是最讨人喜欢的。OpenAI没有回应置评请求。

关键词：人工智能，版权，政府和政策，开放人工智能
《研究人员建议OpenAI在paywalled O'Reilly书籍上训练人工智能模型》 在不经过允许的情况下，禁止用于商业用途或随意转载！

中国U网-海外服务器租用

研究人员建议OpenAI在paywalled O'Reilly书籍上训练人工智能模型

服务器租用

云服务器租用

专题栏目

服务中心

联系方式