TG Data

Posted: **Tue Mar 25, 2025 6:07 am**

高质量的网络数据有助于将人工智能技术的关键类型之一——大型语言模型 (LLM) 推向如今的水平。训练 LLM 以理解人类语言并生成情境感知响应需要大量数据。

例如，GPT-4 的前身 GPT-3 的训练需要45 TB 的文本。来自互联网的公开信息是用于训练人工智能的重要信息支柱之一。

预计未来几年人工智能市场将呈指数白俄罗斯电报数据级增长。这自然引发了关于使用网络数据训练人工智能和创建人工智能产品的问题。

人工智能训练和版权法
有人认为，这项蓬勃发展的技术背后的公司未经许可抓取在线数据来训练人工智能和创造新产品，违反了版权法。此外，还有人认为，像 ChatGPT 这样的大型语言模型会使用训练数据集中的所有数据来生成响应，有时会“模仿”原始内容。

为了更好地理解双方的争论，让我们来看看自 OpenAI 推出领先的法学硕士之一 ChatGPT 并向公众开放以来发生的一些案例。

《纽约时报》与 OpenAI
2023 年底，《纽约时报》起诉 OpenAI使用其内容训练 AI，这是第一家这样做的美国主要媒体。此后，其他几家媒体也起诉了 OpenAI，声称该公司使用其文章训练 AI 系统违反了联邦版权法。

内容许可协议
一些媒体公司采取了不同的做法。例如，《金融时报》与一家生成式人工智能公司达成了内容许可协议，允许他们使用《金融时报》的内容来开发人工智能产品。

使用公共数据训练人工智能

TG Data

网页抓取和人工智能

网页抓取和人工智能