原文來源:差評
圖片來源:由無界AI 生成
幾天前,谷歌突然更新了隱私政策,明確表示要用網上所有的公開數據,來訓練自家的AI 模型。
也就是說,根據新政策,你在網上公開發布的任何信息都有可能被谷歌抓取,包括但不限於你發的帖子、搜索的關鍵詞以及看過的視頻。
這不妥妥互聯網裸奔嗎!
OpenAI 前腳剛被起訴數據侵權還沒多久,谷歌就馬上著急來撞槍口。
在這個節骨眼上整這麼一出,大概率跟數據收費脫不了關係,**谷歌再不薅這波免費的羊毛,之後很有可能就薅不到咯。 **
這事兒啊,自打ChatGPT 爆火後再也沒消停過。
世超先給大傢伙兒捋捋時間線。
今年3 月的時候呢,馬斯克帶頭打響了數據收費第一槍,宣稱推特的API 接口不再免費了。
緊接著,美版貼吧Reddit 也按耐不住了。
上個月Reddit 鬧得沸沸揚揚的“ 停電” 運動,就是為了抗議官方的API 收費政策。
之前世超寫這事兒的時候還在猜測, Reddit 官方最後會不會作出讓步。
從現在的後續看來,大多第三方軟件已經確認關停, Reddit 是鐵了心要數據收費。
再到這段時間,推特又整了限流的么蛾子,沒有花錢認證的帳號每天就只能閱讀600 條貼文,目的呢也是為了防止機器人抓取用戶數據。
難道數據就這麼值錢嗎?
世超覺著啊,還是**AI 的鍋。 **
AI 大模型要想變得更聰明,就需要源源不斷的數據去“ 餵養” 。
現在能做大模型的,要不就是自己家有數據,像百度、阿里和騰訊;要不就是爬人家的數據,這裡點名OpenAI 。
因為很多網站都開放有免費的API 接口,才給了微軟、 OpenAI 這些巨頭可乘之機。
但今時不同往日, AI 在重新賦予數據價值以後,有籌碼在手上的平台當然**不樂意被白嫖了。 **
甚至於Reddit 的CEO 霍夫曼都把話搬上明面兒了:就是不想免費提供數據給巨頭們。
所以, OpenAI 被起訴估計也是平台們聯合起來想要“ 殺雞儆猴”, 治一治AI 的這股歪風邪氣。
不過,法律這次會不會站在OpenAI 這邊,還真不好說。
因為數據版權涉及到3 個關鍵的問題:
**1.數據爬蟲的行為本身是否是合法的? **
**2.數據是否受到版權的保護? **
**3.用數據生成的作品是否受到版權保護? **
首先第一個問題,要獲取數據,無非就是付費購買,或者收集網上公開的數據。
但需要注意的是,公開的數據並不能等同於授權使用,而且還要看網站是不是有相關的條款對數據爬蟲行為做出了限制。
要是直接越過版權方的同意,或者繞過了網站限制強行獲取數據,那就是妥妥的非法獲取計算機信息系統數據罪。
即使OpenAI 聲稱爬的是公開網站的數據,數據爬蟲行為本身是否合法,還要看版權方是不是給了授權。
其次,關於數據本身是否受到版權保護。
根據美國的版權法,如果AI 模型訓練所用的數據符合“ 合理使用” 的範圍,那就不會構成侵權。
但問題就出在這“ 合理使用 ” 上。
“ 合理使用” 的構成要件包括是否涉及商用、作品本身是否受版權法保護、所使用部分的數量以及使用之後對作品本身造成的影響這四個標準。
像什麼新聞報導、學術研究,適當引用是完全ok 的。
可AI 模型上億萬級別的數據使用量、已經商業化的AI 軟件,還能算作“ 合理使用” 嗎?
最後,就是AI 生成作品的版權問題。
因為訓練數據版權理不清, AI 生成的內容自然也會存在版權爭議。前幾天, Steam 還下架了一款使用了AIGC 生成的遊戲,理由就是版權有問題。
咱就拿AI 繪畫舉例子,圖像生成相當於一個拆分又重組的過程,雖然最後的結果是完全“ 新” 的,但仍然會保留訓練圖像的某些特徵。
但這種情況到底算不算侵權,各國的說法現在也是眾說紛紜。
因為訓練數據是人家的,美國版權局認定AI 生成的作品不受版權法保護,甚至還可能侵犯著作權。
而日本政府的態度則截然不同,表示日本法律不保護AI 訓練所用數據的版權。
至少在現行的法律框架下,上面這些問題很難得到一個統一的答案。
既然監管不給力,那版權方就只有提刀自己乾了,該收費的收費,該追償的也趕緊追償。
▼OpenAI 被起訴的文件
可以預見,在推特和Reddit 之後,可能還會有更多的內容版權方豎起高牆。
這事兒呢,對於平台來說,當然是個掙錢的新路子,科技巨頭再不濟也就是多砸點兒錢。
但對於整個互聯網來說,可算不上一件好事兒。
當年,互聯網就是帶著開放共享的基因出生的,像什麼維基百科、推特,之前常年免費提供API 接口,開發者調用數據很方便。
但現在如果讓數據收費這麼一搞,結果會怎麼樣還真不好說。
畢竟,小開發者沒有支付巨額數據費的能力,如果創新只在巨頭里發生,這不就是純純搞壟斷了?
最主要的是,可能很多現在免費能看到的網站之後就要花錢才能看了,這才是對咱們這種普通用戶的真實暴擊。
其實吧,數據收費這事兒也不能全怪平台,實在是讓AI 巨頭給“ 搶” 怕了,算是一種自保的無奈之舉。
雖然這次谷歌有“隱私政策”護體,但結果如何還真不好說。
所以,關鍵還要是看監管的大錘什麼時候能落下。
釐清數據版權,是AI 要發展始終繞不過去的一道坎兒,而現在,似乎也同樣關乎著互聯網的未來走向。
不知道AI 這艘船,會將我們推向一個更開放,還是更封閉的時代?
11.4萬 熱度
2.5萬 熱度
1.5萬 熱度
17.1萬 熱度
1839 熱度
再讓AI大廠這麼“偷”下去,咱可能就看不到免費的網站了
原文來源:差評
幾天前,谷歌突然更新了隱私政策,明確表示要用網上所有的公開數據,來訓練自家的AI 模型。
OpenAI 前腳剛被起訴數據侵權還沒多久,谷歌就馬上著急來撞槍口。
這事兒啊,自打ChatGPT 爆火後再也沒消停過。
世超先給大傢伙兒捋捋時間線。
今年3 月的時候呢,馬斯克帶頭打響了數據收費第一槍,宣稱推特的API 接口不再免費了。
上個月Reddit 鬧得沸沸揚揚的“ 停電” 運動,就是為了抗議官方的API 收費政策。
再到這段時間,推特又整了限流的么蛾子,沒有花錢認證的帳號每天就只能閱讀600 條貼文,目的呢也是為了防止機器人抓取用戶數據。
世超覺著啊,還是**AI 的鍋。 **
現在能做大模型的,要不就是自己家有數據,像百度、阿里和騰訊;要不就是爬人家的數據,這裡點名OpenAI 。
因為很多網站都開放有免費的API 接口,才給了微軟、 OpenAI 這些巨頭可乘之機。
甚至於Reddit 的CEO 霍夫曼都把話搬上明面兒了:就是不想免費提供數據給巨頭們。
不過,法律這次會不會站在OpenAI 這邊,還真不好說。
**1.數據爬蟲的行為本身是否是合法的? **
**2.數據是否受到版權的保護? **
**3.用數據生成的作品是否受到版權保護? **
首先第一個問題,要獲取數據,無非就是付費購買,或者收集網上公開的數據。
但需要注意的是,公開的數據並不能等同於授權使用,而且還要看網站是不是有相關的條款對數據爬蟲行為做出了限制。
其次,關於數據本身是否受到版權保護。
根據美國的版權法,如果AI 模型訓練所用的數據符合“ 合理使用” 的範圍,那就不會構成侵權。
但問題就出在這“ 合理使用 ” 上。
像什麼新聞報導、學術研究,適當引用是完全ok 的。
可AI 模型上億萬級別的數據使用量、已經商業化的AI 軟件,還能算作“ 合理使用” 嗎?
最後,就是AI 生成作品的版權問題。
因為訓練數據版權理不清, AI 生成的內容自然也會存在版權爭議。前幾天, Steam 還下架了一款使用了AIGC 生成的遊戲,理由就是版權有問題。
因為訓練數據是人家的,美國版權局認定AI 生成的作品不受版權法保護,甚至還可能侵犯著作權。
而日本政府的態度則截然不同,表示日本法律不保護AI 訓練所用數據的版權。
▼OpenAI 被起訴的文件
這事兒呢,對於平台來說,當然是個掙錢的新路子,科技巨頭再不濟也就是多砸點兒錢。
當年,互聯網就是帶著開放共享的基因出生的,像什麼維基百科、推特,之前常年免費提供API 接口,開發者調用數據很方便。
畢竟,小開發者沒有支付巨額數據費的能力,如果創新只在巨頭里發生,這不就是純純搞壟斷了?
最主要的是,可能很多現在免費能看到的網站之後就要花錢才能看了,這才是對咱們這種普通用戶的真實暴擊。
所以,關鍵還要是看監管的大錘什麼時候能落下。
釐清數據版權,是AI 要發展始終繞不過去的一道坎兒,而現在,似乎也同樣關乎著互聯網的未來走向。
不知道AI 這艘船,會將我們推向一個更開放,還是更封閉的時代?