Cloudflare 發佈一款新的免費工具,可以防止人工智能公司的機器人攝取其客戶的網站內容來訓練大型語言模型。雲端服務供應商正在向其整個客戶群提供此工具,包括免費方案的客戶。Cloudflare表示隨著時間的推移,當他們看到廣泛攝取網路進行模型訓練的違規機器人的新指紋時,該功能將自動更新。
與此同時,Cloudflare 的團隊還分享了一些數據,了解其客戶如何應對爬取內容以訓練生成 AI 模型的機器人的繁榮。根據該公司的內部數據,85.2% 的客戶甚至選擇阻止正確識別自己身分的人工智能機器人造訪其網站。
Cloudflare 也確定了去年最活躍的機器人。位元組跳動旗下的 Bytespider 機器人嘗試存取 Cloudflare 權限下40% 的網站,並且OpenAI 的 GPTBot試穿了35%。以 Cloudflare 網路上的請求數量計算,它們與 Amazonbot 和 ClaudeBot 一起位居前四大 AI 機器人爬蟲程式的一半。
事實證明,完全及持續地阻止人工智慧機器人存取內容非常困難。為了更快地建立模型而進行的軍備競賽導致了一些公司迴避或徹底違反有關阻止爬蟲的現有規則的情況。Perplexity AI最近被指責在沒有所需權限的情況下抓取網站。但是,像 Cloudflare 這樣規模的後端公司認真嘗試阻止這種行為可能會帶來一些結果。
Cloudflare表示,他們擔心一些有意規避規則來訪問內容的人工智能公司將持續適應逃避機器人檢測。公司將繼續密切關注,並在人工智慧能抓取器和爬蟲規則中添加更多機器人塊,並發展公司的機器學習模型,以幫助保持互聯網成為內容創作者能夠蓬勃發展的地方,並完全控制他們的內容用於訓練哪些模型或進行推理。
#職場 #工作 #Career #Job #科技 #Cloudflare #AI
文字:編輯部
~~
HKGoodJobs 正在提供全備的招聘服務(包括獵頭服務),
若你是求職者,
請按 Register 登記成為會員並填妥你的個人履歷,
我們將有專人為你配對工作。
若你是僱主,
請致電 31884978、WhatsApp 63550329 或電郵至 cs@cooljobz.com 與我們聯絡。
活動推介:
熱門文章:
【求職新志向】大眾財務招聘IT Trainee 注重培育IT新人歡迎畢業生申請
【創科新思維】Google投資台灣太陽能公司 推動綠色能源發展
-