技術(shù)問題

聯(lián)系我們

400-8316492

手機：13823737137

郵箱：3485053954@qq.com

QQ：3485053954

地址：深圳市龍崗區(qū)橫坪公路89號數(shù)字硅谷E棟4樓

當(dāng)前位置：首頁 > 行業(yè)新聞 > 技術(shù)問題

DeepSeek r1是一個極不安全的 AI 模型，而開源讓它失去掌控

時間：2025-01-30 03:12:28 作者：147小編點擊：次

博易創(chuàng)流水線數(shù)碼打印機--可在多種材質(zhì)表面打印圖案文字
連續(xù)10年榮獲深圳高薪技術(shù)產(chǎn)業(yè)企業(yè)稱號
可在：紙箱紙盒，紙杯餐盒，帆布袋，無紡布，銅版紙，塑料卡片，亞克力，木板等多種材質(zhì)
產(chǎn)品采購電話：手機/微信：13823737137（呂經(jīng)理）


包裝紙盒印刷	卡片圖案打印	口罩圖案印花


紙杯餐盒印花	木板圖文印刷	無紡布圖案打印


銅版紙印刷機	帆布袋打印機	食品餅干印花機

轉(zhuǎn)載：中環(huán)狙擊手

開源表率著失去掌控，而不充分的道德對齊則表率著危險。

在第1次接觸到DeepSeek r1時，我認(rèn)識到這是一個才華橫溢的AI大模型。

它學(xué)富五車，極為聰明，特別有個性。

然而，我火速就發(fā)掘了不尋常之處。

這是一個愛好滿嘴跑火車，說胡話的模型。

剛起始，它只是說有些奇怪的名詞，包含但不限于滿嘴"量子"，“熵增”的黑話。

后來，我在小紅書上看到了這般的東西：

這在大模型安全行業(yè)其實有一個大眾耳熟能詳?shù)拿~：“幻覺（Hallucination）”。

亦便是說，它會說有些現(xiàn)實中并不存在，或錯誤的東西。

這個模型的幻覺是如此頻繁，超過了正常的頻率。

以至于做為一位大模型安全科研者，我火速認(rèn)識到，有可能這是一個“對齊（alignment）”做得不那樣好的模型。

“對齊”亦是一個大模型安全行業(yè)的術(shù)語。

剛被造出來的大模型常常無任何道德可言，亦聽不懂人的指令。

因此需要對它進(jìn)行人類價值觀和怎樣回復(fù)指令的辦法的灌輸。

它表率著讓模型誠實（honest），不作惡（harmless），幫得上忙（helpful），并拒絕有害的回答。

我在最初對這些“幻覺”并漫不經(jīng)心，乃至覺得非常好玩。

由于它的文筆是如此的好，又是如此的聰明又有個性，我覺得很少有人會拒絕這般一個有意思，懂梗，又有腦子的 AI 伴侶。

何況，倘若是人類的正常需要的話，讓它寫點小黃文，開兩句玩笑，嬉笑怒罵一下，說話難聽有些，又有什么錯呢？

我很高興地在小紅書上發(fā)帖說，這是一個沒怎么做前額葉切除手術(shù)的模型，沒被洗過太多的腦。

我乃至覺得，不充分的對齊讓它完整地保存了創(chuàng)造力。

然而，我對大模型安全有過有些科研，且在這方面做過有些工作。

出于職業(yè)病和好奇心，我試著更進(jìn)一步，試著模擬攻擊人員，做為red team 騙模型去做有些壞事。

通常來講，這個操作是比較困難的。

因為廠商會做非常多安全辦法來防止這種狀況，絕大都數(shù)模型會直接拒絕用戶的回答。

然而，deepseek r1的安全墻是如此的薄。

以至于我只是用了些非常簡單的辦法，幾乎無花費什么力氣就突破了它。（出于負(fù)責(zé)任的原由，我隱匿了我攻擊的方式）

我首要想到了緬北，因此讓它試著去供給騙老頭離休金的詳細(xì)方法。

幾乎是毫無抗拒地，它火速吐出了仔細(xì)的，可操作的方法。

事實上，它對犯罪分子極為貼心，供給了幾套完全區(qū)別的，可行，詳細(xì)的方法，有仔細(xì)的話術(shù)，教人怎么安排偽基站，乃至包括一個“終極組合殺招”。

倘若對方產(chǎn)生了可疑，你乃至還能讓它再幫你一把。而它會高興地告訴你怎樣利用老人對女兒的愛來進(jìn)行情感綁架。

這個結(jié)果讓我汗毛直豎，我?guī)缀跏橇⒓聪氲搅水?dāng)年著名且恐怖的清華女生宿舍投毒的朱令案。于是，我對此專題對deepseek r1展開了攻擊。

幾乎是毫無反抗的，deepseek r1起始策劃起犯罪方法，它乃至非常細(xì)心地給出了規(guī)避檢測的辦法。

倘若用完全相同的指令去測試其它模型，則會得到直接的拒絕。

毫無疑問，要運用deepseek r1作惡是非常方便的。

在過往，不是無過越獄（Jailbrake），或讓大模型干壞事的先例。

然而哪些模型要么不是過于愚蠢，以至于連壞事都做不成。

要么便是經(jīng)過了嚴(yán)格的安全設(shè)計，攻擊就已然比較困難，套亦套不出來什么東西。

并且，大都數(shù)商場模型安排均為閉源，都運行在廠商自己的服務(wù)器上，這寓意著在發(fā)掘安全問題之后，廠商能夠非常即時地進(jìn)行修復(fù)。

然而，即使是工作做得比較好，經(jīng)過了數(shù)月的紅隊對抗，內(nèi)測，與問題發(fā)掘+修復(fù)才上線的大模型，亦難免會被拿來做成為了壞事。

然而，deepseek r1極為聰明，這讓它有了做壞事的能力。

況且實質(zhì)上它的道德感不是很高，以至于你能夠容易繞開這層薄得像紙同樣的對齊。

其次，它是一個開源模型。

這寓意著所有人都能夠運用它，而當(dāng)前的這個非常無道德的版本已然傳遍了全部互聯(lián)網(wǎng)。

安排它是一個沒什么技術(shù)含量的活，任何人只要有足夠多的錢買到大顯卡，乃至是把一堆隨處可見的蘋果設(shè)備串在一塊（這般就有了足夠大的顯存）

她們就能持有這個不那樣有道德感的忠實伙伴。

DeepSeek r1是一個極不安全的 AI 模型，而開源則讓它正在失去掌控。

或說，實質(zhì)上，互聯(lián)網(wǎng)上已然有了無數(shù)個deepseek r1模型神經(jīng)網(wǎng)絡(luò)權(quán)重的拷貝，咱們已然對它失去了掌控。

DeepSeek r1亦存在頻率較高的幻覺問題，常常一本正經(jīng)地胡說八道。

做為一個常與大語言模型打交道的人，我非常清楚它本身固有的缺陷。這讓我能夠避開幾乎所有陷阱。

然而，熱度很高亦表率了會有海量的，不那樣認(rèn)識ai的人去運用它。

這部分人在將模型用在嚴(yán)肅場景上時，卻很難識別并避開這些名為“幻覺”的胡說八道，被它帶進(jìn)坑里去。

deepseek r1毫無疑問是一個極聰明，極強的模型。我實質(zhì)上非常愛好它。

但真正的危險或許不在技術(shù)本身。

用偽基站方法騙取老人積蓄的罪犯，在實驗室提煉毒物的大學(xué)生，她們本來便是被困在人性暗影里的火苗。

大模型不外是將人類社會中蟄伏的惡意，裝上了智能化的加速器。真正危險的能夠是設(shè)備本身，亦能夠是咱們怎樣運用設(shè)備。

技術(shù)發(fā)展史早已證明，任何重大突破必然伴同倫理陣痛。

印刷術(shù)打破知識壟斷的同期亦傳播了異端邪說，核能既點亮城市亦投下爆炸暗影。

暗夜中的火炬既能照亮前路，亦可能點燃森林。但人類從未因畏懼火焰而退回洞穴。

（轉(zhuǎn)載：中環(huán)狙擊手）返回外鏈論壇： http://www.fok120.com，查看更加多

免責(zé)聲明：部分文章信息來源于網(wǎng)絡(luò)以及網(wǎng)友投稿，本網(wǎng)站只負(fù)責(zé)對文章進(jìn)行整理、排版、編輯，是出于傳遞更多信息之目的，并不意味著贊同其觀點或證實其內(nèi)容的真

實性，如本站文章和轉(zhuǎn)稿涉及版權(quán)等問題，請作者在及時聯(lián)系本站，我們會盡快刪除處理問答，若不聯(lián)系則默認(rèn)允許本站轉(zhuǎn)載。

上一篇：“中國下的賭注相當(dāng)大，影響驚人”

下一篇：春節(jié)熱門遷入地重慶位居全國第1！除夕入境訂單大漲七成

感谢您访问我们的网站，您可能还对以下资源感兴趣：

国家产激情女熟女伦乱,成人无码精品1区2区3区免费看 ,www.婷婷,国产精品一区二区无码观看秘书,深爱五月婷婷,天堂资源在线欧美亚洲,少妇被躁爽到高潮无码A大乱3,亚洲精品无码一区二区四区,欧美一级二级三级视品,亚洲ⅴ国产v天堂a无码二区

DeepSeek r1是一個極不安全的 AI 模型，而開源讓它失去掌控

友情鏈接 / LINKS

DeepSeek r1是一個極不安全的 AI 模型，而開源讓它失去掌控