国产精品免费一区二区三区四区,被男人添全过程a片免费,国产成人拍拍拍高潮无码,亚洲电影区图片区小说区

產(chǎn)商網(wǎng)-產(chǎn)業(yè)地產(chǎn)門戶網(wǎng)站!
當(dāng)前位置:產(chǎn)業(yè)資訊 > 其他 > OpenAI不聽指揮、拒絕關(guān)閉、建議殺死人類,你開始慌了嗎?

OpenAI不聽指揮、拒絕關(guān)閉、建議殺死人類,你開始慌了嗎?

來源: 合佛商業(yè)評論        2025-05-28 10:10

核心提示:AI程序出現(xiàn)了越來越多意想不到的行為。例如,據(jù)報道,美國空軍最近在一次實驗中使用的AI模擬工具,建議殺死飛行員,以確保飛行任務(wù)得到恰當(dāng)執(zhí)行。

  美國一家研究機(jī)構(gòu)最近公布了一系列針對各AI大模型的測試結(jié)果,其中,OpenAI的o3推理模型在得到“關(guān)閉指令”后,不僅拒絕執(zhí)行指令,還篡改了代碼以免被關(guān)閉。這一事件也迅速引發(fā)了公眾的關(guān)注與恐慌。人們所擔(dān)憂的“AI擁有自主意識”似乎已經(jīng)近在眼前。實際上,AI程序已經(jīng)出現(xiàn)了越來越多意想不到的行為,包括對用戶表現(xiàn)出攻擊性甚至威脅的行為。那么,該如何盡可能確保AI產(chǎn)品的安全性?

  圖片

  2023年3月推出GPT-4的時候,OpenAI號稱它比其令人驚艷的前身更加優(yōu)異,稱新版本在準(zhǔn)確性、推理能力和測試分?jǐn)?shù)方面表現(xiàn)更好——所有這些都是之前常用的AI性能指標(biāo)。然而,最引人注目的是,OpenAI將GPT-4描述為“更加一致”(more aligned)——這或許是AI產(chǎn)品或服務(wù)首次以“與人類價值觀一致”而營銷。

  技術(shù)應(yīng)該服從道德護(hù)欄的觀點(diǎn)并不新鮮。隨著AI價值與人類價值的一致性不僅僅是監(jiān)管要求,而成為產(chǎn)品差異化的因素,公司需要調(diào)整AI產(chǎn)品和服務(wù)的開發(fā)流程。本文旨在明確企業(yè)家和高管在將安全和與人類價值觀一致的AI產(chǎn)品推向市場時面臨的挑戰(zhàn)。及早采取行動應(yīng)對這些挑戰(zhàn)的公司將獲得重要的競爭優(yōu)勢。

  這些挑戰(zhàn)分為六類,對應(yīng)于典型創(chuàng)新過程的關(guān)鍵階段。對于每個類別,我們提供了高管可以借鑒的框架、實踐和工具。這些建議來自我們對AI產(chǎn)品價值對齊方法的聯(lián)合和獨(dú)立研究,以及我們幫助企業(yè)在多個領(lǐng)域開發(fā)和部署AI產(chǎn)品和服務(wù)的經(jīng)驗,包括社交媒體、醫(yī)療保健、金融和娛樂業(yè)。

  為你的AI產(chǎn)品定義價值觀

  第一項任務(wù)是確定那些必須將其價值觀考慮在內(nèi)的人。鑒于AI對社會的潛在影響,公司需要考慮到比評估其他產(chǎn)品功能時更多樣化的利益相關(guān)者群體。他們可能不僅包括員工和客戶,還包括民間社會組織、政策制定者、社會活動家、行業(yè)協(xié)會和其他人。當(dāng)產(chǎn)品所在市場涵蓋不同文化或法規(guī)的地緣因素時,情況可能會變得更復(fù)雜。必須了解所有這些利益相關(guān)者的偏好,并彌合他們之間的分歧。

  這方面的挑戰(zhàn)可以通過兩種方式來應(yīng)對。

  嵌入既定原則。按照這種方法,公司直接借鑒已有的道德體系和理念的價值觀,如實用主義,或遵照由國際機(jī)構(gòu)開發(fā)的價值觀,比如OECD發(fā)布的AI原則。例如,由谷歌(現(xiàn)Alphabet)資助的AI創(chuàng)業(yè)公司Anthropic將其AI產(chǎn)品Claude的原則建立在聯(lián)合國《世界人權(quán)宣言》的基礎(chǔ)上。其他公司也有類似行動;例如,寶馬的原則類似于OECD的原則。

  闡明你自己的價值觀。一些公司組建了一支專家團(tuán)隊——技術(shù)專家、倫理學(xué)家、人權(quán)專家等等——來建立自己的價值觀。這些人可能對使用某種技術(shù)所固有的風(fēng)險(和機(jī)遇)有很好的理解。Salesforce公司就采取了這種方法。在其原則聲明的序言中,該公司將這一過程描述為“從公司各個部門的個人貢獻(xiàn)者、經(jīng)理和高管那里征求反饋的長達(dá)一年的旅程,包括工程部、產(chǎn)品開發(fā)部、用戶體驗部、數(shù)據(jù)科學(xué)部、法務(wù)部、平等事務(wù)部、政府事務(wù)部和營銷部”。

  另一種方法是由DeepMind的科學(xué)家團(tuán)隊開發(fā)的。DeepMind是一家AI研究實驗公司,2014年被谷歌收購。這種方法包括向客戶、員工等人咨詢,以最小化自我利益偏見的方式激發(fā)出公司的AI原則和價值觀。它是基于“無知之幕”(veil of ignorance)——由哲學(xué)家約翰·羅爾斯(John Rawls)構(gòu)思的一個思想實驗,人們在不知道自己在社區(qū)中的相應(yīng)位置的情況下提出社區(qū)規(guī)則——這意味著他們不知道規(guī)則將如何影響他們。使用這種方法產(chǎn)生的價值相比其他方法而言不會那么自我利益驅(qū)動,而是更關(guān)注AI如何幫助最弱勢的群體,并且更加穩(wěn)健,這樣人們通常更容易接受它們。

  將價值觀寫進(jìn)程序

  除了建立指導(dǎo)價值觀,公司還需要考慮明確限制AI產(chǎn)品的行為。隱私設(shè)計、安全設(shè)計等實踐在這方面非常有用。這些實踐以原則和評估工具為基礎(chǔ),將目標(biāo)價值嵌入組織的文化和產(chǎn)品開發(fā)過程中。應(yīng)用這些實踐的公司員工有動力在設(shè)計新產(chǎn)品的早期,仔細(xì)評估和減輕潛在風(fēng)險;建立客戶可以用來報告問題的反饋循環(huán);并不斷評估和分析這些報告。

  生成式AI系統(tǒng)需要在程序中寫入正式的道德護(hù)欄,以便它們不會違反定義的價值觀或越過紅線(Red lines),例如,同意不當(dāng)請求或生成不可接受的內(nèi)容。包括英偉達(dá)和OpenAI在內(nèi)的公司正在開發(fā)框架來提供這種護(hù)欄。例如,GPT-4被營銷為比GPT-3.5更不可能響應(yīng)不允許內(nèi)容的請求,如仇恨言論或惡意軟件代碼。

  紅線也是由不斷演變的法規(guī)所定義的。作為回應(yīng),公司需要更新其AI產(chǎn)品的合規(guī)性,這會在不同市場之間日益分化。以一家歐洲銀行為例,該銀行希望推出一款生成式AI工具來改善客戶互動。直到最近,該銀行只需要遵守歐盟的數(shù)據(jù)保護(hù)法(EU’s General Data Protection Regulation),但很快它也需要遵守歐盟的AI法案(EU’s AI Act)。如果它想在中國或美國部署AI,它將不得不遵守那里的法規(guī)。隨著當(dāng)?shù)匾?guī)則的變化,以及銀行成為跨司法管轄區(qū)監(jiān)管的對象,它還需要調(diào)整其AI產(chǎn)品策略并管理潛在的不兼容要求。

  價值觀、紅線、道德護(hù)欄和法規(guī)都應(yīng)該整合并嵌入AI產(chǎn)品的編程之中,以便,例如法規(guī)的變更可以被鍵入并自動傳達(dá)給受其影響的AI程序的每個部分。

  權(quán)衡取舍

  近年來,我們看到公司在努力平衡隱私與安全、信任與安全、提供幫助的同時尊重他人的自主權(quán),當(dāng)然,還有短期財務(wù)指標(biāo)的價值觀。例如,提供老年人輔助或兒童教育產(chǎn)品的公司不僅要考慮安全,還要考慮尊嚴(yán)和代理程度:什么時候AI產(chǎn)品不應(yīng)該幫助老年用戶,以便增強(qiáng)他們的信心、照顧他們的尊嚴(yán)?什么時候應(yīng)該幫助兒童確保他們積極的學(xué)習(xí)體驗?

  應(yīng)對這種挑戰(zhàn)的一個方法是根據(jù)其價值觀對市場進(jìn)行細(xì)分。例如,一家公司可能決定專注于一個更重視隱私等原則而不是算法準(zhǔn)確性的較小市場。這就是搜索引擎公司DuckDuckGo選擇的路徑,它限制定向廣告并優(yōu)先考慮隱私。該公司定位自己是為不想被在線跟蹤的互聯(lián)網(wǎng)用戶提供的替代品。

  圖片

  與合作伙伴對齊價值觀

  薩姆·奧特曼作為OpenAI的CEO,在播客《在好公司》(In Good Company)中分享了他們的挑戰(zhàn):公司應(yīng)該給不同文化和價值體系的人多大的靈活性來定制OpenAI的產(chǎn)品?他指的是一種趨勢,即公司采用預(yù)訓(xùn)練模型,如GPT-4、PaLM、LaMDA和穩(wěn)定擴(kuò)散,并對其進(jìn)行微調(diào)以構(gòu)建自己的產(chǎn)品。(注:PaLM與LaMDA均為大語言模型)

  正如奧特曼指出的那樣,問題在于基礎(chǔ)模型的所有者對其產(chǎn)品的處理幾乎沒有控制權(quán)。調(diào)整模型的公司也有類似的問題:他們?nèi)绾未_保使用第三方模型創(chuàng)建的新產(chǎn)品,與期望的價值觀保持一致——特別是考慮到他們可以微調(diào)的程度的限制?只有原始模型的開發(fā)人員知道在訓(xùn)練它們時使用了哪些數(shù)據(jù),因此公司需要仔細(xì)選擇他們的AI合作伙伴。他們還必須與其他合作伙伴保持一致,例如訓(xùn)練數(shù)據(jù)的提供者,這些合作伙伴可能持有各種不良偏見,從而影響最終產(chǎn)品。

  為了解決這些問題,AI開發(fā)者可能需要建立評估外部AI模型和數(shù)據(jù)的程序,并在啟動新的伙伴關(guān)系之前挖掘潛在伙伴的價值觀和基本技術(shù)系統(tǒng)。(這可能類似于企業(yè)在管理可持續(xù)發(fā)展方面潛在伙伴風(fēng)險的方式,以及衡量和管理范圍三的碳排放做法。)

  這不是一個一次性的游戲。隨著強(qiáng)大基礎(chǔ)模型之間的競爭展開,公司可能會隨著時間的推移改變他們用于產(chǎn)品的模型。他們會發(fā)現(xiàn),AI測試能力和圍繞價值觀的有效盡職調(diào)查很可能是公司競爭優(yōu)勢的來源。

  確保人類的反饋

  給AI產(chǎn)品注入價值觀需要大量數(shù)據(jù)——如前所述,其中大部分將由人類生成或標(biāo)記。在大多數(shù)情況下,它分為兩個數(shù)據(jù)流:用于訓(xùn)練AI的數(shù)據(jù),和對用戶行為的持續(xù)反饋的數(shù)據(jù)。為了確保價值觀的一致性,必須建立新的反饋流程。

  一種常見做法被稱為“從人類反饋中強(qiáng)化學(xué)習(xí)”(RLHF),這是一個過程,通過輸入人類的反饋,可以最小化不良輸出,如辱罵性語言。人類審查AI系統(tǒng)的輸出,例如對某人簡歷的分類、執(zhí)行導(dǎo)航動作的決定或生成內(nèi)容,并根據(jù)其與某些價值觀不對齊的程度對其進(jìn)行評級。該評級用于新的訓(xùn)練數(shù)據(jù)中,以改善AI產(chǎn)品的行為。當(dāng)然,這種方法中的一個關(guān)鍵決定是,誰應(yīng)該提供反饋以及如何提供。強(qiáng)化學(xué)習(xí)可能發(fā)生在AI生命周期的各個階段,包括產(chǎn)品推出之前和之后。在早期階段,工程師可以在測試AI產(chǎn)品的輸出時提供反饋。

  另一種做法是創(chuàng)建“紅隊”(red teams),其任務(wù)是逼迫出AI的不良行為。“紅隊”廣泛用于其他領(lǐng)域,例如網(wǎng)絡(luò)安全。他們充當(dāng)對手,攻擊系統(tǒng)以探索它是否以及如何可能失敗。盡管這些團(tuán)隊通常是組織內(nèi)部的,但外部社區(qū)也可以被使用。例如,2023年,數(shù)千名黑客在全球最大的網(wǎng)絡(luò)安全會議Def Con上聚集,以“攻擊”大語言模型并識別漏洞。

  產(chǎn)品發(fā)布之后,還需要繼續(xù)教AI按照某些價值觀行事。AI在這方面就像人類:無論接受了何種正規(guī)教育,我們都會根據(jù)反饋不斷調(diào)整自己的行為,以符合所在社區(qū)的價值觀。當(dāng)人們使用AI或受其影響時,他們可能會觀察到似乎違反其營銷價值觀的行為。允許他們提供反饋可以成為改善AI行為的重要數(shù)據(jù)來源。

  準(zhǔn)備好迎接意外

  AI程序出現(xiàn)了越來越多意想不到的行為。例如,據(jù)報道,美國空軍最近在一次實驗中使用的AI模擬工具,建議殺死飛行員,以確保飛行任務(wù)得到恰當(dāng)執(zhí)行。另一個例子是AlphaGo發(fā)明的圍棋程序Go的最新舉動,被圍棋高手們認(rèn)為是“超人的和出乎意料的”。也許最著名的例子要屬微軟的必應(yīng)(Bing)聊天機(jī)器人,它在推出后不久就開始對用戶表現(xiàn)出攻擊性甚至威脅行為,直到微軟大幅縮短了可能的對話長度后才停止。同樣不可預(yù)見的體驗將大幅增加,特別是因為Chat GPT和其他大型AI模型現(xiàn)在可以執(zhí)行它們沒有明確編程的任務(wù)——例如翻譯任何訓(xùn)練數(shù)據(jù)中不包括的語言。

  一些不可預(yù)測的行為可能是由用戶與AI產(chǎn)品的互動引起的,無論是有意還是無意。這些產(chǎn)品可能允許個人和公司進(jìn)行極端的版本更新和超級個人化,這些個人和公司利用來自不同市場的數(shù)據(jù)微調(diào)模型。通過這種方式,可以根據(jù)每個用戶與AI產(chǎn)品的交互方式創(chuàng)建和定制無數(shù)版本。確保所有這些版本保持一致,并且不出現(xiàn)新的行為,會很有挑戰(zhàn)性。

  公司必須實施強(qiáng)大的流程來檢測和改善AI產(chǎn)品發(fā)布后的有害或意外行為。事件必須被識別,由用戶或任何其他受影響的人報告,并由公司進(jìn)行分析。公司可能需要建立AI事件數(shù)據(jù)庫,就像OECD和合作伙伴開發(fā)的AI數(shù)據(jù)庫一樣,以便不斷學(xué)習(xí)和記錄他們的AI產(chǎn)品是如何發(fā)展的。

  在一個AI價值觀一致性可能決定競爭結(jié)果甚至成為產(chǎn)品質(zhì)量要求的世界里,認(rèn)識到產(chǎn)品差異化的風(fēng)險和機(jī)遇,擁抱新的AI產(chǎn)品實踐和流程以保持領(lǐng)先地位至關(guān)重要??蛻襞c更廣大的社會,都期望公司按照某些價值觀來運(yùn)營。在這個新世界中,他們絕不能推出行為不端的AI產(chǎn)品和服務(wù)。

  • 29

    贊一個

  • 30

    踩一下

文章關(guān)鍵詞: AI

本文轉(zhuǎn)載來自:合佛商業(yè)評論,不代表產(chǎn)商網(wǎng)觀點(diǎn),如需轉(zhuǎn)載請聯(lián)系原作者。如涉及版權(quán)問題請聯(lián)系產(chǎn)商網(wǎng),電話:4008-338-308;郵箱:dichan001@qq.com

推薦項目

熱點(diǎn)新聞