從歷史上看,熱泵在寒冷地區的功能一直不佳,大多數熱泵在 4 °C 左右的環境下運轉能力會下降,在 -15 °C 左右則會失效。但現在,隨著壓縮機的改進,熱泵製造商表示,他們擁有了可以在嚴寒地區像在溫和冬季一樣有效地為房屋供暖的技術。熱泵的工作原理是移動和壓縮沸點非常低的流體。壓縮機是提高流體變成蒸汽的溫度和壓力的元件,因此改進壓縮機的馬達速度和注入更多蒸汽的時機,可以提高熱泵在較低溫度下的效率。美國能源部與加拿大自然資源部合作舉辦了「寒冷氣候熱泵技術挑戰賽」,8 家熱泵製造商正在測試他們的熱泵,目標是在 -15 °C 的環境下也能以最大容量運轉。。
Top Aces經營的F-16配備了尖端技術,使其在訓練領域脫穎而出。諸如主動電子掃描陣列(AESA)雷達、頭盔顯示瞄準系統、Link 16通信系統、高離軸導彈能力和先進的電子干擾艙等功能都是標準配置。
這些升級功能為美國和盟軍飛行員提供了逼真且具有挑戰性的訓練環境,這對於現代空戰至關重要。
AI、干擾器、先進導彈
Top Aces總裁拉斯·奎恩(Russ Quinn)分享了對F-16項目未來願景。
他表示,公司正考慮引入如商業電子攻擊與干擾系統、高離軸紅外線導彈整合,以及由 AI 控制的敵對空中僚機等先進能力
奎恩指出:「這些創新的目的是為了準備參與高風險空戰的飛行員提供更強大的訓練方案。」
戰鬥空軍合約空中支援計畫
2022 年 9 月,Top Aces 獲選參與美國空軍的「戰鬥空軍合約空中支援計畫」(Combat Air Force Contracted Air Support program),得以在佛羅里達州的艾格林空軍基地(Eglin Air Force Base)和亞利桑那州的盧克空軍基地(Luke Air Force Base)等重要基地提供高級敵對空中訓練。
該研究的主要作者、聖母大學的物理學家葛拉漢·F·皮斯利(Graham F. Peaslee)告訴《Salon》雜誌,研究人員本來並沒有要在手錶錶帶中尋找 PFAS,直到他們看到一則廣告,廣告中提到一款由含氟彈性體製成的錶帶的整頁廣告。進一步分析後,研究人員驚訝地發現了高濃度的永恆化學物質 PFHxA。
皮斯利表示:「這是第一次發現只有一種 PFAS,且其濃度遠高於我們通常在消費品中發現的濃度。」
解決方案是什麼?
包括 Apple、Huawei、Samsung 和 Google 在內的幾家主要的智慧型手錶和健身追蹤器製造商都推出了含氟彈性體錶帶,號稱耐用性高。雖然這些錶帶中的永久化學物質對健康的潛在風險的全部程度尚不清楚,但該研究的研究人員敦促科學界進一步研究這些材料。
到目前為止,你可能已經看過使用 AI 影片生成工具製作的短片,這些工具可以根據簡單的文字提示創造幾秒鐘的逼真影片片段。一家印度新創公司現在正將這項技術推向極限:它計劃在 2025 年底之前推出一部幾乎完全使用生成式 AI 工具製作的故事片。
Intelliflicks Studios 位於昌迪加爾,是由作家庫希旺特·辛格(Khushwant Singh)和 Qualtrics 的 AI 策略總裁古爾迪普·帕爾( Gurdeep Pall)共同創立的,古爾迪普·帕爾是前微軟 AI 孵化部門的企業副總裁。該工作室正在將 Singh 2014 年的小說《Maharaja in Denims》改編成電影,該小說講述了一位現代年輕人認為自己是19世紀錫克帝國創建者蘭吉特‧辛格(Maharaja Ranjit Singh)大帝轉世的故事。
辛格說,寶萊塢的電影公司老闆曾兩次購買這本書的電影版權,但因為故事涉及多個時代的複雜性和成本問題,電影始終未能實現。因此,當辛格的兒時好友帕爾告訴他 AI 影片生成器快速提升的能力時,兩人決定聯手創造他們所說的第一部生成式 AI 故事片。「我們正在嘗試採取突破性的步驟來展示這項技術的能力,」辛格說。
他們使用了哪些生成式 AI 工具?
帕爾表示,該公司正在使用一套商業和開源的 AI 工具來製作這部電影,並且正在開發自己的軟體來管理新的工作流程。它使用圖像生成模型來生成角色設計、場景和物體,然後將這些內容輸入到影片生成模型中。其他 AI 工具則用於創造音頻、對話的唇形同步和銳化圖像。帕爾說,他的團隊也使用傳統的影片製作工具來完成更簡單的工作,例如匹配場景之間的照明和顏色。
電影導演對於演員的表演都會有細緻的要求,例如語氣、表情、肢體動作等等,這些細節會影響角色呈現和劇情推進。但目前的 AI 工具,主要依靠文字提示 (text prompt) 來生成影片。導演很難用文字精準描述所有表演細節,AI 也難以完全理解並執行這些細微的指示。即使 AI 能在某個片段中呈現出導演想要的效果,也很難在之後的影片中保持一致性,因為 AI 模型的輸出具有隨機性。隨著影片長度增加,維持一致性更會成為一大挑戰。
辛格承認,第一部 AI 生成的長篇電影可能與傳統製作的電影截然不同。但他對這項技術充滿希望,認為它將打破阻礙人們表達創意的結構性障礙。他說,AI 是遊戲規則的改變者:「我認為這將以巨大方式實現電影製作的民主化。」
儘管 AI 開發者具有專業知識,但他們並不總是知道自己最先進的系統能做什麼——至少一開始不知道。為了弄清楚這些能力,系統會接受一系列測試,通常稱為「評估」(evaluations,簡稱 evals),以測試其極限。然而,由於該領域的快速進步,現在這些AI系統經常在許多熱門測試中獲得高分,包括 SAT 和美國律師資格考試,這使得判斷它們的進步速度變得更加困難。
評估有多種形式,其複雜性隨著模型能力的增長而增長。 幾乎所有主要的 AI 實驗室現在都在發布前對其模型進行「紅隊」測試,系統地測試它們產生有害輸出、繞過安全措施或進行其他不良行為(如欺騙)的能力。去年,包括 OpenAI、Anthropic、Meta 和 Google 在內的公司向拜登政府做出自願承諾,將其模型進行內部和外部紅隊測試,「包括濫用、社會風險和國家安全問題等領域」。
也許當代最受歡迎的基準測試是測量大規模多任務語言理解(Measuring Massive Multitask Language Understanding,簡稱 MMLU),該測試包含約 16,000 道多選題,涵蓋哲學、醫學、法律等學術領域。OpenAI 於 5 月推出的 GPT-4o 獲得了 88% 的得分,而該公司最新的 o1 模型得分高達 92.3%。由於這些大型測試集有時包含答案標記錯誤的問題,因此通常不可能達到 100%,專注於降低先進 AI 系統危險能力的 AI 安全非營利組織 Apollo Research 的主管兼聯合創始人馬里烏斯·霍布漢(Marius Hobbhahn)解釋道:「超過某個點之後,更高能力的模型不會帶來顯著更高的分數。」
霍布漢說,設計評估來衡量先進 AI 系統的能力「難得驚人」——特別是因為目標是引出和衡量系統的實際潛在能力,而多項選擇題等任務只是衡量這種能力的一個指標。「你希望以科學嚴謹的方式設計它,但这通常需要权衡现实主义,因为现实世界通常不像实验室环境,」他说。另一個挑戰是數據污染,當評估的答案包含在 AI 的訓練數據中時,就會發生這種情況,這使得它可以根據訓練數據中的模式而不是通過第一性原理進行推理來重現答案。
另一個問題是,當「擁有 AI 模型的人有動力根據評估進行訓練,或者模型本身決定針對評估所衡量的內容而不是預期內容」時,評估可能會被「玩弄」,霍布漢說。
另一項旨在延長使用壽命的基準測試是被不祥地命名為「人類最後的考試」(Humanity’s Last Exam),由非營利組織 AI 安全中心與營利性公司 Scale AI 合作創建。該考試目標包含約 FrontierMath 20 至 50 倍的問題數量,同時涵蓋物理、生物學及電機工程等領域,Scale AI 的研究總監夏默‧岳(Summer Yue)表示。問題將從學術界及其他地方眾包而來。要被納入,一個問題必須無法被所有現有模型解答。該基準測試計劃於 2024 年底或 2025 年初正式啟用。
第三個值得注意的基準測試是 RE-Bench,目的是模擬現實世界中的機器學習工作。它由專門從事模型評估及威脅研究的非營利組織 METR 創建,並在七個工程任務中測試人類和尖端 AI 系統。人類和 AI 代理都被賦予有限的時間來完成任務;雖然人類在大多數任務上的表現都可靠地優於當前的 AI 代理,但在僅考慮前兩個小時內的表現時,情況看起來就不同了。METR 的技術人員 亞爾馬·維克(Hjalmar Wijk)解釋說,根據代理的不同,當前的 AI 代理在 30 分鐘到 2 小時之間表現最佳。超過這段時間後,它們往往會「陷入困境」,他說,因為 AI 代理可能會在早期犯錯,然後「難以像人類那樣調整」。
「當我們開始這項工作時,我們預計會看到 AI 代理只能解決一定規模的問題,超過這個規模,它們就會更徹底地失敗,或者成功的可能性極低,」維克說。事實證明,只要有足夠的時間和資源,它們通常可以接近基準測試中測試的中位數人類工程師的表現。「AI 代理在這方面出奇地擅長,」他說。在一項特定任務中——該任務涉及優化代碼以在專用硬體上更快地運行——AI 代理實際上優於最優秀的人類,儘管 METR 的研究人員指出,他們測試中包含的人類可能並不代表人類表現的巔峰。
這些結果並不意味著當前的 AI 系統可以自動化 AI 研究和開發。「最終,這將不得不被更難的評估所取代,」維克說。但考慮到 AI 研究自動化日益被視為國家安全問題,例如拜登總統於 10 月頒布的《AI 國家安全備忘錄》(National Security Memorandum on AI),未來在這項基準測試中表現出色的模型可能會改進自身,進一步加劇人類研究人員對其的失控。
即使 AI 系統在許多現有測試中表現出色,它們仍然難以完成對人類來說很簡單的任務。「如果在提示中將問題描述整齊地呈現在盤子上,它們可以解決複雜的封閉性問題,但它們難以連貫地串聯起長的、自主的、解決問題的序列,而這對一個人來說很容易,」現在已經離開公司的OpenAI 聯合創始人安德烈·卡帕西(Andrej Karpathy))在 X 上回應 FrontierMath 發表的文章中寫道。
METR 的 AI 政策研究員麥可·陳(Michael Chen)提到 SimpleBench 作為一個由普通高中生都能輕鬆完成的問題組成的基準測試,但在這上面領先的模型卻表現掙扎。「我認為在簡單任務方面仍有很多工作可以做」,麥可·陳表示。儘管對基準測試究竟是測試基礎推理還是僅僅測試知識存在爭論,麥可·陳認為仍然有理由使用 MMLU 和去年的「研究生級 Google 無法搜尋問題與解答基準測試」(Graduate-Level Google-Proof Q&A Benchmark,簡稱 GPQA)。這是少數幾個尚未飽和的最近基準之一,意味著 AI 模型尚未穩定地取得高分,因此仍有進步空間。他指出,即使只是知識測試,「測試知識仍然非常有用」。
一項試圖超越僅僅測試知識回憶的評估是 ARC-AGI,它是由著名 AI 研究員佛朗索瓦·蕭萊(François Chollet)創建的,用於測試 AI 解決新推理難題的能力。例如,一個難題可能顯示幾個輸入與輸出網格的例子,其中的形狀根據某些隱藏規則移動或變色。AI 隨後會得到一個新的輸入網格,並需從零開始推導出輸出應該看起來像什麼,推測底層規則。儘管這些難題對大多數人類而言相對簡單,但 AI 系統歷來在此表現掙扎。然而,近期突破表明情況正在改變:OpenAI 的 o3 模型在此基準測試中的得分顯著高於此前的模型,Chollet 表示這代表了「在適應性與泛化能力上的真正突破」。
對更好評估的迫切需求
新的評估方式(無論是簡單還是複雜、結構化還是基於「直覺」的測試)每天都在推出。AI 政策越來越依賴這些評估,不僅因為它們正成為如歐盟《人工智慧法案》等法律的要求(該法案仍在制定過程中),也因為主要 AI 實驗室(如 OpenAI、Anthropic 和 Google DeepMind)已自願承諾,根據評估是否識別出特別令人擔憂的危害,來暫停模型的發布或採取減輕潛在危害的行動。
基於這些自願承諾,美國與英國的 AI 安全研究所已經開始在前沿模型部署之前進行評估。10 月,他們聯合發布了對 Anthropic 的升級版 Claude 3.5 Sonnet 模型的研究結果,特別關注其在生物學、網路安全及軟體與 AI 開發方面的能力,以及其內建安全措施的效能。他們發現,「在大多數情況下,美國 AI 安全研究所測試的內建安全措施都被繞過,這意味著模型給出了應該被阻止的答案。」他們指出,這與先前對其他 AI 系統漏洞的研究結果一致。12 月,兩所研究機構針對 OpenAI 的 o1 模型發表了類似的發現。
隨著 AI 模型的快速進步,評估方式也在努力跟上。先進的新基準測試——評估如高階數學推理、新穎問題解決能力及 AI 研究自動化——正在取得進展,但設計有效的評估仍然充滿挑戰、成本高昂,且相較於其作為檢測危險能力早期預警器的重要性,資金明顯不足。隨著主要實驗室每隔幾個月就推出更強大的模型,評估前沿能力的新測試需求比以往更為迫切。正如維克所說,在評估飽和之前,「我們需要準備更難的評估,以確保我們能正確評估風險」。
然後博梅克和格萊姆斯 (Grimes) 開始在網上製作公益廣告,說明為什麼它需要保留。這奏效了。監管機構投票決定將魔鬼谷(Diablo Canyon)核電廠的壽命至少延長到 2030 年。這意味著該核電廠將產生更多核廢料。這些廢物將留在現場。魔鬼谷核電廠位於主要斷層線附近。它靠近聖路易斯奧比斯波( San Luis Obispo),這個社區現在長期受到野火的威脅。位於洛杉磯以南的聖奧諾弗雷( San Onofre)核電廠位於一條主要斷層線上。它也儲存著 360 萬磅的核廢料。
對於一些專家來說,乾式儲存桶是一個很好的解決方案,核能發電的好處遠遠大於核廢料的負面影響。「氣候變化是一個明確而現實的全球性危險,在地質時間尺度上具有廣泛的破壞性影響,」普林斯頓大學助理教授傑西·詹金斯 (Jesse D. Jenkins) 在 BlueSky 上一篇關於核廢料的帖子中說。「少量的乏核燃料可以在乾式儲存桶中安全地保存上百年。」
《The Information》最近報導稱,微軟開始強調人工智慧(AI)可以幫助企業節省人事成本。 他們認為,AI 可以取代部分人力,讓企業可以減少招聘甚至裁員,同時還能維持生產力。
微軟在推廣他們的產品時,常常強調這些產品可以提高工作效率,讓員工有更多空閒時間。雖然微軟強調的是提高效率,但有些企業可能會產生另外一種想法:既然員工的工作效率提升了,是不是就可以減少員工數量了呢?也就是說,他們可能會認為,既然 AI 可以完成很多工作,那是不是就不用雇那麼多人?
大型科技公司通常會強調 AI 技術如何提高工作效率、提升生產力。然而,雇主們卻開始思考,引入 AI 技術是否會導致裁員。因為 AI 可以自動化許多工作,減少對人力的依賴。2023 年,當時的英國電信 (BT) 首席執行長菲利普·詹森(Philip Jansen)預估,由於自動化數位化,可能會有 10,000 名員工失去工作。他表示:「我們將成為 AI 的巨大受益者。」
一年前,億萬富翁伊隆·馬斯克 (Elon Musk) 在接受英國前首相里希·蘇納克 (Rishi Sunak) 採訪時預測,「未來某個時刻,可能不再需要任何工作,因為人工智慧(AI)將能夠完成所有事情。」他認為 AI 的發展將達到全面取代人類勞動的地步,所有的職業或工作都可能被自動化技術取代,進而讓人類不再需要從事任何形式的工作。
OpenAI 公布了更高價位的服務方案,再加上微軟大力宣傳 AI 可以減少人力成本,這顯示出科技巨頭們的優先順序已經改變了。現在,他們正在尋找方法,希望能從龐大的 AI 投資中獲取回報。
過去,所有的言論都是關於提高生產力。現在,人力資源開始受到關注。像 OpenAI 這樣的公司已經開始公開承認這一影響:如果有 AI 可以做到,為什麼還要招聘更多人?你真的需要所有這些員工嗎?