微軟開源 OmniParser 純視覺 GUI 智慧體:讓 GPT-4V 秒懂螢幕截圖,可操控手機 / 電腦科技媒體 marktechpost 報導指出,微軟宣佈開源 OmniParser,是一款解析和識別螢幕上可互動圖示的 AI 工具。
傳統的自動化方法通常依賴於解析 HTML 或檢視層次結構,從而限制了其在非網路環境中的適用性。而包括 GPT-4V 在內的現有的視覺語言模型(VLMs),並不擅長解讀複雜 GUI 元素,導致動作定位不精準。
OmniParser是什麼?
微軟為了克服這些障礙,推出了 OmniParser,是一種純視覺基礎的工具,旨在填補當前螢幕解析技術中的空白。
該工具並不需要依賴額外的上下文資料,可以理解更複雜的圖形使用者介面(GUI),是智慧 GUI 自動化領域的一項令人興奮的進展。
OmniParser 結合可互動區域檢測模型、圖示描述模型和 OCR 模組等,不需要 HTML 標籤或檢視層次結構等顯式基礎資料,能夠在桌面、移動裝置和網頁等上跨平台工作,提高使用者介面的解析精準性。
OmniParser 除了識別螢幕上的元素,還能將這些元素轉換成結構化的資料。
測試表現
OmniParser 在多個基準測試中顯示出優越的性能。例如,在 ScreenSpot 資料集中,其精準率提高了 73%,顯著超越依賴 HTML 解析的模型。
這一設計不僅能生成類似文件對象模型(DOM)的結構化表示,還能通過疊加邊界框和功能標籤來引導語言模型做出更準確的使用者動作預測。
同時,GPT-4V 在使用 OmniParser 輸出後,圖示的正確標記率從 70.5% 提升至 93.8%。這些改進表明,OmniParser 能夠有效解決當前 GUI 互動模型的根本缺陷。
OmniParser 的發佈不僅拓寬了智慧體的應用範圍,也為開發者提供了一個強大...
HarmonyOS NEXT 聽起來可能有些不和諧,但這其中卻有深意推出一個全新的手機作業系統,在科技觀察家眼中,無疑是個愚蠢的舉動。如此震撼的「愚蠢」甚至連微軟都在三、四次嘗試之後放棄了——Kin 系列產品也許是我們集體的錯覺?
蘋果和安卓擁有所有的應用程式、所有的硬體、所有的市場,並且它們之間已經把創新的海綿擰乾了。究竟是哪個妄想團隊,會想要攻佔這個領域?
答案是華為。在 2019 年之前,它還是 Google 的合作夥伴,運行完整的 Android 系統。然後它分支出自己的 Android 版本,稱之為 HarmonyOS,停止搭載 Google 專有的應用程式,並建立了自己的 Android 應用程式商店。
華為 HarmonyOS NEXT 發佈,正式與 Android 分道揚鑣,該平台已剔除所有 Android 程式碼,放棄所有 Android 應用程式,現在完全是自主研發,並完全依賴自主開發的原生應用程式。華為表示,目前原生應用程式數量有 15,000 個,這個數量與「兩大巨頭」的百萬應用程式相比只是九牛一毛。
如此膽大妄為的舉動,背後一定有什麼特別之處吧?華為為 HarmonyOS NEXT 所宣傳的優勢,對於過去 20 年內用過智慧型手機的人而言並不新鮮。像是讓應用程式透過手機的加速計感應重力方向之類的功能,現在聽起來和初代 iPhone 的啤酒模擬應用程式一樣過時了。還記得那個讓你把手機舉到嘴邊、傾斜就能虛擬喝啤酒的應用程式嗎?那玩意兒玩個十秒鐘就膩了。
其他功能也給人一種似曾相識的感覺,一些來來去去的點子。HarmonyOS 是一個具有即時性的分散式系統,支援多個設備協同工作。例如,你可以將遊戲畫面從手機移到 HarmonyOS 電視上,但仍然可以用手機控制它,或者查看 HarmonyOS 智慧型烤箱的溫度。這些功能在舞台展示或「未來之家」(所有東西,...
EDIFIER宣布由人氣時尚男星王一博成為旗下全球首位代言人,同步為熱門產品MP230復古藍牙隨身音箱推出王一博同款潮酷黑綠限定色。EDIFIER 宣布由人氣時尚男星王一博成為 EDIFIER 品牌全球首位代言人,鑑於 EDIFIER 向來致力於將優質的聲音體驗帶給使用者,並用專注與誠意打造每一個細節,與王一博在音樂及影視各領域追求卓越的態度不謀而合。
此次,由王一博所演繹的首波 EDIFIER 形象廣告以「世界上的另一個我」的平行時空概念為主題,結合王一博現實生活中身兼演員、歌手,甚至賽車手的多元角色切換詮釋寓意,如同產品多元豐富的 EDIFIER 帶給使用者的優異聆聽體驗——無論是哪一種身份,只要用心專注在每個當下全力以赴,每個人都能找尋到屬於自己人生的好聲音。
為歡慶此次合作,EDIFIER 旗下熱門產品 MP230 復古藍牙隨身音箱將推出王一博同款潮酷黑綠限定色,預計年末在台灣正式登場。MP230 復古藍牙隨身音箱採用精美的木質外箱搭配復古鋼琴按鍵設計,帶來優雅懷舊的復古感融合未來科技感的獨特風格,不僅支援藍牙、AUX 等多元輸入方式,內建大容量電池更提供長達 10 小時的續航時間,讓音樂旅程不間斷。
此外,王一博於 EDIFIER 形象影片中配戴的 W830NB 無線降噪耳罩耳機,在今夏正式登台後便以霧面質感造型成為新世代話題潮流配件,更擁有卓越的主動降噪技術,能夠提供達 -45dB 的 ANC 深度降噪,而強大的續航力帶來 94 小時的自由聆聽饗宴,讓人盡情沉浸在專屬的音樂世界。
加入T客邦Facebook粉絲團...
Arm在Tech Symposia 2024科技論壇分享公司與AI技術發展策略,將自己定位為平台公司,提供完整運算單元組合與軟體框架。Arm在Tech Symposia 2024科技論壇分享公司與AI技術發展策略,將自己定位為平台公司,提供完整運算單元組合與軟體框架。
硬體之外,軟體先決!
Arm北美業務副總裁曾志光在活動開場時,表示Arm做為運算平台公司,致力將AI推向每個角落,並攜手合作夥伴釋放AI的潛力,此外也加強與軟體開發者的溝通,並舉辦軟體工作坊活動以加強交流。
延伸閱讀:Computex 2024:Arm發表終端產品運算子系統,全新Cortex-X925搭配Immortalis-G925效能提升高達36%Computex 2024:Arm CEO Keynote重點整理,推動更全面的軟體、硬體生態系統Arm Tech Day 2024解析終端產品運算子系統(3):完整軟體開發工具靠處理器就能加速AI
Arm資深副總裁暨終端產品事業部總經理Chris Bergey在主題演說中除了再次以平台公司(Platform Company)描述Arm,說明Arm具有CPU(中央處理器)、GPU(繪圖處理器)、NPU(神經處理器)等異質運算單元,能夠透彈性組合提供多元解決方案,但所有的硬體都需要搭配軟體,而軟體並不是魔法,需要開發者編寫程式,而Kleidi軟體函式庫就是個可以簡化軟體開發流程,且能發揮各種運算單元的運算能力,並依不同架構的CPU套用NEON、SVE2、SME等延伸指令集,提供最佳化AI運算效能。
活動也邀請MediaTek通訊事業部副總經理陳一強、Amazon Web Services台灣暨香港總經理王定愷對談,前者以近期發表的Dimensity 9400為例說明透過Armv9.2架構強化效能與AI圖像生成,後者則提到採用Arm Neoverse架構的AWS...
BenQ 推出全新 GP520 4K 智慧調光投影機,能偵測環境後即時調整超過 200 組參數,並且還內建 Google TV 以及 Netflix。BenQ 推出全新 GP520 4K 智慧調光投影機,能偵測環境後即時調整超過 200 組參數,不論在房間、客廳,都能呈現最適合當下環境光、牆面顏色、距離的最佳 4K 畫質,打破過往只能在視聽室享受好畫面的限制,無論家中布局如何,都能盡情享受內建的 Google TV 和 Netflix 電影。
BenQ 台灣區總經理楊士良表示:「家庭通常難以在開放式生活空間中實現高品質投影,BenQ 研究開發獨家三合一智慧感測器,能自動偵測調整,對應現代住宅特性,提供全方位的家用娛樂投影,輕鬆打造 4K 高畫質影院。」
GP520 搭載 4K UHD 解析度、2600 ANSI 流明亮度,獨家「自動劇院模式」,能即時偵測多種環境變數,調整超過200組參數,解決環境光導致顏色失真的問題、偵測牆面校正顏色、以及依據距離優化亮度和銳利度,全程自動化進行,讓畫面品質始終保持最佳狀態,打造絕佳觀影體驗。
BenQ 四大智慧感測功能則是輕鬆享受大畫面的另一關鍵,包含自動對焦、自動 3D 梯形校正(側投影與傾斜修正)、自動障礙物迴避、自動對框。再加上兩大手動功能,數位畫面平移和縮放,在任何環境中都能快速輕鬆地投影。
GP520 不僅搭載 Google TV 和授權 Netflix,還配置了 HDMI 2.1,支援 eARC 和 ALLM 自動低延遲模式,能偵測遊戲訊號,讓每一場比賽都反應迅速。USB-C 接孔支援一線連接 Switch,投影可同時充電,一機滿足所有家庭成員需求。BenQ GP520 建議售價為 42,900元。
延伸閱讀:BenQ X300G 開箱評測:4K HDR 行動短焦遊戲投影機
延伸閱讀:BenQ 推出全新 MA 系列外接顯...
Google四分之一以上的新程式碼由人工智慧生成
人工智慧產品,在打造這些產品的過程中也在大量使用人工智慧。Google首席執行長桑達爾-皮查伊(Sundar Pichai)在公司 2024 年第三季度財報電話會議上表示:「Google四分之一以上的新程式碼都是由人工智慧生成的,然後由工程師進行稽核和驗收。 這是一個重要的里程碑,標誌著人工智慧對公司的重要性。」
人工智慧也在幫助Google賺錢。 Alphabet 公佈本季度營收為 883 億美元,其中Google服務(包括搜尋)營收為 765 億美元,同比增長 13%,Google Cloud(包括為其他公司提供的人工智慧基礎設施產品)營收為 114 億美元,同比增長 35%。
營業收入也表現強勁。 Google服務的營業收入達到 309 億美元,高於去年的 239 億美元;Google雲的營業收入達到 19.5 億美元,大大高於去年的 2.7 億美元。
結果表明,雖然很多人認為Google不再像以前那樣可靠,但該公司的業務仍然非常強大。 人工智慧是Google的一大重點,Google發佈了由Gemini提供支援的客製化AI聊天機器人(名為"Gems")、Google Meet中的自動人工智慧筆記,以及一系列生成式人工智慧工具來幫助 YouTube 創作者。 Google廣受好評的Pixel 9 系列智慧型手機也配備了人工智慧工具。
首席執行長 Sundar Pichai 在一份聲明中表示:「在搜尋領域,我們新的 AI 功能正在擴展人們的搜尋內容和搜尋方式。在雲端運算領域,我們的人工智慧解決方案正在幫助現有客戶更深入地採用產品,吸引新客戶並贏得更多交易。 過去四個季度,YouTube 的廣告和訂閱總收入首次超過了 500 億美元。」
然而,在今年 8 月裁定Google是搜尋和廣告市場的壟斷者之後,Google未來的道路...
索尼將《星鳴特攻》開發方Firewalk工作室連根拔除
Firewalk Studios 已不復存在。PlayStation 聯合首席執行長 Hermen Hulst 在一份聲明中表示,AAA 英雄射擊遊戲《星鳴特攻》(Concord)的製作方在最近遭遇歷史性失敗後,在檢討了所有的可能性之後決定關閉該工作室。
Firewalk Studios 於 2023 年被索尼收購,作為其正在進行的即時服務擴展的一部分。
這款五對五多人射擊遊戲於 8 月在 PC 和 PlayStation 5 平台上推出,但很明顯沒有多少人對這款售價 40 美元的遊戲感興趣。隨著 Steam 玩家數量在發佈一週後減少到 100 人以下,報告顯示該遊戲在所有平台上僅售出約 25000 份。
9 月 3 日,索尼關閉了該遊戲的伺服器,並為購買副本的任何人提供退款。據報導,本月晚些時候,《星鳴特攻》創意總監 Ryan Ellis 引咎辭職。
Firewalk Studios 工作室員工來自動視與 Bungie 成員,皆為資深遊戲開發者,擁有豐富的射擊遊戲開發經驗。《星鳴特攻》花了約 8 年時間開發,並傳聞開發費用約 1.5 到 2 億美金。
「《星鳴特攻》的某些方面非常出色,但其他方面並沒有吸引到足夠多的玩家,因此我們將遊戲下線。過去幾個月,我們花了大量時間探索所有選擇,」赫爾斯特在今天的聲明中說。「經過深思,我們確定最好的未來發展是永久停產遊戲並關閉工作室。我要感謝 Firewalk 所有人的工藝、創造精神和奉獻精神。」
他補充說,索尼和工作室沒有達到在競爭激烈的 PvP 射擊遊戲市場取得成功所需的正確目標。「我們將吸取 《星鳴特攻》的教訓,繼續提升我們的即時服務能力,以實現該領域的未來增長,」他補充道。
除了 Firewalk Studios,索尼還將關閉其一直在開發動作遊戲的行動遊戲開發工作室 Neo...
千呼萬喚!Canon終於在今日(10/30)正式發表RF 70-200mm F2.8 L IS USM Z!為RF卡口鏡頭中第二款電動變焦鏡頭,共有推出黑、白兩色,建議售價約NT$96,000。千呼萬喚!Canon終於在今日(10/30)正式發表RF 70-200mm F2.8 L IS USM Z!為RF卡口鏡頭中第二款電動變焦鏡頭,共有推出黑、白兩色,建議售價約NT$96,000。
70-200mm超實用焦段並有恆定F2.8大光圈
利用RF卡口的大光圈和短後焦距的特點,RF 70-200mm F2.8 L IS USM Z實現了70-200mm焦段的同時並具備恆定F2.8大光圈,以滿足靜態影像和影片拍攝的廣泛拍攝需求。鏡組結構採用15群18枚的光學設計,其中包含2枚超級UD鏡片、2枚非球面鏡片和1枚UD非球面鏡片,讓該鏡擁有超高的畫質與美麗的散景表現。
配備影像穩定機制和光圈環實現舒適的拍攝
RF 70-200mm F2.8 L IS USM Z擁最高有5.5級光學防手震機構,與配備機身防手震機構的EOS R系列相機組合使用時,可實現相機與鏡頭之間的協同控制中約約7.5級,周圍約7.0級的防手震補償。此外,它也同樣配備光圈環,可提供類似電影鏡頭的輕盈流暢的操作性,使得在拍攝影片時更直觀地控制散景和曝光調整。
具備黑 / 白兩種顏色可滿足不同用途需求
RF 70-200mm F2.8 L IS USM Z採用與RF 24-105mm F2.8 L IS USM Z相同外觀設計和操作方式,就連濾鏡尺寸也都維持82mm,方便協同作業。但RF 70-200mm F2.8 L IS USM Z卻提供了黑 / 白兩種顏色,讓用戶可據自己的用途和喜好進行選擇,例如在炎熱的戶外,白色可助於散熱;室內使用黑白則可以有效避免不必要的反光。
電動變焦器PZ-E2 / PZ-E2B實現先進的變...
寶可夢株式會社宣布在 App Store 和 Google Play 上推出《Pokémon Trading Card Game Pocket》應用程式,能收藏寶可夢卡牌。寶可夢株式會社宣布在 App Store 和 Google Play 上推出《Pokémon Trading Card Game Pocket》應用程式,能收藏寶可夢卡牌,並透過獨特的卡牌視覺表現與效果豐富的寶可夢卡牌收藏體驗。
隨著《Pokémon Trading Card Game Pocket》登場的三款擴充包中,收錄了眾多在《寶可夢 紅/綠》中登場的寶可夢,擴充包每天皆可免費開封二包,從繪有懷念插畫的卡牌,到本作的獨家全新卡牌,每款擴充包收錄的內容都各有不同。
此外,只要在 10 月 30 日至 11 月 17 日到 Pokémon Center TAIPEI 消費,即可獲贈「Pokémon Trading Card Game Pocket 原創貼紙」,原創貼紙的設計為作品中登場的卡牌的卡背圖案。不僅如此,活動期間還能透過店內設置的大螢幕,享受《Pokémon Trading Card Game Pocket》的卡牌包開封體驗。
加入T客邦Facebook粉絲團...
小米15 Pro正式發佈,外觀方面整體繼承了前兩代的方案,但是在很多細節方面進行了調優。小米15 Pro正式發佈,外觀方面整體繼承了前兩代的方案,但是在很多細節方面進行了調優,比如中框過渡更加圓潤,四曲屏的過渡也更自然了。後鏡頭重回小米13 Pro上備受好評的弧邊方案,還用上了陶瓷材質,火山口設計與背板渾然一體。
文章目錄
1. 外觀設計
2. 全球首發Snapdragon 8 Elite
3. 潛望長焦回歸
4. 電池續航大幅提升
5. 小米15 Pro 售價資訊
外觀設計
具體來看,正面搭載了一塊6.73英吋的等深四曲面螢幕,這能夠兼顧手感和觀感,R角處理與中框一致,整機非常協調。
螢幕外覆蓋了新一代的小米龍晶玻璃2.0,配方最佳化使得玻璃更耐摔,相比上一代的機械強度提升20-30%、砂紙跌落提升25-30%,對比iPhone 16系列的超瓷晶玻璃,抗跌落能力提升50%。
顯示方面依然是2K高解析螢幕,擁有3200*1440解析度,PPI達到522,激發亮度最高可達3200nit,支援1-120Hz LTPO可變更新率。
得益於出色的螢幕功耗,小米15 Pro這次還支援了持全螢幕AOD顯示,在螢幕鎖定狀態下螢幕維持1Hz更新率、低亮度常亮,在鎖定螢幕狀態下也能隨時查看消息和提醒。
全球首發Snapdragon 8 Elite
核心方面,小米15 Pro這次繼續全球首發高通新平台——Snapdragon 8 Elite 。
作為高通最強平台,Snapdragon 8 Elite 採用“2+6”架構,首發自研的第二代Oryon CPU,對比上代小米 14 用的第三代Snapdragon 8單核性能、多核性能均有45%提升,且能效也有44%的優勢。
小米 15 及小米 15 Pro 機內還設有小米翼型環形冷泵散熱系統,帶來更好的整機均熱效果。
潛望長焦回歸
影像...