發表文章

精選文章

NVIDIA DLSS 4.5 最佳化設定指南

圖片
Nvidia DLSS 4.5 於2026/01/15伴隨NVIDIA App正式發布。這次更新不僅僅是版本的跳升,更引入了全新的 AI 模型架構。如果你想快速瞭解手動設定,這篇指南將帶你深入了解 DLSS 4.5 的核心變化與設定技巧。 2026/01/22更新:由於我寫文之後很懶沒發布到外網,結果Nvidia剛剛發布了App 11.0.6.383,這一版已經可以根據遊戲自動最佳化,也就是說我前些日子白寫了這麼多...好吧,技術內容還是能參考的,有興趣的人能挖出來一些自定義內容就好。 1. DLSS 4.5 包括哪些元件? 提到DLSS通常會誤會為其中的超解析度技術。但現在的DLSS並非單一技術,而是一個複合式的框架。其核心元件包括: Super Resolution (超解析度/SR): 最核心的升級部分,4.5引入了「第二代 Transformer 模型」,顯著提升了影像重建的精細度。 Frame Generation (幀生成/FG): 搭配 RTX 40/50 系列硬體,提供動態補幀。 Ray Reconstruction (光線重建/RR): 目前仍維持第一代架構,但能與新的 SR 模型協作,改善光追陰影與反射的雜訊。 Streamline SDK: 新版 DLL 檔案(如 nvngx_dlss.dll 3.10.5.2 以上版本)是驅動以上新功能的基石,玩家可透過  dlss-swapper 手動替換,或以官方 NVIDIA App 來取得。 2. DLSS 4.5 模型與過去的比較 DLSS 3.x使用傳統的捲積神經網路(CNN)模型。4.0使用第一代,4.5則全面轉向 第二代 Transformer 架構 。 畫質提升: 相較於 DLSS 4 的 Preset K,新的 Preset M 與 L 在動態清晰度上有大幅進步,顯著減少了過往惱人的「鬼影」(Ghosting)現象,尤其在《極限競速:地平線 5》等高速運動遊戲中效果拔群。 硬體開銷: 新模型運算更複雜。對於 RTX 50 系列,效能衝擊僅約 2-3%;但對於 RTX 20/30 系列舊卡,效能損失可能高達 10% 以上,甚至出現延遲增加的情況。 VRAM 優化: 儘管運算更重,但新模型在顯存占用上優化了約 30%,對顯存吃緊的卡是一大福音。 3. 不同解...

我想2025年AMD新電腦最好的超頻策略,就是別搞超頻

圖片
簡而言之,現在就是AMD和廠商們早就根據你付出的價格,定好了你能拿到什麼。做得越多就會覺得毫無意外跟樂趣可言 起因是今年稍早大概5月左右換了新的PC,結果拖到現在才搞好硬體設定。要是10年前的我大概馬上就把硬體設定到效能的平衡點了,不過折騰了好幾天之後發現如同引言所說,就是 多少錢做多少事 。當年那種玩超頻上傳分數當個GEEK的空間已經完全不存在...(嘆 所以才拖到現在,因為我討厭做沒樂趣的事情。然而BIOS裡面還是有些優化空間,所以就寫在這邊,有興趣的人可以參考一下 OK,該聲明的還是先聲明,這篇前提是你正在用新品,因為該犯的錯前人都幫你試過了 首先,不管要不要超頻,去BIOS讓你的記憶體啟用XMP或EXPO,通常有I和II兩種設定值,而且通常I會比II快一些些。 接下來,目前AMD系可以做的新主機開箱優化可分為兩派,兩者設定衝突選一個就好 PBO2設定 (降低性能到可接受範圍,但盡量降低溫度及噪音,目的是整體穩定性) 在BIOS的PBO項目由AUTO改成 Advanced 去網路上查你所買的CPU功耗牆數值,並且進入BIOS 的PBO Limits填入精確數字(通常在cbs章節)。如果你懶得查,那就 "Auto" 或 "Motherboard"。 PBO Scalar選擇"Manual",倍率選擇"1X"。如果你懶得查,那就無腦選"Auto"。我知道網路上很多裝機業配文都直接上10X,但還是那句話 多少錢做多少事,犧牲穩定性頂多換來延長幾奈秒的高電壓/高跑分沒意義 溫度牆設為85度 Curve Optimizer選擇"All Cores"、All Core Curve Optimizer Sign選擇"Negative" ,在下一項中填入數值30。如果你想知道這是什麼,這數字是PBO電壓曲線追加的負偏移值。 其餘保留預設或AUTO不做更改,就這麼簡單,不用自欺欺人了,跟我再念一次「 多少錢做多少事 」。測試你會玩的遊戲或生產力工作,如果出現任何異常就進入BIOS減5,直到你覺得夠穩了。也就是說30>25>20>15 定頻定壓設定 (保持高性能但高溫度,為了追求極限。也就是我們這些老派GEEK過去在玩...

AI文生文訓練案例一:分析巴哈姆特動畫瘋營運策略與基本面

圖片
我有一個夢想,就是把以前寫過的雜誌文章都拿去給AI微調,然後成為版權流氓!(拉開衣領 修但機咧,所以我調教出來的AI認為:看動畫這個行為就是有義妹坐在大腿上然後可以自家發電OOXX是吧 然後那個介面怎麼很像圖奇還帶點橘色黑底感覺啊喂 一、摘要:以社群為本的台灣正版動畫平台 巴哈姆特動畫瘋(Ani.gamer.com.tw,下稱動畫瘋)是台灣最具代表性的日本動畫串流平台,自2014年上線以來,以「合法授權、彈幕互動」的定位,穩固了其在本地ACG(Anime、Comic、Game)生態中的領導地位。不同於國際巨頭以資本投入爭奪內容版權,動畫瘋的成功建立在巴哈姆特二十餘年累積的遊戲社群信任與黏性之上。 然而,平台的核心挑戰逐漸浮現—— 高昂且持續上升的內容授權成本 與 保守的資本管理哲學 之間存在結構性矛盾,成為動畫瘋擴大市場版圖的最大限制。 整體而言,動畫瘋在台灣的地位具備三項獨特優勢: 稀有的正版動畫聚合能力 :提供同步新番與經典動畫,強調繁體字幕與本地化上架速度。 深厚的ACG社群基盤 :母站巴哈姆特擁有約250萬會員與每日超過2500萬頁面瀏覽量,形成強大的內容導流效應。 高忠誠度的用戶文化 :付費會員比例一度突破5%,用戶願意以訂閱支持正版,顯示其在ACG市場的品牌信任度。 動畫瘋的營運策略可歸納為「以社群為根、以內容為核、以穩健為本」。未來的挑戰在於如何突破保守框架,在維持社群文化的同時,打造能支撐內容成本成長的永續商業模式。 二、基本面分析:營收結構與成本壓力 2.1 營收結構:免費廣告與付費會員雙引擎 動畫瘋採雙軌營收模式: 免費廣告串流(FASS) 與 付費訂閱(VAS) 。 前者吸引用戶進入生態圈,透過影片與開屏廣告產生流量收益;後者則提供無廣告、1080P畫質與搶先觀看等權益。 根據內部統計,當熱門新番如《排球少年》《異種族風俗娘評鑑指南》等上架時, 付費用戶數可短期成長近一倍,最高付費率達5.12% 。這說明內容爆發力能直接帶動收入成長,也顯示動畫瘋的觀眾具備高付費潛力。 平台營收主要來自以下三部分: 收入來源 內容說明 特徵 廣告(FASS) 開頭或頁面展示廣告 覆蓋面廣,受宏觀經濟影響大 付費會員(VAS) 月繳/年繳制,享無廣告與高畫質 穩定現金流來源 周邊與活動合作 於動漫展、聯名活動銷售實體卡...

大語言模型GPU硬體規格對照表

圖片
因為AI專案工作要用,做了一點微不足道的整理 ✌ 數據來源為bilibili「 家用ai超大模型配置指南-显卡篇 」影片內容,重新校對、修正排版並上傳,僅此聲明並致謝。

2025年如何估計大語言模型微調與訓練的硬體成本

圖片
評估大語言模型(Large Language Model, LLM)微調和訓練所需的硬體成本,是一個常見且重要的問題。在實際專案中,演算法能否成功運作是一回事,能否在預算內運作則是另一回事。 硬體成本往往是決定專案能否順利推動的關鍵因素,因此評估硬體成本是資訊專案管理者的日常工作之一。也反映出你對於大型模型工程化部署的整體掌握能力。這類問題不同於單純的演算法,它能直接顯示你對模型訓練工程體系的理解深度。 喔對了,這是上一篇「 推理篇 」(如果你有興趣參考,會另開視窗)的續集沒錯,但沒有「家用」標題了。LLM微調與訓練不是家用消費主機能做的。 對於緻密模型 (Dense Model) 的硬體成本評估 緻密模型 (Dense Model) 指的是在推論或訓練時,每次都會載入所有參數的模型。舉例來說,一個參數為 80 億的Llama 8B 模型,就是一個緻密模型,每次訓練或推論都會帶入全部的 80 億個參數。 對於這種架構的模型,若採用全量微調(Full Fine-Tuning),由於每一步計算都會啟動所有參數,硬體成本的評估邏輯相對直接。以一個 22B 的緻密模型為例,在全量微調(Full Fine-Tuning)時,通常會用到 16-bit 浮點數(FP16),所需的 VRAM 大致是: 參數數 × 16 (FP16) + 梯度 × 16 (FP16) + 優化器狀態 × 32 (AdamW) 這個公式會因優化器不同而異,粗略估計所需的顯示卡記憶體 (VRAM,顯存) 。 以下為針對不同情境的硬體成本評估: 全量微調 (Full Fine-Tuning) 的顯存需求 在全量微調過程中,GPU 需要載入模型的全部參數。舉例來說,一個 Llama 70B(700 億參數)的緻密模型,若使用 FP16(16 位元浮點數)精度儲存,每個參數需佔用 2 個位元組,單是模型參數就需要大約 140GB 的顯存來儲存。在訓練期間,每個參數會產生對應的梯度,這又需要額外 140GB 的儲存空間。此外,常用的優化器(如 Adam)還需額外維護每個參數的一階和二階動量等資訊,通常需要相當於參數大小四倍的顯存,約 560GB。 總體顯存需求:將以上需求加總,一個 70B 模型的全量微調總共約需要 840GB 顯存。此外,還需考量到前向傳播過程中的中間結果、記憶體碎片化,以及分散式訓練時的冗...