直接用GPT-4控制空調，微軟免訓練方法讓LLM邁向工業控制

公司新聞

發布時間： 2023-08-15 08:38 更新時間： 2025-01-04 13:30

觀看直接用GPT-4控制空調，微軟免訓練方法讓LLM邁向工業控制視頻

隨著大型語言模型（LLM）技術的日漸成熟，其應用范圍正在不斷擴大。從智能寫作到搜索引擎，LLM 的應用潛力正在一點點被挖掘。

近，微軟亞洲研究院提出可以將 LLM 用于工業控制，而且僅需少量示例樣本就能達成優于傳統強化學習方法的效果。該研究嘗試使用 GPT-4 來控制空氣調節系統（HVAC），得到了相當積極的結果。

論文地址：http://export.arxiv.org/abs/2308.03028

在智能控制領域，強化學習（RL）是流行的決策方法之一，但卻存在樣本低效問題以及由此導致的訓練成本高問題。當智能體從頭開始學習一個任務時。傳統的強化學習范式從根本上講就難以解決這些問題。畢竟就算是人類，通常也需要數千小時的學習才能成為領域專家，這大概對應于數百萬次交互。

但是，對于工業場景的許多控制任務，比如庫存管理、量化交易和 HVAC 控制，人們更傾向于使用高性能控制器來低成本地處理不同任務，這對傳統控制方法而言是巨大的挑戰。

舉個例子，我們可能希望只需極少量的微調和有限數量的參考演示就能控制不同建筑的 HVAC。HVAC 控制可能在不同任務上的基本原理都類似，但是場景遷移的動態情況甚至狀態 / 動作空間可能會不一樣。

不僅如此，用于從頭開始訓練強化學習智能體的演示通常也不夠多。因此，我們很難使用強化學習或其它傳統控制方法訓練出普遍適用于這類場景的智能體。

使用基礎模型的先驗知識是一種頗具潛力的方法。這些基礎模型使用了互聯網規模的多樣化數據集進行預訓練，因此可作為豐富先驗知識的來源而被用于各種工業控制任務。基礎模型已經展現出了強大的涌現能力以及對多種下游任務的快速適應能力，具體的案例包括 GPT-4、Bard、DALL-E、CLIP。其中前兩者是大型語言模型（LLM）的代表，后兩者則能處理文本和圖像。

基礎模型近來取得的巨大成功已經催生出了一些利用 LLM 執行決策的方法。這些方法大致上可分為三類：針對具體下游任務對 LLM 進行微調、將 LLM 與可訓練組件組合使用、直接使用預訓練的 LLM。

之前的研究在使用基礎模型進行控制實驗時，通常選用的任務是機器人操控、家庭助理或游戲環境，而微軟亞洲研究院的這個團隊則專注于工業控制任務。對傳統強化學習方法而言，該任務有三大難點：

1) 決策智能體通常面對的是一系列異構的任務，比如具有不同的狀態和動作空間或遷移動態情況。強化學習方法需要為異構的任務訓練不同的模型，這樣做的成本很高。

2) 決策智能體的開發過程需要很低的技術債（technical debt），這說明所提供的樣本數量不夠（甚至可能沒有），而傳統的強化學習算法需要大數據才能訓練，因此可能無法設計針對特定任務的模型。

3) 決策智能體需要以在線方式快速適應新場景或不斷變化的動態情況，比如完全依靠新的在線交互經驗而無需訓練。

為了解決這些難題，微軟亞洲研究院的 Lei Song 等研究者提出直接使用預訓練 LLM 來控制 HVAC。該方法只需少量樣本就能解決異構的任務，其過程不涉及到任何訓練，僅使用樣本作為少樣本學習的示例來進行上下文學習。

據介紹，這項研究的目標是探索直接使用預訓練 LLM 來執行工業控制任務的潛力。具體來說，他們設計了一種機制來從專家演示和歷史交互挑選示例，還設計了一種可將目標、指示、演示和當前狀態轉換為 prompt 的 prompt 生成器。然后，再使用生成的 prompt，通過 LLM 來給出控制。

研究者表示，其目的是探究不同的設計方式會如何影響 LLM 在工業控制任務上的表現，而該方法的很多方面都難以把控。

盡管該方法的概念很簡單，但相比于傳統的決策方法，其性能表現還不明朗。

第二，基礎模型向不同任務的泛化能力（比如對于不同的上下文、動作空間等）仍然有待研究。

第三，該方法對語言包裝器不同設計的敏感性也值得研究（例如，prompt 中哪一部分對性能影響大）。

研究者希望通過解答這些問題凸顯出這些方法的潛力以及展現可以如何為技術債較低的工業控制任務設計解決方法。

這篇論文的主要貢獻包括：

開發了一種可將基礎模型用于工業控制但無需訓練的方法，其能以較低的技術債用于多種異構的任務。

研究者通過 GPT-4 控制 HVAC 進行了實驗，得到了積極的實驗結果，展現了這些方法的潛力。

研究者進行了廣泛的消融研究（涉及泛化能力、示例選取和 prompt 設計），闡明了該方向的未來發展。

方法

該研究使用 GPT-4 來優化對 HVAC 設備的控制，工作流程如下圖 1 所示：

圖 1：使用 GPT-4 控制 HVAC 的工作流程示意圖

該工作流程中的 LLM 和環境組件如下：

LLM：一個預訓練大型語言模型，用作決策器。它會根據給出的 prompt 生成對應的響應。其 prompt 中應包含對當前狀態的描述、簡單的 HVAC 控制指令、相關狀態的演示等。

環境：一個交互式環境或模擬器，可以執行 LLM 建議的動作并提供反饋。實驗中所使用的具體評估環境為 BEAR (Zhang et al., 2022a)。為了在 BEAR 中創建環境，必須提供兩個參數：建筑類型（如大型辦公室、小型辦公室、醫院等）和天氣條件（如炎熱干燥、炎熱潮濕、溫暖干燥等）。此外，值得注意的是，每種天氣狀況都對應于特定的城市。例如，炎熱干燥的天氣狀況與水牛城有關。

在 BEAR 中，每個狀態都由一個數值向量表示，其中除了后四個維度外，每個維度都對應于建筑物中一個房間的當前溫度。后四個維度分別代表室外溫度、全局水平輻射（GHI）、地面溫度和居住者功率。在所有環境中，首要目標是保持室溫在 22 ℃ 附近，同時盡可能減少能耗。

BEAR 中的操作被編碼為范圍從 -1 到 1 的實數。負值表示制冷模式，正值表示加熱模式。這些動作的值對應于閥門打開程度，這能說明能耗情況。如果值更大，那么能耗也就更大。在兼顧舒適度和能耗的條件下，研究者在實驗中使用了以下獎勵函數：

其中 n 表示房間數，T=22℃ 是目標溫度，t_i 表示第 i 個房間的溫度。超參數 α 用于實現能耗和舒適度的平衡。

此外，該工作流程中還包含在線緩沖器、轉譯器、嵌入模型、專家演示數據集、KNN 模型、聚類模型、prompt 生成器等組件。其中 prompt 生成器的執行過程如圖 2 所示，其中紫色的文本僅用于說明，而非 prompt 的一部分。

圖 2：新方法是如何生成 prompt 的

實驗

該研究通過實驗展示了 GPT-4 控制 HVAC 設備的效果，其中涉及不同的建筑物和天氣條件。只要能提供適當的指示和演示（不一定與目標建筑和天氣條件相關），GPT-4 的表現就能超過專門為特定建筑和天氣條件精心訓練的強化學習策略。此外，研究者還進行了全面的消融研究，以確定 prompt 中每個部分的貢獻。