2024年10月23日星期三

為APS產品添加智慧問答助理

痛點

在現今服務至上環境下, 即時回覆客戶問題以提升顧客滿意度儼然成為企業、服務業不可或缺的服務之一。但即時回覆問題所需付出成本內、外部分析如下, 如何解決此問題為本報告所要說明的部分。

Ø 因客服團隊人力需求較高且基本工資持續上升，人力資源成本持續上漲。

Ø 排程系統的邏輯複雜，客服人員招募門檻較高，且培訓時間也較長。

Ø 部分資訊查詢與確認較不易，也可能因人為判斷錯誤，導致整體問題查詢時程較長。

Ø 案件數量多的時候，問題無法立即處理，延誤回覆的時間，可能影響生產或購料的正常運作。

Ø 詢問客服人員的溝通與書信時間長，且不一定能夠即時回覆，花費大量時間等待。

Ø 可能需要多部門溝通確認各自的操作方式或流程，導致花費多組人力來協助確認問題。

Ø 不能即時得到問題回覆，影響排程發放延遲。

預期成效

Ø 提高工作效率

l 內部團隊可以更快速地獲得所需的資訊，從而提高解決問題和做決策的效率。

l 降低人員處理問題案件數。

l 減少客服人力編制、降低人員處理案件數（既定答案類型問題），讓人員專職處理複雜性問題。

Ø 提升人員技能人:對新員工來說，問答機器人可以作為一個自學工具，幫助他們快速掌握內部流程和政策。

Ø 即時客戶服務:24小時即時回饋客戶問題，24/7 全天候營業、提供問答服務且全年無休。

Ø 節省雙方時間:問答機器人可以立即回答常見問題，減少客戶等待時間，提升用戶體驗，減少對人工客服的需求。

Ø 新人操作培訓:可以使用問答機器人快速理解、熟悉邏輯複雜的APS系統。

功能範圍

Ø 基礎問題:提供FAQ數據，讓GPT可以回覆問題

Ø 情境問題:提供預先設計的情境問題，通過調用API取得報表資訊後，跟規則整合成提示詞，讓GPT可以回覆問題，如果問題找不到預先設計的情境，就改用基礎問題回覆。

範例

問答流程

2020年7月3日星期五

強化學習中on-policy 與off-policy有什麼區別？

更新價值所使用的方法是沿著既定的策略（on-policy）抑或是新策略（off-policy）。

更新值函數時是否只使用當前策略所產生的樣本（off-policy使用的樣本

可能來自隨機探索）。

on-policy =>SARSA

好處在於可以當下評估策略，以及直接在應用場景中邊訓練邊使用。

off-policy=>Q-Learning

好處在於可以更充分的探索，產生豐富樣本，而不影響目標策略。

或者可以說off-policy利用經驗樣本的能力更強，DQN、DDPG等優秀方法中的經驗回放即屬於此類別。

Off-policy使用歷史數據中最下一個狀態中最大Q估計值Q(s1,a1)來更新Q(s,a)，但實際上在模擬的過程中，下一個狀態不見得要走到s1,可能會走到s2。

On-policy則是等實際模擬過程中假如走到Q(s1,a2)，即用此Q值去更新Q(s,a)，可以說實際的策略跟用來更新值的策略兩者相同。

動手做深度強化學習 (Deep Reinforcement Learning Hands-On) 學習筆記 - 第四章-交叉熵方法

第四章-交叉熵方法

目標環境=CartPole-v0

定義一個簡單的神經網路，傳入狀態回傳動作。

定義最小化損失函數: objective = nn.CrossEntropyLoss()

定義optimaizer: optimizer = optim.Adam(params=net.parameters(), lr=0.01)

主程式：

邊玩邊學習，當獎勵到達預設目標後，即停止。

iterate_batches：

1. 使用狀態丟入nn得到每個動作的機率分布

2. 使用此機率分布得到一個動作

3. 對環境的目前狀態執行此動作，得到獎勵

4. 記錄以上的狀態,動作,獎勵

在集滿batch數目後,用yield傳出,等外部處理完batch後,再繼續收集。

當下有收集好的batch樣本，會透過主程式去學習修正nn網絡，而修正後的nn網絡又可以

在iterate_batches被使用，讓此網絡每次預測的動作越來越精準。

以下是網路找的交叉熵方法缺點

例如，如果你只嘗試100次的話，那麼可能會有一些稀少的情況，在這100次中只出現那麼一兩

次。這樣的話，會得到一個非常奇怪的概率分佈，可能會一直重複某一個行動。也許你可以通

過增加實驗的次數來改進這個問題，比如說100次增加到10000次，但是如果騎自行車摔倒1萬

次的話，那會非常疼。

要做的就是在正規化之前給所有的概率都加一些小的正數，這樣就永遠不會得到概率為零的

數。所以，即使某個狀態可能只達到過一次，也仍然能採取其他的 action。

另外交叉熵方法在隨機過程中應用的話會變得有點複雜。

當一個環境有一些隨機性時，例如我們在一個賭場中，可能有兩種行為。一種是可以離開賭

場，一種是走到最近的老虎機，投進去一個硬幣，拉動推桿，然後多數情況下都會輸掉一刀，

但有些時候你也會贏三刀。當重複這個遊戲一百次時，我們可能會輸掉一百多刀，也有可能很

幸運地選擇了離開賭場，也有可能幸運地贏得了錢。

那麼在這種情況下，如果在其中選擇25次最好的結果，很容易是有 biase 的，因為它會偏向幸

運的贏錢的情況。當它贏三刀後，它就會一直拉動這個推桿，而直到輸掉所有的錢。

交叉熵方法雖然可以應用到很多東西上，從機器人到優化廣告，到推薦系統，到機器翻譯，到

金融等幾乎任何事情，但比針對特定目的方法表現的要差一些。

交叉熵方法還有一個問題是，它在騎自行車這種可能只有十個state和四個action的小問題上表

現還算足夠，但還不能應用到數據量較大的問題中去。比如操作一個自動駕駛汽車，或者玩遊

戲，狀態空間可能不是離散的，而是連續的，是無法用技術來記錄的，或者考慮的是攝像頭的

輸入，那時圖片的數量是非常大的，這時不能再存儲一個state-action的概率表格了。

2024年10月23日 星期三

為APS產品添加智慧問答助理

痛點

預期成效

功能範圍

範例

問答流程

2020年7月3日 星期五

強化學習中on-policy 與off-policy有什麼區別？

動手做深度強化學習 (Deep Reinforcement Learning Hands-On) 學習筆記 - 第四章-交叉熵方法

為APS產品添加智慧問答助理

2024年10月23日星期三

2020年7月3日星期五