2024年10月23日 星期三

為APS產品添加智慧問答助理

 

痛點

在現今服務至上環境下, 即時回覆客戶問題以提升顧客滿意度儼然成為企業、服務業不可或缺的服務之一。但即時回覆問題所需付出成本內、外部分析如下, 如何解決此問題為本報告所要說明的部分。

Ø 因客服團隊人力需求較高且基本工資持續上升,人力資源成本持續上漲。

Ø 排程系統的邏輯複雜,客服人員招募門檻較高,且培訓時間也較長。

Ø 部分資訊查詢與確認較不易,也可能因人為判斷錯誤,導致整體問題查詢時程較長。

Ø 案件數量多的時候,問題無法立即處理,延誤回覆的時間,可能影響生產或購料的正常運作。

Ø 詢問客服人員的溝通與書信時間長,且不一定能夠即時回覆,花費大量時間等待。

Ø 可能需要多部門溝通確認各自的操作方式或流程,導致花費多組人力來協助確認問題。

Ø 不能即時得到問題回覆,影響排程發放延遲。

 

預期成效

Ø 提高工作效率

內部團隊可以更快速地獲得所需的資訊,從而提高解決問題和做決策的效率。

降低人員處理問題案件數。

減少客服人力編制、降低人員處理案件數(既定答案類型問題),讓人員專職處理複雜性問題。

Ø 提升人員技能人:對新員工來說,問答機器人可以作為一個自學工具,幫助他們快速掌握內部流程和政策。

Ø 即時客戶服務:24小時即時回饋客戶問題,24/7 全天候營業、提供問答服務且全年無休。

Ø 節省雙方時間:問答機器人可以立即回答常見問題,減少客戶等待時間,提升用戶體驗,減少對人工客服的需求。

Ø 新人操作培訓:可以使用問答機器人快速理解、熟悉邏輯複雜的APS系統。

 

功能範圍

Ø 基礎問題:提供FAQ數據,讓GPT可以回覆問題

Ø 情境問題:提供預先設計的情境問題,通過調用API取得報表資訊後,跟規則整合成提示詞,讓GPT可以回覆問題,如果問題找不到預先設計的情境,就改用基礎問題回覆。

 

範例

 




 

問答流程

 


 

 

 

2020年7月3日 星期五

強化學習中on-policy 與off-policy有什麼區別?

更新價值所使用的方法是沿著既定的策略(on-policy)抑或是新策略(off-policy)。

更新值函數時是否只使用當前策略所產生的樣本(off-policy使用的樣本

可能來自隨機探索)

 

  •  on-policy =>SARSA

好處在於可以當下評估策略,以及直接在應用場景中邊訓練邊使用。

 

  • off-policy=>Q-Learning

好處在於可以更充分的探索,產生豐富樣本,而不影響目標策略。

或者可以說off-policy利用經驗樣本的能力更強DQNDDPG等優秀方法中的經驗回放即屬於此類別

 

 

Off-policy使用歷史數據中最下一個狀態中最大Q估計值Q(s1,a1)來更新Q(s,a),但實際上在模擬的過程中,下一個狀態不見得要走到s1,可能會走到s2

 

On-policy則是等實際模擬過程中假如走到Q(s1,a2),即用此Q值去更新Q(s,a),可以說實際的策略跟用來更新值的策略兩者相同。



動手做深度強化學習 (Deep Reinforcement Learning Hands-On) 學習筆記 - 第四章-交叉熵方法

第四章-交叉熵方法

 

目標環境=CartPole-v0

定義一個簡單的神經網路,傳入狀態回傳動作。


 

定義最小化損失函數: objective = nn.CrossEntropyLoss()

定義optimaizer: optimizer = optim.Adam(params=net.parameters(), lr=0.01)

 

主程式:

邊玩邊學習,當獎勵到達預設目標後,即停止。

 

 

iterate_batches

1. 使用狀態丟入nn得到每個動作的機率分布

2. 使用此機率分布得到一個動作

3. 對環境的目前狀態執行此動作,得到獎勵

4. 記錄以上的狀態,動作,獎勵

在集滿batch數目後,用yield傳出,等外部處理完batch後,再繼續收集

當下有收集好的batch樣本,會透過主程式去學習修正nn網絡,而修正後的nn網絡又可以

iterate_batches被使用,讓此網絡每次預測的動作越來越精準。

 

以下是網路找的交叉熵方法缺點

例如,如果你只嘗試100次的話,那麼可能會有一些稀少的情況,在這100次中只出現那麼一兩

次。這樣的話,會得到一個非常奇怪的概率分佈,可能會一直重複某一個行動。也許你可以通

過增加實驗的次數來改進這個問題,比如說100次增加到10000次,但是如果騎自行車摔倒1萬

次的話,那會非常疼。


要做的就是在正規化之前給所有的概率都加一些小的正數,這樣就永遠不會得到概率為零的

數。所以,即使某個狀態可能只達到過一次,也仍然能採取其他的 action。


另外交叉熵方法在隨機過程中應用的話會變得有點複雜。

當一個環境有一些隨機性時,例如我們在一個賭場中,可能有兩種行為。一種是可以離開賭

場,一種是走到最近的老虎機,投進去一個硬幣,拉動推桿,然後多數情況下都會輸掉一刀,

但有些時候你也會贏三刀。當重複這個遊戲一百次時,我們可能會輸掉一百多刀,也有可能很

幸運地選擇了離開賭場,也有可能幸運地贏得了錢。

 

那麼在這種情況下,如果在其中選擇25次最好的結果,很容易是有 biase 的,因為它會偏向幸

運的贏錢的情況。當它贏三刀後,它就會一直拉動這個推桿,而直到輸掉所有的錢。

 

交叉熵方法雖然可以應用到很多東西上,從機器人到優化廣告,到推薦系統,到機器翻譯,到

金融等幾乎任何事情,但比針對特定目的方法表現的要差一些。

 

交叉熵方法還有一個問題是,它在騎自行車這種可能只有十個state和四個action的小問題上表

現還算足夠,但還不能應用到數據量較大的問題中去。比如操作一個自動駕駛汽車,或者玩遊

戲,狀態空間可能不是離散的,而是連續的,是無法用技術來記錄的,或者考慮的是攝像頭的

輸入,那時圖片的數量是非常大的,這時不能再存儲一個state-action的概率表格了。


 

為APS產品添加智慧問答助理

  痛點 在現今服務至上環境下 , 即時回覆客戶問題以提升顧客滿意度儼然成為企業、服務業不可或缺的服務之一。但即時回覆問題所需付出成本內、外部分析如下, 如何解決此問題為本報告所要說明的部分。 Ø  因客服團隊人力需求較高且基本工資持續上升,人力資源成本持續上漲。 Ø  排程系統...