發(fā)布時(shí)間:1970-01-01 人氣:360
攜程是綜合性的OTA,它涵蓋了廣泛的業(yè)務(wù)線路,包括機(jī)票、酒店、火車票、景點(diǎn)門票、汽車票、租車、出租車等。攜程的系統(tǒng)也是根據(jù)業(yè)務(wù)線建立的。屬于所有業(yè)務(wù)線的人只能為客人提供業(yè)務(wù)線咨詢。然而,一次旅行往往涉及到全面的資源調(diào)度。攜程還致力于為用戶提供一站式的服務(wù)體驗(yàn)。顯然,用戶需要找到相應(yīng)的業(yè)務(wù)線來咨詢旅行中的問題。圖1顯示了用戶在咨詢時(shí)需要找到相關(guān)業(yè)務(wù)線的場(chǎng)景。
隨著我們團(tuán)隊(duì)在各業(yè)務(wù)線咨詢中引入機(jī)器人輔助勞動(dòng)力,成熟度越來越高,我們有進(jìn)一步的計(jì)劃,即攜程App一站式機(jī)器人的推出可以讓用戶解決一次旅行可能涉及的各個(gè)方面。
本文將首先比較當(dāng)前用戶咨詢問題入口與一站式入口的異同,從而導(dǎo)致建立一站式機(jī)器人的重要性和挑戰(zhàn),然后結(jié)合具體情況講述機(jī)器人的完整結(jié)構(gòu),并詳細(xì)介紹自然語(yǔ)言理解部分(NLU)的算法。
機(jī)票訂單詳情頁(yè)入口的機(jī)器人,只能回答本業(yè)務(wù)線的問題,對(duì)于跨業(yè)務(wù)線的問題只能提供轉(zhuǎn)接服務(wù);一站式入口的機(jī)器人,擁有解答全業(yè)務(wù)線問題的能力。
讓我們來看看酒店咨詢和推薦混合需求的例子。在圖3中,用戶瀏覽酒店后,咨詢酒店是否有游泳池。在得知酒店沒有游泳池后,他們希望在附近的地區(qū)找到一家有游泳池的酒店。圖3的左半部分是用戶通過酒店詳細(xì)信息頁(yè)面進(jìn)入咨詢?nèi)肟诤蟮姆?wù)流程。由于入口限制了所有的咨詢只能針對(duì)特定的酒店,因此用戶的推薦需求只能選擇手動(dòng)轉(zhuǎn)移。圖3的右半部分是用戶在一站式入口處獲得的服務(wù)流程。一站式具有咨詢和推薦的能力。
圖3 酒店詳情頁(yè)入口及一站式入口酒店詳細(xì)信息頁(yè)面入口處的機(jī)器人僅限于特定酒店,只能提供與酒店相關(guān)的信息問答;一站式入口可靈活提供酒店信息、酒店預(yù)訂和推薦功能。
綜上所述,我們可以看到的咨詢?nèi)肟谙啾龋徽臼接袃蓚€(gè)明顯的優(yōu)勢(shì)。
首先,一站式擁有全業(yè)務(wù)線的知識(shí),可以在不進(jìn)入各業(yè)務(wù)線的情況下,為用戶提供全方位的旅行支持。
第二,一站式除了咨詢技能外,還有更多的技能,如推薦、預(yù)訂等,為用戶帶來更方便的一站式體驗(yàn),也為企業(yè)創(chuàng)造了準(zhǔn)確營(yíng)銷的可能性。
二、“一站式”機(jī)器人架構(gòu)在部分,我們可以看到一站式機(jī)器人比目前的系統(tǒng)有很大的優(yōu)勢(shì),但也有很大的挑戰(zhàn)。
當(dāng)用戶進(jìn)入一站式入口時(shí),與每條業(yè)務(wù)線的咨詢?nèi)肟诓煌覀冃枰ㄟ^自然語(yǔ)言理解算法了解用戶的服務(wù)需求。此外,一站式入口的許多技能也需要在適當(dāng)?shù)臅r(shí)間激活,因此我們需要一個(gè)對(duì)話管理模塊來控制這些技能的激活,對(duì)話管理模塊也將與自然語(yǔ)言理解模塊一起使用,以更準(zhǔn)確地分析用戶的真實(shí)需求。
圖4是算法端一站式機(jī)器人的完整架構(gòu),在架構(gòu)中省略了服務(wù)端的接口調(diào)用和前端的顯示邏輯。自然語(yǔ)言理解模塊主要包括三個(gè)子模塊、領(lǐng)域分類、意圖分類和槽分析,該模塊的結(jié)果輸出到對(duì)話管理模塊。對(duì)話管理模塊更新了當(dāng)前的對(duì)話狀態(tài),并根據(jù)分析的用戶意圖選擇了合適的機(jī)器回復(fù)。最終的回復(fù)生成模塊負(fù)責(zé)調(diào)用各種問答、推薦和技能服務(wù),并使用自然語(yǔ)言用戶的需求。
圖4在對(duì)一站式機(jī)器人的結(jié)構(gòu)有了初步的了解之后,我們將回顧部分的兩個(gè)例子。
在圖5中,用戶進(jìn)入入入口并發(fā)起咨詢,我取消了機(jī)票訂單,但沒有收到退款。自然語(yǔ)言理解模塊分析了機(jī)票領(lǐng)域,意圖是機(jī)票領(lǐng)域的問答。對(duì)話管理模塊選擇相應(yīng)的機(jī)票問答Action,調(diào)用機(jī)票業(yè)務(wù)線服務(wù)常見問題(FAQ)回答用戶的問題。滿足用戶需求后,進(jìn)一步咨詢酒店退款。自然語(yǔ)言理解模塊識(shí)別用戶在酒店領(lǐng)域的問答意圖,對(duì)話管理模塊選擇相應(yīng)的酒店問答Action,調(diào)用酒店業(yè)務(wù)線業(yè)務(wù)常見問題服務(wù)(FAQ),滿足用戶完整的服務(wù)需求,實(shí)現(xiàn)一站式目標(biāo)。
圖5 一站式機(jī)器人完成跨業(yè)務(wù)線用戶的服務(wù)需求讓我們看看圖6中的另一個(gè)例子。在酒店預(yù)訂過程中,用戶咨詢酒店是否有游泳池。自然語(yǔ)言理解模塊分析了用戶的意圖是酒店領(lǐng)域的問答,并分析了酒店和酒店設(shè)施的槽。對(duì)話管理模塊填寫酒店和酒店設(shè)施的槽,并要求酒店KBQA服務(wù),了解酒店沒有游泳池。用戶進(jìn)一步詢問附近是否有其他酒店有游泳池。自然語(yǔ)言理解模塊分析用戶意圖是酒店領(lǐng)域的推薦,并分析酒店設(shè)施的槽位。對(duì)話管理模塊更新酒店設(shè)施的槽位,將中心地標(biāo)和酒店設(shè)施帶入接口,查詢符合相應(yīng)條件的酒店。
圖6 一站式機(jī)器人法在部分,我們描述了建立一站式機(jī)器人的動(dòng)機(jī),并比較了它與當(dāng)前業(yè)務(wù)線咨詢?nèi)肟诘漠愅?。在第二部分,我們給出了一站式機(jī)器人的算法架構(gòu),并結(jié)合兩個(gè)例子描述了它的工作過程。從機(jī)器人架構(gòu)的角度來看,自然語(yǔ)言理解是步,也是一個(gè)非常重要的模塊。只有正確地理解用戶Query機(jī)器人可以通過對(duì)話管理和自身技能為用戶服務(wù)。
用戶自然語(yǔ)言理解模塊Query的解析主要包括兩個(gè)部分,意圖識(shí)別和槽位解析,其中意圖識(shí)別又被細(xì)分為領(lǐng)域分類和領(lǐng)域下的意圖分類,主要使用分類算法,槽位解析主要使用實(shí)體識(shí)別和實(shí)體鏈接的一些算法。在此我們著重介紹意圖識(shí)別中使用到的分類算法。
考慮到我們場(chǎng)景中的領(lǐng)域與意圖之間存在層次關(guān)系,即每個(gè)意圖都是某一領(lǐng)域下的一種意圖,我們?cè)谠O(shè)計(jì)算法時(shí)充分反映了這種層次關(guān)系。如圖7所示,我們使用表將用戶輸入轉(zhuǎn)換為one-hot形式,通過Embedding層轉(zhuǎn)換為連續(xù)向量,用戶的輸入可以是字級(jí)或字級(jí),也可以通過字級(jí)結(jié)果CNN或Highway Network方式和詞級(jí)Embedding結(jié)合。
然后我們用LSTM或GRU的RNN類序列表征層學(xué)習(xí)序列的表征。通過全連接層和soft ** x激活函數(shù),獲得該領(lǐng)域的預(yù)測(cè)結(jié)果。一方面,該領(lǐng)域的預(yù)測(cè)結(jié)果將以真實(shí)的領(lǐng)域標(biāo)簽作為損失函數(shù)的一部分,也將與隨機(jī)初始化的領(lǐng)域相結(jié)合Embedding矩陣點(diǎn)乘得到與句子相關(guān)的領(lǐng)域向量。該領(lǐng)域的向量與以前的序列表征共同構(gòu)成意圖分類的輸入,我們使用另一個(gè)LSTM或GRU的RNN序列表征層進(jìn)一步表達(dá)序列,再次引入領(lǐng)域向量對(duì)序列結(jié)果進(jìn)行Attention操作得到最終句子表征。通過全連接層和soft ** x激活函數(shù),得到預(yù)測(cè)結(jié)果。
圖7 領(lǐng)域及意圖分類算法在我們的實(shí)驗(yàn)過程中,Embedding層的各種方法差別不明顯,我們嘗試包括詞級(jí)的方法Embedding、字級(jí)別Embedding以及字級(jí)CNN結(jié)合詞級(jí)共同行動(dòng)Embedding;序列表征層的各種方法差異不明顯,包括GRU、LSTM以及Self-Attention層。當(dāng)獲得最終表征層時(shí),基于領(lǐng)域向量Attention操作相比于CNN特征提取方法及對(duì)RNN輸出的隱向量做 ** x-pooling方法顯著提高,分類精度提高約1.5%-2%。與平鋪意圖分類方法相比,級(jí)聯(lián)意圖分類方法有了顯著提高,分類精度提高了2%左右-3%。我們認(rèn)為這種方法之所以能帶來改進(jìn),是因?yàn)樗紫阮A(yù)測(cè)了相對(duì)簡(jiǎn)單的領(lǐng)域標(biāo)簽,然后使用該領(lǐng)域的信息來輔助預(yù)測(cè)意圖,類似于curriculum learning從易到難的過程可以使模型更好地學(xué)習(xí)。
我們?cè)陔x線數(shù)據(jù)集的培訓(xùn)集上培訓(xùn)模型,在開發(fā)集上調(diào)整參數(shù),在集上評(píng)估調(diào)整參數(shù)優(yōu)化后的模型。集的領(lǐng)域級(jí)別分類精度約為90%,意向級(jí)別分類精度約為87%,模型符合在線可用標(biāo)準(zhǔn)。
四、結(jié)語(yǔ)在本文中,我們向讀者描述了攜程的一站式機(jī)器人愿景,并提出了其優(yōu)勢(shì)和挑戰(zhàn)。我們采用了結(jié)合自然語(yǔ)言理解和對(duì)話管理的算法架構(gòu),使一站式機(jī)器人著陸。
未來,我們將繼續(xù)從多個(gè)角度進(jìn)行優(yōu)化,包括更精細(xì)的自然語(yǔ)言理解、更準(zhǔn)確的意圖分類和槽分析模型、容錯(cuò)對(duì)話管理過程、更豐富的知識(shí)庫(kù)、更好的意圖擴(kuò)展等,希望創(chuàng)建智能一站式機(jī)器人,與各業(yè)務(wù)線人員更好地服務(wù)攜程用戶。
【作者簡(jiǎn)介】經(jīng)緯,從事機(jī)器人算法研發(fā),專注于nlp該領(lǐng)域的算法研究和應(yīng)用,如數(shù)據(jù)和場(chǎng)景驅(qū)動(dòng)的算法研發(fā)。
更多攜程技術(shù)人員干貨文章,請(qǐng)關(guān)注攜程技術(shù)微信公眾號(hào)。
本文鏈接:http://www.gold4america.com/hangyeyedongtai/4090.html
熱線電話
18594279421
上班時(shí)間
周一到周五
公司電話
18594279421