搜索也好,檢索式對(duì)話也好,文本是一個(gè)很難繞開的話題,雖然語(yǔ)義是一個(gè)重要因素,用語(yǔ)義相似度直接梭,但是用戶的感知可不是如此,很多用戶的感知更多是文本層面的相似要高于語(yǔ)義相似,或者說,遇到語(yǔ)義相似和文本相似的時(shí)候會(huì)更優(yōu)先接受文本相似,畢竟文本使用戶能直接看到的,當(dāng)然語(yǔ)義相似度雖好,但是對(duì)于沒有什么標(biāo)注數(shù)據(jù)的情況,也是束手無策吧。
所以,即使語(yǔ)義相似度如火如荼地發(fā)展著,文本層面的匹配依舊是項(xiàng)目實(shí)踐中不可避免的關(guān)注點(diǎn)。
cqr&ctr概念
cqr和ctr的概念還是比較清晰明確的。
給定query和title,現(xiàn)在計(jì)算cqr和ctr。
講完了,就是這么簡(jiǎn)單,其實(shí)就是看兩者交集占query的占比和占title的占比,就是對(duì)應(yīng)的cqr和ctr。
當(dāng)然,由于這種計(jì)算會(huì)把所有詞的重要性考慮進(jìn)去,例如“怎么做作業(yè)”分別和“怎樣做作業(yè)”、“怎么做手機(jī)”,兩個(gè)的相似度就一樣了,此時(shí)就要考慮到給每個(gè)詞加點(diǎn)權(quán)重,這樣能更好地描述,這就是一個(gè)優(yōu)化的實(shí)用版本,加權(quán)
給定query,有對(duì)應(yīng)的權(quán)重和title,以及對(duì)應(yīng)權(quán)重,現(xiàn)在計(jì)算cqr和ctr:
想到可能會(huì)有人問到權(quán)重怎么來,這里我就要把我的歷史文章放出來了,之前是專門講過詞權(quán)重的問題的:NLP.TM[20] | 詞權(quán)重問題
這個(gè)應(yīng)該就是我自己平時(shí)用的版本了,而且屢試不爽。
而如果是要分析兩個(gè)句子綜合、無偏的相似度,只要相乘就好了:
細(xì)品
可以看到,這個(gè)東西很簡(jiǎn)單,就是一個(gè)基于統(tǒng)計(jì)計(jì)算的工具,但是我依然想仔細(xì)討論一下這個(gè)東西。
首先,有關(guān)相似度,其實(shí)我們很容易想到這個(gè)計(jì)算方法:
就是比較著名的jaccard相似度,當(dāng)然還有一個(gè)更加出名的方法,那就是BM25(更為常見,此處就不贅述了)。但是我并沒有選擇,為什么呢,其實(shí)核心就是1個(gè)點(diǎn):
query和title的長(zhǎng)度信息。
jaccard距離雖然能比較綜合、無偏向性地計(jì)算兩者的相似度,但問題是,當(dāng)query和title長(zhǎng)度計(jì)算差距很大的時(shí)候,計(jì)算準(zhǔn)確性就會(huì)受到影響,而分成兩個(gè)指標(biāo),則能夠充分表現(xiàn)兩者的相似性,當(dāng)然具體用哪種其實(shí)還是要看具體場(chǎng)景的,有的時(shí)候這種無偏向性對(duì)效果優(yōu)化還是有用的,但是有的時(shí)候其實(shí)會(huì)影響最終效果。
來看個(gè)例子,query是“我昨天新買的手機(jī),今天怎么就不能開機(jī)了”,title是“手機(jī)不能開機(jī)”,這里可以,ctr無疑就是1,當(dāng)然cqr就比較低了,但是我們可以用ctr作為后續(xù)的排序特征或者過濾條件。
優(yōu)缺點(diǎn)
感覺有些東西想說但是沒說出來,直接總結(jié)一下這個(gè)方案的優(yōu)缺點(diǎn)吧,以便大家進(jìn)行方案選擇吧,這個(gè)優(yōu)點(diǎn),是相對(duì)于常見的語(yǔ)義相似度模型而言的。
首先說優(yōu)點(diǎn):
能夠體現(xiàn)文本層面的相似度,在一些領(lǐng)域下體驗(yàn)比較好。
性能比語(yǔ)義相似度模型好很,所以是一個(gè)簡(jiǎn)單輕快的模型。
無監(jiān)督,詞權(quán)重的話用語(yǔ)料就可以訓(xùn)練了。
效果穩(wěn)定可追蹤。
當(dāng)然,還是有缺點(diǎn)的。
文本層面的匹配無法體現(xiàn)語(yǔ)義,同義詞、說法之類的無法體現(xiàn)。
對(duì)切詞敏感,類似“充不進(jìn)去電”和“充電”就完全匹配不上。
應(yīng)用
有這些有缺點(diǎn),其實(shí)我們就可以考慮這個(gè)相似度該怎么用了:
用于過濾一些肯定不對(duì)的答案。
無標(biāo)注數(shù)據(jù)下,這個(gè)指標(biāo)可以作為排序的指標(biāo),對(duì)啟動(dòng)項(xiàng)目挺重要的。
作為排序特征,保證結(jié)果在文本層面還是比較接近的。
當(dāng)然,在一個(gè)比較完整的搜索或者是檢索式對(duì)話的系統(tǒng)里,其實(shí)這種文本相似度類的特征還是非常有收益的,結(jié)合語(yǔ)義相似度還是會(huì)有一些比較穩(wěn)定的收益。
小結(jié)
東西其實(shí)不難,卻是非常實(shí)用的技能,但是在應(yīng)用的過程中能夠想到的人其實(shí)很少,但有用的東西我們學(xué)起來也挺好。
原文標(biāo)題:【文本匹配】cqr&ctr:文本匹配的破城長(zhǎng)矛
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
629瀏覽量
14515 -
nlp
+關(guān)注
關(guān)注
1文章
491瀏覽量
23111
原文標(biāo)題:【文本匹配】cqr&ctr:文本匹配的破城長(zhǎng)矛
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
飛書富文本組件庫(kù)RichTextVista開源
飛書開源“RTV”富文本組件 重塑鴻蒙應(yīng)用富文本渲染體驗(yàn)
科學(xué)城集團(tuán)與??低曔_(dá)成戰(zhàn)略合作
把樹莓派打造成識(shí)別文本的“神器”!
如何用單片ADC和DAC去匹配改善電路呢?
Linux三劍客之Sed:文本處理神器
如何使用自然語(yǔ)言處理分析文本數(shù)據(jù)
圖紙模板中的文本變量
如何在文本字段中使用上標(biāo)、下標(biāo)及變量
直流無刷破壁機(jī)解決方案
tas5548輸入全音量的i2s數(shù)據(jù)會(huì)破音,為什么?
PCM1794使用單聲道模式有破音如何解決?
使用語(yǔ)義線索增強(qiáng)局部特征匹配
TMS320硬件應(yīng)用程序(包含掃描的文本)

關(guān)于文本匹配的破城長(zhǎng)矛
評(píng)論