輿情去重算法的研究
大?。?/span>0.69 MB 人氣: 2017-11-03 需要積分:0
標(biāo)簽:輿情(1561)
近年來,輿情信息在大數(shù)據(jù)服務(wù)中廣泛被加工使用,但轉(zhuǎn)載、復(fù)制等操作使得采集的輿情信息重復(fù)量龐大,給后期的加工帶來困難。在這種情況下,針對輿情數(shù)據(jù)開展去重研究的卻相對較少。文中針對輿情去重不可避免但缺乏理論指導(dǎo)的問題,通過研究SimHash、MinHash、Jaccard等經(jīng)典去重算法,結(jié)合TF、TF-IDF、特征碼等不同特征選擇和3 000輿情樣本進(jìn)行實驗,最終發(fā)現(xiàn)MinHash+特征碼運(yùn)行時間最短;Jaccard的漏判數(shù)最少,召回率可達(dá)90%以上;MinHash算法的誤判數(shù)最少,去重精度可達(dá)100%,并且MinHash通過閾值的調(diào)整能夠獲得Jaccard同樣的召回率。

非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
輿情去重算法的研究下載
相關(guān)電子資料下載
- 云手機(jī)的境外輿情監(jiān)控應(yīng)用——助力品牌公關(guān) 257
- 用云手機(jī)進(jìn)行輿情監(jiān)測有什么作用? 243
- 輿情星榜 | 人工智能行業(yè)輿情觀察(2022 年 12 月) 793
- 輿情監(jiān)控系統(tǒng)可確保輿情管控工作高效穩(wěn)定的進(jìn)行 1926
- 大數(shù)據(jù)環(huán)境下,輿情研究方法存在哪些問題?如何迭代? 1571
- 人工智能時代政法網(wǎng)絡(luò)輿情治理可以調(diào)整哪一些對策 1470
- 人民網(wǎng)輿情:公眾對網(wǎng)約車或存偏見 2694
- 智慧公安全網(wǎng)輿情監(jiān)控平臺搭建情報分析系統(tǒng)開發(fā) 446
- 智慧公安重點(diǎn)人員管控系統(tǒng)開發(fā)全網(wǎng)輿情監(jiān)控系統(tǒng)搭建 455
- 樸素貝葉斯分類算法并實現(xiàn)中文數(shù)據(jù)集的輿情分析案例 9549
