18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于標(biāo)簽數(shù)據(jù)提升語(yǔ)法錯(cuò)誤糾正效果

Tensorflowers ? 來(lái)源:TensorFlow ? 作者:TensorFlow ? 2021-09-23 15:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語(yǔ)法錯(cuò)誤糾正 (GEC) 指的是試圖對(duì)語(yǔ)法和其他類型的寫作錯(cuò)誤進(jìn)行建模,并給出語(yǔ)法和拼寫建議,從而改善文檔、電子郵件、文章甚至非正式聊天中的書面輸出質(zhì)量。在過(guò)去 15 年里,GEC 的質(zhì)量有了很大提高,其中很大一部分原因是它將問題重塑為一項(xiàng)“翻譯”任務(wù)。例如,將這種方法引入 Google 文檔后,用戶采納的語(yǔ)法糾正建議數(shù)量顯著增加。

將問題重塑為一項(xiàng)“翻譯”任務(wù)

https://aclanthology.org/P06-1032/

但是,GEC 模型面臨的最大挑戰(zhàn)之一是數(shù)據(jù)稀少。不同于其他語(yǔ)音識(shí)別 (Speech recognition) 和機(jī)器翻譯 (Machine translation) 等自然語(yǔ)言處理 (NLP) 任務(wù),即便是針對(duì)英語(yǔ)這樣的高資源語(yǔ)言,GEC 可用的訓(xùn)練數(shù)據(jù)非常有限。對(duì)于這類問題,一個(gè)常見的補(bǔ)救措施是使用一系列技術(shù)來(lái)生成合成數(shù)據(jù),其中包括啟發(fā)式隨機(jī)詞或字符級(jí)的損壞,以及基于模型的方法。然而,這些方法往往是簡(jiǎn)化的,不能反映實(shí)際用戶錯(cuò)誤類型的真實(shí)分布。

在 EACL 第 16 屆創(chuàng)新使用 NLP 構(gòu)建教育應(yīng)用研討會(huì)上發(fā)表的《使用有標(biāo)簽損壞模型進(jìn)行語(yǔ)法錯(cuò)誤糾正的合成數(shù)據(jù)生成》 (Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models) 一文中,我們介紹了有標(biāo)簽損壞模型。這種方法受到機(jī)器翻譯中流行的回譯數(shù)據(jù)合成技術(shù)啟發(fā),能夠精確控制合成數(shù)據(jù)的生成,確保產(chǎn)生與實(shí)踐中錯(cuò)誤分布更加一致的多樣化輸出。我們使用有標(biāo)簽損壞模型來(lái)生成一個(gè)新的數(shù)據(jù)集(包含 2 億個(gè)句子)。目前這個(gè)數(shù)據(jù)集應(yīng)發(fā)布,可供研究人員提供真實(shí)的 GEC 預(yù)訓(xùn)練數(shù)據(jù)。通過(guò)將新的數(shù)據(jù)集整合到訓(xùn)練流水線,我們能夠顯著改善 GEC 的基線。

使用有標(biāo)簽損壞模型進(jìn)行語(yǔ)法錯(cuò)誤糾正的合成數(shù)據(jù)生成

https://aclanthology.org/2021.bea-1.4/

回譯

https://aclanthology.org/P16-1009/

數(shù)據(jù)集(包含 2 億個(gè)句子)

https://github.com/google-research-datasets/C4_200M-synthetic-dataset-for-grammatical-error-correction

有標(biāo)簽損壞模型

將傳統(tǒng)的損壞模型應(yīng)用于 GEC,其背后的理念是,從一個(gè)語(yǔ)法正確的句子開始,然后通過(guò)添加錯(cuò)誤“損壞”它。通過(guò)在現(xiàn)有 GEC 數(shù)據(jù)集中切換源句和目標(biāo)句,可以輕松地訓(xùn)練出損壞模型,之前的研究已經(jīng)表明,這種方法對(duì)生成改進(jìn)的 GEC 數(shù)據(jù)集非常有效。

提供干凈的輸入句(綠色)后,傳統(tǒng)損壞模型會(huì)生成一個(gè)不符合語(yǔ)法的句子(紅色)

之前的研究

https://aclanthology.org/D19-1119.pdf

我們提出的有標(biāo)簽損壞模型建立在這一理念的基礎(chǔ)之上,它將一個(gè)干凈的句子作為輸入,加上一個(gè)錯(cuò)誤類型標(biāo)簽,描述所要重現(xiàn)的錯(cuò)誤類型。然后,它為輸入句生成一個(gè)包含指定錯(cuò)誤類型的語(yǔ)法錯(cuò)誤版本。與傳統(tǒng)的損壞模型相比,為不同句子選擇不同的錯(cuò)誤類型增加了損壞的多樣性。

有標(biāo)簽損壞模型會(huì)根據(jù)錯(cuò)誤類型標(biāo)簽,為干凈的輸入句(綠色)生成損壞(紅色)。限定詞錯(cuò)誤可能會(huì)導(dǎo)致丟失限定詞 “a”,而名詞屈折變化錯(cuò)誤可能導(dǎo)致錯(cuò)誤的復(fù)數(shù)形式 “sheeps”

為使用此模型生成數(shù)據(jù),我們首先從 C4 語(yǔ)料庫(kù)中隨機(jī)選擇了 2 億個(gè)干凈的句子,并為每個(gè)句子分配了一個(gè)錯(cuò)誤類型標(biāo)簽,令其相對(duì)頻率與小型開發(fā)集 BEA-dev 的錯(cuò)誤類型標(biāo)簽分布相匹配。由于 BEA-dev 是一個(gè)精心制作的集合,涵蓋各種英語(yǔ)水平,范圍很廣,我們預(yù)計(jì)其標(biāo)簽分布能夠代表現(xiàn)實(shí)中出現(xiàn)的寫作錯(cuò)誤。然后,我們用一個(gè)有標(biāo)簽損壞模型來(lái)合成源句。

使用有標(biāo)簽損壞模型生成合成數(shù)據(jù)。在合成的 GEC 訓(xùn)練語(yǔ)料庫(kù)中,干凈的 C4 句子(綠色)與損壞的句子(紅色)配對(duì)。遵循開發(fā)集(條形圖)中錯(cuò)誤類型的頻率,使用有標(biāo)簽損壞模型生成損壞的句子

C4 語(yǔ)料庫(kù)

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

BEA-dev

https://aclanthology.org/W19-4406.pdf

結(jié)果

在我們的實(shí)驗(yàn)中,有標(biāo)簽損壞模型在兩個(gè)標(biāo)準(zhǔn)開發(fā)集(CoNLL-13 和 BEA-dev)上表現(xiàn)優(yōu)于無(wú)標(biāo)簽損壞模型,比后者高出三個(gè) F0.5-點(diǎn)(GEC 研究中的一個(gè)標(biāo)準(zhǔn)指標(biāo),結(jié)合了精確率和召回率 (Precision and recall),更注重精確率),并在兩個(gè)廣泛使用的學(xué)術(shù)測(cè)試集(CoNLL-14 和 BEA-test)上體現(xiàn)了最先進(jìn)的水平。

CoNLL-13

https://aclanthology.org/W13-3601.pdf

標(biāo)準(zhǔn)指標(biāo)

https://aclanthology.org/P17-1074/

CoNLL-14

https://aclanthology.org/W14-1701.pdf

此外,使用有標(biāo)簽損壞模型不僅能在標(biāo)準(zhǔn)的 GEC 測(cè)試集上獲得收益,還能夠讓 GEC 系統(tǒng)適應(yīng)用戶的語(yǔ)言水平。這一點(diǎn)會(huì)十分有用,原因之一是英語(yǔ)母語(yǔ)寫作者的錯(cuò)誤標(biāo)簽分布往往與非英語(yǔ)母語(yǔ)寫作者的分布有很大不同。例如,英語(yǔ)母語(yǔ)者通常會(huì)犯更多標(biāo)點(diǎn)符號(hào)和拼寫錯(cuò)誤,而限定詞錯(cuò)誤(例如缺少或多加冠詞,如 “a”、“an” 或 “the”)在非英語(yǔ)母語(yǔ)寫作者的文本中更為常見。

結(jié)論

眾所周知,神經(jīng)序列模型對(duì)數(shù)據(jù)的需求非常大,但用于語(yǔ)法錯(cuò)誤糾正的注釋訓(xùn)練數(shù)據(jù)卻很少。新的 C4_200M 語(yǔ)料庫(kù)是一個(gè)包含各種語(yǔ)法錯(cuò)誤的合成數(shù)據(jù)集,用于預(yù)訓(xùn)練 GEC 系統(tǒng)時(shí),它體現(xiàn)出了最先進(jìn)的性能。通過(guò)發(fā)布該數(shù)據(jù)集,我們希望為 GEC 研究人員提供寶貴的資源來(lái)訓(xùn)練強(qiáng)大的基線系統(tǒng)。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7297

    瀏覽量

    93499
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3616

    瀏覽量

    51503
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用ming64和vs2019編譯v5.0.2和master的bsp/simulator報(bào)錯(cuò)怎么解決?

    :repositoryrt-threadrt-threadcomponentsdriversrtcrtc.c(372,1): error C2143: 語(yǔ)法錯(cuò)誤: 缺少“)”(在“,”的前面) 1>D
    發(fā)表于 09-29 08:13

    程序編譯運(yùn)行正常但是顯示語(yǔ)法錯(cuò)誤,為什么?

    樣例程序:can_sample.c rtconfig.h里啟用了#define RT_CAN_USING_HDR 代碼從圖中這里開始大段標(biāo)識(shí)語(yǔ)法錯(cuò)誤: 跳轉(zhuǎn)到宏
    發(fā)表于 09-25 06:27

    AI技術(shù)在工程設(shè)計(jì)的應(yīng)用

    在不需要硬件交互的純軟件項(xiàng)目中,ChatGPT和Gemini等大語(yǔ)言模型(LLM)可以幫助程序員以前所未有的速度加速開發(fā)進(jìn)程。這種輔助通常包括在開發(fā)人員編寫代碼時(shí)提供補(bǔ)全建議,或在排查錯(cuò)誤語(yǔ)法錯(cuò)誤時(shí)提供故障排除建議——這些都是耗時(shí)的編程環(huán)節(jié)。
    的頭像 發(fā)表于 09-23 16:21 ?362次閱讀
    AI技術(shù)在工程設(shè)計(jì)的應(yīng)用

    NFC讀寫器助力標(biāo)簽質(zhì)量檢測(cè),提升應(yīng)用優(yōu)勢(shì)!

    NFC讀寫器在智能標(biāo)簽質(zhì)量檢測(cè)中展現(xiàn)出顯著優(yōu)勢(shì):采用非接觸式檢測(cè),避免標(biāo)簽損傷且提升效率;能全面驗(yàn)證標(biāo)簽功能與性能,確??煽啃裕恢С肿詣?dòng)化批量檢測(cè),大幅提高生產(chǎn)效率;易于集成開發(fā),成本
    的頭像 發(fā)表于 09-17 10:22 ?341次閱讀
    NFC讀寫器助力<b class='flag-5'>標(biāo)簽</b>質(zhì)量檢測(cè),<b class='flag-5'>提升</b>應(yīng)用優(yōu)勢(shì)!

    pkgs下載報(bào)python語(yǔ)法錯(cuò)誤怎么解決?

    發(fā)表于 09-12 07:51

    如何評(píng)估通信協(xié)議優(yōu)化對(duì)數(shù)據(jù)傳輸效率的提升效果?

    評(píng)估通信協(xié)議優(yōu)化對(duì)數(shù)據(jù)傳輸效率的提升效果,核心邏輯是 “控制變量 + 多維度量化對(duì)比”—— 即通過(guò)定義明確的評(píng)估目標(biāo)、構(gòu)建一致的測(cè)試環(huán)境、選取關(guān)鍵效率指標(biāo),對(duì)比優(yōu)化前后的協(xié)議表現(xiàn),最終驗(yàn)證優(yōu)化是否達(dá)到預(yù)期(如降低延遲、
    的頭像 發(fā)表于 08-29 17:52 ?460次閱讀

    RFID扎帶標(biāo)簽的應(yīng)用管理

    :減少了人工操作的錯(cuò)誤率,提高了數(shù)據(jù)的準(zhǔn)確性和可靠性。安全性:RFID標(biāo)簽可以加密,防止數(shù)據(jù)被非法讀取或篡改,保障物流信息安全。二、RFID扎帶標(biāo)簽
    的頭像 發(fā)表于 08-29 16:44 ?495次閱讀
    RFID扎帶<b class='flag-5'>標(biāo)簽</b>的應(yīng)用管理

    使用s32ds軟件時(shí),無(wú)法生成是怎么回事?

    使用s32ds軟件時(shí),無(wú)法生成,并顯示以下錯(cuò)誤消息。 請(qǐng)幫忙。 生成器:錯(cuò)誤錯(cuò)誤:LinStackCfg.npf 行:5 “bus_clock” - 語(yǔ)法錯(cuò)誤
    發(fā)表于 04-04 08:04

    云里物里ESL電子標(biāo)簽如何推動(dòng)工業(yè)倉(cāng)儲(chǔ)智能化升級(jí)

    ESL電子標(biāo)簽可聯(lián)動(dòng)貨架警示燈,通過(guò)LED燈閃爍指引人員快速定位操作區(qū)域,電子墨水屏實(shí)時(shí)更新貨物信息。貨物的出入庫(kù)操作完成后,工作人員通過(guò)PDA掃描條碼或標(biāo)簽按鍵,可快速同步更新后臺(tái)數(shù)據(jù),減少人工錄入
    的頭像 發(fā)表于 03-17 15:22 ?736次閱讀

    常見xgboost錯(cuò)誤及解決方案

    的XGBoost錯(cuò)誤及其解決方案: 1. 數(shù)據(jù)預(yù)處理錯(cuò)誤 錯(cuò)誤 :未對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理,如缺失值處理、特征編碼、特征縮放等。 解決方案
    的頭像 發(fā)表于 01-19 11:22 ?4360次閱讀

    SSM開發(fā)中的常見問題及解決方案

    : 配置文件存在錯(cuò)誤,如語(yǔ)法錯(cuò)誤、路徑錯(cuò)誤或格式錯(cuò)誤,導(dǎo)致軟件系統(tǒng)無(wú)法正常運(yùn)行。 解決方案 : 仔細(xì)檢查配置文件的語(yǔ)法、路徑和格式,確保其
    的頭像 發(fā)表于 12-17 09:16 ?1688次閱讀

    電子電器氣密性檢測(cè)儀使用方法:操作中的常見錯(cuò)誤糾正

    電子電器氣密性檢測(cè)儀是確保產(chǎn)品質(zhì)量的關(guān)鍵設(shè)備,但在使用過(guò)程中,操作人員常犯一些錯(cuò)誤,導(dǎo)致測(cè)試結(jié)果不準(zhǔn)確或儀器損壞。以下是一些常見的操作錯(cuò)誤及其糾正方法,旨在幫助操作人員正確使用氣密性檢測(cè)儀。常見
    的頭像 發(fā)表于 11-29 11:20 ?743次閱讀
    電子電器氣密性檢測(cè)儀使用方法:操作中的常見<b class='flag-5'>錯(cuò)誤</b>與<b class='flag-5'>糾正</b>

    LLM在數(shù)據(jù)分析中的作用

    分析的游戲規(guī)則。 1. 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析的第一步,也是至關(guān)重要的一步。LLM在這一階段可以發(fā)揮重要作用。 文本清洗 :LLM可以幫助識(shí)別和糾正文本數(shù)據(jù)中的拼寫
    的頭像 發(fā)表于 11-19 15:35 ?1476次閱讀

    SQL錯(cuò)誤代碼及解決方案

    在SQL數(shù)據(jù)庫(kù)開發(fā)和管理中,常見的錯(cuò)誤代碼及其解決方案可以歸納如下: 一、語(yǔ)法錯(cuò)誤(Syntax Errors) 錯(cuò)誤代碼 :無(wú)特定代碼,但通常會(huì)在
    的頭像 發(fā)表于 11-19 10:21 ?9707次閱讀

    SUMIF函數(shù)常見錯(cuò)誤及解決方案

    SUMIF函數(shù)是Excel中一個(gè)非常實(shí)用的函數(shù),用于根據(jù)給定條件對(duì)數(shù)據(jù)進(jìn)行求和。然而,在使用過(guò)程中,用戶可能會(huì)遇到一些常見錯(cuò)誤。 1. 錯(cuò)誤:范圍不正確 錯(cuò)誤描述: 用戶可能沒有正確設(shè)
    的頭像 發(fā)表于 11-11 09:10 ?8068次閱讀