亚洲a∨国产高清av手机在线,亚洲国产在一区二区三区

【拆·應(yīng)用】是為開源鴻蒙應(yīng)用開發(fā)者打造的技術(shù)分享平臺(tái)，是匯聚開發(fā)者的技術(shù)洞見與實(shí)踐經(jīng)驗(yàn)、提供開發(fā)心得與創(chuàng)新成果的展示窗口。誠(chéng)邀您踴躍發(fā)聲，期待您的真知灼見與技術(shù)火花！

引言

本期內(nèi)容由AI Model SIG提供，介紹了在開源鴻蒙中，利用sherpa_onnx開源三方庫(kù)進(jìn)行ASR語(yǔ)音識(shí)別與TTS語(yǔ)音合成應(yīng)用開發(fā)的流程。

ASR/TTS介紹

ASR也就是自動(dòng)語(yǔ)音識(shí)別（Automatic Speech Recognition），其主要作用是把人類語(yǔ)音里的詞匯內(nèi)容轉(zhuǎn)變?yōu)橛?jì)算機(jī)能夠讀取的文本形式。

TTS也就是文本轉(zhuǎn)語(yǔ)音（Text-to-Speech），它主要的功能是把計(jì)算機(jī)里以文本形式存在的信息轉(zhuǎn)變成人耳可聽見的語(yǔ)音。

ASR/TTS有著廣泛的用途，例如語(yǔ)音助手聊天、設(shè)備控制、新聞播報(bào)、有聲閱讀等。

Sherpa_onnx介紹

sherpa-onnx是一個(gè)開源語(yǔ)音處理工具包，具有輕量級(jí)、跨平臺(tái)和高性能的語(yǔ)音識(shí)別推理能力。它基于ONNX Runtime，支持CPU/GPU加速，且內(nèi)存占用低、延遲小，適合實(shí)時(shí)流式語(yǔ)音處理。它兼容多種端到端語(yǔ)音模型（如Transformer、RNN-T），提供簡(jiǎn)潔的C++/Python API，并支持動(dòng)態(tài)斷句和流式識(shí)別，開箱即用。相比傳統(tǒng)方案（如Kaldi），sherpa_onnx依賴更少、部署更簡(jiǎn)單，特別適合移動(dòng)端、離線語(yǔ)音助手、實(shí)時(shí)字幕等場(chǎng)景兼顧效率與易用性。

sherpa_onnx已經(jīng)移植到開源鴻蒙，直接支持ArkTS接口，本示例用到的接口如下：

開發(fā)準(zhǔn)備

1.環(huán)境搭建：確保安裝了ArkUI開發(fā)所需的IDE，如DevEco Studio，并配置好相應(yīng)的開發(fā)環(huán)境，包括SDK（本示例Api11及以上）版本等。

2.了解ArkUI框架特性：熟悉ArkUI的布局和組件使用方法，例如文本輸入框用于接收用戶輸入，按鈕組件用于觸發(fā)ASR語(yǔ)音識(shí)別操作等。還要了解ArkUI的數(shù)據(jù)綁定機(jī)制，方便將ASR識(shí)別結(jié)果和TTS合成狀態(tài)等信息實(shí)時(shí)顯示在界面上。

示例界面設(shè)計(jì)

底部欄：語(yǔ)音采集與文本輸入切換按鈕，點(diǎn)擊切換。

中間區(qū)：文本顯示區(qū)，呈現(xiàn)識(shí)別后文本和輸入內(nèi)容。

頭部欄：標(biāo)題、語(yǔ)音播放按鈕（播放中間區(qū)域文本）、設(shè)置按鈕（語(yǔ)速設(shè)置和聲音模型切換）。

示例功能邏輯

示例基于sherpa_onnx三方庫(kù)開發(fā)，此庫(kù)在OpenHarmony三方庫(kù)中心倉(cāng)下載安裝，鏈接如下：

https://ohpm.openharmony.cn/#/cn/detail/sherpa_onnx

以下所展示的是本示例的流程圖，該流程圖涵蓋了從Vad聲音活動(dòng)檢測(cè)的初始化階段，音頻采集器與渲染器初始化過(guò)程，接著是ASR（自動(dòng)語(yǔ)音識(shí)別）模型和TTS（文本到語(yǔ)音）模型的加載，直至最終成功實(shí)現(xiàn)語(yǔ)音識(shí)別與語(yǔ)音生成的流程。

ASR模型解析核心實(shí)現(xiàn)

1.初始化Vad

Vad聲音活動(dòng)檢測(cè)（Voice activity detection），也稱為語(yǔ)音活動(dòng)檢測(cè)或語(yǔ)音檢測(cè)（speech activity detection或者speech detection），是檢測(cè)人類語(yǔ)音存在與否的技術(shù)，主要用于語(yǔ)音處理。Vad的主要用途在于說(shuō)話人分割（speaker diarization）、語(yǔ)音編碼（speech coding）和語(yǔ)音識(shí)別（speech recognition），初始化vad過(guò)程如下：

2.初始化音頻采集器

初始化一個(gè)音頻采集器，用于從麥克風(fēng)硬件獲取音頻數(shù)據(jù)，注冊(cè)回調(diào)事件micCallback將音頻數(shù)據(jù)存儲(chǔ)到ampleList數(shù)組中。

3.加載ASR模型

語(yǔ)音識(shí)別需要加載一個(gè)ASR模型，用戶可依據(jù)自身業(yè)務(wù)需求下載合適的模型，模型下載地址：

https://github.com/k2-fsa/sherpa-onnx/releases/tag/asr-models。

本示例使用的是sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17模型，支持中文、英文、日文、韓文以及粵語(yǔ)五種語(yǔ)言。

將解壓后的模型文件放入指定路徑中。

路徑：src/main/resources/rawfile

創(chuàng)建語(yǔ)音識(shí)別實(shí)例OfflineRecognizer，加載該模型。

4.語(yǔ)音解析成文字

“按住說(shuō)話”按鈕，當(dāng)手指按下時(shí)采集音頻數(shù)據(jù)，觸發(fā)micCallback回調(diào)保存數(shù)據(jù)，手指抬起時(shí)終止采集，隨后，將數(shù)據(jù)經(jīng)由worker線程發(fā)送至子線程予以解析。

子線程在獲取音頻數(shù)據(jù)之后，將其解析為文字，最終呈現(xiàn)在應(yīng)用界面上，具體解析流程如下：

TTS模型解析核心實(shí)現(xiàn)

1.初始化音頻渲染器

初始化一個(gè)音頻渲染器，用于將音頻數(shù)據(jù)輸出到設(shè)備揚(yáng)聲器。通過(guò)配置音頻參數(shù)和渲染屬性，確保音頻格式與硬件兼容，并建立數(shù)據(jù)寫入的回調(diào)機(jī)制audioPlayCallback。

2.加載TTS模型

語(yǔ)音合成需要加載一個(gè)TTS模型，用戶可依據(jù)自身業(yè)務(wù)需求下載合適的模型，模型下載地址：

https://github.com/k2-fsa/sherpa-onnx/releases/tag/tts-models。

其中有多種文本轉(zhuǎn)語(yǔ)音模型，本示例選用了6種TTS模型，用在設(shè)置界面切換不同的聲音。

將解壓后的模型文件放到指定的路徑下。

路徑：src/main/resources/rawfile

創(chuàng)建語(yǔ)音識(shí)別實(shí)例OfflineTts，加載該模型：

加載完TTS模型后，獲取模型相關(guān)信息，音頻采樣率、說(shuō)話人（音色）數(shù)量，CPU線程數(shù)（本示例為雙線程）。

3.文本解析成音頻

點(diǎn)擊播放圖標(biāo)，播放或暫?？蓪⒅虚g區(qū)域的文字以語(yǔ)音形式予以播放。

將文本信息通過(guò)worker發(fā)送至子線程進(jìn)行語(yǔ)音合成；

text為輸入文本，當(dāng)界面上無(wú)文字時(shí)默認(rèn)“你好”，有文字時(shí)，將文字以句號(hào)分割，使播放句子有停頓效果；

sid說(shuō)話人音色（模型相關(guān)信息numSpeakers）參數(shù)選擇（通常0 ≤ sid ≤ numSpeakers）；

speed語(yǔ)速，默認(rèn)語(yǔ)速為1，可在設(shè)置界面調(diào)節(jié)。

使用tts.generateAsync方法把文字轉(zhuǎn)化為語(yǔ)音，TtsInput為TTS合成輸入?yún)?shù)，文字轉(zhuǎn)成語(yǔ)音后，數(shù)據(jù)由worker回傳至主線程。

接收到語(yǔ)音數(shù)據(jù)后，將數(shù)據(jù)存儲(chǔ)在sampleBuffer數(shù)組，然后通過(guò)this.audioRenderer.start()觸發(fā)語(yǔ)音播放。

效果展示

ASR/TTS示例應(yīng)用代碼

代碼倉(cāng)鏈接：https://gitcode.com/openharmony-sig/applications_ai_model_samples/tree/master/AsrAndTts

AI Model SIG簡(jiǎn)介

AI Model SIG 是經(jīng)開源鴻蒙PMC（項(xiàng)目管理委員會(huì)）正式批準(zhǔn)成立的特別興趣小組（SIG），核心目標(biāo)是豐富開源鴻蒙生態(tài)下的大小應(yīng)用模型，并提供端到端的實(shí)踐范例，為開發(fā)者構(gòu)建 AI 應(yīng)用提供高效支撐。

未來(lái)，AI Model SIG 將圍繞三大方向持續(xù)深耕：

聚焦模型推理框架與多推理后端的深度適配，夯實(shí) AI 能力底層基座；

推進(jìn)多模態(tài)模型的生態(tài)適配與優(yōu)化，拓展 AI 應(yīng)用場(chǎng)景邊界；

將技術(shù)成果分享出來(lái)，確保廣大開發(fā)者可便捷獲取與使用。

同時(shí)，小組將聯(lián)合全球開發(fā)者協(xié)同共建，持續(xù)完善開源鴻蒙 AI 技術(shù)體系，助力打造更具競(jìng)爭(zhēng)力的全場(chǎng)景智能終端生態(tài)。

如果您對(duì)開源鴻蒙AI技術(shù)感興趣，歡迎加入AI Model SIG，一起探索萬(wàn)物智聯(lián)的未來(lái)！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
39

文章
1795

瀏覽量
115168
開源

開源

+關(guān)注

關(guān)注
3

文章
3885

瀏覽量
45305
鴻蒙

鴻蒙

+關(guān)注

關(guān)注
60

文章
2742

瀏覽量
45089

原文標(biāo)題：拆·應(yīng)用丨第3期：開源鴻蒙語(yǔ)音識(shí)別及語(yǔ)音合成應(yīng)用開發(fā)

文章出處：【微信號(hào)：gh_e4f28cfa3159，微信公眾號(hào)：OpenAtom OpenHarmony】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

搜索歷史

基于開源鴻蒙的語(yǔ)音識(shí)別及語(yǔ)音合成應(yīng)用開發(fā)樣例

評(píng)論