三腳貓的隨想筆記本: 備忘：Vista使用記「語音輸入」

星期四, 3月 22, 2007

備忘：Vista使用記「語音輸入」

語音輸入是一個非常吸引人的概念，尤其是對我這種打字速度超慢的人來說，比用注音輸入法一隻手指慢慢敲鍵盤，或者是用倉頡輸入法練到每分鐘30個字，能夠不用快速揮動手指，就有一分鐘60個字的輸入速度，那不是快樂，簡直是神乎其技。這也就是為什麼語音輸入從最早有人推出所謂「金聲一號」，我就想要拿來試用的原因。
過去的語音輸入經驗，並不是那麼順利，首先，好的麥克風不容易找到。早期電腦用的麥克風，只是讓你用來講網路電話，那種取樣頻率受限於窄頻網路頻寬，如果有個8K mono就已經是了不得的大事，實際上，我們的類比式電話，所用的取樣也不過是8Kbit mono。但是這樣的資料量，人類的耳朵可以辨識，電腦根本分不出哪個詞是哪個詞，一點用都沒有。所以語音辨認軟體的發展，是隨著電腦CPU處理速度加快，以及fuzzy演算法的應用而慢慢進展。
大約四五年前，IBM推出他們自己的語音輸入軟體，via voice，中文語音輸入出現大突破，我從via voice的7.0開始用，8.0辨認準確度有提高並支援USB麥克風，9.0改善對windows word的相容度。他內建一個用「台灣國語」（捲舌音不用捲舌）也可以通的七萬字中文音資料庫，加上一個智慧型斷詞校對功能。我的使用經驗，這個輸入法可以讓我輕鬆突破每分鐘90字的輸入速度，真的是非常容易上手的輸入法。可惜在台灣賣的相當差，在9.0以後就不再出新版，IBM把整個語音軟體部門賣掉，這個中文語音輸入法從此走入歷史。
這次vista內建語音輸入，我以為微軟亞洲研究院做出什麼重大突破，例如說新的辨認演算法，可以讓精確度提高到99％，或者是大幅刪減語音訓練的時間，只要十分鐘以內就可以讓辨認軟體熟悉我的聲音。兩天的使用下來，我發現，vista提供的訓練課程過於簡單，而且這些句子重複的字詞太多，兩篇都是微軟的語音辨識軟體參考文件，不像過去IBM的兩篇文章，是一段段不同主題的短文構成。雖然vista用很短的時間就可以訓練完兩篇文章，但是開始使用的結果，辨識率卻相當低，可能只有在50-60％左右。幾乎每個句子都需要停下來使用「更正」功能。要更正一個詞，要先說「更正『？？』」，「選項數字」，「確定」。三個步驟，比起寫文章還累。另外，語音輸入的問題，在於我們使用者用口述，這個句子如果錯了6、7個字，有時候一時想不起來，剛剛到底說了什麼用詞？更談不上要「即時校正」了。
到今天來說，我對vista這個功能相當失望，如果IBM的via voice跟windows的相容程度好一點，我大概又會翻出來使用了。

沒有留言:

張貼留言

三腳貓的隨想筆記本

星期四, 3月 22, 2007

備忘：Vista使用記「語音輸入」

沒有留言:

關於我自己

Riceben看的網頁

網誌存檔

Site Meter