星期四, 3月 22, 2007

備忘:Vista使用記「語音輸入」

語音輸入是一個非常吸引人的概念,尤其是對我這種打字速度超慢的人來說,比用注音輸入法一隻手指慢慢敲鍵盤,或者是用倉頡輸入法練到每分鐘30個字,能夠不用快速揮動手指,就有一分鐘60個字的輸入速度,那不是快樂,簡直是神乎其技。這也就是為什麼語音輸入從最早有人推出所謂「金聲一號」,我就想要拿來試用的原因。
過去的語音輸入經驗,並不是那麼順利,首先,好的麥克風不容易找到。早期電腦用的麥克風,只是讓你用來講網路電話,那種取樣頻率受限於窄頻網路頻寬,如果有個8K mono就已經是了不得的大事,實際上,我們的類比式電話,所用的取樣也不過是8Kbit mono。但是這樣的資料量,人類的耳朵可以辨識,電腦根本分不出哪個詞是哪個詞,一點用都沒有。所以語音辨認軟體的發展,是隨著電腦CPU處理速度加快,以及fuzzy演算法的應用而慢慢進展。
大約四五年前,IBM推出他們自己的語音輸入軟體,via voice,中文語音輸入出現大突破,我從via voice的7.0開始用,8.0辨認準確度有提高並支援USB麥克風,9.0改善對windows word的相容度。他內建一個用「台灣國語」(捲舌音不用捲舌)也可以通的七萬字中文音資料庫,加上一個智慧型斷詞校對功能。我的使用經驗,這個輸入法可以讓我輕鬆突破每分鐘90字的輸入速度,真的是非常容易上手的輸入法。可惜在台灣賣的相當差,在9.0以後就不再出新版,IBM把整個語音軟體部門賣掉,這個中文語音輸入法從此走入歷史。
這次vista內建語音輸入,我以為微軟亞洲研究院做出什麼重大突破,例如說新的辨認演算法,可以讓精確度提高到99%,或者是大幅刪減語音訓練的時間,只要十分鐘以內就可以讓辨認軟體熟悉我的聲音。兩天的使用下來,我發現,vista提供的訓練課程過於簡單,而且這些句子重複的字詞太多,兩篇都是微軟的語音辨識軟體參考文件,不像過去IBM的兩篇文章,是一段段不同主題的短文構成。雖然vista用很短的時間就可以訓練完兩篇文章,但是開始使用的結果,辨識率卻相當低,可能只有在50-60%左右。幾乎每個句子都需要停下來使用「更正」功能。要更正一個詞,要先說「更正『??』」,「選項數字」,「確定」。三個步驟,比起寫文章還累。另外,語音輸入的問題,在於我們使用者用口述,這個句子如果錯了6、7個字,有時候一時想不起來,剛剛到底說了什麼用詞?更談不上要「即時校正」了。
到今天來說,我對vista這個功能相當失望,如果IBM的via voice跟windows的相容程度好一點,我大概又會翻出來使用了。

沒有留言: