Whisper - OpenAI開源的最強語音轉文字模型

Whisper也是由近期很熱門的ChatGPT開發組織OpenAI所開源的,Whisper在多語言任務中的識別能力非常強,能夠將聲音轉成文字並同步進行翻譯

Whisper - OpenAI開源的最強語音轉文字模型

Install

ffmpeg

Windows要裝ffmpeg會比其他OS麻煩些,如果懶惰的話也可以用conda裝

conda install -c conda-forge ffmpeg

Python Packages

如果是Nvidia顯卡或是一般的x86 CPU都可以很簡單安裝(Nvidia顯卡需要對應版本的驅動)

pip install -U openai-whisper

理論上M系列晶片的CPU版也可以使用上述的安裝方式,如果有遇到任何安裝上的錯誤可以參考這篇的解決方式