【無料】リアルタイム音声認識 文字起こし・翻訳・AIノートアプリ(MacOS[Intel CPU]、オフライン対応、Whisper/Vosk、ChatGPT)
- ダウンロード商品無料ダウンロード¥ 0
- ダウンロード商品開発支援A(中身は無料ダウンロードと同様)¥ 500
- ダウンロード商品開発支援B(中身は無料ダウンロードと同様)¥ 500
- ダウンロード商品開発支援C(中身は無料ダウンロードと同様)¥ 500
リアルタイムな音声認識で文字起こしから翻訳までを、 オフラインまたはオンラインの双方で行えるノートアプリです。 現在、19ヶ国語の文字起こし及び英訳/日本語訳に対応しております。 リアルタイム認識には、Alpha Cephei社のVoskという音声認識ツールを採用し、後から追いかける形で、時間はかかるものの高精度なOpenAI社のWhisperモデルでコンバートをかけています。 (汎用の言語パックの中・高・高(速度優先)という認識精度が、WhisperのMedium・Large v3・Large v3 Turboに対応しています。また日本語・英語の言語パックは、それぞれ、Kotoba-Whisper-v2.0、ReazonSpeech v2.1、distil-whisper/distil-large-v3に対応しています。) 翻訳(日本語)に関しては、FuguMTモデル及びaixsatoshi/Honyaku-13bモデルを利用しています。 Whisperモデルの利用方法として、オンライン・オフラインの双方を提供しております。 セキュリティ面を気にされる方は、設定内でAPIキーを入力しなければ、オフラインでの認識しか選べませんので、安心ください。 なお、Whisper以外にもAmiVoiceにも対応しており、同じくAPIキーを入力することで利用可能です。 このアプリは、マイク及びデスクトップ音声の双方に対応しています。両方を同時に使用する場合は、イヤホンの着用を推奨します。これはスピーカーからの反響音が認識を妨げる可能性があるためです。 マイク利用時には『マイク』権限が必要です。一方、デスクトップ音声の録音及びスクリーンショットには『画面収録』権限が更に必要になります。(初回の利用時に、承認依頼ダイアログが表示されます。) M1, M2, M3 Macを利用の方は、下記からダウンロードしてください。 https://solaoi.booth.pm/items/4675430 このアプリはオープンソースで公開しています。 https://github.com/solaoi/lycoris 継続的なご支援もお待ちしております。 https://solaoi.fanbox.cc/
使用方法
1. ダウンロードしたファイルを解凍してから、クリックするとインストーラが起動するので、ドラッグ・アンド・ドロップでインストールしてください。 2. インストール後、上部メニュー右の歯車(設定)をクリックします。 3. 設定内で、認識したい言語(話し手の言語)の言語パックをダウンロードします。 4. オフラインで追っかけ認識/翻訳する場合は、同じく設定内で、認識したい精度レベルの言語パックをダウンロードします。 5. オンラインで追っかけ認識/翻訳する場合は、同じく設定内で、OpenAI社のAPIキーを入力します。 6. 左上部の検索窓横のノート追加ボタンから、ノートを追加します。 7. 上部メニューの『話し手の言語』、『追っかけ設定』、『利用するマイク』を設定すると、ノート内で録音開始ボタンが押せるようになります。
アップデート方法
下記削除手順に従って、一旦削除後に、 再度使用方法記載の方法で、最新版をインストールしてください。 1. アプリケーション自体のアンインストール 2. 保存データの削除 下記コマンドをターミナルに貼り付けるか、またはAppCleanerなどの削除用アプリを使って削除してください。 ```削除用コマンド rm -rf ~/Library/Application\ Support/blog.aota.Lycoris ```
注意事項
1. 各種言語パックは、高精度なものほど音声認識時に消費メモリが大きくなります。 お使いの環境によっては、動作しない場合がありますのでご了承ください。 2. このアプリを利用して発生した、いかなる損害も保障いたしません。 3. このアプリはベータ版であるため、予期せぬ挙動が発生する場合がございます。
動作環境
推奨OS: macOS 13 Ventura以降 動作確認済OS: Ventura 13.6.6 動作確認済CPU: Intel 動作確認済メモリ: 16GB ※ Sequoiaにて、デスクトップ録音時にクラッシュする不具合を確認しています。後日対応予定です。
アップデート履歴
[2024-11-04: v0.9.23] ・ReazonSpeech v2.1モデルの追加 ・Whisperの認識精度向上(initial_promptを更新) ・1秒未満の音声の追っかけ処理をスキップ [2024-09-18: v0.9.22] ・Whisperの認識精度向上(initial_promptを追加) ・Whisperの認識速度の安定性の向上(FlashAttentionの追加) ・各種モデルのダウンロードの安定性、速度を向上(モデルのホスト先を変更) ・Kotoba-Whipserモデルをv2.0へ更新 ・Whipser Smallモデルの削除 ・Whipser Large V3 Turboモデルの追加 ・fugumt-ja-enモデルの追加 ・kotoba-whisper-bilintual-v1.0モデルの追加 ・スマート読み上げ機能の追加(Style-Bert-VITS2 JP-Extraに対応) ・アクションに、発話サジェスト機能の追加 [2024-09-17: v0.9.21] ・アクション機能(チャット)を追加 ・Markdown/Mermaid記法対応 ・OpenAIのAPI利用時に、gpt-4o-2024-05-13を指定可能 [2024-08-26: v0.9.19] ・AIとの会話モデルに、gpt-4o-miniを追加 ・翻訳パック(日本語:精度優先)を追加 ・ノートのダウンロード機能を追加 ・Amivoiceのログ保存設定を追加 ・各種デザインを調整 [2024-05-26: v0.9.17] ・翻訳パック(日本語:速度優先)を追加 ・モデルダウンロード後の解凍中ステータスの明示 [2024-05-23: v0.9.16] ・AIとの会話モデルに、gpt-4oを追加 ・AmiVoiceに対応 [2024-05-09: v0.9.13] ・再生ボタンが表示されない問題を修正 [2024-05-07: v0.9.12] ・スクリーンショット機能の追加 ・ノート削除時の事前確認モーダルの追加 ・言語パック(日本語:速度優先)のモデルをKotoba-Whisper-v1.1に変更 ・Metalサポートが有効になっていなかったので修正 ・ノート内のメモ表示位置ズレの修正 [2024-04-14: v0.9.10] ・Metalサポート(追っかけ認識の高速化) ・AIとの会話モデルに、gpt-4-turboを追加 ・ヘッダにアプリバージョンを表示 ・メモが存在するノートを削除する際のエラーを修正 [2024-04-08: v0.9.9] ・japanese-asr/distil-whisper-large-v3-ja-reazonspeech-largeに対応(言語パック(日本語:速度優先)が該当) ・言語パック(英語:速度優先)をdistil-whisper/distil-large-v3にアップデート ・オンライン機能が機能しなくなっていた不具合を修正 ・録音開始時の待ち時間を『録音準備中』として明示 [2024-04-05: v0.9.8] ・OpenAIのAPI利用時に、gpt-4-turbo-previewを指定可能 ・デスクトップ音声の録音に対応 [2023-11-27: v0.9.6] ・distil-whisper/distil-large-v2に対応(言語パック(英語:高)が該当) ・OpenAI社のAPI利用時に、gpt-3.5-turbo-1106及びgpt-4-1106-previewを指定可能 [2023-11-27: v0.9.5] ・Whisper largeモデルをv2からv3にアップデート [2023-07-21: v0.9.3] ・OpenAI社のChatAPIのFunction Callingに対応 [2023-07-19: v0.9.2] ・発言冒頭の無音部分を除去 [2023-06-05: v0.9.1] ・ターミナルとChatAPIの連携機能及び発話機能を追加 [2023-05-29: v0.9.0] ・OpenAI社のChatAPIに対応 [2023-04-05: v0.8.0] ・OpenAI社のAPIを叩けるよう機能追加 ・ノートタイトルの編集が一文字単位でしか行えない不具合を修正 [2023-04-03: v0.7.0] ・多言語対応(19ヶ国語) ・翻訳(英)対応
各商品について
いずれも同じアプリがダウンロードされます。 全体の課金額が大きい商品に紐づく機能から、優先して開発いたします。 (優先することを保障するものではありません。あくまでお気持ちとなります。) 開発支援A:DeepL対応 DeepL社のAPIキーを登録して、翻訳できる言語の種類を増やしていきます。 実現すると、リアルタイムで英語->日本語で文字起こし(翻訳)が可能です。 開発支援B:Anthoropic対応 Anthoropic社のAPIキーを登録して、Claudeを利用してOpenAIのAPIで実現している各種機能を代替します。 開発支援C:話者識別対応 書き起こした一文に対して、話者を設定することで、後続の会話で同じ話者かどうか推定します。