| images | ||
| Koekaku.Package | ||
| SherpaSTT | ||
| Transcriber_service/Services | ||
| WapProjTemplate1 | ||
| .gitignore | ||
| create_msix.ps1 | ||
| favicon (1).ico | ||
| favicon.ico | ||
| output.txt | ||
| PROJECT_SUMMARY.md | ||
| README.md | ||
| SENSEVOICE_IMPLEMENTATION.md | ||
| start.wav | ||
| StoreCert.pfx | ||
| storeicon.png | ||
| storeicon_transparent.ico | ||
| storeicon_transparent.png | ||
KoeKaku (声書く) - 完全ローカルの音声入力 & 文字起こしツール
Windowsの音声入力機能を代替する、開発者・パワーユーザー向けの高速・高精度な音声入力ツールです。 「Win+H」よりも柔軟なカスタマイズが可能で、完全にローカルで動作するためプライバシーも安心です。
✨ 特徴
- IME非依存の確実な入力:
SendInputAPI (UNICODE) を使用し、IMEの状態(かな/英数)に関わらず正確に入力。 - 高精度な日本語認識:
SherpaOnnx+Parakeet TDT 0.6b v2モデルを採用。 - 完全ローカル動作: 音声データは外部に送信されず、すべてローカルPC上で処理されます。
- 自動セットアップ: 初回起動時に必要なモデル(約720MB)を自動的にダウンロードします。
- 管理者権限不要: 通常のユーザー権限で動作し、スタートアップ登録も可能です。
- Pro版機能: 制限解除でさらに便利にカスタマイズ(後述)。
💎 Pro版 vs 無料版
本アプリは「基本無料」でご利用いただけますが、設定変更などのカスタマイズ機能には制限があります。
[Pro版] ・起動時間制限: 無制限 (常時起動可能) ・音声入力機能: 利用可能 ・マイク感度(VAD)調整: 変更可能 ・ホットキー変更: 自由に変更可能 ・効果音の変更: 好きなWAVファイルに変更可能 ・スタートアップ登録: 自動起動設定が可能
[無料版] ・起動時間制限: 1時間 (再起動でリセットされます) ・音声入力機能: 利用可能 (Pro版と同等) ・マイク感度(VAD)調整: 固定 (変更不可) ・ホットキー変更: 固定 (Ctrl+Alt+H のみ) ・効果音の変更: 固定 (標準音のみ) ・スタートアップ登録: 利用不可
Pro版の購入方法: 設定画面の「情報」タブから「Pro版を購入 / 復元」ボタンをクリックすることで、Microsoft Store経由で購入できます。
🚀 セットアップ
1. 必要な環境
- OS: Windows 10/11 (64bit)
- Runtime: .NET 8.0 Desktop Runtime
- インターネット接続: 初回起動時のモデルダウンロードに必要
2. 起動
- 実行
KoeKaku.exeを実行します。- 初回起動時はモデルのダウンロードが行われます(数分かかる場合があります)。
- 常駐
- 起動するとタスクトレイにアイコンが表示され、バックグラウンドで待機します。
- 「設定」から「Windows起動時に実行する」を有効にすると便利です。
Note
: 管理者権限で動作しているアプリケーション(タスクマネージャーや一部のインストーラーなど)に入力したい場合は、本アプリも「管理者として実行」する必要があります。
📖 使い方
音声入力の開始
- 入力したいテキストボックスやエディタをクリックしてアクティブにします。
- 設定したホットキー(デフォルト:
Ctrl + Alt + H)を押します。- または、タスクトレイアイコンをダブルクリックしても設定画面が開けます。
- 「ピコッ」という開始音が鳴り、画面左上に青いオーバーレイ(認識中インジケータ)が表示されます。
- マイクに向かって話しかけてください。
- 話し終わる(無音が続く)と自動的に認識され、テキストが入力されます。
入力の停止
以下のいずれかの操作で、認識を中断します:
- キーボードの任意のキーを押す
- マウスをクリックする
- 別のウィンドウにフォーカスを移す
- ホットキーをもう一度押す
⚙️ 設定のカスタマイズ
タスクトレイのアイコンを右クリックし、「設定」を選択すると設定画面が開きます。
1. 一般
- Windows起動時に実行する: PC起動時に自動的にアプリを起動します。
- AI テキスト補正: 聞き取った文章をAIモデルで補正し、わかりやすい日本語として出力します。詳しくは「AI テキスト補正」を参照してください。
AI テキスト補正
AI テキスト補正を有効にすると、音声認識後の文章をローカルのAIモデルで見直し、誤字、同音異義語、句読点、不自然な言い回しを整えてから入力します。音声データや文章は外部サービスへ送信されず、補正処理もPC上で完結します。
特徴とメリット
- 音声認識の細かな聞き間違いを補正し、読みやすい日本語に整えます。
- 句読点や文の区切りが自然になり、メール、チャット、メモ、議事録の下書きに使いやすくなります。
- 高速モデルと高精度モデルを用途に応じて選べます。
- LLM補正モデルは最後の使用から30分経過すると自動でアンロードされ、メモリ使用量を抑えます。次にホットキーを押すと再ロードされます。
- ASRモデルは入力開始の即時性を優先して常にロードされます。
モデルのダウンロードと選択
- 高速補正モデル: 軽くて待ち時間が短いモデルです。普段使い、短文入力、PC負荷を抑えたい場合に向いています。
- 高精度補正モデル: より大きいモデルです。長めの文章や自然さを重視したい場合に向いています。
- 両方のモデルをダウンロード済みの場合のみ、設定画面の「補正モデル」で使用するモデルを選択できます。
バックエンド
- 自動: 通常はこちらを選びます。環境に合わせて適切な実行方式を選択します。
- Vulkan (GPU): 対応GPUがある場合、補正が速くなることがあります。
- CPU (AVX2): GPUとの相性問題がある場合や、安定性を優先したい場合に選びます。
補正モード
- 最新の聞き取り文字だけを補正: 今回認識された文章だけを補正します。高速で、短い入力に向いています。
- 文脈を見て全文補正: 同じ入力先に続けて話した文章を文脈として扱い、全体が自然につながるように補正します。長文や連続した文章入力に向いています。
- 意図を汲み取り書き換え: 話し言葉の言い淀みや言い直しを整理し、話者の意図が伝わる短く明確な文章として入力します。依頼文や指示文を音声で素早く作りたい場合に向いています。
使い方
- 設定の「一般」タブで「AI テキスト補正を使用する」をオンにします。
- 「高速補正モデルをダウンロード」または「高精度補正モデルをダウンロード」を押してモデルを準備します。
- 必要に応じて「バックエンド」「補正モデル」「補正モード」を選びます。
- 設定を保存して再起動すると、次回の音声入力から補正が有効になります。
2. 音声
- マイクデバイス: 使用するマイクを選択します。
- 聞き取り中音量ミュート: ONの場合、音声認識中はPCのスピーカー音量を一時的にミュートし、誤ってシステム音や動画の音声を拾ってしまうのを防ぎます(認識が完了または中断すると元の音量に戻ります)。
- 開始音: 入力開始時に再生するWAVファイルを指定できます(デフォルト:
start.wav)。
3. ホットキー
- キー/ボタン: Ctrl, Alt, Shift, Win の組み合わせたキーボードのキー、またはマウスのボタン(左/右/中/X1/X2)を割り当て可能。
- 設定ボタン: 押下後に実際のキー/ボタンを入力して設定します。
4. 詳細
- マイク感度 (VAD): 声を拾う感度を調整します(高いほど小さな声も拾いますが、雑音も拾いやすくなります)。
- ビーム幅: Beam Search時の探索幅(4〜10推奨)。大きいほど処理が遅くなります
5. 情報
- アプリケーションのバージョン、開発者情報、ライセンス情報を確認できます。
- AIコンテンツを通報: 生成されたAIコンテンツに問題がある場合、開発者へ通報することができます。
📜 ライセンス
本ソフトウェアは以下のオープンソースライブラリを使用しています:
- SherpaOnnx: Apache 2.0 License
- Parakeet TDT 0.6b v2: Copyright (c) 2024 NVIDIA CORPORATION & AFFILIATES. All rights reserved. Licensed under the Creative Commons Attribution 4.0 International (CC-BY-4.0) (https://creativecommons.org/licenses/by/4.0/)
- Qwen3: Apache 2.0 License, Copyright (c) 2024 Alibaba Cloud
- LLamaSharp: MIT License, Copyright (c) 2023 SciSharp STACK
- NAudio: MIT License
- .NET Runtime: MIT License