| TranscriberApp | ||
| .gitignore | ||
| history.md | ||
| LICENSE.txt | ||
| LICENSE_whisper.txt | ||
| main.py | ||
| NOTICE.txt | ||
| README.md | ||
| transcriber.py | ||
RTer v6.8.9
高精度・高安定のリアルタイム音声文字起こしアプリケーション
🚀 クイックスタート(初めての方はこちら)
Step 1: アプリを起動する
TranscriberApp.exe をダブルクリックして起動します。
初回起動時は、AIモデルのダウンロードが自動で行われます(約1〜2分)。
Step 2: 初期設定(3つだけ確認)
| 設定項目 | 推奨設定 | 説明 |
|---|---|---|
| 入力モード | マイク+システム音(Mix) |
自分の声と相手の声を同時に記録 |
| 入力デバイス | お使いのマイクを選択 | USBマイクやヘッドセットなど |
| 言語 | 日本語 |
日本語での会議・会話用 |
💡 v3.8からはデフォルトで最適な設定になっています。 特に変更せずにそのまま使えます。
Step 3: 開始する
- 緑の 「スタート」 ボタンをクリック
- 話し始めると、リアルタイムで文字起こしが表示されます
- 終わったら赤の 「ストップ」 ボタンをクリック
📁 文字起こし結果は transcodetext フォルダに自動保存されます。
⚙️ 初期設定のポイント
マイクの音量調整(重要)
話しても文字が出ない場合は、マイクの感度を調整してください。
自動調整(推奨):
- 「自動」ボタン(マイク感度の横)をクリック
- 3秒間、静かにしてください
- 環境ノイズを測定し、最適な感度を自動設定します
手動調整:
- スライダーを 左に動かす → より小さな声でも反応
- スライダーを 右に動かす → 大きな声のみ反応(ノイズ除去)
💡 目安: 話しているときにバーが緑色になればOKです。
録音が必要な場合
会議の音声ファイル(WAV)も保存したい場合:
- 「録音する(WAV)」 にチェックを入れる
- 録音ファイルは
wavフォルダに保存されます
📌 概要
Whisper AI を活用した高速な文字起こし機能を、モダンな C# (WPF) GUIで提供します。 GPU (Vulkan) を自動検出し、利用可能な場合は高速で推論を行います。CPUのみの環境でも動作可能です。
v6.x の特徴
- 「喋っていない時は何も出力せず、喋った瞬間に完璧な日本語を返す」
- ハルシネーション(無音時の幻覚テキスト)を物理的に遮断
- AGC (自動音量調整) により、小さなマイク音声もシステム音に負けない適切なレベルで記録
- 【New】ReazonSpeech-k2-v2 対応: 日本語特化の超軽量・高精度モデルをサポート (CPU推論に最適化)
- 【v6.8】Ghost Subtitle (ミニモード): 作業を邪魔しない透過オーバーレイ字幕機能
- 【v6.8.2】ゴースト字幕の位置・サイズ調整対応: RTerがアクティブ時にドラッグ移動・リサイズ可能
- 【v6.8.3】フォントサイズ調整対応: 編集モードで字幕のフォントサイズを0.5pt刻みで調整可能
- 【v6.8.4】フォントスタイル選択対応: 5種類のフォントスタイルから選択可能。字幕ボタンONで自動的に編集モードで起動
📁 ディレクトリ構成
RealtimeTranscoder/
├── TranscriberApp.exe # メインアプリケーション
├── whisper_backend/ # (旧v3.0以前の名残/現在は未使用)
├── transcodetext/ # 文字起こしテキスト保存先
├── wav/ # 録音WAVファイル保存先
├── temp/ # 一時ファイル
├── words.txt # ユーザー辞書ファイル
├── transcriber_settings.ini # アプリ設定ファイル
└── Models/ # ローカルモデル置き場
🎛️ メニュー・設定項目 詳細解説
▼ 設定グループ
【入力モード】
音声をキャプチャするソースを選択します。
| モード | 説明 | 使用例 |
|---|---|---|
| マイクのみ | PCに接続されたマイクからの音声のみをキャプチャ | 自分の発言のみを記録したい場合 |
| システム音のみ | PCから出力される音声(スピーカー出力)をキャプチャ | YouTube動画やWeb会議の相手の声を文字起こし |
| マイク+システム音(Mix) | マイクとシステム音を同時にキャプチャ | Web会議で自分と相手の両方を記録 |
設定方法:
- 「入力モード」ドロップダウンをクリック
- 目的に合ったモードを選択
- 選択に応じて「入力デバイス」「システム音ソース」の表示が自動で切り替わります
💡 推奨: Web会議の議事録作成には「マイク+システム音(Mix)」を使用
【ミニモード (Ghost Subtitle)】
通常のウィンドウよりもコンパクトで、他の作業の邪魔にならない字幕専用ウィンドウを表示します。
| 機能 | 説明 |
|---|---|
| 常に手前に表示 | ゲーム画面や他のアプリの上にオーバーレイ表示されます |
| クリック透過 | 字幕の後ろにあるボタンなどを操作できます (透過ON時) |
| 自動フェードアウト | 一定時間(デフォルト10秒)発言がないと、自動的に薄くなります |
| 位置・サイズ調整 | [v6.8.2] 編集モード時、ドラッグで移動・リサイズ可能 |
| フォントサイズ調整 | [v6.8.3] 編集モード時、左側の▲▼ボタンで0.5pt刻みで調整可能 (8pt〜32pt) |
| フォントスタイル | [v6.8.4] 編集モード時、5種類のスタイルから選択可能 |
操作方法 (v6.8.4 改善!):
- 切り替え: ツールバーの「👻字幕」ボタンをクリック
- ボタンがONになると、緑色のウィンドウモード(編集モード)で起動します
- スタート前でも字幕ボタンを押すだけで編集モードで表示されます
- 編集モードでの調整:
- 緑の枠をドラッグ → ウィンドウ位置を移動
- 右下の緑のグリップをドラッグ → ウィンドウサイズを変更
- 左側の▲▼ボタン → フォントサイズ調整
- 上部の1〜5ボタン → フォントスタイル選択
- 1: 白文字・黒影
- 2: 黒文字・白影
- 3: 白文字・黒影(太)
- 4: 黄文字・黒影
- 5: 薄青文字・黒影
- 透過モードへの切り替え:
- RTerウィンドウから他のアプリに切り替えると、自動で透過モードになります
- 透過モード中は緑の枠や調整ボタンが非表示になり、字幕のみが表示されます
- 再度編集したい場合:
- 字幕ボタンをOFF→ONにすると、再び編集モードで起動します
- 設定の保存: 位置・サイズ・フォントサイズ・フォントスタイル・表示状態は自動的に保存され、次回起動時に復元されます
【入力デバイス】
マイク入力に使用するデバイスを選択します(マイクモード使用時のみ表示)。
設定方法:
- 「入力デバイス」ドロップダウンをクリック
- 使用するマイクを選択(例: 「マイク (Realtek Audio)」)
注意点:
- Windows のサウンド設定で認識されているマイクのみ表示されます
- USBマイクを接続した場合は、アプリを再起動するとリストに反映されます
【システム音ソース】
システム音をキャプチャする出力デバイスを選択します(システム音モード使用時のみ表示)。
設定方法:
- 「システム音ソース」ドロップダウンをクリック
- キャプチャしたい出力デバイスを選択(例:「スピーカー (Realtek Audio)」、「ヘッドフォン」など)
使用例:
- 通常は「既定の出力デバイス」を選択
- 特定のヘッドフォンやスピーカーからの出力をキャプチャしたい場合に変更
【言語】
文字起こし対象の言語を選択します。
| 言語 | 動作 |
|---|---|
| 日本語 | 日本語音声を日本語テキストに変換(翻訳なし) |
| 英語 | 英語音声を英語テキストに変換し、さらに日本語に自動翻訳 |
設定方法:
- 「言語」ドロップダウンをクリック
- 「日本語」または「英語」を選択
英語選択時の動作:
- 画面が左右2分割になります
- 左: 原文(英語テキスト)
- 右: 翻訳(日本語訳)
【モデル】
使用するAIモデルを選択します。 v5.4以降、実用的な4つのモデルに厳選されました。
| モデル | 精度 | 速度 | VRAM | 推奨デバイス | 特徴 |
|---|---|---|---|---|---|
| ReazonSpeech (JP) | ★★★★ | ★★★★★ | tiny | CPU推奨 | 日本語特化。超高速・高精度。事務用ノートPCに最適。 |
| large-v3-turbo | ★★★★ | ★★★★ | ~4GB | GPU推奨 | large-v3並の精度で爆速。汎用性が高い。 |
| large-v3 | ★★★★★ | ★★★ | ~10GB | GPU必須 | 最高精度だが重い。最強のGPUを持っている人向け。 |
| large-v2 | ★★★★★ | ★★★ | ~8GB | GPU推奨 | 【v6.6 New】旧安定版モデル。音楽や環境音に強い傾向がある。 |
| GigaSpeech English | ★★★★★ | ★★★★★ | 72MB | CPU推奨 | 【v6.5 New】10,000時間の実環境音声で学習。早口・雑音に強い。 |
💡 推奨: 基本的に ReazonSpeech (JP) で十分な精度と速度が出ます。GPUがある場合は large-v3-turbo もおすすめです。
【量子化 (Quantization)】
モデルの圧縮方式を選択します。画質と速度のトレードオフのような設定です。
| 項目 | 説明 | 推奨環境 |
|---|---|---|
| Q5 (推奨) | 5bit圧縮。精度劣化を抑えつつ軽量化。 | 一般的なPC (RAM 16GB) |
| INT8 (ONNX) | ReazonSpeech用の8bit圧縮。非常に高速。 | CPU環境 (iGPU含む) |
| Q8_0 (INT8) | 8bit圧縮。計算効率が良い。 | 高性能CPU / Mac |
| FP16 | 圧縮なし(フル精度)。 | 専用GPU (VRAM 8GB以上) |
| FP32 | 倍精度。 | ReazonSpeechで極限の精度を求める場合 |
💡 デフォルトで最適なものが選択されています。よくわからない場合は変更不要です。
【デバイスモード表示】
現在のAI処理デバイスと設定を表示するラベルです。
| 表示 | 色 | 説明 |
|---|---|---|
| デバイスモード: GPU (検出数: N) | 🟢 緑 | NVIDIA GPUが検出(Vulkanアクセラレーション) |
| デバイスモード: CPU | 🟠 オレンジ | CPUで処理 |
v5.5以降の挙動:
- ReazonSpeech / Sherpa English: 常に CPUモード で動作します(iGPU等でも爆速なため)。
- large-v3 / turbo: 可能なら GPU (Vulkan) を使用し、なければ CPU にフォールバックします。
【音量しきい値(感度)】
音声検出の感度を調整するスライダーです。v2.1.2で調整範囲が大幅に拡大されました。
仕組み:
- 入力音量がしきい値を超えた場合のみ文字起こし処理が実行されます
- しきい値が低い → 小さな音でも反応(ノイズも拾いやすい)
- しきい値が高い → 大きな音にのみ反応(静かな声を拾いにくい)
v2.1.2 指数カーブ対応表:
| スライダー値 | RMS閾値 | 用途 |
|---|---|---|
| 10 | 0.001 | 非常に静かな環境 |
| 20 | 0.004 | 静かな部屋 |
| 30 (デフォルト) | 0.009 | オフィス(適度な雑音) |
| 50 | 0.025 | 騒がしい環境 |
| 70 | 0.049 | 非常に騒がしい環境 |
| 100 | 0.1 | 最大感度 |
設定方法:
- スライダーを左右にドラッグして調整
- リアルタイムで現在の音量レベルが表示されます
- バーが緑色に変わる = しきい値を超えている(音声として認識される)
表示の見方:
- 感度: 設定したスライダー値と対応するRMS値
- バーの色:
- グレー = 音量がしきい値以下
- 緑 = 音量がしきい値を超えている
【録音する(WAV)】チェックボックス
会議音声全体をWAVファイルとして保存するかどうかを設定します。
| 状態 | 動作 |
|---|---|
| ✅ オン | wav フォルダに録音ファイルを保存(例: 20251231_230000.wav) |
| ⬜ オフ | 録音しない(文字起こしテキストのみ保存) |
注意: 長時間録音はディスク容量を消費します(1時間 ≒ 約600MB)
▼ 詳細設定 (保存先)
「詳細設定 (保存先)」エキスパンダーをクリックすると展開されます。
【テキスト保存先】
文字起こし結果のテキストファイルを保存するフォルダを指定します。
デフォルト: アプリフォルダ内の transcodetext フォルダ
設定方法:
- 「詳細設定 (保存先)」をクリックして展開
- 「テキスト保存先」の「参照...」ボタンをクリック
- 任意のフォルダを選択
ファイル名形式: transcribe_YYYYMMDD_HHmmss.txt
【WAV保存先】
録音WAVファイルを保存するフォルダを指定します。
デフォルト: アプリフォルダ内の wav フォルダ
設定方法:
- 「詳細設定 (保存先)」をクリックして展開
- 「WAV保存先」の「参照...」ボタンをクリック
- 任意のフォルダを選択
ファイル名形式: YYYYMMDD_HHmmss.wav
▼ ボタン操作
【スタート】ボタン 🟢
リアルタイム文字起こしを開始します。
動作:
- 現在の設定を保存
- 必要に応じてモデルをロード
- 音声キャプチャを開始
- テキストボックスに会議日時ヘッダーを追加
- ステータスが「聞き取り中...」に変化
【ストップ】ボタン 🔴
リアルタイム文字起こしを停止します。
動作:
- 音声キャプチャを停止
- 短すぎるログ(5行以下)は自動削除
- 短すぎる録音ファイル(10KB未満)は自動削除
- 設定UIのロックを解除
【クリア】ボタン
テキストボックスの内容をクリアします。
⚠️ クリアしても保存済みのファイルは削除されません
【コピー】ボタン
テキストボックスの内容をクリップボードにコピーします。
コピー形式:
=== 原文 ===
[原文テキスト]
=== 翻訳 === ← 英語モードの場合のみ
[翻訳テキスト]
【📁 フォルダ】ボタン
一時ファイルフォルダを開きます(デバッグ用)。
【🐛 デバッグ】ボタン
デバッグコンソールウィンドウを開きます。
表示内容:
- バックエンドからのログメッセージ
- 辞書のロード状況
- エラーメッセージ
- VAD判定結果
- 処理時間
📂 ドラッグ&ドロップ機能
使い方
- WAVまたはMP3ファイルをアプリウィンドウにドラッグ
- ウィンドウにドロップ
- 自動で文字起こしが開始されます
対応形式
| 形式 | 拡張子 |
|---|---|
| WAV | .wav |
| MP3 | .mp3 |
動作詳細
- 複数ファイルを同時にドロップ可能(順番に処理)
- 長時間のファイルも無音区間を検出して効率的に処理
- 処理中に「ストップ」ボタンで中断可能
📖 ユーザー辞書機能 (words.txt)
固有名詞や専門用語の認識精度を向上させます。
設定方法
- アプリフォルダ内の
words.txtを開く - 認識させたい単語を記述
- アプリを再起動(または次回起動時に反映)
記述形式
1行1単語方式:
東京スカイツリー
渋谷ヒカリエ
カンマ区切り方式:
DataGrid, ViewModel, ObservableCollection
コメント:
# この行は無視されます
推奨単語数
words.txtの単語はWhisperの初期プロンプトとして使用されます。単語数が多すぎるとコンテキストを圧迫するため、10〜30個程度に絞ることを推奨します。
| 単語数 | 処理への影響 | 推奨度 |
|---|---|---|
| 〜30個 | ほぼ影響なし | ✅ 推奨 |
| 〜100個 | 軽微(無視可能) | ⚠️ 許容範囲 |
| 300個以上 | コンテキスト圧迫 | ❌ 非推奨 |
効果的な運用のコツ
- 固有名詞を優先: 会社名、人名、製品名など、一般的な辞書に含まれない単語を重点的に追加
- 頻出単語に絞る: 会議で頻繁に登場する重要な単語のみを登録
- 一般的な単語は不要: 「会議」「資料」などは追加しなくてもWhisperは認識できます
⚠️ 注意: ReazonSpeechモデル使用時は、words.txtの単語は適用されません(Whisper専用機能)。
⚙️ バックエンド設定ファイル (whisper_config.ini)
v2.0以降、バックエンドの詳細設定が可能です。
ファイル形式
# Whisperバックエンド設定ファイル v2.0
# transcriber.py 設計思想準拠 - 安定性と精度最優先
[cuda]
# CUDA(GPU)モードでの設定 - 精度重視
beam_size = 5
patience = 1.0
no_speech_threshold = 0.6
condition_on_previous_text = true
[cpu]
# CPUモードでの設定 - パフォーマンス考慮
beam_size = 3
patience = 1.0
no_speech_threshold = 0.6
condition_on_previous_text = true
[vad]
# エネルギーベースVAD設定(現在はフロントエンド側でVAD実行)
threshold_rms = 0.005
min_silence_ms = 500
pre_speech_pad_ms = 200
post_speech_pad_ms = 300
[postprocess]
# テキスト後処理
remove_spaces = true # 日本語間のスペース除去
suppress_repeats = true # リピート抑制
min_text_length = 2 # 最小テキスト長
[model]
# モデル自動切替
auto_fallback = true
fallback_threshold_sec = 10.0
主要パラメータ解説
| パラメータ | 説明 | デフォルト値 |
|---|---|---|
beam_size |
ビームサーチ幅(大きいほど精度↑速度↓) | CUDA=5, CPU=3 |
patience |
ビームサーチ忍耐度 | 1.0 |
no_speech_threshold |
無音判定閾値 | 0.6 |
condition_on_previous_text |
文脈維持フラグ | true |
remove_spaces |
日本語間スペース除去 | true |
suppress_repeats |
リピートテキスト抑制 | true |
🏗️ インストールとビルド
必要要件
| 項目 | 要件 |
|---|---|
| OS | Windows 10/11 (64bit) |
| .NET | 8.0 SDK (Self-Contained ビルドのため不要) |
| GPU (推奨) | NVIDIA GPU + CUDA 12.x / cuDNN 9.x |
ビルド手順
-
バックエンドのビルド
cd win/backend build_backend.batwin/backend/dist/whisper_backendフォルダが生成されます。 -
フロントエンドのビルド
cd win dotnet build --configuration Release -
配置
- バックエンドの
whisper_backendフォルダをAppDistにコピー - フロントエンドの exe を
AppDistにコピー
- バックエンドの
▶️ 実行方法
TranscriberApp.exeを起動- デバイスモードを確認(GPU/CPU)
- 入力デバイスを選択
- 「スタート」ボタンを押す
- 「聞き取り中...」と表示されたら話しかける
🛠️ トラブルシューティング
GPUが認識されない
確認事項:
- NVIDIA ドライバが最新か
- CUDA 12.x がインストールされているか
- cuDNN 9.x がパスに含まれているか
対処法:
- NVIDIA GPUドライバを更新
- CUDA Toolkit 12.x をインストール
- cuDNN 9.x のDLLをアプリフォルダまたはシステムパスに配置
音声が認識されない
症状: 「聞き取り中...」のまま文字が出力されない
確認事項:
- 音量メーターが動いているか確認
- 音量しきい値が高すぎないか確認
- バー色が緑に変わるか確認
対処法:
- しきい値を下げる(スライダーを左へ)
- 入力デバイスが正しいか確認
- Windowsのサウンド設定でマイクが有効か確認
ハルシネーション(無音時に不要なテキストが出る)
v2.x での対策:
- フロントエンドVADにより、しきい値を超えた音声のみをバックエンドに送信
- 無音区間はそもそもWhisperに送られないため、ハルシネーションが発生しない
対処法:
- 感度スライダーを調整して、ノイズを拾わないようにする
📋 改版履歴
詳細な改版履歴は history.md を参照してください。
v6.8.9 (2026-01-13)
- 商用Release版ブランチの作成:
commercial-releaseブランチを分離作成し、Google非公式翻訳API機能を完全削除しました。
v6.8.8 (2026-01-13)
- 言語切り替えバグ修正:
- Whisperモデルで言語設定を変更しても、前回の言語状態が残って出力がおかしくなる(英語なのに日本語が出る等)問題を修正しました。
v6.8.7 (2026-01-13)
- 英語モード時のプロンプト汚染対策:
- 言語が「英語」のとき、初期プロンプトや辞書に日本語が含まれている場合、自動的に英語プロンプトに置換してハルシネーションを防止するように改善しました。
v6.8.6 (2026-01-13)
- 量子化設定の保存修正:
- 量子化タイプの選択が正しく保存・復元されない問題を修正しました。
v6.8.5 (2026-01-12)
- Sherpaエンジン用動的VAD閾値を改良:
- 長時間のバッファ滞留時の応答性を向上させるため、バッファ長に応じた閾値をより細かく設定しました。
- バッファが20秒以上: 0.3秒で区切り / 25秒以上: 0.2秒で区切り
v6.5.6 (2026-01-11)
- words.txt先頭の不要文字を修正:
- BOM付きUTF-8で書き込んでいたため先頭に
_#のような文字が付く問題を修正。 - BOMなしUTF-8(
new UTF8Encoding(false))で書き込むように変更。
- BOM付きUTF-8で書き込んでいたため先頭に
v6.5.5 (2026-01-11)
- words.txt初期設定の改善:
- 初回生成時の不要なサンプル単語(DataGrid, ViewModel等)を削除。
- コメント行の書式を正しい
#から始まる形式に修正。
v6.7.5 (2026-01-11)
- Sherpa長時間音声処理のバグ修正:
- 30秒を超える音声をトランスコードする際、最初のチャンク以降の認識結果が短くなる(一部しかトランスコードされない)問題を修正しました。
- 分割処理のバッファ管理ロジックを修正し、全チャンクが正しく認識されるようになりました。
v6.7.4 (2026-01-11)
- 初期設定ウィザードの挙動変更:
- ウィザード画面を「×」ボタン等で閉じた場合(キャンセル時)、設定ファイルを保存せずにアプリケーションを即座に終了するように変更しました。
- 従来はキャンセル時にデフォルト設定で続行していましたが、意図せずアプリが起動してしまうのを防ぎます。
v6.7.3 (2026-01-11)
- 初期設定ウィザードの表記修正:
- GPUモード説明を「高性能なGPU専用カード搭載PC(推奨)」に変更し、推奨モデルを
large-v2と明記しました。 - CPUモード説明から「/ Sherpa (英語)」を削除し、初回は ReazonSpeech のみが導入されることを明確化しました。
- GPUモード説明を「高性能なGPU専用カード搭載PC(推奨)」に変更し、推奨モデルを
- 自動キャリブレーション改善:
- 初期設定時のシステム音感度測定を廃止し、デフォルト値(30)を固定で適用するように変更しました。
- 初期設定時は通常システム音が鳴っていないため、測定しても意味がなく、かえって不正確な値になるためです。
- マイク感度のみを測定し、適切な初期値を設定します。
v6.7.2 (2026-01-11)
- 自動キャリブレーション修正:
- 音量測定(RMS)が正しく開始されず、感度が最小(10)になってしまう問題を修正するため、測定前の待機処理とエラーチェックを追加しました。
v6.7.1 (2026-01-11)
- 初期設定ウィザード調整:
- GPUモード選択時の推奨デフォルトモデルを
large-v2に変更しました(安定性重視)。 - オーディオデバイス選択のリスト表示が見えない(白地に白)問題を修正しました。
- GPUモード選択時の推奨デフォルトモデルを
v6.7.0 (2026-01-11)
- 初期設定ウィザードの実装:
- 初回起動時(設定ファイルがない場合)に、PC環境に最適な設定を案内するセットアップ画面を追加しました。
- GPUの有無に応じて推奨モデル(Whisper Large v2 または ReazonSpeech)を選択できます。
- 入力/出力デバイス、保存先フォルダを一括で設定可能になりました。
- 自動音響キャリブレーション:
- 起動時に、選択されたモデルのダウンロードと並行して、マイクのノイズレベルを自動測定し、最適な入力感度を自動設定する機能を搭載しました。
- GUI改善:
- モデル選択リストの配色を変更し、より直感的にしました(Whisper=緑、Sherpa/Reazon=青)。
v6.6.3 (2026-01-11)
- バグ修正:
- 初回起動時など、モデル切り替えと設定ロードのタイミングによって、不正な量子化タイプ(例: ReazonSpeechでFP16)が選択されてしまい、エラーが発生したり誤ったダウンロードを試行する問題を修正しました。
- 初期化時にモデルと量子化タイプの適合性をチェックし、不整合がある場合は自動的にそのモデルのデフォルト推奨設定(INT8/Q5など)を適用する安全策を追加しました。
v6.6.2 (2026-01-11)
- バグ修正:
large-v2モデル追加に伴い、初期設定(iniファイルなし)時のデフォルトモデル選択がずれていた問題を修正。- 正しく
ReazonSpeech(軽量・高速な日本語モデル) がデフォルトで選択されるようにインデックスを調整しました。
v6.6.1 (2026-01-11)
- GUI改善:
- モデル選択の視認性向上: モデルリストを色分けし、推奨ハードウェアを分かりやすくしました。
- 🟧 オレンジ: SherpaOnnxモデル (CPU推奨)
- 🟦 青: Whisperモデル (NVIDIA GPU推奨)
- モデル選択の視認性向上: モデルリストを色分けし、推奨ハードウェアを分かりやすくしました。
v6.6 (2026-01-11)
- 機能追加:
- large-v2 モデル追加: 安定版として評価の高い
large-v2モデルおよびその量子化版を追加しました。
- large-v2 モデル追加: 安定版として評価の高い
- GUI改善:
- メニューバーのバージョン表記スタイルをスッキリさせ、メイン画面の表示領域を確保しました。
- バグ修正:
- SherpaOnnx (ReazonSpeech) 長時間バッファ処理: 30秒を超える長い音声サンプルが送られてきた際、分割位置の検索ロジックが誤っていた問題を修正し、正常に認識されるようにしました。オーバーラップ処理も追加し、分割点での音切れを防止しています。
v6.5.4 (2026-01-11)
- システム音のみ/マイクのみモード時の遅延修正:
- 入力バッファ監視ロジックがマイクのみを参照していたため、システム音のみモードで感度バーの遅延や大量チャンクが一気に送信される問題を修正。
- 各モードに応じて適切なバッファ(マイク/システム音/両方)をチェックするように改善。
v6.5.3 (2026-01-11)
- レガシーフォルダ自動削除の削除: v6.5.2で追加された自動削除機能を削除(手動削除に変更)。
v6.5.2 (2026-01-11)
- モデルフォルダ統合: ダウンロード時に重複フォルダが作成される問題を修正。
ModelQuantMapのFileNameを実際の解凍先フォルダ名に統一。- ディスク使用量が約1/2〜1/3に削減。
v6.5.1 (2026-01-11)
- 初回起動時のバグ修正: 設定ファイルなしで起動した際に誤ったモデル (
large-v3) をダウンロードしようとする問題を修正。 - モデル存在チェック改善: GigaSpeech (
epoch-30) と ReazonSpeech (epoch-99) の両方のファイル名に対応。 - GigaSpeech出力の小文字化: 全大文字で出力される英語テキストを読みやすい形式に変換。
v6.5 (2026-01-11)
- 英語モデル刷新: Sherpa English を GigaSpeech English に置き換え。
- 10,000時間のPodcast/YouTube等の実環境音声で学習した高精度モデル。
- 早口、雑音、言いよどみに強く、実用的な英語認識精度が大幅向上。
- モデルサイズは約72MBと超軽量(旧モデルより軽量化)。
- 初期デフォルト変更: 設定ファイルがない場合のデフォルトモデルを ReazonSpeech (日本語) に統一。
v6.4 (2026-01-11)
- READMEおよび履歴更新:
- ドキュメントを最新化しました。量子化オプションの詳細な説明を追加しました。
- GUI上のツールチップ(直感的なヘルプ)を拡充し、各オプションの意味を分かりやすくしました。
v6.3 (2026-01-09)
- ボリューム表示改善: 高負荷時のバッファ遅延を解消し、ボリュームメーターのリアルタイム性を向上。
v6.1 (2026-01-09)
- 英語認識時の挙動改善: 辞書ファイル(words.txt)のコメント行(#)を無視するように修正し、プロンプト汚染による認識精度低下を防止。
v6.0 (2026-01-09)
- リブランドとUX改善:
- アプリ名を RTer に変更。
- 初回デフォルトモデルを ReazonSpeech(JP) (INT8) に設定。
- モデルダウンロードサイズ表記と解凍中メッセージを改善。
📄 ライセンス
本ソフトウェアは Whisper (MIT), SherpaOnnx (Apache 2.0) を使用しています。
詳細は同梱の LICENSE.txt (Apache 2.0), LICENSE_whisper.txt (MIT), NOTICE.txt を参照してください。
お問い合わせ・バグ報告: [GitHub Issues] または開発者まで