No description
Find a file
2026-01-13 12:05:56 +09:00
TranscriberApp v6.8.8 言語切り替え時のバグ修正: 2026-01-13 10:26:35 +09:00
.gitignore v3.9.1 .gitignoreを適用: 不要ファイルをインデックスから除外 2026-01-07 11:30:31 +09:00
history.md Update docs to reflect commercial-release branch creation 2026-01-13 12:05:56 +09:00
LICENSE.txt ライセンス表記を実施 2026-01-11 16:34:22 +09:00
LICENSE_whisper.txt ライセンス表記を実施 2026-01-11 16:34:22 +09:00
main.py v3.5(認識精度向上、CPUモードの強制、事前処理スキップ) 2026-01-05 12:56:20 +09:00
NOTICE.txt ライセンス表記を実施 2026-01-11 16:34:22 +09:00
README.md Update docs to reflect commercial-release branch creation 2026-01-13 12:05:56 +09:00
transcriber.py v3.5(認識精度向上、CPUモードの強制、事前処理スキップ) 2026-01-05 12:56:20 +09:00

RTer v6.8.9

高精度・高安定のリアルタイム音声文字起こしアプリケーション


🚀 クイックスタート(初めての方はこちら)

Step 1: アプリを起動する

TranscriberApp.exe をダブルクリックして起動します。 初回起動時は、AIモデルのダウンロードが自動で行われます約1〜2分

Step 2: 初期設定3つだけ確認

設定項目 推奨設定 説明
入力モード マイク+システム音(Mix) 自分の声と相手の声を同時に記録
入力デバイス お使いのマイクを選択 USBマイクやヘッドセットなど
言語 日本語 日本語での会議・会話用

💡 v3.8からはデフォルトで最適な設定になっています。 特に変更せずにそのまま使えます。

Step 3: 開始する

  1. 緑の 「スタート」 ボタンをクリック
  2. 話し始めると、リアルタイムで文字起こしが表示されます
  3. 終わったら赤の 「ストップ」 ボタンをクリック

📁 文字起こし結果は transcodetext フォルダに自動保存されます。


⚙️ 初期設定のポイント

マイクの音量調整(重要)

話しても文字が出ない場合は、マイクの感度を調整してください。

自動調整(推奨):

  1. 「自動」ボタン(マイク感度の横)をクリック
  2. 3秒間、静かにしてください
  3. 環境ノイズを測定し、最適な感度を自動設定します

手動調整:

  • スライダーを 左に動かす → より小さな声でも反応
  • スライダーを 右に動かす → 大きな声のみ反応(ノイズ除去)

💡 目安: 話しているときにバーが緑色になればOKです。

録音が必要な場合

会議の音声ファイルWAVも保存したい場合

  1. 「録音する(WAV)」 にチェックを入れる
  2. 録音ファイルは wav フォルダに保存されます

📌 概要

Whisper AI を活用した高速な文字起こし機能を、モダンな C# (WPF) GUIで提供します。 GPU (Vulkan) を自動検出し、利用可能な場合は高速で推論を行います。CPUのみの環境でも動作可能です。

v6.x の特徴

  • 「喋っていない時は何も出力せず、喋った瞬間に完璧な日本語を返す」
  • ハルシネーション(無音時の幻覚テキスト)を物理的に遮断
  • AGC (自動音量調整) により、小さなマイク音声もシステム音に負けない適切なレベルで記録
  • 【New】ReazonSpeech-k2-v2 対応: 日本語特化の超軽量・高精度モデルをサポート (CPU推論に最適化)
  • 【v6.8】Ghost Subtitle (ミニモード): 作業を邪魔しない透過オーバーレイ字幕機能
  • 【v6.8.2】ゴースト字幕の位置・サイズ調整対応: RTerがアクティブ時にドラッグ移動・リサイズ可能
  • 【v6.8.3】フォントサイズ調整対応: 編集モードで字幕のフォントサイズを0.5pt刻みで調整可能
  • 【v6.8.4】フォントスタイル選択対応: 5種類のフォントスタイルから選択可能。字幕ボタンONで自動的に編集モードで起動

📁 ディレクトリ構成

RealtimeTranscoder/
├── TranscriberApp.exe        # メインアプリケーション
├── whisper_backend/          # (旧v3.0以前の名残/現在は未使用)
├── transcodetext/            # 文字起こしテキスト保存先
├── wav/                      # 録音WAVファイル保存先
├── temp/                     # 一時ファイル 
├── words.txt                 # ユーザー辞書ファイル
├── transcriber_settings.ini  # アプリ設定ファイル
└── Models/                   # ローカルモデル置き場

🎛️ メニュー・設定項目 詳細解説

▼ 設定グループ

【入力モード】

音声をキャプチャするソースを選択します。

モード 説明 使用例
マイクのみ PCに接続されたマイクからの音声のみをキャプチャ 自分の発言のみを記録したい場合
システム音のみ PCから出力される音声スピーカー出力をキャプチャ YouTube動画やWeb会議の相手の声を文字起こし
マイク+システム音(Mix) マイクとシステム音を同時にキャプチャ Web会議で自分と相手の両方を記録

設定方法:

  1. 「入力モード」ドロップダウンをクリック
  2. 目的に合ったモードを選択
  3. 選択に応じて「入力デバイス」「システム音ソース」の表示が自動で切り替わります

💡 推奨: Web会議の議事録作成には「マイクシステム音(Mix)」を使用


【ミニモード (Ghost Subtitle)】

通常のウィンドウよりもコンパクトで、他の作業の邪魔にならない字幕専用ウィンドウを表示します。

機能 説明
常に手前に表示 ゲーム画面や他のアプリの上にオーバーレイ表示されます
クリック透過 字幕の後ろにあるボタンなどを操作できます (透過ON時)
自動フェードアウト 一定時間デフォルト10秒発言がないと、自動的に薄くなります
位置・サイズ調整 [v6.8.2] 編集モード時、ドラッグで移動・リサイズ可能
フォントサイズ調整 [v6.8.3] 編集モード時、左側の▲▼ボタンで0.5pt刻みで調整可能 (8pt〜32pt)
フォントスタイル [v6.8.4] 編集モード時、5種類のスタイルから選択可能

操作方法 (v6.8.4 改善!):

  1. 切り替え: ツールバーの「👻字幕」ボタンをクリック
    • ボタンがONになると、緑色のウィンドウモード編集モードで起動します
    • スタート前でも字幕ボタンを押すだけで編集モードで表示されます
  2. 編集モードでの調整:
    • 緑の枠をドラッグ → ウィンドウ位置を移動
    • 右下の緑のグリップをドラッグ → ウィンドウサイズを変更
    • 左側の▲▼ボタン → フォントサイズ調整
    • 上部の1〜5ボタン → フォントスタイル選択
      • 1: 白文字・黒影
      • 2: 黒文字・白影
      • 3: 白文字・黒影(太)
      • 4: 黄文字・黒影
      • 5: 薄青文字・黒影
  3. 透過モードへの切り替え:
    • RTerウィンドウから他のアプリに切り替えると、自動で透過モードになります
    • 透過モード中は緑の枠や調整ボタンが非表示になり、字幕のみが表示されます
  4. 再度編集したい場合:
    • 字幕ボタンをOFF→ONにすると、再び編集モードで起動します
  5. 設定の保存: 位置・サイズ・フォントサイズ・フォントスタイル・表示状態は自動的に保存され、次回起動時に復元されます

【入力デバイス】

マイク入力に使用するデバイスを選択します(マイクモード使用時のみ表示)。

設定方法:

  1. 「入力デバイス」ドロップダウンをクリック
  2. 使用するマイクを選択(例: 「マイク (Realtek Audio)」)

注意点:

  • Windows のサウンド設定で認識されているマイクのみ表示されます
  • USBマイクを接続した場合は、アプリを再起動するとリストに反映されます

【システム音ソース】

システム音をキャプチャする出力デバイスを選択します(システム音モード使用時のみ表示)。

設定方法:

  1. 「システム音ソース」ドロップダウンをクリック
  2. キャプチャしたい出力デバイスを選択(例:「スピーカー (Realtek Audio)」、「ヘッドフォン」など)

使用例:

  • 通常は「既定の出力デバイス」を選択
  • 特定のヘッドフォンやスピーカーからの出力をキャプチャしたい場合に変更

【言語】

文字起こし対象の言語を選択します。

言語 動作
日本語 日本語音声を日本語テキストに変換(翻訳なし)
英語 英語音声を英語テキストに変換し、さらに日本語に自動翻訳

設定方法:

  1. 「言語」ドロップダウンをクリック
  2. 「日本語」または「英語」を選択

英語選択時の動作:

  • 画面が左右2分割になります
  • 左: 原文(英語テキスト)
  • 右: 翻訳(日本語訳)

【モデル】

使用するAIモデルを選択します。 v5.4以降、実用的な4つのモデルに厳選されました。

モデル 精度 速度 VRAM 推奨デバイス 特徴
ReazonSpeech (JP) ★★★★ ★★★★★ tiny CPU推奨 日本語特化。超高速・高精度。事務用ートPCに最適。
large-v3-turbo ★★★★ ★★★★ ~4GB GPU推奨 large-v3並の精度で爆速。汎用性が高い。
large-v3 ★★★★★ ★★★ ~10GB GPU必須 最高精度だが重い。最強のGPUを持っている人向け。
large-v2 ★★★★★ ★★★ ~8GB GPU推奨 【v6.6 New】旧安定版モデル。音楽や環境音に強い傾向がある。
GigaSpeech English ★★★★★ ★★★★★ 72MB CPU推奨 【v6.5 New】10,000時間の実環境音声で学習。早口・雑音に強い。

💡 推奨: 基本的に ReazonSpeech (JP) で十分な精度と速度が出ます。GPUがある場合は large-v3-turbo もおすすめです。


【量子化 (Quantization)】

モデルの圧縮方式を選択します。画質と速度のトレードオフのような設定です。

項目 説明 推奨環境
Q5 (推奨) 5bit圧縮。精度劣化を抑えつつ軽量化。 一般的なPC (RAM 16GB)
INT8 (ONNX) ReazonSpeech用の8bit圧縮。非常に高速。 CPU環境 (iGPU含む)
Q8_0 (INT8) 8bit圧縮。計算効率が良い。 高性能CPU / Mac
FP16 圧縮なし(フル精度)。 専用GPU (VRAM 8GB以上)
FP32 倍精度。 ReazonSpeechで極限の精度を求める場合

💡 デフォルトで最適なものが選択されています。よくわからない場合は変更不要です。


【デバイスモード表示】

現在のAI処理デバイスと設定を表示するラベルです。

表示 説明
デバイスモード: GPU (検出数: N) 🟢 NVIDIA GPUが検出Vulkanアクセラレーション
デバイスモード: CPU 🟠 オレンジ CPUで処理

v5.5以降の挙動:

  • ReazonSpeech / Sherpa English: 常に CPUモード で動作しますiGPU等でも爆速なため
  • large-v3 / turbo: 可能なら GPU (Vulkan) を使用し、なければ CPU にフォールバックします。

【音量しきい値(感度)】

音声検出の感度を調整するスライダーです。v2.1.2で調整範囲が大幅に拡大されました

仕組み:

  • 入力音量がしきい値を超えた場合のみ文字起こし処理が実行されます
  • しきい値が低い → 小さな音でも反応(ノイズも拾いやすい)
  • しきい値が高い → 大きな音にのみ反応(静かな声を拾いにくい)

v2.1.2 指数カーブ対応表:

スライダー値 RMS閾値 用途
10 0.001 非常に静かな環境
20 0.004 静かな部屋
30 (デフォルト) 0.009 オフィス(適度な雑音)
50 0.025 騒がしい環境
70 0.049 非常に騒がしい環境
100 0.1 最大感度

設定方法:

  1. スライダーを左右にドラッグして調整
  2. リアルタイムで現在の音量レベルが表示されます
  3. バーが緑色に変わる = しきい値を超えている(音声として認識される)

表示の見方:

  • 感度: 設定したスライダー値と対応するRMS値
  • バーの色:
    • グレー = 音量がしきい値以下
    • 緑 = 音量がしきい値を超えている

【録音する(WAV)】チェックボックス

会議音声全体をWAVファイルとして保存するかどうかを設定します。

状態 動作
オン wav フォルダに録音ファイルを保存(例: 20251231_230000.wav
オフ 録音しない(文字起こしテキストのみ保存)

注意: 長時間録音はディスク容量を消費します1時間 ≒ 約600MB


▼ 詳細設定 (保存先)

「詳細設定 (保存先)」エキスパンダーをクリックすると展開されます。

【テキスト保存先】

文字起こし結果のテキストファイルを保存するフォルダを指定します。

デフォルト: アプリフォルダ内の transcodetext フォルダ

設定方法:

  1. 「詳細設定 (保存先)」をクリックして展開
  2. 「テキスト保存先」の「参照...」ボタンをクリック
  3. 任意のフォルダを選択

ファイル名形式: transcribe_YYYYMMDD_HHmmss.txt


【WAV保存先】

録音WAVファイルを保存するフォルダを指定します。

デフォルト: アプリフォルダ内の wav フォルダ

設定方法:

  1. 「詳細設定 (保存先)」をクリックして展開
  2. 「WAV保存先」の「参照...」ボタンをクリック
  3. 任意のフォルダを選択

ファイル名形式: YYYYMMDD_HHmmss.wav


▼ ボタン操作

【スタート】ボタン 🟢

リアルタイム文字起こしを開始します。

動作:

  1. 現在の設定を保存
  2. 必要に応じてモデルをロード
  3. 音声キャプチャを開始
  4. テキストボックスに会議日時ヘッダーを追加
  5. ステータスが「聞き取り中...」に変化

【ストップ】ボタン 🔴

リアルタイム文字起こしを停止します。

動作:

  1. 音声キャプチャを停止
  2. 短すぎるログ5行以下は自動削除
  3. 短すぎる録音ファイル10KB未満は自動削除
  4. 設定UIのロックを解除

【クリア】ボタン

テキストボックスの内容をクリアします。

⚠️ クリアしても保存済みのファイルは削除されません


【コピー】ボタン

テキストボックスの内容をクリップボードにコピーします。

コピー形式:

=== 原文 ===
[原文テキスト]

=== 翻訳 ===   ← 英語モードの場合のみ
[翻訳テキスト]

📁 フォルダ】ボタン

一時ファイルフォルダを開きます(デバッグ用)。


🐛 デバッグ】ボタン

デバッグコンソールウィンドウを開きます。

表示内容:

  • バックエンドからのログメッセージ
  • 辞書のロード状況
  • エラーメッセージ
  • VAD判定結果
  • 処理時間

📂 ドラッグ&ドロップ機能

使い方

  1. WAVまたはMP3ファイルをアプリウィンドウにドラッグ
  2. ウィンドウにドロップ
  3. 自動で文字起こしが開始されます

対応形式

形式 拡張子
WAV .wav
MP3 .mp3

動作詳細

  • 複数ファイルを同時にドロップ可能(順番に処理)
  • 長時間のファイルも無音区間を検出して効率的に処理
  • 処理中に「ストップ」ボタンで中断可能

📖 ユーザー辞書機能 (words.txt)

固有名詞や専門用語の認識精度を向上させます。

設定方法

  1. アプリフォルダ内の words.txt を開く
  2. 認識させたい単語を記述
  3. アプリを再起動(または次回起動時に反映)

記述形式

1行1単語方式:

東京スカイツリー
渋谷ヒカリエ

カンマ区切り方式:

DataGrid, ViewModel, ObservableCollection

コメント:

# この行は無視されます

推奨単語数

words.txtの単語はWhisperの初期プロンプトとして使用されます。単語数が多すぎるとコンテキストを圧迫するため、10〜30個程度に絞ることを推奨します。

単語数 処理への影響 推奨度
〜30個 ほぼ影響なし 推奨
〜100個 軽微(無視可能) ⚠️ 許容範囲
300個以上 コンテキスト圧迫 非推奨

効果的な運用のコツ

  1. 固有名詞を優先: 会社名、人名、製品名など、一般的な辞書に含まれない単語を重点的に追加
  2. 頻出単語に絞る: 会議で頻繁に登場する重要な単語のみを登録
  3. 一般的な単語は不要: 「会議」「資料」などは追加しなくてもWhisperは認識できます

⚠️ 注意: ReazonSpeechモデル使用時は、words.txtの単語は適用されませんWhisper専用機能


⚙️ バックエンド設定ファイル (whisper_config.ini)

v2.0以降、バックエンドの詳細設定が可能です。

ファイル形式

# Whisperバックエンド設定ファイル v2.0
# transcriber.py 設計思想準拠 - 安定性と精度最優先

[cuda]
# CUDA(GPU)モードでの設定 - 精度重視
beam_size = 5
patience = 1.0
no_speech_threshold = 0.6
condition_on_previous_text = true

[cpu]
# CPUモードでの設定 - パフォーマンス考慮
beam_size = 3
patience = 1.0
no_speech_threshold = 0.6
condition_on_previous_text = true

[vad]
# エネルギーベースVAD設定現在はフロントエンド側でVAD実行
threshold_rms = 0.005
min_silence_ms = 500
pre_speech_pad_ms = 200
post_speech_pad_ms = 300

[postprocess]
# テキスト後処理
remove_spaces = true      # 日本語間のスペース除去
suppress_repeats = true   # リピート抑制
min_text_length = 2       # 最小テキスト長

[model]
# モデル自動切替
auto_fallback = true
fallback_threshold_sec = 10.0

主要パラメータ解説

パラメータ 説明 デフォルト値
beam_size ビームサーチ幅(大きいほど精度↑速度↓) CUDA=5, CPU=3
patience ビームサーチ忍耐度 1.0
no_speech_threshold 無音判定閾値 0.6
condition_on_previous_text 文脈維持フラグ true
remove_spaces 日本語間スペース除去 true
suppress_repeats リピートテキスト抑制 true

🏗️ インストールとビルド

必要要件

項目 要件
OS Windows 10/11 (64bit)
.NET 8.0 SDK (Self-Contained ビルドのため不要)
GPU (推奨) NVIDIA GPU + CUDA 12.x / cuDNN 9.x

ビルド手順

  1. バックエンドのビルド

    cd win/backend
    build_backend.bat
    

    win/backend/dist/whisper_backend フォルダが生成されます。

  2. フロントエンドのビルド

    cd win
    dotnet build --configuration Release
    
  3. 配置

    • バックエンドの whisper_backend フォルダを AppDist にコピー
    • フロントエンドの exe を AppDist にコピー

▶️ 実行方法

  1. TranscriberApp.exe を起動
  2. デバイスモードを確認GPU/CPU
  3. 入力デバイスを選択
  4. 「スタート」ボタンを押す
  5. 「聞き取り中...」と表示されたら話しかける

🛠️ トラブルシューティング

GPUが認識されない

確認事項:

  • NVIDIA ドライバが最新か
  • CUDA 12.x がインストールされているか
  • cuDNN 9.x がパスに含まれているか

対処法:

  1. NVIDIA GPUドライバを更新
  2. CUDA Toolkit 12.x をインストール
  3. cuDNN 9.x のDLLをアプリフォルダまたはシステムパスに配置

音声が認識されない

症状: 「聞き取り中...」のまま文字が出力されない

確認事項:

  1. 音量メーターが動いているか確認
  2. 音量しきい値が高すぎないか確認
  3. バー色が緑に変わるか確認

対処法:

  • しきい値を下げる(スライダーを左へ)
  • 入力デバイスが正しいか確認
  • Windowsのサウンド設定でマイクが有効か確認

ハルシネーション(無音時に不要なテキストが出る)

v2.x での対策:

  • フロントエンドVADにより、しきい値を超えた音声のみをバックエンドに送信
  • 無音区間はそもそもWhisperに送られないため、ハルシネーションが発生しない

対処法:

  • 感度スライダーを調整して、ノイズを拾わないようにする

📋 改版履歴

詳細な改版履歴は history.md を参照してください。

v6.8.9 (2026-01-13)

  • 商用Release版ブランチの作成:
    • commercial-release ブランチを分離作成し、Google非公式翻訳API機能を完全削除しました。

v6.8.8 (2026-01-13)

  • 言語切り替えバグ修正:
    • Whisperモデルで言語設定を変更しても、前回の言語状態が残って出力がおかしくなる英語なのに日本語が出る等問題を修正しました。

v6.8.7 (2026-01-13)

  • 英語モード時のプロンプト汚染対策:
    • 言語が「英語」のとき、初期プロンプトや辞書に日本語が含まれている場合、自動的に英語プロンプトに置換してハルシネーションを防止するように改善しました。

v6.8.6 (2026-01-13)

  • 量子化設定の保存修正:
    • 量子化タイプの選択が正しく保存・復元されない問題を修正しました。

v6.8.5 (2026-01-12)

  • Sherpaエンジン用動的VAD閾値を改良:
    • 長時間のバッファ滞留時の応答性を向上させるため、バッファ長に応じた閾値をより細かく設定しました。
    • バッファが20秒以上: 0.3秒で区切り / 25秒以上: 0.2秒で区切り

v6.5.6 (2026-01-11)

  • words.txt先頭の不要文字を修正:
    • BOM付きUTF-8で書き込んでいたため先頭に_#のような文字が付く問題を修正。
    • BOMなしUTF-8new UTF8Encoding(false))で書き込むように変更。

v6.5.5 (2026-01-11)

  • words.txt初期設定の改善:
    • 初回生成時の不要なサンプル単語DataGrid, ViewModel等を削除。
    • コメント行の書式を正しい#から始まる形式に修正。

v6.7.5 (2026-01-11)

  • Sherpa長時間音声処理のバグ修正:
    • 30秒を超える音声をトランスコードする際、最初のチャンク以降の認識結果が短くなる一部しかトランスコードされない問題を修正しました。
    • 分割処理のバッファ管理ロジックを修正し、全チャンクが正しく認識されるようになりました。

v6.7.4 (2026-01-11)

  • 初期設定ウィザードの挙動変更:
    • ウィザード画面を「×」ボタン等で閉じた場合(キャンセル時)、設定ファイルを保存せずにアプリケーションを即座に終了するように変更しました。
    • 従来はキャンセル時にデフォルト設定で続行していましたが、意図せずアプリが起動してしまうのを防ぎます。

v6.7.3 (2026-01-11)

  • 初期設定ウィザードの表記修正:
    • GPUモード説明を「高性能なGPU専用カード搭載PC推奨」に変更し、推奨モデルを large-v2 と明記しました。
    • CPUモード説明から「/ Sherpa (英語)」を削除し、初回は ReazonSpeech のみが導入されることを明確化しました。
  • 自動キャリブレーション改善:
    • 初期設定時のシステム音感度測定を廃止し、デフォルト値30を固定で適用するように変更しました。
    • 初期設定時は通常システム音が鳴っていないため、測定しても意味がなく、かえって不正確な値になるためです。
    • マイク感度のみを測定し、適切な初期値を設定します。

v6.7.2 (2026-01-11)

  • 自動キャリブレーション修正:
    • 音量測定RMSが正しく開始されず、感度が最小10になってしまう問題を修正するため、測定前の待機処理とエラーチェックを追加しました。

v6.7.1 (2026-01-11)

  • 初期設定ウィザード調整:
    • GPUモード選択時の推奨デフォルトモデルを large-v2 に変更しました(安定性重視)。
    • オーディオデバイス選択のリスト表示が見えない(白地に白)問題を修正しました。

v6.7.0 (2026-01-11)

  • 初期設定ウィザードの実装:
    • 初回起動時設定ファイルがない場合に、PC環境に最適な設定を案内するセットアップ画面を追加しました。
    • GPUの有無に応じて推奨モデルWhisper Large v2 または ReazonSpeechを選択できます。
    • 入力/出力デバイス、保存先フォルダを一括で設定可能になりました。
  • 自動音響キャリブレーション:
    • 起動時に、選択されたモデルのダウンロードと並行して、マイクのノイズレベルを自動測定し、最適な入力感度を自動設定する機能を搭載しました。
  • GUI改善:
    • モデル選択リストの配色を変更し、より直感的にしましたWhisper=緑、Sherpa/Reazon=青)。

v6.6.3 (2026-01-11)

  • バグ修正:
    • 初回起動時など、モデル切り替えと設定ロードのタイミングによって、不正な量子化タイプ(例: ReazonSpeechでFP16が選択されてしまい、エラーが発生したり誤ったダウンロードを試行する問題を修正しました。
    • 初期化時にモデルと量子化タイプの適合性をチェックし、不整合がある場合は自動的にそのモデルのデフォルト推奨設定INT8/Q5などを適用する安全策を追加しました。

v6.6.2 (2026-01-11)

  • バグ修正:
    • large-v2 モデル追加に伴い、初期設定iniファイルなし時のデフォルトモデル選択がずれていた問題を修正。
    • 正しく ReazonSpeech (軽量・高速な日本語モデル) がデフォルトで選択されるようにインデックスを調整しました。

v6.6.1 (2026-01-11)

  • GUI改善:
    • モデル選択の視認性向上: モデルリストを色分けし、推奨ハードウェアを分かりやすくしました。
      • 🟧 オレンジ: SherpaOnnxモデル (CPU推奨)
      • 🟦 : Whisperモデル (NVIDIA GPU推奨)

v6.6 (2026-01-11)

  • 機能追加:
    • large-v2 モデル追加: 安定版として評価の高い large-v2 モデルおよびその量子化版を追加しました。
  • GUI改善:
    • メニューバーのバージョン表記スタイルをスッキリさせ、メイン画面の表示領域を確保しました。
  • バグ修正:
    • SherpaOnnx (ReazonSpeech) 長時間バッファ処理: 30秒を超える長い音声サンプルが送られてきた際、分割位置の検索ロジックが誤っていた問題を修正し、正常に認識されるようにしました。オーバーラップ処理も追加し、分割点での音切れを防止しています。

v6.5.4 (2026-01-11)

  • システム音のみ/マイクのみモード時の遅延修正:
    • 入力バッファ監視ロジックがマイクのみを参照していたため、システム音のみモードで感度バーの遅延や大量チャンクが一気に送信される問題を修正。
    • 各モードに応じて適切なバッファ(マイク/システム音/両方)をチェックするように改善。

v6.5.3 (2026-01-11)

  • レガシーフォルダ自動削除の削除: v6.5.2で追加された自動削除機能を削除(手動削除に変更)。

v6.5.2 (2026-01-11)

  • モデルフォルダ統合: ダウンロード時に重複フォルダが作成される問題を修正。
    • ModelQuantMapFileName を実際の解凍先フォルダ名に統一。
    • ディスク使用量が約1/2〜1/3に削減。

v6.5.1 (2026-01-11)

  • 初回起動時のバグ修正: 設定ファイルなしで起動した際に誤ったモデル (large-v3) をダウンロードしようとする問題を修正。
  • モデル存在チェック改善: GigaSpeech (epoch-30) と ReazonSpeech (epoch-99) の両方のファイル名に対応。
  • GigaSpeech出力の小文字化: 全大文字で出力される英語テキストを読みやすい形式に変換。

v6.5 (2026-01-11)

  • 英語モデル刷新: Sherpa English を GigaSpeech English に置き換え。
    • 10,000時間のPodcast/YouTube等の実環境音声で学習した高精度モデル。
    • 早口、雑音、言いよどみに強く、実用的な英語認識精度が大幅向上。
    • モデルサイズは約72MBと超軽量旧モデルより軽量化
  • 初期デフォルト変更: 設定ファイルがない場合のデフォルトモデルを ReazonSpeech (日本語) に統一。

v6.4 (2026-01-11)

  • READMEおよび履歴更新:
    • ドキュメントを最新化しました。量子化オプションの詳細な説明を追加しました。
    • GUI上のツールチップ直感的なヘルプを拡充し、各オプションの意味を分かりやすくしました。

v6.3 (2026-01-09)

  • ボリューム表示改善: 高負荷時のバッファ遅延を解消し、ボリュームメーターのリアルタイム性を向上。

v6.1 (2026-01-09)

  • 英語認識時の挙動改善: 辞書ファイル(words.txt)のコメント行(#)を無視するように修正し、プロンプト汚染による認識精度低下を防止。

v6.0 (2026-01-09)

  • リブランドとUX改善:
    • アプリ名を RTer に変更。
    • 初回デフォルトモデルを ReazonSpeech(JP) (INT8) に設定。
    • モデルダウンロードサイズ表記と解凍中メッセージを改善。

📄 ライセンス

本ソフトウェアは Whisper (MIT), SherpaOnnx (Apache 2.0) を使用しています。 詳細は同梱の LICENSE.txt (Apache 2.0), LICENSE_whisper.txt (MIT), NOTICE.txt を参照してください。


お問い合わせ・バグ報告: [GitHub Issues] または開発者まで