V2.0.0 では推論エンジンを刷新し、同じ Whisper large-v3 の精度を保ったまま 約3.7倍の高速化と約62%のメモリ削減を実現しました。あわせて 途中再開・ドラッグ&ドロップ・実進捗表示・対応形式の拡大など操作性も大きく向上。 「音声・結果を一切外部に送らない完全ローカル/オフライン動作」というコンセプトはそのままです。
3.7×
文字起こし高速化(CPU・実測)
−62%
ピークメモリ削減
99.3%
文字一致率(精度は実質同等)
1. 性能(実測)
同一の Whisper large-v3 モデル・同一音声(日本語3クリップ計96秒)・同一設定で、V1.1.0 と V2.0.0 を別プロセスで実測した結果です。
文字起こし時間(音声96秒の処理・短いほど速い)
V1.1.0
251.3 秒
V2.0.0
67.4 秒
RTF(実時間比・小さいほど速い)
V1.1.0
2.62
V2.0.0
0.70
ピークメモリ(小さいほど軽い)
V1.1.0
9,204 MB
V2.0.0
3,476 MB
モデル読み込み時間
V1.1.0
9.6 秒
V2.0.0
4.7 秒
クリップ別の結果
| クリップ | 音声長 | V1.1.0 | V2.0.0 | 高速化 | 文字一致率 |
|---|---|---|---|---|---|
| クリップ1 | 21.8s | 82.2s | 16.6s | 4.96× | 100.0% |
| クリップ2 | 31.1s | 78.0s | 24.0s | 3.24× | 100.0% |
| クリップ3 | 43.2s | 91.2s | 26.8s | 3.40× | 98.2% |
| 合計 / 総合 | 96.0s | 251.3s | 67.4s | 3.73× | 99.28% |
2. 機能・操作性の比較
| 項目 | V1.1.0 | V2.0.0 |
|---|---|---|
| 推論エンジン | openai-whisper / WhisperX(PyTorch) | faster-whisper(CTranslate2) |
| 文字起こし速度(CPU) | 基準 | 約3.7倍高速 |
| ピークメモリ | 約9.2 GB | 約3.5 GB(−62%) |
| 文字起こし精度 | 基準(large-v3) | 99.3%一致=実質同等(同じ large-v3) |
| 進捗表示 | — | 実進捗バー(転写済み位置を%表示) |
| 途中再開 | — | 対応(処理中に閉じても次回続きから) |
| ドラッグ&ドロップ | — | ウィンドウのどこでも可+視覚ガイド表示 |
| 結果を開く | ダブルクリック | ダブルクリック+右クリックメニュー(結果/フォルダ) |
| 対応ファイル形式 | 7形式 | 24形式(mp3/wav/m4a/mp4/mkv/webm 他) |
| 表記ゆれ補正 | 候補提示(手動登録) | 自動適用(しきい値を設定可) |
| GPU 利用 | 対応(PyTorch) | 自動判定+GPU不可/失敗時は CPU 自動フォールバック |
| 配布パッケージ | PyTorch 同梱(大) | PyTorch 非依存で軽量化 |
| 動作 | 完全ローカル・オフライン | 完全ローカル・オフライン(不変) |
3. 技術・配布の刷新
- 推論ランタイム:PyTorch ベースの openai-whisper / WhisperX から、C++ 実装の CTranslate2(faster-whisper)へ全面移行。int8 量子化により高速・省メモリで動作します。
- 音声デコード:PyAV(内蔵 libav)でデコードするため、外部 ffmpeg のインストールは不要。
- 完全オフライン:モデル同梱で、インターネット接続なしで起動・文字起こしまで完結。音声・動画・出力結果は外部に一切送信しません。
- 安定性:途中再開・並行処理・状態管理・エラー処理まわりを大幅に見直し、長時間/長尺の処理を堅牢化しました。
4. 計測条件
- ハードウェア:13th Gen Intel(R) Core(TM) i7-13620H(16論理コア)/メモリ 31.7 GB/Windows 11
- 実行デバイス:CPU(CUDA 不使用)
- モデル:Whisper large-v3 — V1.1.0 = OpenAI 形式 .pt(fp32)/V2.0.0 = CTranslate2 形式(int8 量子化)
- 設定(共通):language=ja, temperature=0, beam_size=5, condition_on_previous_text=False
- テスト音声:日本語3クリップ(計96.05秒)/計測日 2026-06-16
5. まとめ
V2.0.0 は、精度を保ったまま約3.7倍の高速化・約62%のメモリ削減を達成し、途中再開・ドラッグ&ドロップ・実進捗表示・対応形式の拡大・表記ゆれの自動補正など、日々の文字起こしを快適にする改善を加えたメジャーアップデートです。完全ローカル・オフラインで「外部に送らない」安心感は V1.1.0 から変わりません。
※ 数値は上記環境での実測値です。GPU(NVIDIA / CUDA)利用時はさらに高速化します。本ページに文字起こし本文は含めていません(指標のみ)。文字一致率は同一の large-v3 重みによる V1.1.0 出力を基準に算出しています。