完全ローカル文字起こしは、OpenAIの文字起こしAI(WhisperX)やデータを最初にパソコンへまとめてダウンロードしておきます。
実際に使うときは、ネットにつながず、あなたのパソコンの中だけですべての処理が完了。音声データは一切外に出ないので、安心してご利用いただけます。
実際に使うときは、ネットにつながず、あなたのパソコンの中だけですべての処理が完了。音声データは一切外に出ないので、安心してご利用いただけます。
個人での非営利利用の場合は無料でお使いいただけます。商用利用の場合はライセンス購入が必要です。
個人での利用でも「自動文字起こしフォルダ」や「単語登録機能」を利用したい場合は、ライセンス登録が必要です。
ライセンス登録は、こちらから行えます。
個人での利用でも「自動文字起こしフォルダ」や「単語登録機能」を利用したい場合は、ライセンス登録が必要です。
ライセンス登録は、こちらから行えます。
WhisperXモデルを使用しており、雑音環境でも高精度な文字起こしが可能です。
具体的な精度は音声の品質や話し方によりますが、一般的には95%以上の精度を目指しています。
サンプル動画を文字起こした場合の例です。赤字は文字起こしミスを示しています。
具体的な精度は音声の品質や話し方によりますが、一般的には95%以上の精度を目指しています。
サンプル動画を文字起こした場合の例です。赤字は文字起こしミスを示しています。
過去の文字起こしデータをAIが自動でチェックし、同じ意味なのに書き方が違う単語(表記ゆれ)の候補をまとめて見つけてくれます。
そのまま一覧から簡単に単語登録できるので、手作業で探す手間なく効率よく用語を統一できます。

また、janome形態素解析を行い単語を変換できます。janomeは、日本語の文章を単語ごとに分けるツールです。
例えば、「私はリンゴを食べます」という文章を分解して、「私 / は / リンゴ / を / 食べ / ます」といった形で単語ごとに分けることができます。
「私はリンゴを食べます」→「私 / は / リンゴ / を / 食べ / ます」のように分解できます。
さらに、それぞれの単語が「名詞」「動詞」など、どんな言葉かも自動で判別します。
そのまま一覧から簡単に単語登録できるので、手作業で探す手間なく効率よく用語を統一できます。

また、janome形態素解析を行い単語を変換できます。janomeは、日本語の文章を単語ごとに分けるツールです。
例えば、「私はリンゴを食べます」という文章を分解して、「私 / は / リンゴ / を / 食べ / ます」といった形で単語ごとに分けることができます。
「私はリンゴを食べます」→「私 / は / リンゴ / を / 食べ / ます」のように分解できます。
さらに、それぞれの単語が「名詞」「動詞」など、どんな言葉かも自動で判別します。
ダウンロード後、ZIPファイルを展開します。
ZIP展開したフォルダ内にある「完全ローカル文字起こしツール.exe」をダブルクリックすることで起動できます。
パソコンの処理速度によりますが、ローカルで文字起こしさせるための準備のため、起動時には時間がかかります。
原則無料で使えるツールとしているため、有償のアプリ認証を行っておりません。Hoshimono Design(日本)にて開発・運営しておりますが、
パソコンによっては以下のダイアログが表示されます。[詳細情報]をクリックし、実行してください。
ZIP展開したフォルダ内にある「完全ローカル文字起こしツール.exe」をダブルクリックすることで起動できます。
パソコンの処理速度によりますが、ローカルで文字起こしさせるための準備のため、起動時には時間がかかります。
原則無料で使えるツールとしているため、有償のアプリ認証を行っておりません。Hoshimono Design(日本)にて開発・運営しておりますが、
パソコンによっては以下のダイアログが表示されます。[詳細情報]をクリックし、実行してください。
ダウンロードファイルが大きいのは、音声認識モデルや辞書データが含まれているためです。これにより、高精度な文字起こしが可能になります。
ファイルはウイルスチェック済みで、インストール後も安全にご利用いただけます。
ファイルはウイルスチェック済みで、インストール後も安全にご利用いただけます。
文字起こしされる言語は、設定画面から変更できます。
言語を選択し、「OK」ボタンをクリックすることで変更が反映されます。
言語を選択し、「OK」ボタンをクリックすることで変更が反映されます。
主要な言語は以下の通りです。
- 英語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語、オランダ語、ロシア語、ウクライナ語、チェコ語、ポーランド語、スロバキア語、ハンガリー語、スウェーデン語、デンマーク語、フィンランド語、ノルウェー語
- 日本語、中国語(北京語、広東語)、韓国語、タイ語、ベトナム語、インドネシア語、ヒンディー語、アラビア語、トルコ語
- その他:エストニア語、リトアニア語、スロベニア語、クロアチア語、セルビア語、ギリシャ語、ヘブライ語、ペルシャ語、ウルドゥー語、タガログ語、マレー語、スワヒリ語、ズールー語 など
全96言語に対応していますが、訛りや方言、会話スピードには弱い傾向があります。
一部の言語(例:アフリカ諸国のローカル言語など)は音声認識の精度が著しく低くなることがあります。
自動判別は「ほぼ大丈夫」ですが、低リソース言語では誤認識が多くなる場合もあります。
タイムスタンプ機能とは、音声データの特定の時間に対応するテキストを表示する機能です。
これにより、ユーザーは音声のどの部分がどのテキストに対応しているかを簡単に確認できます。
特に長時間の録音や会議の文字起こしにおいて、特定の発言を迅速に見つけるのに役立ちます。
タイムスタンプ機能は、設定画面から有効にすることができます。音声データを再生しながら、特定の時間に対応するテキストを確認できます。
これにより、ユーザーは音声のどの部分がどのテキストに対応しているかを簡単に確認できます。
特に長時間の録音や会議の文字起こしにおいて、特定の発言を迅速に見つけるのに役立ちます。
タイムスタンプ機能は、設定画面から有効にすることができます。音声データを再生しながら、特定の時間に対応するテキストを確認できます。
自分がWeb会議の主催者の場合は、会議アプリの録画を利用ください。そうではない場合は以下を実施します。
録音をするためOBS Studioをダウンロードします。
OBS Studioをインストールします。
インストール後、OBS Studioを起動し、設定を行います。
録音ファイルを配置するフォルダパスを設定します。
完全ローカル文字起こしの設定から自動文字起こしフォルダを設定します。
録音を開始します。
録音をするためOBS Studioをダウンロードします。
OBS Studioをインストールします。
インストール後、OBS Studioを起動し、設定を行います。
録音ファイルを配置するフォルダパスを設定します。
完全ローカル文字起こしの設定から自動文字起こしフォルダを設定します。
録音を開始します。
本ソフトは、音声ファイルの変換・文字起こし・GUI表示といったすべての処理を、ローカルPC内で完結させる設計となっています。
WhisperX(Whisper + PyTorch)による音声認識、Janomeによる表記ゆれ処理、ffmpegを用いた音声変換、GUI(Tkinter)、ファイル監視(watchdog)まで、必要な処理はすべてPythonローカル環境で完結。必要なライブラリもPyInstallerで一括バンドルしております。
また、保存されるファイルはすべてユーザー指定ディレクトリに限定され、ネットワーク接続なしでもフル機能で動作可能。
外部サーバーやクラウドAPIへの通信は一切行わないため、通信傍受・クラウド漏洩といった技術的リスクを根本から排除しています。
WhisperX(Whisper + PyTorch)による音声認識、Janomeによる表記ゆれ処理、ffmpegを用いた音声変換、GUI(Tkinter)、ファイル監視(watchdog)まで、必要な処理はすべてPythonローカル環境で完結。必要なライブラリもPyInstallerで一括バンドルしております。
また、保存されるファイルはすべてユーザー指定ディレクトリに限定され、ネットワーク接続なしでもフル機能で動作可能。
外部サーバーやクラウドAPIへの通信は一切行わないため、通信傍受・クラウド漏洩といった技術的リスクを根本から排除しています。
最新版はリンクよりEXEファイルをダウンロードし、上書きしてください。設定は自動的に引き継がれます。
はい、Hoshimono Design(登録番号: T5810821589645)は適格請求書発行事業者としてインボイス制度に対応しております。請求書・領収書に登録番号を記載して発行可能です。
判定の基準は「営利性」と「機能の利用範囲」の2軸です。
無料で使えるケース(基本機能のみ)
・個人が完全に私的な目的で利用する(家族向けメモ、趣味の動画書き起こし等)
・かつ「自動文字起こしフォルダ」「単語登録機能」を使用しない
ライセンス登録が必要なケース
・法人、個人事業主、フリーランスが業務(社内利用を含む)で使う
・副業として収益化している活動の一部に使う(取材・ライティング・コンサルなど)
・「自動文字起こしフォルダ」または「単語登録機能」を使う(個人非営利でも必要)
判断に迷う場合は お問い合わせフォーム または info@hoshimonodesign.com までご相談ください。
無料で使えるケース(基本機能のみ)
・個人が完全に私的な目的で利用する(家族向けメモ、趣味の動画書き起こし等)
・かつ「自動文字起こしフォルダ」「単語登録機能」を使用しない
ライセンス登録が必要なケース
・法人、個人事業主、フリーランスが業務(社内利用を含む)で使う
・副業として収益化している活動の一部に使う(取材・ライティング・コンサルなど)
・「自動文字起こしフォルダ」または「単語登録機能」を使う(個人非営利でも必要)
判断に迷う場合は お問い合わせフォーム または info@hoshimonodesign.com までご相談ください。
本ソフト自体はテキストファイル(.txt / .srt 等)として平文で保存します。これは編集ソフトでそのまま開けるようにするためで、暗号化は OS・ファイルシステム側で行うことを推奨します。
・Windows: BitLocker(Pro/Enterprise)、EFS、または外付け暗号化ドライブ
・共有フォルダ: SMB 3.0 暗号化通信 + NTFS ACL
・ネットワークドライブ: 院内/社内 NW 内に閉じる運用
なお、本ソフトは音声・テキストとも一切クラウドへ送信しないため、暗号化を施した記憶媒体に書き出した時点でセキュリティ要件を満たすケースが大半です。所内コンプライアンスの要件にあわせてご調整ください。
・Windows: BitLocker(Pro/Enterprise)、EFS、または外付け暗号化ドライブ
・共有フォルダ: SMB 3.0 暗号化通信 + NTFS ACL
・ネットワークドライブ: 院内/社内 NW 内に閉じる運用
なお、本ソフトは音声・テキストとも一切クラウドへ送信しないため、暗号化を施した記憶媒体に書き出した時点でセキュリティ要件を満たすケースが大半です。所内コンプライアンスの要件にあわせてご調整ください。
既定では UTF-8 のテキストファイル(.txt)として保存されます。設定により以下も出力可能です。
・タイムスタンプ付きテキスト: [00:01:23] のように開始時刻を付与し、引用や字幕化が容易
・SRT 字幕ファイル: 動画編集ソフトでそのまま読み込み可能(OBS・Premiere・DaVinci Resolve等)
・文章単位の改行: 1発話 = 1行で出力し、議事録テンプレートへの貼り付けに最適化
いずれもプレーンテキストとして保存されるため、Word・Notion・スプレッドシートへそのまま取り込めます。
・タイムスタンプ付きテキスト: [00:01:23] のように開始時刻を付与し、引用や字幕化が容易
・SRT 字幕ファイル: 動画編集ソフトでそのまま読み込み可能(OBS・Premiere・DaVinci Resolve等)
・文章単位の改行: 1発話 = 1行で出力し、議事録テンプレートへの貼り付けに最適化
いずれもプレーンテキストとして保存されるため、Word・Notion・スプレッドシートへそのまま取り込めます。
必須環境
・OS: Windows 10 / 11(64bit)、Windows Server 2016 / 2019 / 2022
・CPU: x64 アーキテクチャ、4コア以上推奨
・RAM: 8GB 以上
・ストレージ: 起動・モデル一式で約 5GB の空き容量
推奨環境(処理速度を上げたい場合)
・CPU: 8コア以上 (Intel Core i5 第10世代以降 / AMD Ryzen 5 4000番台以降)
・RAM: 16GB 以上
・GPU: NVIDIA GeForce RTX 30 系以上 (CUDA 12対応) があると 3〜5倍程度高速化
GPU は必須ではなく、CPUのみでも全機能が動作します。GPU が無い環境(社用PC・VPS等)でも導入できるよう設計されています。
・OS: Windows 10 / 11(64bit)、Windows Server 2016 / 2019 / 2022
・CPU: x64 アーキテクチャ、4コア以上推奨
・RAM: 8GB 以上
・ストレージ: 起動・モデル一式で約 5GB の空き容量
推奨環境(処理速度を上げたい場合)
・CPU: 8コア以上 (Intel Core i5 第10世代以降 / AMD Ryzen 5 4000番台以降)
・RAM: 16GB 以上
・GPU: NVIDIA GeForce RTX 30 系以上 (CUDA 12対応) があると 3〜5倍程度高速化
GPU は必須ではなく、CPUのみでも全機能が動作します。GPU が無い環境(社用PC・VPS等)でも導入できるよう設計されています。
精度に最も影響するのは 録音品質 と 表記揺れの整備 です。
録音段階のコツ
・サンプリングレート 16kHz 以上、できれば 44.1kHz でモノラル収録
・話者とマイクの距離を 30cm 以内に保つ
・エアコン・PC ファン・キーボード打鍵音を遠ざける
・複数話者の場合はマイクを話者数分用意するか、円卓でマイクを中心に置く
運用段階のコツ
・専門用語・固有名詞・社内表記を「単語登録機能」で蓄積(運用するほど精度が上がる)
・AIアシスト単語登録で過去履歴の表記ゆれをまとめてチェック
・対応言語が正しく選択されているか毎回確認(96言語対応)
録音段階のコツ
・サンプリングレート 16kHz 以上、できれば 44.1kHz でモノラル収録
・話者とマイクの距離を 30cm 以内に保つ
・エアコン・PC ファン・キーボード打鍵音を遠ざける
・複数話者の場合はマイクを話者数分用意するか、円卓でマイクを中心に置く
運用段階のコツ
・専門用語・固有名詞・社内表記を「単語登録機能」で蓄積(運用するほど精度が上がる)
・AIアシスト単語登録で過去履歴の表記ゆれをまとめてチェック
・対応言語が正しく選択されているか毎回確認(96言語対応)
一言で言えば 「クラウド送信ゼロ」と「インストール不要」の両立です。
・vs クラウド型SaaS(Notta・CLOVA Note・Rimo Voice等): あちらは話者識別・要約等が強力ですが、音声をサーバへアップロードする前提のため、クラウド禁止案件では使えません。本ソフトは音声を一切外に出しません。
・vs Mac専用ローカル(MacWhisper等): あちらはMac限定。本ソフトは Windows / Windows Server に対応し、社用PCでも動作します。
・vs OSSのkotoba-whisper等: あちらは Python 環境構築が必要。本ソフトは ZIP 展開だけで起動し、社内ITに依頼せずに導入できます。
詳細はトップページの 比較表 をご覧ください。
・vs クラウド型SaaS(Notta・CLOVA Note・Rimo Voice等): あちらは話者識別・要約等が強力ですが、音声をサーバへアップロードする前提のため、クラウド禁止案件では使えません。本ソフトは音声を一切外に出しません。
・vs Mac専用ローカル(MacWhisper等): あちらはMac限定。本ソフトは Windows / Windows Server に対応し、社用PCでも動作します。
・vs OSSのkotoba-whisper等: あちらは Python 環境構築が必要。本ソフトは ZIP 展開だけで起動し、社内ITに依頼せずに導入できます。
詳細はトップページの 比較表 をご覧ください。
