音声認識による自動文字起こしの魅力と課題とは?

音声認識による自動文字起こしの魅力と課題とは?

最近では、音声認識認識による自動文字起こし(以下、自動文字起こし)のサービスがさまざま登場しています。また、オンラインでの会議や講演が定着してきたこともあり、文字起こしの需要も増えています。そんな自動文字起こしの魅力と課題についてお話ししようと思います。

自動文字起こしの魅力

1つ目の魅力は、何といってもそのスピードでしょう。1時間の音声でもたった数分で文字化できます。プロである我々が作業をしても、1時間の音声の文字化には4~6時間程度は要しますので、そのスピードは比較にならないほど速く、魅力的です。

2つ目の魅力は、無料で使えるサービスの多さです。サービスによっては定額制など料金がかかるものもありますが、最近では無料で使用できるサービスも増えています。さらに、スマートフォン用のアプリもさまざま開発されています。このように無料で簡単に使えるものが多いことも魅力です。

 

自動文字起こしの課題

自動文字起こしのサービスはさまざまありますが、認識率を90%以上などと掲げるところが多くあります。90%以上と言われると、「かなり認識できるようになったんだな」という印象を持ちますよね。確かに、音声認識技術は飛躍的に進化しています。10年ほど前は正直全く話にならないレベルでしたが、最近ではさまざまなサービスが登場し、そのほぼ全てが読むことができるような水準になっていると思います。しかし、文字起こし・テープ起こし作業に携わっている人間からすると、「10%も何らかの誤認識や誤変換が出てしまうのか」という印象です。

例えば、この文章全体で1,800文字程度あります。10%で誤認識や誤変換が出るということになりますと、180文字の誤認識や誤変換が出てしまうことになります。短い音声なら修正作業もそこまで難しくないでしょう。しかし、長い音声だったらどうでしょうか? 例えば1時間の音声ですと、字数はおおよそ1万5000~2万字になります。修正だけでもかなり膨大な作業が必要になってしまいますね。実際に、後々の修正の手間を考えると、最初からカムワードにお願いしたほうが早いとおっしゃる方もおられます。

講演会のように、1人がずっと話している場合はいいのですが、会議のように複数人が話す場合もあります。そういった場合でも、レコーダーは1台で録音される方も多いと思います。当然ながらレコーダーから距離が近い人、遠い人が出てしまいますので、そこでも認識率は大きく変わってしまいます。

自動文字起こしは今話している音声をリアルタイムに文字化していく意味ではある程度の精度になっていると思います。しかし、一度ICレコーダーなどに録音された音声では、なかなか精度が上がっていません。私たちが通常作業している音声は、録音状態もさまざまです。最近では、換気のために会議中窓を開けっぱなしということあります。このような雑音が多く入っているものは、自動文字起こしではかなり難しいでしょう。

また、自動文字起こしは音声どおり文字化されます。文字起こし・テープ起こしの業界ではケバと言われている「あー」「えー」などの余計な言葉もそのまま文字化されます(起こし方の例の「素起こし」の状態)。そのため、そのままでは少し読みにくい場合も多くあります。

 

自動文字起こしを上手に使うには

自動文字起こしを使う場合には、自動文字起こしを使うことを前提にして、しっかりと録音の準備をしましょう。できる限りレコーダーとの距離を近くし、大きくはっきりと話すように心掛けましょう。複数人の発言者がいる場合には、できる限りお互いの発言がかぶらないようにすることも大切です。

最近では、Zoomなどを使ったオンラインの会議や講演も多くなっています。自動文字起こしを使いたい場合はヘッドセットの使用を推奨します。また、スピーカー近くにレコーダーを置いて録音するのではなく、録画機能を使うことをお薦めします。

また、必要な部分だけを抜き出したいといった場合も、自動文字起こしのほうが有利かもしれません。

 

まとめ

ここまでお話ししてきたように、自動文字起こしは大変便利なものです。一方で、まだまだ課題もあります。自動文字起こしの魅力と課題を踏まえて、効果的に使っていきましょう。

仙台の文字起こし・テープ起こし専門のカムワードは、官公庁、大学、出版社などからご依頼をいただいています。文字起こし・テープ起こしに関するご相談はもちろん、録音方法のご相談も承っております。ご相談は無料ですので、ぜひお気軽にお問い合わせください。