面倒から解放。「AI文字起こし」が800社以上で利用されるワケ

会議の議事録や取材原稿などを作成する際、まず最初に踏むステップが”文字起こし”だ。きっと多くの人が、ICレコーダーで録音した音声データを聞きながら、タイピングし続けた経験があることだろう。筆者も仕事柄、取材原稿を執筆するにあたって音声データの文字起こしを行うが、1時間の音声データの文字起こしに4〜5時間かかっている。

そんな文字起こしの作業を効率化してくれるサービスがある。エピックベースが手がける、音声自動文字起こしサービス「Smart書記」だ。同サービスは、マイクから収音した音声をGoogle Speech-to-Textによる音声認識でテキスト化してくれる、というもの。またテキスト化されたものは即時編集が可能となっており、ユーザーはゼロから文字起こしをする手間がかからずに済む。

同社は3月12日、メディアドゥからカーブアウトする形で独立するとともに、メディアドゥホールディングス、Coral Capitalおよび個人投資家の三木寛文、SmartHR代表取締役の宮田昇始、取締役副社長の内藤研介から総額8500万円の資金調達を実施した、と発表した。

今回の発表に関し、エピックベース代表取締役社長の松田崇義はつぎのように狙いを語った。

「経営の独立性を高め、事業に関する意思決定の迅速化とさらなる経営リソース投下を推進するため、エピックベースとして独立しました。今後は、メディアドゥとも協力関係を築きながら、独立企業としてサービスの利便性を向上させるとともに、より広く皆さまに利用いただけるようにしていきます」

調達した資金は主にプロダクト開発やサポート体制を強化するための人材採用に充てる予定だという。Smart書記をアップデートをしていきながら、取得した音声データをビジネスの現場でもっと有効活用できるような基盤を整えていくとのこと。

累計で800社以上が活用、文字起こしの手間を解決

Smart書記は、電子書籍の流通事業などを手がけるメディアドゥが、2017年10月から徳島県と6カ月かけて実証実験を実施した生まれたサービス。2018年6月に正式にサービスをローンチし、トライアル利用など含め、累計で800社以上が利用しているという。費用は月額10万円の定額制で、利用時間が200時間を超える場合は1時間500円の超過料金が発生する仕組みとなっている。

Amazon TranscribeやOtter.aiなどの外資サービスを筆頭に、国内でもいくつか文字起こしサービスが登場しているが、Smart書記は主に「収録・文字起こし」「編集」「出力」という3つの機能を通じて、文字起こしの作業をサポートしてくれる。

「文字起こしの領域に関しては、なかなかソリューションが提供できていませんでした。今もICレコーダーを置き、音声データを聞きながら文字起こしするのが一般的。そうした文字起こしの煩わしさを、テクノロジーの力を使って解決するためにSmart書記が開発されました。主には文字起こしにかかる業務工数を減らすことがサービスの目的です」

具体的な利用イメージはこうだ。ユーザーはICレコーダーで音声を録音する代わりに、Smart書記を使って音声を入力すればいい。会議の場合は参加者が自分のPCにピンマイクを差して収録したり、取材であればSmart書記のiOSアプリを開いて会話を進めていったりするだけで、リアルタイムに文字起こしが行われる。

複数人での会話内容をテキスト化したい場合は、それぞれの参加者がマイクをつけた状態で音声を収録すれば発言者の名前が自動で入力され、誰がどの発言をしたかも分かる。また約100の言語の会話をクラウドが自動翻訳するため、特別な操作をすることなく自分の言語で話すだけで異なる言語の相手に翻訳した内容が表示される。

松田がSmart書記の最大の特徴として、紹介してくれたのが「編集」機能だ。Smart書記で音声認識されたテキストはリアルタイムに編集可能。誤字や同音異義語、意図しない言葉など、気になったワードをマークしておき、マーク部分を追いかけて修正していくことで、効率的な編集作業が実現する。そのほか、行毎に編集することができ、その行のみの音声を聞き直しながら修正するこも可能となっている。

「Smart書記は訂正学習機能も特徴のひとつで、文章の修正作業の中で自然な形で学習し成長していってくれます。例えば、訂正した誤り語句が次回以降に出現すると、自動的に正しい語句に置き換えられます。また不適切なワードや、特定の伏せたいワードを、禁則処理で非表示にすることもできるようにしてあります」

文字起こしされたテキストは、用途に応じてExcelやWord、テキストファイル形式でダウンロード可能となっている。

実際、徳島県庁では毎週実施していた定例会見の議事録作成に約10時間ほどかかっていたが、Smart書記を活用することで議事録作成の時間は約2時間に減少。その内容をHP上で公開するまでのスピードも、それまで4日ほどかかっていたが即日で公開できるになったという。

さらなるグロースのために、あえて独立を選択

代表の松田はデジタルガレージでスタートアップへの投資やアクセラレータプログラム「Open Network Lab(オンラボ)」の運営を担当した後、イラスト制作・漫画制作の支援を手がけるフーモアに参画。取締役COOとして、経営に携わっていた人物だ。

「フーモアを退職した後、スタートアップに行くつもりだったのですが、知人の紹介で偶然、メディアドゥの藤田恭嗣さん(代表取締役社長)にお会いしたんです。すでにSmart書記は新規事業として立ち上がっていましたが、事業をよりスケールさせていくために一緒にやらないか、と声をかけてもらいメディアドゥに入社を決めました」

2019年7月から事業部長に就任し、Smart書記の成長を牽引。そして今回、カーブアウトという形で独立するタイミングで、エピックベースの代表取締役社長になっている。

「Smart書記はSaaS型のビジネスですが、メディアドゥのコア事業とは領域が異なっていることもあり、社内にSaaS型のビジネスの知見を持っている人が少なかった。今後スケールさせていくには、外部の資金を入れていった方がいいということで、自分でメンバーも集め、吸収分割という形でスピンオフさせました」

松田の話によれば、現在導入企業の約8割が大企業や自治体関係とのこと。得に会議の議事録作成が必須になっている企業からのニーズは高いという。昨今は新型コロナウィルスの影響でZoomなどによるオンラインでの会議が増えていることから、問い合わせの数が急増しているとのこと。

国内でアドバンストメディアを筆頭に複数社が文字起こしシステムを手がけているほか、Otter.aiはNTTドコモと提携し、2020年後半から日本語のサポートも展開していくと発表している。競合も多い中、なぜSmart書記は引き合いがたくさんあるのか──その理由を松田はつぎのように話す。

「大企業のお客様が求めるセキュリティ水準を超えてくるサービスが弊社を含めて数社しかいない。そこは大きいかなと思います。また、Smart書記は音声データをそのまま投げているわけではなく、一度弊社のサーバーを介して一定の工夫をしています。そこも見えない技術差分となっていると思います」

今後10年の間に来るトレンドは「音声」

海外のイベントに行けば当たり前のように使われているOtter.aiが日本語のサポートも行うことで、さらに競争が激しくなることが予想されるが、松田は「海外のサービスを大手企業や自治体が使うにはまだまだハードルが高い」と語る。

「文字起こしサービスは情報格差が大きい商材です。営業管理ツールなどはラーニングコストが低いものが多いですが、この領域はただソフトウェアを使うだけでなく、マイクは何を使えばいいのか、また部屋の大きさでハウリングも異なるのでどうマイクを使うべきなのか、そのあたりの情報を知らない人が多い。そこを私たちは営業でサポートしに行っているので、果たして海外のサービスがそこまで出来るのか、という思いはあります。

品質の良い音声ファイルであれば現状、7〜8割の精度で文字起こしができます。精度が悪いと言われる理由は、話している人の声質と集音の環境とネットワークに起因しています。そことどう折り合いをつけるか。運用を簡単にするだけだと精度が下がってしまいますし、ピンマイクをつけると精度があがる。ここの運用も実は肝になっているんです」