Kentaro Kuribayashi's blog

Software Engineering, Management, Books, and Daily Journal.

2019年6月26日

今日も音声入力について色々と調べ物をした。音声入力および出力についての課題はいろいろあるのだけれども、音声の線条性を越えられないと言う問題が個人的には気になるところである。具体的にはどういうことかというと、音声と言うのは基本的に一方向にただひたすら進むだけであり、人間の発散的な思考方法とは全く異なる様式を持っていると言うことである。どういうことか?

例えばウェブ日記のようなものの場合、何かについて述べているときに専門用語であったり補足が必要な言葉であったりする場合にはリンクを貼る。仮にリンクがなかったとしても、人間は自ら自動的に形態素解析を行い、必要に応じてGoogleで調べたり辞書をひいたり、ともかく時間が平行して流れている。しかし現場の音声によりデバイスでは、時間はただ一方向だけに進んでいる。

そこで調べていると、W3CによってSSMLと言う、音声をマークアップする仕様についてレコメンデーションが2010年に出ていたのを知った。これはアマゾンのスマートスピーカーであるアレクサでは既に使われているらしい。これを用いて、ある種のデバイスと組み合わせると、僕が望んでいるような事のプロトタイプが作れるかもしれないなぁと思っている。

少し関連することなのだが、このように新しい知識について色々と仕入れたり学んだりすることが増えてきたので、今まではEvernoteにそのようなストック情報は貯めていたが、他の方法も試してみようと思い、会社の人たちが最近よく使っているスクラップボックスを使うようにしてみた。これがどれぐらい自分にとってしっくりする道具になるかわからないが、ともあれまずは使ってみようと思う。それで昨日から十数ページほどページを作った。

そういえば、音声入力をするにはやっぱりアンドロイドが良いのではないかと思ったため、Pixel3を昨日購入した。届くのが楽しみである。

という感じで日記を音声入力で書いてみているのだが、普段の日記比べて自分の思うことをより多くの量を持ってかけているような気もする。純粋に書くスピードだけで言えばキーボードを使うほうが早いのは間違いないかもしれないが、しかし話をすると言うことの楽さがこのようにたくさんの文章を書かせているのかもしれない。そうするとキーボードを使うよりももっともっとアウトプットが増えていくということもあり得るのだろう。