Smile Engineering Blog

ジェイエスピーからTipsや技術特集、プロジェクト物語を発信します

モスキートーンのAIスピーカー(?)

「 モスキートーン」とは?

ある会議で、Blog掲載のテーマについて話をした時のことです。「モスキートーンという若者にしか聞こえない音があるけど、どういうものなのか?」という話題から、「モスキートーンのAIスピーカーなんてものがあったら、、、特定の人にだけ聞こえるようなことが出来たら面白い?」 みたいな話があり、私なりに考えてみました。

まず、「モスキートーンのAIスピーカー」で、そのまま検索してみました。なんと、それっぽい記事がありました!

  • 「AIスピーカーに特殊な音で指示 勝手に操作可能に」

特殊な音で指示を送ると、周囲に気付かれることなく、第三者が勝手に操れるとする実験結果を、早稲田大学の研究グループが発表したという内容です。

また、次のような記事もありました。

結構あるんですね。ただ、特定の人に聞こえるようなユニークな発想や目的ではなく、人にバレずに勝手に指示をだせる懸念や今後のAIスピーカーへの警鐘でしょうか。

モスキートーンの正体からすると(単純に高周波のトーン信号だけでは)音声にならないし、AIスピーカー向けのキーワード検出や音声認識エンジンのサンプリング周波数が、代表的なもので16kHzで周波数帯域でいうと8kHzまで(サンプリング定理)なので、音声認識が反応しないだろうと思っていました。

AIスピーカの入出力 目的 周波数帯域
(代表的な例)
備考
入力(マイク) キーワード/音声認識 ~8kHz サンプリング周波数16kHzの場合
出力(スピーカ) 音楽再生が可能 ~24kHz サンプリング周波数48kHzの場合

ただし、再生に関しては、「Alexa、音楽かけて!」のように音楽再生に対応した帯域(~24kHz)なので、モスキートーンの再生に関しては理論上は可能です。

高周波で音声認識が反応するのか?

モスキートーン(高周波)だけでは無理だと思っていますが、高周波の音声っぽい信号を作り出せばAIスピーカーにあるキーワード検出や音声認識エンジンが反応するのでしょうか? 前にも書きましたが、AIスピーカー向けの入力信号のサンプリング周波数が16kHz(音声に対応する目的)なので、表現できる音の周波数は8kHzまでになりますが、なぜ人間が聞き取れないような高周波で、8kHzまでのAIスピーカーのマイクが対応できるのでしょうか。。。不思議に思いましたが、そこには、ちょっとしたカラクリがありそうです。

高周波と音声認識 周波数帯域
(AI向けの代表的な例)
備考
キーワード検出 ~8kHz サンプリング周波数16kHzの場合(※)
音声認識 ~8kHz サンプリング周波数16kHzの場合(※)

※:サンプリング周波数24kHzもあります。

モスキートーン

まず「モスキートーン」について調べてみました。 17kHz前後の高周波とあります。人間が聞こえる周波数が一般的に20~20kHzのようで、高域の聴力は、年齢によりが低下すると言われてます。私も、17kHzは全く聞こえません。音響技術者として残念ですが15kHz以上はほぼ聞こえません(自分の耳鳴りと区別がつきません職業病?)。大きな声では言えませんが、業務では自分の耳には聞き取ることのできない音(品質)に対応しなければならないケースが多々あります。

モスキート(Mosquito) とは英語で「蚊」を意味し、「蚊が発する不快な羽音」ということのようです。どちらかと言うと、若者が屯する場所の設備破損の防止や、コンビニ等のトラブル回避の目的で知られる方が多いでしょうか。ただし、本物の蚊の羽音の周波数は350~600Hzなので、皆さんご経験がある通り人間にハッキリ聞こえています。

人間が聞き取れる音 周波数帯域 備考
モスキートーン 17kHz前後の高周波 若い人は聞こえる
本物の蚊の羽音の周波数 350~600Hz これは人間に聞こえます
人間が聞こえる周波数 20~20kHz 実際に20kHzまで聞こえる人は少ないと思います
音声認識の帯域 ~8kHz サンプリング周波数16kHzの場合

モスキートーンの生成(Audacity

音声波形編集ソフトには信号生成機能があります。トーン信号の生成で17kHz(17000Hz)を設定すれば生成できます。この時、サンプリング周波数は17kHz × 2倍 = 34kHz以上にする必要があります(44.1kHzとか48kHz)。 Audacityで生成するには、【ジェネレーター】➞【 トーン】で生成できます。Audacityで周波数分析 - Smile Engineering Blog

トーン 設定 説明
波形: サイン波 波形の種類
周波数(Hz): 17000 17kHzを設定
振幅(0-1): 0.5 0~1.0の値で

周波数を見ると【解析】➞【 スペクトラム表示】17kHz(17000Hz)のところがとんがっています。

f:id:jspnet:20190708234628p:plain

モスキートーン再生は検索しても出てきます。皆さんは聞こえるでしょうか。。。

また、スイープトーン(Sweep tone)【ジェネレータ】→【チャープ】を生成すれば、自分がどのくらいの周波数まで聞こえるか試すこともできます。

音声認識が、なぜ?

人間が聞こえる周波数が20~20kHzとすると、人間が聞こえない音とは20kHzを超す高周波 ということになります。また、モスキートーン(17kHz前後)は、年齢と共に聞き取れなくなる傾向なので、17kHz~20kHzは若い人には聞こえる(特定の人に聞こえる)が、聞こえない人もいる、ということになります。

人間が聞こえない音 周波数帯域 備考
高周波 20kHzを超える周波数 これも個人差があるようです
年齢による差 17~20kHz 若者は聞こえるが、、、

8kHz程度の帯域にしか対応していない音声認識が、モスキートーンや、さらには人間に聞こえない20kHzを超す高周波に反応するのでしょうか? 次回は、この本題について考えてみたいと思います。

横浜、みなとみらい、モスキートーン(?)

余談ですが、横浜、みなとみらいでは、地下鉄からの通路や、ビルの入り口で何か「キーン」とか不快な音が響いていると聞くことがあります。検索すると、やっぱりあるみたいです。超音波によってネズミなどを防ぐ装置が取り付けられているとか、建築物の衛生管理で薬剤以外で防除を行うというような記事もありました。