Looking to Listen
[tag:]
Looking to Listen: Audio-Visual Speech Separation
視覚と聴覚を組み合わせることで話し声を分離できる
というのは、多様な情報の流れの中に何らかの一致を
見出すことが、個を認識することにつながっている
ことを示唆しているようで興味深い。
センサの種類や数を増やすと、個の特定の精度は
上がっていくが、精度を上げ過ぎると、人間が
同一個体と判定する対象を別個体として判定する
ようになり、「精度の悪化」と表現されることに
なるだろう。
精度の頭打ちを決めるのは、人間のセンサの仕様だ。
複数の情報の間での齟齬を察知して、個の同一性を
チェックする仕組みも作れるだろう。
「今日は風邪を引いているから聴覚情報がずれて
いる」というように、理由付けによる一時的な
パッチも当てられるようになるだろうか。
その過程がブラックボックス化したものは、
マガーク効果と同じであるように思う。