Header image  
ウェアラブル・ユビキタス・エンタテインメント
の研究を推進しています
 
   最終更新日 2013年11月10日
 
 
 
 


 
ウェアラブルセンシングの課題・応用

  1. はじめに
  2. ウェアラブルコンピューティングと行動認識技術
    1. 行動認識技術に基づくサービス
    2. ウェアラブルセンサを用いた行動認識技術
  3. センシングを活用した情報提示技術
  4. センシングを活用した情報入力技術
  5. ウェアラブルセンサを用いた行動認識の研究動向
  6. おわりに

5 ウェアラブルセンサを用いた行動認識の研究動向

2章で述べたように,センサ種類,特徴量,および認識器を決定することで状況の認識が実現できる.一方,ユーザの行動の認識に限っても,実用的な認識を行うためにはそれらの要素を単純に決定するだけでは下記のようなさまざまな問題が生じる.

  • 多様性
    登録された行動数が多くなるほど認識精度は低下する.また,歩きながらジェスチャ入力など,多様な状況を想定する必要があるが,学習した状況から少しでも異なる行動だと精度が大幅に悪化する.
  • 正確性
    行動認識の精度はそれほど高くないため,重要な操作に使用しづらい.認識エラーとしては,そもそも認識しない(未認識),他の動作と認識する(誤識別),動作していないのに認識する(誤認識),が考えられ,それぞれ重大な問題を引き起こす.
  • 即時性
    一般に,認識はその動作終了後に過去一定時間分(ウインドウサイズ分)のセンサ情報を用い,特徴量抽出やDTWによる処理を行う.そのため,実際の動作から機能の発動までにタイムラグが生じ,快適さが低下する.
  • 導入容易性
    システム利用前に,可能性のあるすべての動作を学習させる作業は困難である.一方,他人の登録した動作をもとに認識を行うと,ほとんどの場合で認識精度が大幅に悪化する.
  • 直観性
    ジェスチャなどの身体動作は言葉で表現しにくいため,覚えることが難しく,また覚えてから時間が経つほどに動作が変化してしまう.
  • 常時利用性
    認識システムを常時利用するためには,センサやデータ処理システムを常時稼働させる必要があるが,バッテリ切れや故障によりシステムが利用できなくなる可能性がある.
  • 汎用性
    アルゴリズムやシステムが汎用性をもつかを確認するためには多様なデータを用いてテストを行う必要があるが,現状では動作認識の基礎データが存在せず,汎用性を確認できない.
  • ハードウェア
    従来から用いられている汎用のセンサではなく,状況認識に特化したハードウェア(センサ)が開発されれば,より高度な認識が行える可能性がある.

以下,それぞれの課題を解決するための研究を筆者らの研究を含めてトピックに分けて概説する.

多様性および正確性の実現

多様性および正確性の問題に対処するために,認識技術の高精度化に関する取組みが多数行われている.たとえばTapiaらは運動強度の違いを含めた30種類のジムでの運動を加速度センサと心拍センサを用いて認識している[1].しかし,心拍数はユーザ間の違いが大きく心拍センサによる精度の上昇は1~2%にとどまっている.また,Tamらは複数の語から成る文書のトピックを推定するトピックモデルを行動認識に応用し,歩くや座るなどの行動を文書とみなすことで,従来までの単純な波形や特徴量による解析では得られなかった上位の行動(夕食,通勤など)を推定する手法を提案し,86.1%の精度で推定している[2].

正確性の問題に対しては,Lesterらは加速度,マイク,赤外/可視光,赤外,気圧,湿度,温度,地磁気の8種類のセンサから得られる平均や分散,FFT係数,エントロピーなど651種類の特徴量を用いて歩くや自転車,エレベータなど10種類の行動を認識している.単純に651種類すべての特徴を使うと計算量が増えるだけでなく無意味なデータやノイズを含むため認識精度が低下する.そこで,Boostingを用いて各行動に対して判別性能の良い特徴量の上位のみを抽出し,HMM(Hidden Markov Model)を用いて認識することで95%の精度が得られており,認識器を多段で用いることの有効性を示している[3].

我々の研究グループでも,多様性の問題に対処するために,自己相関を用いた認識高度化技術に関する研究[4]に取り組んでいる.従来の動作認識技術では,「ジェスチャと一般動作が同時に認識できない」「認識前に静止しないとジェスチャを正しく認識できない」といった問題があった.従来研究における評価実験は,他の動作を行わず,ジェスチャの前後に静止するといった条件のもとで行われており,現実世界での多様な状況に対応できない.特に,歩きながら携帯端末を使うような状況では,歩行とジェスチャの区別がつかず,また,姿勢や運動状態の判定とジェスチャの認識では適したアルゴリズムが異なるため,単一のアルゴリズムではさまざまな動作を認識できない.そこでこの研究では,自己相関関数を用いることで行動を分類し,あらゆる動作を適切に認識する手法を提案している.下図を用いて具体的に述べると,繰り返し動作を含む運動波形の自己相関にはピークが現れる一方,ジェスチャにはピークが現れない(図上部)ことを利用し,該当区間にジェスチャが行われたと判断した場合のみ(図下部),ジェスチャ認識アルゴリズムを使用する.この手法により,運動中の7種類のジェスチャ認識において従来手法は再現率0.75,適合率0.59であるのに対し,提案手法では再現率0.93,適合率0.93を得ることに成功した.

5-1
自己相関関数による運動中のジェスチャの検出

また,ジェスチャや動作間の関係を明示的に定義することで正確性の問題に対処した研究としては,筆者らの研究グループによるウェアラブルDJシステム[5]がある.このシステムはDJパフォーマンスをジェスチャにより行うが,例えば音量アップに割り当てられたジェスチャを曲の停止に割り当てられたジェスチャと誤認識すれば,ステージの進行に重大な影響を与えてしまう.そこでこの研究では,機能ごとに要求される未認識率・誤認識率・誤識別率を定義し,要求が満たされるかどうかを判別するシステムを構築した.また,再生中に再生の機能が再び実行されることはないなど,機能間の関係や特性を記述する言語を提案し,ジェスチャがステージパフォーマンスなどのクリティカルな状況でも利用できるようにしている.

即時性の確保

従来研究では状況依存サービスやジェスチャ入力において,実際の動作からサービス提供までの遅延についてはほとんど考慮されていなかったが,実サービスを提供するにあたってはその遅延が致命的なユーザビリティ低下を招く.そこで筆者らの研究グループでは,ダンス動作の認識により音を出力するシステムを題材として遅延の問題を解消した認識機構を提案した.ダンスステップの認識にはDTWを用い,両足の動きを3軸加速度センサによって取得して動作認識を行った.予備運用の結果,単純な認識では動きに対して出力音の開始が遅れるため,音と動きとが同期する心地良さをダンサーに与えられないという結果となった.

そこで,この研究では「認識の締切り時間」「2段階認識」「出力音の動的変更」といった概念をジェスチャ認識に加えることで,この問題を解決した[].下図を用いて具体的に述べると,まず出力音をBGMの拍のタイミングで出力できるように,認識するステップをBGMに合わせて実際に踊らせることでステップのモーションのうち認識に使える部分を抽出するシステムを開発した.このシステムにより,ステップを表すモーション(図中の「元のサンプル」)に対して,実際認識に使えるのは前半の一部(図中の「サンプル1」)であることがわかる.一方,前半部分だけで認識を行うと,似たステップの場合など誤認識が多くなる.そこで,さらなる工夫として,前半部分のモーションによる認識でまず音を出力しつつ,継続して認識を行い(図中の「サンプル2」),もし前半部での認識結果が間違っていた場合には出力音を正しいものに変更するというアルゴリズムを提案した.この技術により,出力音の遅れなしに,99%の認識精度を得ることに成功した.

5-2
2段階認識の模式図

導入容易性の実現

認識システムの導入コストを下げるため,教師なし学習と教師あり学習の併用によりラベル付き学習データ量の削減を狙った研究[6]が提案されている.Multiple Eigenspacesと呼ばれる手法で特徴量のみから各サンプルに固有空間を割り当て,少量のラベル付き特徴量を用いて固有空間と行動の関連付けを行った後,SVMを用いて認識することで,一般的な教師ありアルゴリズムを全体の80%のラベル付きデータで学習した認識精度と提案手法を全体の10%のラベル付きデータで学習した認識精度が同等である結果を得ている.

さらに,類似した部分波形の集合であるモチーフを自動的に発見する手法[7]が提案されている.具体的には時系列データの各部分波形を量子化し文字列に変換した後,デンドログラムを用いて複数のモチーフの集合を形成する.6種類の行動を含む加速度と角速度波形に提案手法を適用すると行動の種類と同じ6個のモチーフ集合が得られ,96.3\%のモチーフが正しく割り当てられた.提案手法を用いることでラベル付けしたデータを必要とせずモチーフの集合と動作を関連付けるだけで行動を認識できる.

状況や動作の登録のコスト削減を狙った研究の例として,例示により行動を定義するa CAPpellaシステム[8]やExamplar[9]が提案されている.これらの研究では,実際にシステムの前で該当の動作を行うことで簡単に行動を定義できるようになっている.しかし,これらのシステムでは例示を行った後に,その状況を登録するためのウインドウ選択やセンサ選択の処理が煩雑であるため,筆者らの研究グループではウインドウ選択やセンサ選択,特徴量選択を自動化した行動定義ツールであるコンテキスト定義ツール[10]をWearable Toolkit[11]の一部として提供している.

直観性の実現

同じジェスチャでも日々変化し,別の日に取得したデータを用いた学習データは精度が低下することから,DTWのテンプレートを日々更新する手法[12]が提案されている.ラベル付きデータを与えて学習を行う際に,既に保持している正解のジェスチャのテンプレートが1日以上前のものであれば既存のテンプレートを少ない計算量で新たなテンプレートに置き換える手法を提案している.

また,筆者らの研究グループでは,さまざまなジェスチャや状態をユーザに言葉で教示し,その言葉の詳細度(表現)が認識精度に与える影響を調査している.たとえば「手を振る」という動作で多数のユーザが同じ動き(バイバイをするように手を振る)をする場合,そのジェスチャは汎用性が高く直観的な動作であると言える.このようなジェスチャは他のユーザの学習データでも十分な認識精度が得られるため,「あらかじめ学習させないと使えない」というジェスチャインタフェースの欠点を解消できると考えている.予備実験の結果,同じジェスチャにおいても説明の言葉の詳細度を変化させることで認識精度は大きく変化するが,7種類のジェスチャを3段階の具体度(高,中,低)で指示して得られたデータの認識精度は高:62%,中:22.9%,低:25.7%となり,詳細にすればするほど認識精度が上がるわけではないことが明らかとなった.

常時利用性の実現

センサや携帯端末を常時利用する環境では,低消費電力化により稼働時間を確保する必要がある.特に無線センサを用いる場合,センサはバッテリを含むため,バッテリサイズがデバイスの大きさに直結する.

そこで筆者らの研究グループでは,認識精度と低消費電力化の両立をはかる研究に取り組んでいる.具体的には,装着センサの電源を制御し,OFFにしたセンサの値を補完することで低消費電力化を実現する手法および,センサのサンプリング周波数を可変にし,足りないデータを補完することによる低消費電力化を実現する技術を提案している.センサの電源制御による低消費電力化[13]では事前にセンシングデータのデータベースを構築し,装着しているセンサのうちONのセンサから得られた値と最も距離が近いサンプルをデータベースから検索する.ここでの距離とはユークリッド距離にセンサ間の相関係数を乗じたものである.検索したサンプルのOFFにしたセンサに該当する値で補完することでデータは完全なものとなり,認識システム側からセンサはすべて稼働中に見えるため追加の変更を必要とせずに高精度で認識できる.OFFにするセンサを増やすことで認識精度は若干低下するが省電力効果は大きくなる.その際,最適なセンサの組合せを事前に収集したデータから自動的に判断する機構を備えている.

また,このデータ補完手法はセンサの電源制御だけでなく周波数制御とも併用できる.これまでにも周波数制御により低消費電力化を実現する手法[14]は提案されているが,非センシング時にCPUのクロックを低下させるなど特殊な待機状態を実装しており汎用性が低い.これに対し,筆者らが提案するデータ補完手法と周波数制御の併用手法は一般の加速度センサでも精度を維持しつつ低消費電力化を実現でき,前述の電源制御と併用する手法と比較しても,より柔軟に認識精度と消費電力のバランスを制御できる[15].さらに筆者らはこのデータ補完手法を組み込んだウェアラブルセンサ管理デバイス(CLAD)を開発している[16].CLADは複数のウェアラブルセンサを接続でき,センサの異常などを検出する.センサの異常時には代替可能なセンサに切り替えたりデータ補完を行うことで屋外などセンサが壊れやすい環境での常時利用性を実現している.

汎用性の実現

文献[17]に示されているとおり,既存の行動認識アルゴリズムの研究ではせいぜい数十人規模のデータを研究室環境で取得したものがほとんであり,実環境で取得したデータに適用すると精度が大幅に悪化することが報告されている.したがって,実用的なシステムを構築するにはユーザの一般的な傾向や特性を調べ,評価するために大量のユーザデータが必要となる.一方,動作認識データベースは,大量のユーザのラベル付きモーションデータを含み,誰もが使える形で提供されていることが望ましい.例えば音声認識の分野では,雑音下での音声認識評価用データベースAURORA-2J[18]が構築されている.一方,行動認識のデータベースを構築するためには,センサの種別,計測パラメタ,センサの装着場所や数,コンテキストの種類,などどのような規則をもとにデータベースを構築するのかを決定するのが難しい.

ある程度長期間のデータを取得した例として,LifePatterns[19]は,100日間の自身の行動をカメラおよびジャイロセンサを搭載したウェアラブルコンピュータでモニタし,行動ログをある程度の数のコンテキストに自動的にクラスタリングする手法を提案している.一方,これは単一の人物の少ないセンサによる情報であり,汎用的なデータであるとはいえない.

そこで,2009年にHASC(Human Activity Sensing Consortium)[20]という組織が立ち上がった.HASCでは,共有可能な人間行動の大規模データベースやツールを整備することを目的としており,シンポジウムや認識アルゴリズムチャレンジ(HASC Challenge)等の取組みを通してデータベース構築を行っている.これらのデータベースを用いることで,複数アルゴリズムの比較やコストの定式化が可能になると考えられる.

システムプラットフォームとの統合

行動認識技術は,それを用いるサービスとともに活用されてはじめて実用的なシステムとなる.動作認識技術と組み合わせて用いるシステムプラットフォームに関する取り組みはこれまでにも数多く行われている.代表的なものとして,米国MITで進められているMIThrilプロジェクト[21]は,ウェアラブルコンピューティングにおけるハードウェア・ソフトウェアプラットフォームの構築を目指したものである.コンテキストアウェアシステムにおけるハードウェアの管理や,センサから抽出したデータの特徴量抽出およびコンテキスト認識を行う機能をAPIセットとして提供し,プログラマが容易にウェアラブルシステムを構築できる環境を目指している.またContext-toolkit[22]は,センサデータをカプセル化するcontext widget,複数のwidgetを統合するcontext aggeregator,実際のコンテキスト計算を行うcontext interpreterの3層モデルを用いてコンテキスト認識を行うことで,使用するセンサの変化など末端のシステム変更の影響を吸収している.Gesture Toolkit[23]は,隠れマルコフモデルを簡単にセンサ値に適用できるようにしたツールキットである.

MEX[24]はモジュールを組み合わせることによって簡単にサービスを構築できるようにしたシステムであり,Mullerらのシステム[25]はセンサからの入力をイベントとして処理が記述できるプラットフォームである.

筆者らの研究グループでも,上記のシステムが特徴としてもつモジュール性や抽象化に加え,システム稼働中の動的な機能変更,イベント駆動型ルールによるシンプルな動作記述,コンテキスト定義ツールなど行動認識技術を容易に利用するためのさまざまな仕組みを備えたシステムプラットフォームであるWearable Toolkit[10][11]を提案しており,Flashと連携機能をもつフレームワーク[28]も開発している.これらのプラットフォームを用いることによってプログラマはセンサの違いや認識機構によらず,行動認識に基づくシステムを構築できるようになる.

新たなハードウェアの開発

Kristofらは加速度センサに代わる行動認識に特化した省電力センサデバイスPorcupineを開発した[27].Porcupineは空間上の8方向に配置された2値傾きセンサのみから構成され,ある時点でのセンサの向きを8ビットで出力するシンプルな構造のため低消費電力であり2週間程度の連続稼働が可能である.しかし,取得するデータの粗さから歩行や階段昇降などの行動認識は困難であり,睡眠時の姿勢認識などの利用に有効とされている[28].

また,筆者らの研究グループでも,センサ内で簡単な認識処理を行いセンサからウェアラブルコンピュータへの送信データ量を削減した加速度センサデバイスの開発[29]や,センサのピーク値という新たな特徴量をセンサデバイス内で計算し,低消費電力で行動認識を行うデバイス[30],においセンサを装着可能なサイズで実装し,においに基づく状況認識が行えるようにしたシステムなど新たな行動認識向けハードウェアの開発を行っている.

6へ (続きを読む)

参考文献

[1] E. M. Tapia, S. S. Intille, W. Haskell, K. Larson, J. Wright, A. King, and R. Friedman: Real-Time Recognition of Physical Activities and Their Intensities Using Wireless Accelerometers and a Heart Rate Monitor, Proc. of International Symposium on Wearable Computers (ISWC 2006), pp. 97--104 (2006).
[2] T. Huynh, M. Fritz, and B. Schiele: Discovery of Activity Patterns using Topic Model, Proc. of the 10th International Conference on Ubiquitous Computing (UbiComp 2008), pp. 10--19 (2008).
[3] J. Lester, T. Choudhury, N. Kern, G. Borriello, and B. Hannaford: A Hybrid Discriminative/Generative Approach for Modeling Human Activities, Proc. of the 19th International Joint Conference on Artificial Intelligence, pp. 766--772 (2005).
[4] K. Murao and T. Terada: A Motion Recognition Method by Constancy-Decision, Proc. of the 14th IEEE International Symposium on Wearable Computers (ISWC '10), pp. 69--72 (2010).
[5] Y. Tomibayashi, Y. Takegawa, T. Terada, and M. Tsukamoto: Wearable DJ System: a New Motion-Controlled DJ System, Proc. of the International Conference on Advances in Computer Entertainment Technology 2009 (ACE 2009), pp. 132--139 (2009).
[6] T. Huynh and B. Schiele: Towards Less Supervision in Activity Recognition from Wearable Sensors, Proc. of the 10th IEEE International Symposium on Wearable Computers (ISWC 2006), pp. 3--10 (2006).
[7] D. Minnen, T. Starner, I. Essa, and C. Isbell: Discovering Characteristic Actions from On-body Sensor Data, Proc. of IEEE International Symposium on Wearable Computers (ISWC2006), pp. 11--18 (2006).
[8] A. K. Dey, R. Hamid, C. Beckmann, I. Li, and D. Hsu: a CAPpella: Programming by Demonstration of Context-Aware Applications, Proc. of International Conference on Human Factors in Computing Systems (CHI2004), pp. 33--40 (2004).
[9] B. Hartmann, L. Abdulla, M. Mittal, and S. R. Klemmer: Authoring Sensor-Based Interactions by Demonstration with Direct Manipulation and Pattern Recognition, In Proc. of the ACM Conference on Human Factors in Computing Systems (CHI2007), pp. 145--154 (2007).
[10] T. Terada and M. Miyamae: Toward Achieving On-Site Programming, Proc. of the 13th IEEE International Symposium on Wearable Computers (ISWC '09), pp. 1--8 (2009).
[11] http://wearable-toolkit.com/
[12] L. Jiayang, W. Zhen, Z. Lin, W. Jehan, and V. Venu: uWave: Accelerometer-based Personalized Gesture Recognition and Its Applications, Proc. of International Conference on Pervasive Computing and Communication (PerCom 2009), pp. 1--9 (2009).
[13] K. Murao, T. Terada, Y. Takegawa, and S. Nishio: A Context-Aware System that Changes Sensor Combinations Considering Energy Consumption, Proc. of 6th International Conference on Pervasive Computing (Pervasive 2008), pp. 197--212 (2008).
[14] A. Krause, M. Ihmig, and E. Rankin: Trading off Prediction Accuracy and Power Consumption for Context-Aware Wearable Computing, Proc. of International Symposium on Wearable Computers (ISWC 2005), pp. 20--26 (2005).
[15] Y. Nakajima, K. Murao, T. Terada, and M. Tsukamoto: A Method for Energy Saving on Context-aware System by Sampling Control and Data Complement, Proc. of the 14th IEEE International Symposium on Wearable Computers (ISWC '10) (2010).
[16] K. Murao, Y. Takegawa, T. Terada, and S. Nishio: CLAD: a Sensor Management Device for Wearable Computing, Proc. of 7th International Workshop on Smart Appliances and Wearable Computing (IWSAWC 2007), DVD-ROM (2007).
[17] L. Bao and S. S. Intille: Activity Recognition from User-Annotated Acceleration Data, In Proc. of 2nd International Conference on Pervasive Computing (Pervasive 2004), pp. 1--17 (2004).
[18] http://sp.shinshu-u.ac.jp/CENSREC/ja/CENSREC/AURORA-2J/
[19] B. Clarkson, S. Basu, N. Eagle, T. Choudhury, and A. Pentland: Learning Your Life: Wearables and Familiars, Proc. of the 2nd International Conference on Development and Learning, p. 235 (2002).
[20] http://hasc.jp/
[21] R. DeVaul, M. Sung, J. Gips, and A. Pentland: MIThril 2003: Applications and Architecture, Proc. of International Symposium on Wearable Computers (ISWC 2005), pp. 4--11 (2005).
[22] A. K. Dey, D. Salber, and G. D. Abowd: A Conceptual Framework and a Toolkit for Supporting the Rapid Prototyping of Context-Aware Applications, A Special Issue on Context-aware Computing in the Human-Computer Interaction, Vol. 16, No. 2--4, pp. 97--166 (2001).
[23] T. Westeyn, H. Brashear, A. Atrash, and T. Starner: Georgia Tech Gesture Toolkit: Supporting Experiments in Gesture Recognition, Proc. of the 5th International Conference on Multimodal Interfaces, pp. 85--92 (2003).
[24] J. Lehikoinen, J. Holopainen, M. Salimaa, and A. Aldro-Vandi: Mex: A Distributed Software Architecture for Wearable Computers, Proc. of 3rd International Symposium on Wearable Computers (ISWC '99), pp. 52--57 (1999).
[25] H. Muller and C. Randell: An Event-Driven Sensor Architecture for Low Power Wearables, Proc. of Workshop on Software Engineering for Wearable and Pervasive Computing, pp. 39--41 (2000).
[26] T. Terada and K. Tanaka: A Framework for Constructing Entertainment Contents using Flash and Wearable Sensors, Proc. of the 9th International Conference on Entertainment Computing (ICEC2010), pp. 334--341 (2010).
[27] K. V. Laerhoven and H. W. Gellersen: Spine versus Porcupine: a Study in DistributedWearable Activity Recognition, Proc. of the 8th IEEE International Symposium on Wearable Computers (ISWC 2004), pp. 142--149 (2004).
[28] K. V. Laerhoven, M. Borazio, D. Kilian, and B. Schiele: Sustained Logging and Discrimination of Sleep Postures with Low-Level, Wrist-Worn Sensors, Proc. of the 12th International Symposium on Wearable Computers (ISWC 2008), pp. 69--77 (2008).
[29] K. Kodama, N. Fujita, Y. Yanagisawa, T. Terada, and M. Tsukamoto: A Rule-based Acceleration Data Processing Engine for Small Sensor Node, Proc. of the 3rd International Workshop on Middleware for Sensor Networks (MidSens '08), pp. 1--6 (2008).
[30] K. Murao, K. V. Laerhoven, T. Terada, and S. Nishio: A Method for Context Awareness using Peak Values of Sensors, Proc. of International Symposium on Ubiquitous Computing Systems (UCS 2009), pp. 43--50 (2009).

連絡先

mail

tsutomu[[at]]eedept.kobe-u.ac.removehere.jp