2009年7月6日月曜日

第15回WI2研究会 1日目チュートリアル「ユーザ評価を見つめなおす」

第15回WI2研究会 チュートリアル……。

今回私がこの研究会に参加した最大の目的がここにありました。
チュートリアルがタイトルだけとは知らなかったのでガンガンメモりました。

===========
■定量調査・実験と定性的調査の基本的な考え方
北陸先端科学技術大学 杉原先生

・ユーザ行動分析が研究テーマ
現場に行って調査分析する(定量的調査、定性的調査)

・システム開発者は評価はそんなに拘らない
  ←→杉原先生
    システムつくりはそこそこ、評価は大好き♪
・現場にとって真なるニーズ抽出法の提案

・調査、実験、実践的調査
  ・調査
    定量的調査
    質的調査
  変数を一定に出来ない部分に、学問的に重要な変数が含まれている事が多い
  ・実験
  条件を意図的に操作
  ・アクションリサーチ 実践的調査
    研究者が現場に関与しながら
      ←→事例研究とよく対比される

・調査の基本的な考え方
  周到な準備をした調査・実験だけが良い結果を導く
  定量的調査の目的:平均的モデルを求める 文脈は無視される事が多い 仮説検証型研究
  定性的調査:文脈をくみとる 仮説生成型

・尺度の種類、性質
  順序尺度を感覚尺度に近づける必要がある→そういう風に実験計画を立てる
  四則演算ができるのは比率尺度だけ
  順序尺度は中央値を出すか、順序として出すか。だけ

・質のデータの示し方
  冗長さが意外とダイナミクスの表示に大事

・理系の実験
  比較対照が必要
  手順、境界条件は規定済み
  結果の再現性が重要視→最終的な目的が現象の制御である
  ・仮説検証方研究
    境界は所属分野により暗黙的に決定(境界の見極めが重要)
    ノイズは第3の変数として考察の対象になる
・心理実験と社会科学系の調査
  手順、境界条件試行錯誤の
  比較対象があると良いけど、新規性に注意!
  手順の再現性が重要で結果の再現性はない
  新規性が最重要、蓋然性の高い結論が重要視→最終的な目的が現象や概念の説明
・研究に求められるもの
  新規性 研究そのもの
  妥当性 データ
    調べたい事をきちんと図る事が出来ているかということ
    内的妥当性(その分野で)、外的妥当性(一般性)、理論的妥当性(自分の仮説と理論の一致)
  信頼性
    再現可能性→社会研究の場合結果そのものは再現されないことも多い
  代表性
    適切なサンプリングを行っているか
    単なる特殊例ではないか?
  論理性・一貫性 研究そのもの
・理系の場合は積み上げる。社会現象は掘り下げる。
  社会現象を掘り下げると実は根っこが違う事が分かる
・定量的調査と定性的調査のプロセス比較
  定量的調査:仮説構成→数量的データ→数量的データの分析
  定性的調査:問題を収拾と分析が同時
厳密な意味ではやり直しがきかない
・質的調査
  非干渉的技法
  クオリティを高めるには・・・
    密な記述が必要、
    ユーザ:基本的に自分の都合だけで話す
    研究者:キーワード的な概念を中心にご都合主義
  結果を一般適することはできない
  数を増やせば良いのか?否、それは定量的調査→深さ、豊かさを記述 複雑かつダイナミックな相互作用を取り扱うために向いた
・混合研究法
  定量と定性の組み合わせ
・実験・定量調査の概念
・実験のメリット
  実験条件を厳密に統制可能
  因果関係を説明するための状況を人為的に作る
・実験のデメリット
  変数を減らすためやや不自然な状況を作らざるを得ない
・被験者内計画と被験者外計画?
  全ての条件に同一の被験者を参加させる→目的がばれる
  1条件あたり20人が必要と言われる
  かく乱変数が多く出てくる(反復による疲労や練習効果)
  →ランダマイゼイション(実験の試行順序を被験者ごとに無作為に決める)
   カウンタバランス(ランダムさに偏りが表れないよう各実験条件が均質化するように)

・参考文献リスト
実践的研究の進め
データはウソをつく
質的調査法入門
ユーザのための教育・心理統計と実験計画法

・枝葉話でしたが気に入った名文
『かすかな生が圧倒的な死と対峙していると言う密度の濃さ』


■ユーザの認知プロセスに着目したWebインタラクションの分析
愛知教育大学 斎藤先生

・実験的な質的な中間を分析している
認知的な視点から、学習教育的な視点へ

・経験や課題の違いによる情報探索行動の違い
どういう風にデータを分析している?被験者をどうとらえている?
  ・研究目的
    1.認知的アプローチによるWeb情報探索プロセスの検討
    2.問題解決について、Web検索の知識や経験の違いによるパフォーマンスやプロセスの違い
  ・被験者の選出
  Webサーチ経験の多寡を基準に被験者を捕らえる
    Webコンテンツの性質を感覚的に理解している
    →ちょっとこれではもやっとしているので<汗
      経験の分類指標として「日常的なWeb利用、情報収集スタイル、検索エンジンに関する知識」
      点数付けをして中間層を排除(単純に2分割ではなく)してグループ間の比較をし易くした
  ・課題の設定
    事実発見課題 パフォーマンスを0/1で判断できる
    日常的な課題 被験者によって知識の差がない課題
  ・パフォーマンスデータ
    事実発見→発見できた人数:Expert>Novice
    プロセスに関するデータ→発話プロトコル:課題遂行中に頭に浮かんだ事をすべて声に出してもらった(プロトコルアナリシス)
                行動データの収集:閲覧履歴、パソコン画面
  ・分析の仕方
    科学的発見における空間探索のモデル Two space model(Simon & Lea, 1974)
               実験の統制(探索の絞込み)
    仮説空間(キーワード空間)→実験空間(Web空間、検索結果、ページ)
                 ←
              実験結果のフィードバック(探索結果のフィードバック)
  ・モデルに基づいて分析指標を提案
    空間内の探索に関する指標
    空間から空間に推移していくパターンの指標
  ・発話プロトコル
    予測に関する発話、評価に関する発話
    声に出し、書き起こし、コーディング(評価、予測のタグ付け)し、信頼性の確認(評定者によるコーディングの確認、結果の確認)
  ・行動データの分析
    ProblemBehaviorGraph(PBG)
    探索スキーマ

・WebにおけるExploratorySearchの分析
  ・研究目的
    1. ExpcloratorySearchの分析
    2. 視線データ
  ・被験者
    Expert:図書館情報学専攻の大学院生
    Novice:他専攻の学部生
  ・課題の設定
    自由度の高い情報収集課題
  ・パフォーマンスデータ
    前の+
    課題遂行後のインタビュー
    視線データ
  ・Webページのどこをみているか?
    Webページの何処を見ているか?
      装置さえよければ取れる
    !Webページの何を見ているか?
      ページの位置≠特定の内容→コーディングでカバー
      ??スクロールしちゃいけないねぇ
  ・相補的なデータの分析
    行動データ
      ブラウザログ
      画面キャプチャ
    視線データ
      ↓仮説をあてて、検証
    発話プロトコル
      課題遂行中・後

  ・レポート作成はサブタスクに分けにくい
    インタビューデータの分析
    →レポートに対する戦略の違い
      ・院生:参考文献リスト
      ・学部生:Webページをそのまま使おうとしている

・利用者の特性を要因とする場合
  ☆特性の定義やレベル分けの基準を客観的に分かるようにする→できるだけ量的な指標で基準の違いを示す
  Moore(2007) SearchExperience研究のメタ分析
・課題の設定
  Simulated Task:被験者間の比較が厳密
  Open Ended Task:被験者の興味を反映したリアルな行動、難易度・情報量の統制が困難
どちらを選ぶかは自分が何を見たいかに関ってくるなぁ。。。ってことで。


■ゲーム理論的方法論に基づきユーザ特性を理解するための社会的心理学実験
NTTコミュニケーション科学基礎研究所 松田さん

・学生時代:社会心理学
・実験に対する熱い思いを買われ、杉原先生に呼ばれてきた。

●人間モデル
どんな結果が得られても「こうなりました」って書けばいいんでしょ?
  →松田さん「このヤロー」
一回目の発表、中島さんのさんの67%って良い数字?多分良い。比較対照があればOKだったんじゃない?

・性に関する実験
  1.男性が女性のイラストの魅力を評定
    →ウエストとヒップの比が0.7がもっとも好まれる
  2.嫉妬の性差
    →男性:女性の肉体的な浮気を許せない
    →女性:男性の精神的な浮気を許せない
人間モデルに照らすと明らかになる
  1は子孫繁栄のため:ウェストが細いと妊娠してない→女性に対する魅力。
  2も。女性は妊娠してしまうと自由に動けなくなる→父親への信頼度が重要。

・4枚カード問題
  一方がひらがななら、他方は偶数でないといけない
  「1」 「4」 「あ」 「イ」
  対偶を利用した良い問題 → 「一方が奇数なら、他方はカタカナでないといけない」
  両方カタカナだったり、両方偶数であるのはOKってことだよ!

●人を使う実験がめちゃめちゃになる理由
人はウソをつく。悪意のない嘘。
特に日本人は「謙譲」を美徳する民族なので。

ある問題をとかせる。
  理論的には平均より上か下か?
  何も無いと→「平均より下ですよー」が69.2%
  金がかかると(予測が正解していたら100円上げます)→「平均より下ですよー」が23.2%。。。オーイ

・研究者倫理の問題
都合の良い評価実験データが得られる状況はデータの捏造と紙一重。
将来の研究者に負の遺産を残してはならない。

・実験者と参加者の間の相互作用
  ギヤク効果(無自覚)→参加者が信じきり、効果が表れてしまう。。。
    ピグマリオン効果→出切るというと伸びる
  要求特性(自覚)→仮説を予測し、それに基づいて行動する
    *別の目的を装う=質問紙にもあえて多様な質問項目を列挙する
    *意図的に操作できない測定法
  評価懸念→知的能力・常識が試されていると懸念し、行動が変化
    知人や指導学生を参加者にするとき、特に注意が必要
  実験者効果→無自覚に実験者が参加者の行動を誘導してしまう
    二重盲検方
・Deception(騙し)の人権倫理問題
  インフォームドコンセプトに反する重大問題かも
  論文では倫理委員会によるチェックが必要だったりする。。。

・参考文献
心理学研究法 高野

■フィールドマイニングの試み
大阪大学 松村先生

・もとはAI、コミュニケーション方面のひと
  →分析の対象ブログ、2chもした。。。
  →データマイニングの限界はどこだ?データありきの学問だよなぁ
  →物理空間、フィールドを対象としたデータ分析
人間が気付くようなきっかけの方法論
行動を変化させるちょっとした工夫
  ・男子便器の目標→年間のトイレ掃除代が一億円くらい浮いたらしい
  ・ゴミ箱の口
  ・公演のベンチの真ん中に手すり→ホームレスが寝なくなる
  ・車道の絵→車の速度を下げる
  ・高速道の段々狭まっていく点々→車の速度を下げる
身近な道具もキッカケになる
  ・カメラ→撮れるものがないかと色々見るようになる
  ・ベビーカー→地面の段差に敏感になる

生活空間は見ているのに見ていない、聞こえているのに聞いていないことに溢れている
フィールドマイニングは人とモノと環境との関係を再構築する
  →フィールドの変化がどう人の行動に変化を及ぼすか

・石橋らくがきマップ
全年齢を対象にしようと思うとオフラインな仕組みに

・外でランチ
実験をやったのが11月だったので、実用的ではなかったが外に関心は向けられた

・阪大坂を使った実験
福男
地元が炊き出ししてイベント化
次年度からは地元と市から予算が着くようになったらしい

・イメージマップを用いた
石橋という駅をもつ町のイメージ
子供がかなり集まったらしい

・ムーバブルチェア
動かせる椅子を放置して、利用の様子を観察
年齢などによって座る位置が変化した

・音を使った実験
音を聞かせてどこでやってる音かを当てさせる

・お店の落書き帳
ラン検定(連続性の検定)

■質問
to松村先生:フィールドマイニングのマイニングってどこにかかってるの?
最初は環境にいろいろセンサを取り付けるつもりだったのでこういう名前に。。。
フィールドマイニングの本来の語義は「穴をほること」です。

to松田さん:被験者を疑い出すとゴールが見えない。どこまでやれば良いかというラインはある?
出せない。結局それはみなが試行錯誤して続けていくしかない。
情報系の人がやってる実験は低い所で止まっているのではないか?
実験者効果がとくにでかいのでは?
変な基準で図ったデータが将来の人にリファらされると怖い。

to松村さん:ノーマンの行ってる認知系からプロダクトのデザインに行く。デザインの話なんだろう、それは工学者が必要とされるものだ。情報工学研究者として+な部分、マイナスな部分を教えてほしい。
認められない。。。研究としての分野が難しい。投稿先や評価基準が分からない。もう趣味です。

to斎藤先生:エキスパートとNoviceの切り分けは統計的に見ればセーフ?
本当は指標がほしい

to皆さん:質問はない ヒューマンインタフェースの本場の学会ではチュートリアルが多い、ユーザ評価どうするか?
研究テーマになりそうな素材をなげて、評価もする

to斎藤先生:視線のデータをどう料理している?眼球運動のどういう特性を使っている。
視線データ、注視点、停留点

to斉藤先生:視線についてのデータをとるにはどのくらい勉強しないといけない?
眼球運動のデータを使って研究を行っていた人と一緒にやっている。

to杉原先生:明確な因果関係の把握は難しく、類推でしかないのでは?
質的な調査と量的な調査を組み合わせるべき→少ないデータでは因果関係をいえない

to松田さん:極度に被験者実験の条件を拘束すると、工学と実験のミッシングリングを埋められなくなるのでは?
ユーザ評価をやっつけでするなら、やらない方がいいじゃん
何でユーザ評価しないといけないのか。
===========

杉原先生の発表速過ぎ。。。
ほとんどメモれんかった。。。パワポが欲しいよ~っ(>_<)

斎藤先生の話はかなり具体的。
一通りの手順が明らかなので、参考にしたいと思います。

松田さんはとにかく面白い!しばらく研究室でネタにできそうww
あと二重盲検法について調べとこ。

松村さんの話は何か今年のMYCOMで聞いた気がするんだけど。。。後で飲み会で確認したら来てないそうなので、多分別の機会だったのかなぁ?うーん。。。


ちなみに質問を1回するという目標は達成できず。
レベル高すぎました;;

2 件のコメント:

松田 さんのコメント...

>被験者を疑い出すとゴールが見えない。どこまでやれば良いかというラインはある?

当日、しゃべりすぎて興奮していたせいか記憶が混乱して、京産大のN先生からいただいた質問を思い出せなくなっていました。
こちらのサマリーを拝見して、無事に思い出すことができました(しかも、わかりやすい!)。ありがとうございます。

micchu さんのコメント...

> 松田さん
お役に立てたようで、とても嬉しいです。
松田さんの話は本当に面白かった反面、「うっ」と流れ弾を何発か食らいました。。。精進します;;
しかし、こんな辺境ブログ誰も来ないだろうと思ってたんですけど、案外見つかるのですね<汗