2009年7月6日月曜日

第15回WI2研究会 1日目第1セッション「情報抽出・分析」

7月4日、5日と広島市立大学で開かれた第15回Webインテリジェンスとインタラクション(SIG-WI2 シグウィッツ) に参加してきました。

うちの大学も相当ド田舎にありますが、こちらもなかなか野趣に溢れておりました(失礼)
緑が多くて、ところどころに美術系の学生が作ったモニュメント(スターゲートみたいな)があって結構楽しかったです。
ただ、土日ということで学食・購買が一切空いていないのには閉口しましたが。。。
大学前のパン屋が2日前にオープンしてなければ、完全に昼食を食いっぱぐれるところでした。


会場は写真左手の小ホールでありました。
学生で聴講のみなので参加費はタダ♪
Proceedingと懇親会費だけ払ってきました。
うちの認知系のボスがProceedingを楽しみにしているようなので、ここで第一目的はクリアしました。
……まさかチュートリアルがタイトルだけとは思いませんでしたが;;

以下、午前のセッション「情報抽出・分析」のメモです。
個人的解釈、私的推測入り乱れてます。
「??」は私が疑問に思った部分です。

==============
■ブログにおける話題語の出現理由の抽出と話題に関する詳細記事推薦
発表者:早稲田大学 中島さん

・話題語:ブログ上で一時的に急増した語
  背景知識がないと何故その話題語が急増したのか分からない
  →6つの情報:話題理由、意味、中心人物、場所、時間、情報源を抽出する
  ※ 多分、この6つを対象とした根拠は6W1H

・提案手法
  (人物、場所、時間、手段)→(理由)→(詳細記事)の順序で抽出
  1.まずWikipediaで定義文(「●●とは××である」)を獲得する
  2.ブログ記事のフィルタリング→話題語を含む記事全て
  3.除去する記事:話題語ばかりを含むスパム的記事があるので除去する→話題語の関連語をどの程度含むかを見る
  4.記事本体の形態素解析→地域、人名、数タグをつける
  5.並んだ名詞を連結させる。連結した語には元のタグを継承させる
  6.タグを改めて人物、場所毎に抽出→最も出現数の高い語を抽出
    ??日時と状況が必ずしも一致しないのでは??
  7.話題語を含む、中心人物、場所、時間、情報源を多く含む1文を抽出
  8.記事を推薦

・評価実験
  ・ウィキペディアの話題語に対する網羅性:話題語に関する記事がウィキペディアに存在するか
    45語を対象に調査→53%くらい網羅
  ・ウィキペディアから抽出された意味の評価
    人手で評価した結果→90%以上が一致
  ・話題語の抽出情報と推薦記事の一致について
     中心人物、話題理由、推薦記事(複数の要素による判断)は精度が高かった
      場所(人名が場所と判断されてしまった)、時間(テレビ番組から書いてる人が多い)の精度は低かった
    Googleブログでは詳細に書かれたブログ記事が存在しない場合も合った
    アニメやドラマの場合、特殊な語が多かった
・関連研究(話題語に関する研究)
  ・ブログの係り受け:慶応大学の数原先生
  ・Yahoo!Japanブログ検索

[質問1]
ブログ記事よりもニュースを見せた方が良いような気がする
   →テレビ番組や、うどんの日とかニュースにならない話題語もある。
ハニカミ王子とかそういうのをフォーカスした方が良い

[質問2]
時間についてブログエントリーの日付と、「今日」、「昨日」の単語の組み合わせの方が良いのでは?
    →まだ実装できていない
話題語はブログによって増幅されたマスコミ報道になるのでは?
   →ニュース記事にならない報道もある

[質問3]
この区分はかなりナイーブなものになるのでは?中心人物、場所と組織の違いはどうやって?(例:広島市立大学は組織?場所?)
   →中心人物の場合、人名しかとっていない

[質問4]
現実の推薦では話題語としてアップされると、それにアクセスする人が増えて過剰に話題語の推薦順位があがる。
   →自動的に時間で区切って、関連語による検索の重み付けを行う
話題語以外の語を使うと、その人の興味でひくとどうなるのか?

[質問5]
式の重み付けの手法について
   →実験結果によって適切な値を決めた


■ブロガーの体験熟知度に基づくブログランキングシステム
京都産業大学 中島さん(前の発表者と同じ!)

・ブログの検索やランキングに対する要求の増大
ブログとWebページは違う。ブログは投稿直後は外部からのリンクが存在しない。Googleの検索方式だとこれを見つけるのは難しい。

・従来手法
  ブログエントリに対するランキング:新着順やキーワード
  ブログサイトに対するランキング:リンク数、アクセス数、投票数によるランキング
    →目的トピックに関する最新エントリが存在するとは限らない
  ??ブログサイトの知名度は低いが隠れた名文を探したいのか?→名文サイトは必然的に高いランキングを持つ気がするのだが??
  ??投稿数と投稿内容のレベルに相関性があるのか?あれば分野別にランキングを作った方が早いのでは??

・提案手法のコンセプト
  ☆熟知度が高いブロガーが書いた記事は素人が書いた記事よりも価値が高い
  中身よりも情報の発信者に対する権威が、エントリの信頼度を保証するのでは?
  →対象トピックに関して詳しく書かれたエントリを数多く投稿したブロガーは熟知度が高い
・提案手法
  1.熟知領域リストの作成
    「ファン、マニア、フリーク」で検索してこれらの検索後の直前の語句のうち、出現頻度が高いものを辞書に登録
      →500領域
    独自開発した生活体験シソーラス(LETS)を用いて、そのカテゴリを熟知領域リストとして採用
      →14000領域
    熟知語そのものではなく、「赤ちゃん」にたいして「離乳食」「おむつ」といった関連語による重み付けも必要!
  2.ブロガーの熟知度スコアの算出
    熟知語と関連語と共起語数を用いて算出
    スパム対策もしている
  3.ブログランキングの算出
    熟知語をリスト化→この熟知語リストからクリックすると、その側面からみたその熟知語を扱うブログが見れる
    熟知ブロガーを熟知度に基づいてランキング

・ニュアンス比較について
  ニュアンス(清清しい、感動、可愛い、怒り、恐怖など)とその関連語からブログ記事のニュアンスを判定
  全ブロガーと熟知ブロガーのある語に対する感情の主成分を解析

・効果
  ある検索ワードに関する結果だけでなく、関連ワードもリストアップするので、その関連ワードに依存した立場による記事が見れる
  ニュアンス比較によりどういう感情をもってブログを書いているのかが分かる

・実験システムに関するデータ
  ブロガー 70000以上
  エントリ 140000以上
  20個のキーワードに対して、熟知ブロガーとして妥当か判定91%
  エントリは67%
  学生は20人

・今後は信頼性の高さを提示できるようにしたい

・生活体験シソーラス
  ブログやニュースなどの実テキストにしばしば表現される生活体験を体系的に整理・分類したシソーラス
  概念の変化について扱う(移籍した野球選手etc)
  自動的カテゴリ辞書管理システム:連想辞書の自動生成
  成分解析エンジン:任意の入力テキストを分類するグラデーション・エンジン。広告や商品のレコメンデーションに応用している。

[質問1]
ブロガーの熟知度とエントリの妥当性の評価が分かれたのは何故?

[質問2]
頻繁にエントリを出しているブログでも内容がやばい場合もある
   →フィルタリング、熟知ブロガー同士のリンク関係などを利用してうまく排除したい。

[質問3]
LETSはどうやって作る?
   →候補は機械的に、最後の決定は人手である
ブログの信頼性の指標はすでにあるのでは?それと関連させることは考えていない?
   →普段は違う意見のグループが、あるテーマについては合意が取れた場合、そのエントリは信頼性が高い。そういうところをみたい。


■キーワードの時系列データにもとづくブログ、ニュース、スパムの解析
島根県立大学 石田先生

・事項相関に基づきキーワード出現頻度の基本周期系列を抽出するアルゴリズム

・分析データ
   実験データの取得期間:2008年1月1日から2009年5月15日
   ブログ、ニュース、スパム
   毎日ランキング上500をとり、出る単語を解析
   それぞれの単語について各日に登場した回数の配列を求め、自己相関を求める
・自己相関の隣接差分積
  時系列データの自己相関の局所的ピークを検出

・情報源に対する比較(定量的分析)
  7日周期が多い
  ・ブログ:7日比べて14、21日周期も多い(月末、週一のテレビ番組)
   長い場合は365日
  ・スパム:短い周期の頻度、スパマーが短い周期で類似文章を投稿
   2日周期が多い
  ・ニュース:基本周期に沿っている
   7日が突出している
・定性的分析
  ・週間キーワード(基本7、たまにずれる)
   出現頻度リストについてブログは鋭く、スパムは平坦
  ・完全週間キーワード
   ??休講ワードが出てきた??これって完全週間なの??
   ・週間ブログキーワード(特徴的なキーワードを適当に選定)
   週末の運動に関するキーワードが多かった。
  ・年間キーワード(365日を周期としている)

[質問1]
自己相関とはどうやって求めているのか?
    →単語の出現頻度を毎日だす(日数分の配列を用意して、それぞれにその日のその単語の出現頻度を入れる)。それに共分散を算出
どういうアプリケーションに応用したいのか?
    →広告などのマーケティングに利用

[質問2]
がちがちなアルゴリズムになってないか?
   →緩くしてしまうと、解釈が難しいデータになってしまった。

[質問3]
結果がある程度自明になってはないか?周期性が見つけられて、そこに何かがあるのが分かったら良いんだけど。そこらへんからどうやって人の活動を見出したいの?
   →今後分析していきたい

[質問4]
フーリエ変換を使おうと思わなかったのか?
   →自己相関を使う事を決めていた
スパムブログフィルタに使えないか?
   →使える


■旅行ブログからの観光情報の自動抽出
広島市立大学大学院 石野さん(えらい美人!声もきれい!うぐいす嬢かと思った!!)

・2007年観光立国推進基本法が成立
データベースはあるが、人手で集めているので大変
  →ブログから自動的に観光情報を抽出
  網羅性、最新性、ブログ著者の属性からユーザに適した観光情報
・提案手法
  1.旅行ブログの検出
    旅行ブログの例:観光情報が含まれているかで判定
    観光:余暇時間の中で、日常生活圏を離れて行う様々な活動であり、ふれあい、学び、遊ぶ事を目的とするもの
    複数エントリにまたがる旅行エントリは、中日が検出できない。。。(最初の日と最後の日しか旅行とかかない)
    →系列ラベリング問題として扱う
    機械学習としてCRFを利用
  2.旅行ブログからの観光情報抽出
    地域名と土産者の対の抽出 Google7-gram??(これがないと余計な文章を抽出してしまう)
    →旅行ブログに含まれる地域名と土産物の両方を持っている文を抽出
      →新たな土産物の対を抽出

・実験 検出編
まずYahoo!ブログから観光、旅行という単語を含むエントリを抽出
再現率は低かったが、精度が高かった。→ブログ数を増やすことで解決できる
再現率=複数エントリに渡る旅行記の一部の場合、検出できない場合もある(こういう漏れのなさが再現率)
    記載内容が少なくても難しい
検出誤り=旅行ブログでないのに、旅行ブログとしてみてしまう
    エントリの前後に旅行ブログがあったりする
    地元紹介のエントリ??これは取れても良いのでは?(地元の判別さえできればOK)
  他人の旅行を紹介しているエントリ

・実験 観光情報の自動抽出
それぞれ任意に80000文を抽出
  旅行ブログ
  一般ブログ
  一般ウェブ

[質問1]
土産ものと場所の対だけでなく、景色とかを扱う場合は、このままの手法で使えるか?
   →有効であるものとないものに分けられる。食事をメインに扱いたい。
公共機関ではなく、ブログからの抽出の意義は?
   →ユーザの主観的な感想が見たい。
踏み込んだ事が書いたブログじゃないと抽出する意味が無い。そこらへんまでやってるのか?
   →(なんば先生)ブログ先生から抜く意義はパーソナライズにある。ブログを書いている著者のパーソナルデータから、さらにリコメンドできたら嬉しい。

[質問2]
旅行ブログでないと判定したものの中の地元紹介は何でだめなのか?ニッチな観光情報として使えるのでは?
   →今回の目的には沿ってなかっただけ。
この手のブログはすっごいスパムが多い。。。偽情報とかはどう判別しているのか?
   →今後。

??ブログエントリにタグってついてないのかなぁ、それ利用できないのかなぁ??
==============

ここまでが第一セッション。
目標である「1セッションにつき1回は絶対に質問する」はクリア☆

やっぱりWebマイニングの世界はテキストベースが多いんだなと改めて実感しました。

ブロガーの体験熟知度についてははうちの研究室で、pdfの推薦を考えている同期の研究の参考にもなりそうです。
生活体験シソーラスLETSはちょっと欲しい。。。

最後の旅行ブログの質問2について、彼女と同じ研究室の院生が、ブログからの主観的データの抽出を行っているそうなので、それと組み合わせると結構良い感じになりそうです。
10月のWI2でそっちの発表も聞けたら良いなぁ☆

0 件のコメント: