今日行ってきた第2回SBM研究会のメモです。
SBMがつくるコミュニティ SBMでつくるコミュニティ - 研究・サービスの両面から - 国立情報学研究所・株式会社グルコース 大向一輝様
コンテンツ推薦をやってみたが効果はほとんどなかった。
推薦の対象をコンテンツではなくイノベータユーザに変えて実験してみた。上手くいったが、コミュニティに偏りがあるからだと思われる。
SBMは今までのアナロジーの枠組みでは説明が難しい。
コミュニティブックマーク、http://4dk.jp/ の説明。コミュニティ内での情報共有が主な目的。圧倒的にクローズドで使われている。
質疑応答
4dkを社内向けにカスタマイズしてもっと情報を使いやすく出来ないか?
視野に入ってる。要相談。
イノベータユーザ推薦とユーザのお気に入りは何が違うのか?
具体的な誰かよりも、理想のイノベータユーザを作って情報推薦した方がいい。
あともう一つ質問があったのですが、私の頭では上手く整理できませんでしたorz。
大向様のブログ。http://d.hatena.ne.jp/i2k/
ソーシャルブックマークデータの時間情報を用いた情報フィルタリングと検索 慶應義塾大学大学院 政策・メディア研究科 修士課程1年 上野大樹様
ブクマ数と時間の関係をグラフ化した。3つのタイプのページが存在。
- 一時的に急激にブクマされ、その後はブクマされないページ(Type1)
- 一時的に急激にブクマされるが、その後もブクマされていくページ(Type2)
- 急激にブクマされないが、長い間ブクマされ続けていくページ(Type2)
Type1は一度読んだら終わり。
Type2は何度も参照するページ
Type2を優先的に検索するため、セレクトブクマを作った。http://plazman.chi.mag.keio.ac.jp/sbm/summary.jsp 時間的なフィルタリングがかかっているのが特徴。
セレクトブクマでjavaを検索したら入門者向けのページが出てくる。
セレクトブクマについて考察。
- ブクマ数の多いタグによる1単語検索
- 一時的、暫定的なWebページをフィルタリング
- Google検索と比較して、その単語について詳しく知りたい場合に有用
セレクトブクマの今後の課題
質疑応答
Google検索結果と比較するみたいだが、何を基準に比較するのか?
被験者に面白さや有用さで比較してもらう。定量的ではない。
関連サービスのじわじわ来てるエントリーとセレクトブクマの違いは?
一日のブクマ数に制限をつけていないので、検索結果が結構違うと思う。
古いページの方が有利だと言っていたが、αが大きくなったときの順位相関はどう変わるか?
まだそこまでやっていない。
ブクマされたページが一時性かどうかを判断する期間はどのくらいか?
そこはあまりしっかり分析していない。
今後のセレクトブクマではユーザ重みを考えるのか?
そうしたアプローチも面白いと思っている。
セレクトブクマの推薦に使う式はどのくらい考えたのか?
一番シンプルな方法をまず試してみた。他の式も考えている。
ミニプレゼン
は、自分がボランティアで全然話を聞けなかったセッションがあったり、プレゼン資料が配信されてなく、目が悪い上メガネを忘れてさらに一番後ろの席に座ってしまったのでプレゼン資料が見えない。ので、ログに残すことは止めときます。
【追記】西谷さんの資料が配布されていたのに気付いてなかったorz。
伊藤 直也:株式会社はてな「新はてなブックマークについて」
300万UU。
20.6万ユーザ。
はてブの3軸
- 機能
- コミュニティ
- メディア
特に機能を強化。
お気に入り機能を強化。
衆愚問題に対応したい>コミュニティは分散するべき
はてなユーザの1割しか使ってなかった。>お気に入りがある程度増えないと面白くない。
お気に入りを増やすために>Twitter、mixi、Facebookなどのグラフを読み込む。
お気に入りのグループ分けが必要。
↓
スパム対策、コメントフィルタリングができる。
検索、テキスト分類、関連エントリ
従来のはてブの欠点>最新の記事にばかりフォーカス
↓
過去のデータに光を当てる>検索、機械学習
新はてブ検索>お気に入りがブックマークしてることが分かる。
テキスト分類
ベクトル空間の類似度を調べて分類する。
なぜ分類エンジンを作ったか?>元々のカテゴリ分けの精度が低かった。また、コンピュータ以外の話題にもリーチ出来る導線が必要。
今後はコミュニティ、メディアに手を付けていく。
お気に入りが繋がりやすくなるように。
非表示機能によるフィルタリング。
コミュニティの分散
はてなブックマーク市民
フィルタリングの基本方針
表現の自由は確保したい。
見たくないものは見なくてすむようにしたい。
↓
たこつぼ化していくのでは>逆で、アグレッシブじゃないのも見えるようにしたい。問題が顕在化してから対処したい。今のところ問題はあまり無いと思っている。
藤田 昭人:IIJ−II/大阪市立大学大学院 創造都市研究科「Kikker の Map/Reduce 化」
kikkerは大量のクロールをこなすのが重たかったが、それをMap/Reduceでやってしまおう。Googleのクローラもコレ。Map/Reduceは分散並列処理についての論文。クローンとしてHadoopがある。
Webページのクロール
はてブの新着ページをクロールする。
WebUIは作っていない。
Map/Reduceで作り、並列処理させると新着ページのクロールスピードが上がった。有用。8万ページも5分くらいで処理できる。絶大。
GPLライセンスでオープンソースとして公開する。
□パネルディスカッション「SBM研究を加速・拡大するために−SBM事業者には何ができるのか 」
livedoor 井原氏:事業者から見たSBM
CGMの3つのレイヤ
- 情報を創る
- 情報に付加価値を与える
- 情報を消費する
SBMの役割とビジネス
高い広告マッチ率をたたき出してほしい。
livedoor clipの三つのホーム
- ウォッチリスト
- マイクリップ
- オススメクリップ
プログラマ的視点で見ると、一つ更新されたら連鎖的に更新が必要。キャッシュ技術で、如何に残すかより如何に消すか?
clipやreaderの公開情報をレコメンドの研究などのために出せる。
Yahoo!Japan 沢田氏
Yahoo!ブックマークとは?
2001年にオンラインブックマークとして登場。
2007年に大幅更新。ブックマークされたページを全文検索できたり知り合いに教えたりする機能を搭載。Yahoo!ツールバーにもブックマーク機能を搭載。Yahoo!検索にブックマーク数を出している。SNSにもブックマークを出したりして、発展中。
ブラウザブックマークに近い操作性。
ブックマークについても研究のために出せるデータを検討中。
ECナビ 須藤氏 SBM事業者には何が出来るのか?
Buzzerlの特徴
SBM研究について
どんどん情報出していきます。実績あり。
- パーマリンク
- コメント
- タグ
- お気に入りグラフ
- スパム解析とかしてほしい
慶応大学 上野氏
必要なデータは
- URL
- Title
- ユーザに紐づくタグ名
- いつ登録されたか?
- 後一つ失念。すみません。
の五つ。
レコメンデーションの研究はそろそろ限界。はてブのレコメンデーションは優秀。コミュニティ化が面白い。そうしたデータがいただけると今後面白い研究が出来るのでは?