こんにちは。
唐突ですが、Web上にはたくさんの人が書いた大量の文章が転がってますよね。

数年前から”ビッグデータ“という言葉をよく耳にするように、大量の情報は扱いようによっては宝の山と捉えることができ、例えば自社のビジネスで手に入れた大量の情報に対してうまいこと統計的な解析なりデータ処理なり施すことでさらにビジネスを強化する、といったようなことができるわけです。

そしてこの”ビッグデータ”という単語を聞いてすぐに思いつく分野は、冒頭で述べたようにやっぱりWeb業界だと思います。

str_aft

ブリッジの現在の事業上ビッグデータに触れる機会はありません…が、Web業界に生きる人間としてどうしても押さえておきたいんだ!!という熱い思いを抑えきれなかったので、今回アウトプットしておこうと思います。

さて、有名なビッグデータ活用例として以下のサービスが挙げられます。

ビッグデータ活用例

<コンテンツマッチ広告>
コンテンツ情報からキーワードを抽出し、コンテンツ内容と関連する最適な広告を配信(Google AdSense等)

<レコメンデーション機能>
ECサイトにおけるユーザの購買履歴情報をもとにおすすめ商品を提示し、ユーザの購買意欲を向上させる(Amazon等)

上記2サービスは、ユーザの情報をもとに趣味趣向が判別され、別のコンテンツや商品に向かわせています…そう、あなたは誘導されているんです…

それは置いておいて、コンテンツマッチ広告について説明すると、Webなどから取得した大量のテキスト情報(ビッグデータ)と自然言語処理のアルゴリズム*を用いてコンテンツhtml内のテキスト情報における特徴的な単語(キーワード)を自動抽出し、そのキーワードをもとにコンテンツに関連する広告が選択されます。
*代表的なものだとtf-idf等。実際はもっと新しい複雑なアルゴリズムを使用していると思います。

実際にキーワードを抽出してみた

ためしに、上記の技術を用いてこのBRIDGE BLOGの最新過去3記事からキーワードTop3を抽出してみました。
(Yahoo!キーフレーズ抽出APIを使用してます。記事の一部のみ解析対象としてますので精度はちょっと低め)

  • 2014年10月2日の記事(デザイナー 米田 裕子)
  • 身近なところに・・・進むユニバーサルデザイン事例

    1. Webアクセシビリティ
    2. 障がい者
    3. 幅広いユーザー
  • 2014年10月10日の記事(ディレクター 渡辺 ゆかり)
  • 「やっぱりサイト集客が大事!Web活用のための『今どきのSEO』セミナー」レポート(1)

    1. Search Engine Optimization
    2. a2i
    3. セミナー
  • 2014年10月16日の記事(ディレクター 千原 愛)
  • サブドメインとサブディレクトリの使い分け

    1. コーポレートサイト
    2. サブディレクトリ
    3. 自社サービスサイト

    どうでしょう、それなりに記事の特徴を捉えてるように見えませんか??
    なんならこれをそのままタグに設定しても良いかと思います。

    まとめ

    上記技術を用いれば、クライアントが管理している記事のタグやカテゴリ設定を抽出された特徴語をもとに自動で付与することで記事の整理を少しでも容易にさせる、というような応用例もある思います。(実際Wordpressには自動タグ付与のプラグインがあります)

    今後、本記事のようにWebサービスを支える要素技術についても知識を得て発信していくつもりです。お楽しみに!

    Webマーケティングをするなら専門業者ブリッジコーポレーションにお任せください!

    お問い合わせ