感性メタ活用分析(技術仕様)

技術仕様

エンターテイメント分析における技術的「こだわり」

エンターテイメントにおける分析で重要なのは一般的な統計分析とは違い顧客の感覚的な趣向や目的にアプローチしなくてはいけないと言うことです。多くの場合その差は大変に微妙なものであり通常の分析ではノイズとして省いてしまうような情報を理解し反映しなくてはなりません。近年のビッグデータ分析のトレンドはハードウェアの進化も後押ししリアルタイム性を重視したアーキテクトが主流になっています。ソケッツではGPUコンピューティング等の高速処理技術を使ったアプローチを導入しリアルタイム分析を行っています。しかし最も重要と考えるのはリアルタイム性もさることながら感覚的にしっくりくる分析結果の生成であり、そのためには原点に戻り、エンターテイメント分析の要となる曖昧なデータの再解析、自然言語解析分析、過去の分析結果の再分析を人と機械の融合で行い、そしてそれを活用するためのシステムアーキテクトを優先して実装しています。

イメージ図

性質の違うデータの融合:クレンジング/マッチングテクノロジー

ビッグデータ分析において入力ソースは大きく分けて「構造化データ」「非構造化データ」「リアルタイムデータ」「曖昧なデータ」の4つに分かれます。ソケッツではこれらの性質/形態の違うデータをマシンリーダブルな状態まで体系化する為のノウハウを10年以上にわたり蓄積しており、特にエンターテイメントにおける「名寄せ」「マッチング」においては国内トップクラスの技術/ノウハウを有しています。

  • Data at Rest

    構造化データ

    基本情報、感性メタ、ジャンル、アーカイブデータ…
    テラバイトクラスのデータ処置

  • Data in Many Forms

    非構造化データ

    レビュー、SNS、BLOG、歌詞/台詞、書籍…
    自然言語解析、ナレッジベーススクレイピング…

  • Data in Motion

    リアルタイムデータ

    ストリーミングデータ、ユーザアクション…
    分散/GPUコンピューティング

  • Data in Doubt

    曖昧なデータ

    曖昧、類似、不完全、非一貫性、時差…
    マッチングテクノロジー

アーキテクト概要:技術と役割

ソケッツ分析システムのアーキテクトスタックは図のようにビッグデータ分析で重要な役割の2つのカテゴリーに分割されています。役割の分岐点は「分散コンピューティング」と「データ構造」になります。ここの役割を完全に分断することで大量のデータから金を見つけだすデータ分析官と大量のデータを効率よく体系化し格納するインフラエンジニアをもっとも効率よく機能させることが出来ると考えています。データ分析において大事なことの一つに、できる限り多くトライ&エラーを繰り返す機会を増やす事があげられます。そして次には分析の終了点である妥協点を見つける作業を時間とコストから見つける事になります。ソケッツのビッグデータ分析アーキテクトではこの為の分散コンピューティングをデータ分析官が直接・簡単にリーチできる仕組みを前面に導入し最小限の手続きでトライ&エラーを可能な限り繰り返せるよう支援するよう分析結果のクオリティ向上にむけて設計されています。

イメージ図

ナレッジグラフ検索テクノロジ-

ソケッツでは、ユーザーアクションログやWebクローリングデータのような非構造化データと平行して完全に構造化されたデータベースを保有しています。これらは全ては共通のキーマスターで串刺しされていて音楽作品から映像作品、プロモーションビデオから出演人物を介してイベント情報、Twitterで話題のキーワードから映像作品などクロスカテゴリー/クロスメディア/クロスエクスペリエンスをIDベースのハードリンクで実現することが出来ます。分析においても深い分析を実施するために必須のデータであり統計分析では出来ない理由の分かる分析結果の生成が可能になります。ソケッツではナレッジ検索テクノロジーとしてこの機能を実装しています。

クローリングテクノロジー

ソケッツでは、独自のクローリングテクノロジーを有しています。それぞれに違う構造のWebページに対応する為に10年に及ぶ経験値から作り上げた数百種に及ぶWebスクレイピング仕様プラグインにより様々な様式のサイトのデータをほぼクローラーのチューニングなしに取得することが出来ます。スケジューラーによる限定サイトの差分更新や自立型bot.による収集を24時間体制で行う事が出来ます。またデータのクレンジング技術においても独自設計によりホワイトリストとアルゴリズムにより取得データの重みをクローリングと同時に行い後処理になる体系化の効率化につなげています。タイムリーな情報を逃さないためにサイトの特性を判定するロジックが組み込まれておりクローリングのタイミングや精度/優先度を自動判別する機能があります。

関連サービス

技術仕様

Pagetop