webhack / ウェブ技術が好き

javascriptやcssやHTML5とかサーバーサイド等のウェブ技術全般を好きに書くブログ

SEO対策で大切な被リンクの調査方法と管理方法

f:id:tkosuga:20151112125613j:plain
写真はうちのミーコ。

被リンクの調査方法はあまり変化がなく固定化されています。この記事はその調査方法の要点をまとめたものです。

被リンク情報の取得について

1. Google Search Consoleを使う(旧名:Google Webmaster)

Google Search ConsoleからCSVで被リンクをダウンロードできます。一般的な「被リンク調査」と呼ばれる作業を行う対象がこのCSVファイルです。

CSVファイルの内容は以下2項目です。

  • 被リンクが見つかったページのURL
  • 被リンクをGoogleが検出した日付

今もリンクが残っているのか?アンカーテキストは何か?の情報は含まれませんので、場合によっては検出されたURLにアクセスして必要情報を抽出する必要があります。

この Google Search Console はAPIを公開していますが、APIに被リンクCSVの取得は含まれていません。そのため被リンクCSVの取得は Google Search Console にログインしてからダウンロードする手順が毎回必要です。

2. 被リンクデータベースのAPIを使う

2.1. 被リンクデータベースを使う理由

被リンクデータベースはGoogle検索エンジンと同じようにウェブサイトをクロール・ページを分析抽出してデータベースに蓄積しています。

これらツールを使うメリットは以下の点です。

  • 過去の被リンク情報が取得出来る ※ 過去に存在していた問題のある被リンクをGoogleが無視してくれているとは限りません。
  • Google Search Consoleで見つからない被リンクを見つける事ができる
  • API経由で利用ができツールやアプリケーションに組み込める
  • 被リンクの属性も合わせて取得できる(アンカーテキスト / テキストかどうか / リンク失効日等)

被リンクデータベースはGoogle Search Console の被リンク情報を補完する関係にあります。そのため両方活用すると一歩進んだ被リンク分析が可能です。

2.2. Moz(旧名:SEO Moz)

Mozが提供する被リンク管理ツールOpen Site ExplorerAPIが使えます。ツール単体利用もできますし、APIを使ってアプリケーションに組み込むことが出来ます。

moz.com

2.3. Ahrefs

あまり馴染みのないサービスだと思います。このAhrefsと次に記述するMajesticが被リンク分析で良く使われるサービスです。名前の通り、被リンク解析に特化したサービスを提供しています。

ja.ahrefs.com

2.4. Majestic(旧名:Majestic SEO

Majesticが提供しているSite ExplorerAPIを提供しています。利用方法はサンプルを見てみて下さい。分かりやすいと思います。

http://developer-support.majestic.com/apideveloper-support.majestic.com

2.5 被リンクデータベースのAPIを使った感想

上記3つのAPIを全て使った感想としては、Majecticが最も使いやすくて、次に使いやすいのがAhrefs、Mozは使いづらかったです。

被リンク情報の充実さではMajecticがベスト。次にAhrefs。Mozは少し物足りない感じでした。

被リンクデータベースの自作は大変そうですし何よりも「運用を開始してデータを貯め初めてから3年4年と経過しないと使い物にならない」ため、被リンク分析をする際にはGoogle Search Consoleと今回紹介した3つの中のどれか1つを選択する事になるでしょう。

3. Googleで検索する

URLやドメインをダブルクオーテーション(")で囲って検索すると結構被リンクが見つかります。サテライトサイトやリンク集からのテキストリンクで困っている方はアンカーテキストも合わせて検索して見てください。

被リンクの管理について

1. 被リンクのデータ構造

当然ですが被リンクはURLに向けられています。そのURL先にはページがあり、ページはドメイン以下にあります。

そのため被リンクデータ構造は以下の関係があります。

  • ドメインとページが 1対N の関係。
  • ページと被リンクが 1対N の関係。

2. 被リンク量の計算(例)

上記のデータ構造を元に、管理が必要になる被リンクの量を計算してみます。

1つのドメインに対して1,000ページあり、1つのページに平均100件の被リンクが付いている場合、10万件の被リンクを管理する事になります。

1 × 1,000 × 100 = 100,000

もし上記条件のサイトが10個あれば100万件の被リンクを管理する計算になります。

10 × 1,000 × 100 = 1,000,000

3. 被リンクのドメインとパスの分離と正規化

Google Search Console からダウンロードした被リンクCSVドメインとパスが分かれていないため、URLからドメインを抜き出します。

被リンクデータベースから取得すればドメインとパスを分けて取得できます。

ただしGoogle Search Consoleと被リンクデータベースの両方共に、被リンク情報にサブドメインの有り無しが混ざっている状況があります。

そのため被リンクが向けられているドメインを決めて(大概においてはサブドメイン込み)で被リンク情報を整えます。分かり易く言えば「URLの名寄せ」ですね。

ここで行うのは以下に列挙するような処理です。

  • URLからパスとドメインの分離
  • 日本語ドメインなど国際化ドメインであればピュニコードへの変換
  • パラメーターによっては除外する(GoogleAnalyticsのutm_など)
  • フラグメント(#)は取り除く
  • 相対パスで書かれているURLを絶対パスで揃える(.と..や/と//など)
  • 長すぎるパスは一定の流れで揃える(255文字など)

またページに対するURLエイリアス(同じ物だけど別名)には以下のパターンがあります。

  • フラグメント。URLの#から後ろの部分。
  • Canonical属性。正規化先のURLです。
  • 無視しても良いパラメーター。サイトによりますがGoogleAnalyticsや広告のパラメーターがこれになります。

ちょっと分かり辛いですね。同一なものとして扱うURL例を列挙して見ます。

上記はそれぞれ異なるURLですが、1つの「http://webhack.hatenablog.com/」として扱います。

このURLを適切に正規化するのが意外と骨が折れます。

4. 被リンク情報を統合する

Google Search Consoleと被リンクデータベースから集めたデータを一元化して扱わないと不便なためデータを統一する必要があります。上記で被リンク情報を整えたのはこのためです。

大規模サイトなると100万件以上の被リンクを管理する必要が出てくるかも知れません。そのため差分を追記する設計にします(ぼくはそうしましたが他の方法もあると思います)。

この差分を抽出する仕組みを工夫せずにURLを文字列で一致させるような検索にしてしまうとクエリーが重くなります。またデータベースのインデックスを文字列型で検索されてしまうとパラメーター込みのURL文字列がそのまま使われる事になるためインデックスが作られていても重いでしょう。この部分の高速化が必須になります。

被リンク情報の更新について

1. 被リンク元をクロールした結果で被リンク情報を更新する

問題がありそうなサイトからリンクなのかどうかを判断する、被リンクが残っているか消えているのか情報を更新するには被リンク元をクロールする必要がでてきます。

そのためクローラーを走らせて情報を定期的に更新して行きます。この被リンク情報を更新するクローラーを作るのがこれまた結構大変です。

クローラーの作り方は別の話題なので記事中では割愛します。

問題のある被リンクの探し方

被リンク情報が統合されていて、検索が高速で行えるようになっていれば後はCSVに出力したり問題となるアンカーテキストだけを抜き出すと言った対応が可能になります。

1. SEOキーワードを含んだアンカーテキストを探す

これが多数見つかるとペナルティを覚悟しないといけません。否認ファイルをアップロードしてリンクを無効化するか、被リンク先ページを削除して被リンクを無効化する等の対処方法があります。

2. CSVファイルに出力してExcelで精査する

情報が統合されていれば、それをCSVで出力してExcel上で操作する方が問題点が素早く見つかる事があります。

3. リンクが急増した時期とそのリンク内容を確認する

何も更新していない下層ページに大量のテキストリンクが付き始めたら明らかに変ですよね?自分たちではなく外部から被リンクを付けられている事も稀にですがあります。また今まで多数存在していたテキストリンクが急に消えたらそれも変ですよね?被リンクの増減は重要な確認項目です。

4. 被リンク先の品質を見る

APIによっては被リンクを点数付けして数字で取得できるものがあります(あまり参考にならない数字ですが)。被リンク先をクロールする中でアダルトなキーワードや全く関係ない文章が多いページが多数あった場合、その被リンクはスパムかも知れません。

フッターに他サイト含めテキストリンクが並んでいる場合、それはSEO目的のペイドリンクの可能性が高いので注意が必要です。今はペイドリンクを使っていなくても過去に依頼した個人運営サイトなどではリンクを剥がす手間をかけるメリットもないのでそのまま放置してあるケースがあります。

後は良く話にでる隠しリンクですが、レスポンシブデザイン隆盛になった3年ぐらい前から既に隠しリンクは特に気にしなくても大丈夫です。

5. ネガティブSEO

問題のある被リンクを使って競合サイトの順位を下げる事をネガティブSEOと言います。この行為は業務妨害およびスパムに当たるため普通は行われませんが、気を付けて定期的に怪しいリンクは否認するのが安全ではあります。

ただネガティブSEOが原因で順位が下がったと騒ぎになったり問題になるケースでは、殆どの場合でネガティブSEOは行われていないと思って下さい。ネガティブSEOは隠れて行われる性質上、順位が下がった・上がらない理由に使い易く「可能性としてもしかして」を口にしているだけの事が多かったです。

まとめ。被リンク分析はけっこう大変

被リンク分析する方法の要点を手短にまとめてみました。ぼくは仕事で技術寄りのSEOをしている事もあり1人で全部自作しましたが、普通に考えるとこれをサイト運営者単位で独自に準備するのは無理ですよね。

そのため同様のツールを持っていそうなSEOベンダーやウェブマーケティングベンダーに委託して被リンク分析してもらうのが良いと思います。

Google Search Console から取得できる被リンクの上限数は10万件です。このぐらいであれば何とかExcel等使った手作業で分析が可能かも知れませんが、これが5サイト10サイトあり、しかも毎月継続して分析するとなると、きっと明日から会社に行きたくなくなるでしょう。

スタッフの精神衛生面ともし転職されてしまった場合の採用コストを考えると被リンク分析はツールの力に頼った方がお得です。

さいごに

質問などあればコメント欄にお願いします。直接質問したい方はTwitter宛てに連絡もらえればと思います。terukazu kosuga (@tkosuga) | Twitter

あと、このようなオリジナルのSEO記事を書くとウェブマーケティング系メディアがビックリするぐらいそのまま書き換え・転載して行くので、引用のルールを守って常識的な範疇での利用をお願いします。

2015年12月時点。コンテンツマーケティング業界のおさらい

f:id:tkosuga:20151124002314j:plain
写真はうちのみーこ。

いまブームになりつつあるコンテンツマーケティングと取り巻く業界を整理して紹介します。企業のマーケティング担当者や、サイト運営者、コンテンツマーケティング関連のビジネスを展開している・または考えている方向けの情報です。

1.ネイティブアド(ネイティブ広告)

コンテンツマーケティングと相性が良いとされているのがネイティブ広告です。ネイティブ広告の言葉の意味はとても広くリスティング広告まで含まれてきます。

媒体や出稿形式が広告形態によって異なりますが、コンテンツへの誘導という点は共通しています。

以下メジャーなネイティブ広告を提供している企業とそのサービスです。

ネイティブ広告とは何か?その形式?については以下記事が分かり易くまとまっていたので紹介します。

これさえ読めばすべて分かる!ネイティブ広告の全種類と活用法

コンテンツマーケティング業界図として、よく目にするマップ図は以下URLで公開されています。

http://www.lumapartners.com/lumascapes/content-marketing-native-lumascape/

コンテンツマーケティング以外のウェブ業界図に関しては以下URLで公開されていますので興味のある方はご参照ください。

http://www.lumapartners.com/resource-center/lumascapes-2/

2.ソーシャルメディア

これは説明するまでも有りませんね。何故ソーシャルメディアがコンテンツマーケティングで重要なのかと言いますと「コンテンツ流通チャネル」として非常に優れているからです。

メジャーなソーシャルメディアを列挙します。

他にはInstagramも2015年10月から日本国内で広告を出せるようになりました。Line@もここに含まれます。

多くの場合はソーシャルメディアに配信して終わり。運よく注目を集めれば良いなと言った運用が行われていますが、キャンペーンを行う場合はコンテンツ配信コストがコンテンツ制作予算以上になる事も少なくありません。

広告は多くの人の目に触れるほど費用対効果が良くなります。そのためエンゲージメント(Facebookいいね!やTwitterのハートなどユーザーのアクション)によって露出効果が広がるソーシャルメディアは重要です。コントール外で副次的な効果が期待できます。

動画を使ったコンテンツマーケティングを行う場合にほぼ確実に使われるのがYouTubeチャンネルです。ショートムービーの再生数はFacebookが1日あたり8億回再生とずば抜けて多いです(この数字に違和感を持たれた方はこちらの解説記事が参考になります)。

3.コンテンツベンダー

コンテンツマーケティングをする上で必須なコンテンツを作る・提供する・企画するのがコンテンツベンダーとなる制作会社や広告代理店です。イメージの付きやすいテレビやウェブの制作会社から、紙媒体が主体となっている出版会社まで含まれます。

クラウドワークスランサーズのようなクラウドソーシングサービスを利用する事もできますが、あくまでもプラットフォームが提供されているだけで、コンテンツの品質担保やクレーム対応や保証については当事者間で解決する話になります。この点を理解した上で利用して下さい。

海外だとNewsCredvisual.ly等のコンテンツプラットフォームがあります。国内ではこれと言ったコンテンツプラットフォームが存在していないように見えます。

4.マーケティングオートメーション(長いので略称MA)

デジタルマーケティングをする上で必須になりつつあるのがマーケティングオートメーションを行うMAツールです。DMP(データマネージドプラットフォーム)やCRM(カスタマーリレーションシップマネジメント)とマーケティングを直接数字で繋げる役割を果たしています。

メジャーなMAツールを以下に列挙します。

ネイティブ広告も技術競争・開発競争が激しいですが、同じぐらい買収額・開発費が大きく激しい印象を受けるのがこの分野です。

コンテンツマーケティングを行うにあたりざっくりと以下の4ステップを踏むのですが、この1と4の精度を大きく高めるのがMAツールです。

  1. ターゲットを定める(ターゲティング)
  2. コンテンツを作る
  3. コンテンツを配信する
  4. 効果測定する

5.コンテンツマーケティングって何?

現在「コンテンツを使ってユーザーに何らかの行動を起こさせるインバンドなマーケティング手法および戦略」をコンテンツマーケティングと呼んでいます。

そのためコンテンツを加工せずそのままマーケティングに利用できる訳ではなく「コンテンツを見たユーザーに行動を起こさせるような仕組み」が必要です。短く言うと「ユーザーの行動をデザインしたコンテンツ」を含めたのがコンテンツマーケティングです。これはコミュニケーションデザインと呼ぶ方が一般的かも知れません。

ユーザーの行動結果はエンゲージメントとして表に出てきます。メール開封率やソーシャルメディアでのリーチ数です。そのためコンテンツマーケティングではエンゲージメントが特に重要視されます。

6.コンテンツマーケティングの今後と関連ビジネス

1~4まで上げた以外にコンテンツマーケティング関連で行われているビジネスには以下のようなものがあります。

  • 企画作成・戦略立案(コンサルティング含む)
  • 教育・トレーニング
  • コンテンツ作成支援(テキストコンテンツ・動画コンテンツ)
  • エンゲージメント測定ツール
  • 有料素材販売(ストックフォト等)

6.1.コンテンツ盗用流用の問題

コンテンツマーケティングが抱える問題の1つにコンテンツが盗用・流用される点があります。そのため著作権管理や保護に力を入れる企業が多くなると見られます。

クリエイティブ業務に関わる皆さまへ 有料写真、インターネット上の無断使用で著作権侵害が認められ勝訴 - ニュース - 株式会社アマナで見られるように無断使用された企業側の主張が認められています。どこも盗用流用しているしうちは大丈夫、と思わない方が良いでしょう。アマナイメージズ勝訴の判例詳細

6.2.スマートフォン向けコンテンツ

スマートフォン全盛の時代ですので、スマートフォン向けのコンテンツ開発は今もですが今後もより強化される傾向にあります。

6.3.インテグレーション領域

インバウンドマーケティングとデジタルマーケティングが統合されたマーケティング手法として、コンテンツマーケティングが成長していく事が考えられます。そのため各種媒体や自社メディアや各種CRM・DMP・アクセス解析マーケティングオートメーションとのインテグレーション領域での需要増が見込まれます。

6.4.汎用的な内容よりも個性

オウンドメディアでは個性が重要視されるためタレントへの需要が高まります。汎用化された没個性や、他からの流用・盗用(他メディアで掲載されているのリライトしただけとか)への風当たりが強くなりますのでオリジナルコンテンツを作れて、それが個性として認められるタレントの人気が高まります。ぐるなびの「ペンと箸」オモコロのヨッピーさんらがこれに当たります。

7.コンテンツマーケティングを学ぶ情報源

最近最大手の電通報でコンテンツマーケティングの記事を良く目にするようになりました。

エピック・コンテンツマーケティングという本の翻訳もここから出ています。この前身となる本、戦略的コンテンツマーケティングは監訳インフォバーンです。

コンテンツマーケティングを学ぶ・理解するのに上記2冊がおススメです。

まとめ

今の所ですがコンテンツマーケティングに詳しいのは今までコンテンツを作り続けてきているTVや新聞など大手メディアさんたちで、コンテンツマーケティングで使われるコンテンツ制作に強い・詳しいのはその系列の仕事今までしてきている制作会社さんや出版社さんたちという印象です。

ウェブマーケティングの一環としてコンテンツマーケティングが流行っていますが本来はウェブ以外も含めたオムニチャネルで展開して効果測定をするのが筋になります。そのためもしマーケティングの最終的な受け皿の役割をウェブサイトに求めているようであれば、それは間違っているので戦略を考え直した方が良いです。

さいごに

質問などありましたらコメント欄に書いてもらうか、直接質問やメッセージを送りたい方はTwitter宛てに連絡をもらえればと思います。

新しいWordPress「Calypso」のインストール手順と動作(キャプチャ込み)の紹介。

f:id:tkosuga:20151125120429p:plain
画像はIntroducing the New WordPress.comのキャプチャ

Node.jsでフルリプレイスされた新しいWordPressのCalypsoをインストールして動作させる所まで試したので記事にします。所要1時間ぐらいです。

Calypsoの特徴はTechCrunchの以下記事に良くまとまっています。プログラマとしても興味深いですし、最近はコンテンツマーケティングの記事を大量に書いているのでライターとしても興味深いです。

jp.techcrunch.com

インストールの流れ

Ubuntu14.04にCalypsoをインストールします。

$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 14.04.1 LTS
Release:        14.04
Codename:       trusty

Calypsoの設置手順は以下URLにあります。

https://github.com/Automattic/wp-calypso/blob/master/docs/install.md

CalypsoはGitHubで公開されています。ライセンスはGNU GPL V2です。公開されてすぐですが3,500を超えるスターが付いていて、イシューとプルリクエストの活発さからも興味関心の高さが見えます。

github.com

まずは設置手順に沿って、gitを最新にします。

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:git-core/ppa
$ sudo apt-get update
$ sudo apt-get install git
$ git --version
git version 2.6.3

node.jsも最新にします。

$ sudo add-apt-repository ppa:chris-lea/node.js 
$ sudo apt-get update
$ sudo apt-get install nodejs npm
$ node -v

hostsファイルにローカルアクセスするドメインを追加します。

$ sudo vi /etc/hosts 
127.0.0.1 calypso.localhost

Windowsの中の仮想環境でUbuntuを動かしているのですが、Windowsと共有しているフォルダ内でビルドするとフォルダパスが長すぎるとエラーになりました。そのためWindowsの制約を受けないよう/tmpに移動してビルドします。

$ cd /tmp
$ git clone https://github.com/Automattic/wp-calypso.git
$ cd wp-calypso
$ make run

最後に以下行が表示されていれば起動に成功しています。http://calypso.localhost:3000/にアクセスしてコンテンツ執筆プラットフォームを楽しみましょう。

READY! You can load http://calypso.localhost:3000/ now. Have fun!

Calypsoの動作を見てみる

URLにアクセスすると、まず認証が求められます。ここで接続してみるブログのhttp://scripta.jp/blogWordPress.comで作られているのでWordPress.comで認証します。

f:id:tkosuga:20151125120430p:plain

WordPress.comの認証画面に来ました。ここでログインすると元のhttp://calypso.localhost:3000/に戻ります。

f:id:tkosuga:20151125120432p:plain

WordPress.comから戻ってきました。MySiteから管理しているサイトの情報を見てみます。

f:id:tkosuga:20151125120433p:plain

ローカルで動いていますがAPI経由でWordPress.comから情報が取得できて正常に動作しているのが分かります。余談ですがWordPress.comのプレミアムプランを使ってサイト構築するの楽なのでおススメですよ。

f:id:tkosuga:20151125120435p:plain

各機能が問題なく使えます。元々のWordPress.orgの管理画面にも左下のメニューから移動できます(ローカルではなくWordPressのサイトに移動します)。

f:id:tkosuga:20151125120436p:plain

ブログ記事の投稿画面もこのように問題なく使えます。

f:id:tkosuga:20151125120438p:plain

まとめ、これからの進化が楽しみ

今まではWordPress.comの管理画面にログインして記事編集を行う必要がありましたが、Calypsoが成長して行くとタブレットやアプリから出来る幅が大きく広がりそうです。

WordPress.orgの管理画面はもっさり遅いという印象が強いですが、これと比べるとCalypsは快適に動作します。API経由なのでかえって遅いのかなと思っていたのですが、そんな事は無かったようです。

最近登場して一気にスターダムに駆け上がったDockerやAnsibleもGPLで公開されています(GPL V3だったはず)。企業が自社プロダクトをGitHubで公開して活発なコントリビュートを集めたい場合にはMITやApacheを選択するよりもGPLを使うケースが多いようです。

技術的にもNode.jsでReact.js + Fluxを使ったシングルページアプリケーションと今風なので実装を見ていじってみるのも楽しそうです。

最後に

質問などあればコメント欄にお願いします。直接質問やメッセージを送りたい方はTwitter宛に連絡もらえればと思います。