URL分析
ちょっと用事があって大量のURL(ここでは一部、二部上場企業)を分析する必要がでてきた。急ぐので、取り合えずWindows Scriptで書いたんだが、以外にうまくいった。
誰かの参考になるかも知れないので記録しておく。以下、ダウンロードファイルがあちこちにあるが、すべて同じフォルダーにあることを前提としている。
URLリスト
ネットで集めた結果が、これです。2152社分のURLです。(2006年4月現在)
ダウンロードしてください。
NSLOOKUP
まず、そのURLのIPアドレスを探ります。そのためには、NSLOOKUPコマンドを発行して結果をもらいます。
NSLOOKUPコマンドはwindowsのコマンドプロンプトで入力し、結果を得ることができますが、Windows Scriptはその入力と出力をトラップすることができます。
そして、得たIPアドレスでもう一度、NSLOOKUP(DNS逆引き)をします。小規模なホスティングのサーバーはこれで本当の名前を得ることができます。
プログラムはここです。ダウンロードして中身を確認してください。VBSですからね。
このプログラムはDNSLIST.csvというファイルを作ります。中身は「企業名,URL,DNS逆引きの結果,DNS逆引きで一番頭のアドレスを取り去ったもの(結果をみればわかります),IPアドレス」です。
WHOIS
次にIPアドレスを誰が所有しているか調べます。それはWHOISサービスを利用します。
プログラムで処理するには、フリーウェアでwhoiscom107.lzhという便利なコンポーネントがある。これをインストールする。
このコンポーネントの注意書きにあるとおりwhoisはあまり連続してたたくと答えをくれないので、10秒おきに問い合わせをしながら、ドライブするプログラムはここ。ダウンロードして中身を確認してください。
このプログラムはWHOISLIST.csvというファイルを作ります。中身は「企業名,URL,DNS逆引きの結果,DNS逆引きで一番頭のアドレスを取り去ったもの(結果をみればわかります),IPアドレス,登録組織名」です。
実行は非常に長い時間かかります。約6時間くらいかかります。
このようにして、インターネットのサービスを利用して情報を得ることができます。参考になるか、と思います。実行結果はおそらくさしさわりがあるでしょう。掲載しません。