掲示板
題名:自動収集が時々失敗する件
投稿者:管理人投稿日時:2014-07-19 11:30:14 +0900
本文:
最近一部の感想ライター様にご迷惑をおかけしているようで、大変申し訳ございません。少々当サイトの事情についてご説明させていただきます。
いくつかの感想ブログに対して、当サイトではスクリプト(プログラム)による記事の自動収集を行なっております。ライター様が記事を書かれると、プログラムが定期的に(おおむね、毎日夜中)に各ブログを「見に行き」、必要な情報を収集して、当サイトのデータベースに記事を登録します。
この「必要な情報」の中で、最も重要なのがISBNです。ご存知の方も多いかと思いますが、ISBNとは書籍についているコード番号のことです。「4」で始まる10ケタ、もしくは「9784」で始まる13ケタの番号です。ISBNがわかれば、本のタイトル・作者・出版社等すべて(基本的に)わかります。
プログラムでは、このISBNを取り出すために、ブログ記事の中身(HTML)を解析します。だいたい皆さん、記事の中に書籍のアマゾン等へのリンクを貼っているかと思います。このリンク(のHTML)の中に、通常はISBNが入っています。プログラムはこれを見て、記事で言及している作品のISBNを判定しています。
問題は、ISBNが紙の書籍にしかなく、電子書籍には(通常)付与されていない、という点です。同じ作品でも、紙の方にはISBNがありますが、電子書籍にはISBNがないのです。たとえばアマゾンの場合ですと、電子書籍のリンクにはISBNのかわりにASINというアマゾン独自のコードが入っているのですが、ASINからはISBNと違ってタイトル・作者等がわかりませんので、データベースへの登録ができません。
当サイトの自動収集が失敗するのは、このISBNが記事(中のリンク)の中に見つからない時なのですが、多くの場合これは、記事中の作品リンクが紙の書籍でなく電子書籍(Kindle版とか)へのリンクになっている場合です。
ですので、自動収集されるようにするためには、いちばん簡単なのは、電子書籍(Kindle版とか)でなく紙の書籍へのリンクにすればよい、ということになります。もちろん、ブログ記事にどのリンクを使うかは感想ライター様の自由ですので、当サイトの方から「紙の書籍へのリンクにしてください」とお願いするつもりは毛頭ありません。ただ、上記の事情をご理解のうえ、電子書籍へのリンクだと自動収集が失敗する点だけご了解いただけますようお願い致します。
当方としましては、ASINからタイトル・作者等がわかるようになればいちばんよいのですが、ちょっと調べたところではそれが簡単にわかる方法が見つかっていません。引き続き対応を検討していきたいと考えております。ご迷惑をおかけして誠に申し訳ございませんが、何卒よろしくお願い致します。