シェルスクリプトマガジン

第1回 Amazonの商品ページURLをきれいにする

ロジックを考える

 では、ロジックを考えていきましょう。初回のテーマは「Amazonの商品ページURLをきれいにする」です。オンラインショッピングサイト「Amazon.co.jp」で商品を検索し、商品ページのURLをコピーすると

のようにカタカナがエンコーディング(RFC 3986)されてしまいます。実は、商品ページにアクセスするためには、カタカナの商品名と末尾に付いた「ref=」部分は不要で、上のページなら「https://www.amazon.co.jp/dp/4904807561/」で商品ページにアクセスできます。

 商品を検索した場合のURLのほか、あるサイトのリンクをクリックして「https://www.amazon.co.jp/dp/4904807561/ref=…」のように末尾にリンク情報などが付与されているURL、「https://www.amazon.co.jp/dp/4904807561?tag=…」のように、広告収入が得られる「アソシエイト・プログラム」の情報などが付与されているURLもあります。これらすべてを

の形式に変換します。