では、ロジックを考えていきましょう。初回のテーマは「Amazonの商品ページURLをきれいにする」です。オンラインショッピングサイト「Amazon.co.jp」で商品を検索し、商品ページのURLをコピーすると
1 |
https://www.amazon.co.jp/%E3%82%B7%E3%82%A7%E3%83%AB%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%97%E3%83%88%E3%83%9E%E3%82%AC%E3%82%B8%E3%83%B3-vol-59-%E7%95%B6%E4%BB%B2%E5%AF%9B%E5%93%B2/dp/4904807561/ref=sr_1_1?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&keywords=%E3%82%B7%E3%82%A7%E3%83%AB%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%97%E3%83%88%E3%83%9E%E3%82%AC%E3%82%B8%E3%83%B3&qid=1553740346&s=gateway&sr=8-1 |
のようにカタカナがエンコーディング(RFC 3986)されてしまいます。実は、商品ページにアクセスするためには、カタカナの商品名と末尾に付いた「ref=」部分は不要で、上のページなら「https://www.amazon.co.jp/dp/4904807561/」で商品ページにアクセスできます。
商品を検索した場合のURLのほか、あるサイトのリンクをクリックして「https://www.amazon.co.jp/dp/4904807561/ref=…」のように末尾にリンク情報などが付与されているURL、「https://www.amazon.co.jp/dp/4904807561?tag=…」のように、広告収入が得られる「アソシエイト・プログラム」の情報などが付与されているURLもあります。これらすべてを
1 |
https://www.amazon.co.jp/dp/番号/ |
の形式に変換します。