リストをもう一つ用意して、リストの要素末尾に改行を入れれば良かったのか!

4月 19th, 2009

  1. Pythonで、htmlファイルからURLを引っこ抜くスクリプト – どんなジレンマ
  2. その後の、どんなジレンマ ダブルクリックでURL引っこ抜きます(ただし正規表現で加工の必要あり)

朝いじったスクリプトをもうちょっと修正したら、無事、アイコンをダブルクリックすればHTMLファイルからURLを引っこ抜くようにできました。また、ソートの順番も、reverseメソッドを使うことで降順に表示できるようになりました。
まだまだ未熟なスクリプトだけど、少しずつ手直しして、実用的に育っていくのが楽しいなぁ。

ソースコード

#-*- coding:shift_jis -*-
#htmlファイルを読み込み、URLを引っこ抜くスクリプト
#test.txtに処理をかけたいHTMLソースを入れる
import re
f = open('test.txt','r') #読み込み専用モードでテキストファイルを読み込み
s = f.read() #ファイル読み込み
f.close()
url = re.findall('(https?:\/\/[-_.!~*\'()a-zA-Z0-9;\/?:\@&=+\$,%#]+)">',s)
a = list(set(url)) #重複削除
a.sort() #ソート
b = []
for i in a:
b.append(i + '\n') #リストbを用意して、リストaの要素一つずつに改行を追加
b.reverse() #ソートが降順なので、ひっくり返すことで降順にする
f2 = open('test2.txt','w')
f2.writelines(b)
f2.close()

出力結果昇順


http://crossreview.jp/


http://crossreview.jp/akiu/reviews/4087204758


http://crossreview.jp/bookon/reviews/4005005098


http://crossreview.jp/bookon/reviews/B000066FRH


http://crossreview.jp/iong/reviews/B00005OV64


http://crossreview.jp/kudou/reviews/4063726622


http://crossreview.jp/kudou/reviews/419210010X


http://crossreview.jp/kudou/reviews/B000069UG7


http://crossreview.jp/rok/reviews/4150204888


http://crossreview.jp/tonar/reviews/419210010X


http://crossreview.jp/ululun/reviews/B000NWDXLS


http://form1.fc2.com/form/?id=171478


http://hrkt0115311.tumblr.com/post/97388100/romantica


http://hrkt0115311.tumblr.com/post/97388160


http://hrkt0115311.tumblr.com/post/97388224/ft


http://hrkt0115311.tumblr.com/post/97388289/7


http://hrkt0115311.tumblr.com/post/97388372/7


http://hrkt0115311.tumblr.com/post/97388450/wii-wii


http://hrkt0115311.tumblr.com/post/97388536/1-1-kc


http://hrkt0115311.tumblr.com/post/97388620/playstation-the-best


http://hrkt0115311.tumblr.com/post/97388707/475b


http://hrkt0115311.tumblr.com/post/97388812/yu-no


http://s.hatena.ne.jp/js/HatenaStar.js


http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd


http://x6.hahaue.com/ufo/079173600

出力結果降順


http://x6.hahaue.com/ufo/079173600


http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd


http://s.hatena.ne.jp/js/HatenaStar.js


http://hrkt0115311.tumblr.com/post/97388812/yu-no


http://hrkt0115311.tumblr.com/post/97388707/475b


http://hrkt0115311.tumblr.com/post/97388620/playstation-the-best


http://hrkt0115311.tumblr.com/post/97388536/1-1-kc


http://hrkt0115311.tumblr.com/post/97388450/wii-wii


http://hrkt0115311.tumblr.com/post/97388372/7


http://hrkt0115311.tumblr.com/post/97388289/7


http://hrkt0115311.tumblr.com/post/97388224/ft


http://hrkt0115311.tumblr.com/post/97388160


http://hrkt0115311.tumblr.com/post/97388100/romantica


http://form1.fc2.com/form/?id=171478


http://crossreview.jp/ululun/reviews/B000NWDXLS


http://crossreview.jp/tonar/reviews/419210010X


http://crossreview.jp/rok/reviews/4150204888


http://crossreview.jp/kudou/reviews/B000069UG7


http://crossreview.jp/kudou/reviews/419210010X


http://crossreview.jp/kudou/reviews/4063726622


http://crossreview.jp/iong/reviews/B00005OV64


http://crossreview.jp/bookon/reviews/B000066FRH


http://crossreview.jp/bookon/reviews/4005005098


http://crossreview.jp/akiu/reviews/4087204758


http://crossreview.jp/


カテゴリー: プログラミング

コメントをどうぞ

add to hatena hatena.comment (0) add to del.icio.us (0) add to livedoor.clip (0) add to Yahoo!Bookmark (0) Total: 0

この記事の TrackBack URL : http://hrkt0115311.org/2009/04/00389.html/trackback?_wpnonce=aebfb6c50c

Feed

http://hrkt0115311.org / リストをもう一つ用意して、リストの要素末尾に改行を入れれば良かったのか!