<br><br>On Wed, Jan 13, 2010 at 5:46 AM, yamamoto <<a href="mailto:blueskykind02@gmail.com">blueskykind02@gmail.com</a>> wrote:<br>> Hi,<br>> I am new to Python. I'd like to extract "a" tag from a website by<br>


> using "beautifulsoup" module.<br>> but it doesnt work!<br>><br>> //sample.py<br>><br>> from BeautifulSoup import BeautifulSoup as bs<br>> import urllib<br>> url="<a href="http://www.d-addicts.com/forum/torrents.php">http://www.d-addicts.com/forum/torrents.php</a>"<br>


> doc=urllib.urlopen(url).read()<br>> soup=bs(doc)<br>> result=soup.findAll("a")<br>> for i in result:<br>>    print i<br>><br>><br>> Traceback (most recent call last):<br>>  File "C:\Users\falcon\workspace\p\pyqt\ex1.py", line 8, in <module><br>


>    soup=bs(doc)<br>>  File "C:\Python26\lib\site-packages\BeautifulSoup.py", line 1499, in<br>> __init__<br>>    BeautifulStoneSoup.__init__(self, *args, **kwargs)<br>>  File "C:\Python26\lib\site-packages\BeautifulSoup.py", line 1230, in<br>


> __init__<br>>    self._feed(isHTML=isHTML)<br>>  File "C:\Python26\lib\site-packages\BeautifulSoup.py", line 1263, in<br>> _feed<br>>    self.builder.feed(markup)<br>>  File "C:\Python26\lib\HTMLParser.py", line 108, in feed<br>


>    self.goahead(0)<br>>  File "C:\Python26\lib\HTMLParser.py", line 148, in goahead<br>>    k = self.parse_starttag(i)<br>>  File "C:\Python26\lib\HTMLParser.py", line 226, in parse_starttag<br>


>    endpos = self.check_for_whole_start_tag(i)<br>>  File "C:\Python26\lib\HTMLParser.py", line 301, in<br>> check_for_whole_start_tag<br>>    self.error("malformed start tag")<br>>  File "C:\Python26\lib\HTMLParser.py", line 115, in error<br>


>    raise HTMLParseError(message, self.getpos())<br>> HTMLParser.HTMLParseError: malformed start tag, at line 276, column 36<br>><br>> any suggestion?<br>> thanks in advance<br>><br>> --<br>> <a href="http://mail.python.org/mailman/listinfo/python-list">http://mail.python.org/mailman/listinfo/python-list</a><br>


><br><br>BeautifulSoup is overkill for this anyways.<br><br>


<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

<meta name="Generator" content="Kate, the KDE Advanced Text Editor">


<pre><span style="color: rgb(136, 135, 134);"><i>#!/bin/python</i></span>

<span style="color: rgb(255, 128, 224);">from</span><span style="color: rgb(20, 19, 18);"> urllib </span><span style="color: rgb(255, 128, 224);">import</span><span style="color: rgb(20, 19, 18);"> urlopen</span>


<span style="color: rgb(20, 19, 18);">html = urlopen(</span><span style="color: rgb(191, 3, 3);">"<a href="http://www.d-addicts.com/forum/torrents.php">http://www.d-addicts.com/forum/torrents.php</a>"</span><span style="color: rgb(20, 19, 18);">).read()</span>

<span style="color: rgb(20, 19, 18);">links = </span><span style="color: rgb(0, 87, 174);">set</span><span style="color: rgb(20, 19, 18);">([link.split(</span><span style="color: rgb(191, 3, 3);">'"'</span><span style="color: rgb(20, 19, 18);">)[</span><span style="color: rgb(176, 128, 0);">0</span><span style="color: rgb(20, 19, 18);">] <b>for</b> link in html.split(</span><span style="color: rgb(191, 3, 3);">'href="'</span><span style="color: rgb(20, 19, 18);">)])</span></pre>


<br><br><br>