1. 用Python从网页提取的文本,转换成str格式后,怎么逐行处理
fhand = urllib.request.urlopen('').readlines()
for line in fhand:
# ...
或者:
fhand = urllib.request.urlopen('').read().decode()
for line in fhand.split('\n'):
2. 用python抓取编码为gb2312的网页,结果抓取的都是乱码 怎样才能将它弄成正常的HTML格式?
你试试下面的代码
#!/usr/bin/env python# -*- coding:utf8 -*-import urllib2req = urllib2.Request("http://www.baidu.com/")res = urllib2.urlopen(req)html = res.read()res.close()html = unicode(html, "gb2312").encode("utf8")print html
3. 如何用python抓取这个网页的内容?
Python实现常规的静态网页抓取时,往往是用urllib2来获取整个HTML页面,然后从HTML文件中逐字查找对应的关键字。如下所示:
复制代码代码如下:
import urllib2
url="网址"
up=urllib2.urlopen(url)#打开目标页面,存入变量up
cont=up.read()#从up中读入该HTML文件
key1='<a href="http'#设置关键字1
key2="target"#设置关键字2
pa=cont.find(key1)#找出关键字1的位置
pt=cont.find(key2,pa)#找出关键字2的位置(从字1后面开始查找)
urlx=cont[pa:pt]#得到关键字1与关键字2之间的内容(即想要的数据)
print urlx
4. 如何用python抓取网页上的数据
使用内置的包来抓取,就是在模仿浏览器访问页面,再把页面的数据给解析出来,也可以看做是一次请求。
5. 如何用python抓取网页数据
用 requests 库构造请求;
用 pyquery 库解析网页;
用 sqlalchemy 存储数据。
有这3个库,基本上的网页都可以抓取了。
也可以用scrapy,但是太复杂,一个的学习成本大于前三个之和
6. 怎么用Python把网页中下图所示内容提取出来?
import re
html = f.read().decode() # 网页内容
pat = re.compile(r'audio src="(.+?mp3)"')
mp3 = pat.search(html).group(1)
print(mp3)
7. python如何提取网页信息?
page = urllib2.urlopen(url)
contents = page.read()
#获得了整个网页的内容也就是源代码
print(contents)
8. python3抓取到网页后应该怎么进一步处理网页,比如将需要的文本从数据中抓取出来<p></p>里面的抓取出来
一般都用正则或者html相关库,具体问题具体分析