用Python从网页提取的文本，转换成str格式后，怎么逐行处理

2024-05-14

1. 用Python从网页提取的文本，转换成str格式后，怎么逐行处理

fhand = urllib.request.urlopen('').readlines()

for line in fhand:
# ...

或者：

fhand = urllib.request.urlopen('').read().decode()

for line in fhand.split('\n'):

2. 用python抓取编码为gb2312的网页，结果抓取的都是乱码怎样才能将它弄成正常的HTML格式？

你试试下面的代码
#!/usr/bin/env python# -*- coding:utf8 -*-import urllib2req = urllib2.Request("http://www.baidu.com/")res = urllib2.urlopen(req)html = res.read()res.close()html = unicode(html, "gb2312").encode("utf8")print html

3. 如何用python抓取这个网页的内容？

Python实现常规的静态网页抓取时，往往是用urllib2来获取整个HTML页面，然后从HTML文件中逐字查找对应的关键字。如下所示：
复制代码代码如下:

import urllib2
url="网址"
up=urllib2.urlopen(url)#打开目标页面，存入变量up
cont=up.read()#从up中读入该HTML文件
key1='<a href="http'#设置关键字1
key2="target"#设置关键字2
pa=cont.find(key1)#找出关键字1的位置
pt=cont.find(key2,pa)#找出关键字2的位置(从字1后面开始查找)
urlx=cont[pa:pt]#得到关键字1与关键字2之间的内容(即想要的数据)
print urlx

如何用python抓取这个网页的内容？

4. 如何用python抓取网页上的数据

使用内置的包来抓取，就是在模仿浏览器访问页面，再把页面的数据给解析出来，也可以看做是一次请求。

5. 如何用python抓取网页数据

用 requests 库构造请求；
用 pyquery 库解析网页；
用 sqlalchemy 存储数据。

有这3个库，基本上的网页都可以抓取了。

也可以用scrapy，但是太复杂，一个的学习成本大于前三个之和

如何用python抓取网页数据

6. 怎么用Python把网页中下图所示内容提取出来？

import re
html = f.read().decode()  # 网页内容
pat = re.compile(r'audio src="(.+?mp3)"')
mp3 = pat.search(html).group(1)
print(mp3)

7. python如何提取网页信息？

page = urllib2.urlopen(url)  

contents = page.read()  

#获得了整个网页的内容也就是源代码 

print(contents)

python如何提取网页信息？

8. python3抓取到网页后应该怎么进一步处理网页，比如将需要的文本从数据中抓取出来<p></p>里面的抓取出来

一般都用正则或者html相关库，具体问题具体分析

用Python从网页提取的文本，转换成str格式后，怎么逐行处理

1. 用Python从网页提取的文本，转换成str格式后，怎么逐行处理

2. 用python抓取编码为gb2312的网页，结果抓取的都是乱码 怎样才能将它弄成正常的HTML格式？

3. 如何用python抓取这个网页的内容？

4. 如何用python抓取网页上的数据

5. 如何用python抓取网页数据

6. 怎么用Python把网页中下图所示内容提取出来？

7. python如何提取网页信息？

8. python3抓取到网页后应该怎么进一步处理网页，比如将需要的文本从数据中抓取出来<p></p>里面的抓取出来

2. 用python抓取编码为gb2312的网页，结果抓取的都是乱码怎样才能将它弄成正常的HTML格式？