用Python从网页提取的文本,转换成str格式后,怎么逐行处理

2024-05-14

1. 用Python从网页提取的文本,转换成str格式后,怎么逐行处理

fhand = urllib.request.urlopen('').readlines()

for line in fhand:
# ...

或者:

fhand = urllib.request.urlopen('').read().decode()

for line in fhand.split('\n'):

用Python从网页提取的文本,转换成str格式后,怎么逐行处理

2. 用python抓取编码为gb2312的网页,结果抓取的都是乱码 怎样才能将它弄成正常的HTML格式?

你试试下面的代码
#!/usr/bin/env python# -*- coding:utf8 -*-import urllib2req = urllib2.Request("http://www.baidu.com/")res = urllib2.urlopen(req)html = res.read()res.close()html = unicode(html, "gb2312").encode("utf8")print html

3. 如何用python抓取这个网页的内容?

Python实现常规的静态网页抓取时,往往是用urllib2来获取整个HTML页面,然后从HTML文件中逐字查找对应的关键字。如下所示:
复制代码代码如下:

import urllib2
url="网址"
up=urllib2.urlopen(url)#打开目标页面,存入变量up
cont=up.read()#从up中读入该HTML文件
key1='<a href="http'#设置关键字1
key2="target"#设置关键字2
pa=cont.find(key1)#找出关键字1的位置
pt=cont.find(key2,pa)#找出关键字2的位置(从字1后面开始查找)
urlx=cont[pa:pt]#得到关键字1与关键字2之间的内容(即想要的数据)
print urlx

如何用python抓取这个网页的内容?

4. 如何用python抓取网页上的数据

使用内置的包来抓取,就是在模仿浏览器访问页面,再把页面的数据给解析出来,也可以看做是一次请求。

5. 如何用python抓取网页数据

用 requests 库构造请求;
用 pyquery 库解析网页;
用 sqlalchemy 存储数据。

有这3个库,基本上的网页都可以抓取了。

也可以用scrapy,但是太复杂,一个的学习成本大于前三个之和

如何用python抓取网页数据

6. 怎么用Python把网页中下图所示内容提取出来?

import re
html = f.read().decode()  # 网页内容
pat = re.compile(r'audio src="(.+?mp3)"')
mp3 = pat.search(html).group(1)
print(mp3)

7. python如何提取网页信息?

page = urllib2.urlopen(url)  

contents = page.read()  

#获得了整个网页的内容也就是源代码 

print(contents)

python如何提取网页信息?

8. python3抓取到网页后应该怎么进一步处理网页,比如将需要的文本从数据中抓取出来<p></p>里面的抓取出来

一般都用正则或者html相关库,具体问题具体分析