说明：

今天突然想把爬取的HTML页面转存成PDF格式，进行一个学习，起源于这个还是很久之前看到一个爬取公众号的文章保留为PDF，但是想着学习自己实现一下哈，结果（懒呀，懒人总是能找到各种借口的，一推就一俩个月过去了，今天突然就想起来了，就来实现一波，结果还真有点麻烦，代码这个还是要自己动手写写，弄好之后做个自己看懂的总结就行（因为这是你以新手的学习出发点学习的，也能帮助别人下你踩得坑），把人家写的案例自己实现或者自己模仿找个其他案例测试测试，或者多找个文章学习学习）

一、环境配置：

1、window的wkhtmltopdf下载地址

这个不按照会报一个错。
我的是window系统，所以需要还需要安装一个exe文件：
下载地址1：
下载地址2
各个平台下载的方法地址

下载的exe直接安装即可，安装位置建议更改到软件盘。

==记得安装好把安装位置的bin目录放到环境变量中。==

2、安装pdfkit模块：

1	pip install --upgrade pdfkit

二、代码实现：

参考好几个博客之后，我找到有以下几种可以实现的方法，参考博客我放到下方，需要的可以去看看。

方法1–wkhtmltopdf命令url ：

刚刚安装好，可以直接使用命令处理一个单个的url。
命令格式：wkhtmltopdf + url + 输出名称（可以是绝对路径或者相对路径）

1	wkhtmltopdf https://www.liaoxuefeng.com/wiki/1016959663602400/1016959735620448 demo1.pdf

方法2–wkhtmltopdf命令html：

命令格式：wkhtmltopdf + html文件（可以是绝对路径或者相对路径）+ 输出pdf路径（可以是绝对路径或者相对路径）

1	wkhtmltopdf .\0.html demo2.pdf

方法3–pdfkit的from_url（url这个不报错）：

注意点：

这个要把刚刚安装的环境位置弄上，我添加到系统的环境变量中，不加入这个还是保错，不知道有个博主写的，他为什么可以下载保存，我这边要加上这个配置。

1	path_wk = r'd:\tools\wkhtmltopdf\bin\wkhtmltopdf.exe' # 安装位置
2	config = pdfkit.configuration(wkhtmltopdf=path_wk)

代码演示：

import pdfkit


path_wk = r'd:\tools\wkhtmltopdf\bin\wkhtmltopdf.exe'  # 安装位置
config = pdfkit.configuration(wkhtmltopdf=path_wk)
# pdfkit.from_url(['google.com', 'yandex.ru', 'engadget.com'], 'out1.pdf',configuration=config)
pdfkit.from_url(['https://www.liaoxuefeng.com/wiki/1016959663602400/1016959735620448'], 'demo3.pdf',configuration=config)

方法4–pdfkit的from_file（我的虽然也能成功生成pdf，但是这个会报错，找了几个小时没有找到怎么解决，如果有懂得大佬，可以赐教一下哈）：

代码，可以合成单个html，也可以合成多个html：

# -*- coding: utf-8
import pdfkit

path_wk = r'd:\tools\wkhtmltopdf\bin\wkhtmltopdf.exe'  # 安装位置
config = pdfkit.configuration(wkhtmltopdf=path_wk)
pdfkit.from_file(['0.html', '1.html'], 'demo5.pdf', configuration=config)

能生成能打开pdf，其实效果可以了，就是报错，唯一遗憾的是一直没有找到报错解决方法，等闲了回家用自己电脑测试试试，是不是公司电脑中其他环境问题：

问题：

我把问题放到这里，如果有懂的大佬，欢迎留言给我讲解一波哈。

Exception in thread Thread-2:
Traceback (most recent call last):
  File "D:\tools\Python3.6\lib\threading.py", line 916, in _bootstrap_inner
    self.run()
  File "D:\tools\Python3.6\lib\threading.py", line 864, in run
    self._target(*self._args, **self._kwargs)
  File "D:\tools\Python3.6\lib\subprocess.py", line 1084, in _readerthread
    buffer.append(fh.read())
  File "D:\tools\Python3.6\lib\codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 639: invalid continuation byte

Traceback (most recent call last):
  File "D:/zjf_workspace/000、爬虫代码-基础的/scrapy_100_工具/27、将网页html转存成pdf/3、pdfkit模块/2、pdfkit模块--from_file.py", line 6, in <module>
    pdfkit.from_file(['0.html', '1.html'], 'demo5.pdf', configuration=config)
  File "D:\tools\Python3.6\lib\site-packages\pdfkit\api.py", line 49, in from_file
    return r.to_pdf(output_path)
  File "D:\tools\Python3.6\lib\site-packages\pdfkit\pdfkit.py", line 164, in to_pdf
    raise IOError("wkhtmltopdf exited with non-zero code {0}. error:\n{1}".format(exit_code, stderr))
OSError: wkhtmltopdf exited with non-zero code 1. error:

方法5–就是使用python执行系统命令的方法执行前俩个方法，可以做到批量处理。

python执行系统命令的方法主要有下面这三个：

os.system()
os.popen()
subprocess.Popen()
==新增：这三个的区别和方法，可以参考我的另一篇博客==。
python执行系统命令的方法总结

==后续补充新增：三、用自己的方法实现完成将廖雪峰的129页博客保存为一个pdf：==

这个具体我不解释了，就是前面的一个综合，直接上代码吧：

import os
import subprocess

import requests
from PyPDF2 import PdfFileWriter, PdfFileReader
from lxml import etree


class Merge_LiaoXueFeng:
    def __init__(self, pdf_name,path):
        self.headers = {
            "Cookie": "Hm_lvt_2efddd14a5f2b304677462d06fb4f964=1571883576; Hm_lpvt_2efddd14a5f2b304677462d06fb4f964=1571884481",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"
        }
        self.urls = self.get_url_list()
        self.pdf_name = pdf_name
        self.path = path

    def get_url_list(self):
        """
        获取所有URL目录列表
        :return:
        """
        response = requests.get("https://www.liaoxuefeng.com/wiki/1016959663602400", headers=self.headers)
        html = etree.HTML(response.text)
        with open('ret.html', 'w', encoding='utf-8') as file:
            file.write(response.text)
        href_list = html.xpath('//*[@id="x-wiki-index"]//a/@href')
        print("myself_href", href_list)
        urls = []
        for href in href_list:
            url = "http://www.liaoxuefeng.com" + href
            urls.append(url)
        return urls

    def merge_pdf(self, infnList, outfn):
        """
        合并pdf
        :return:
        """
        pdf_output = PdfFileWriter()
        # 把所有pdf写入一个pdf（pdf合并）
        for infn in infnList:
            pdf_input = PdfFileReader(open(infn, 'rb'))
            # 获取 pdf 共用多少页，把每一个pdf的所有页数写进一个pdf
            page_count = pdf_input.getNumPages()
            print(page_count)
            for i in range(page_count):
                pdf_output.addPage(pdf_input.getPage(i))
        pdf_output.write(open(outfn, 'wb'))

    def get_pdf_list(self):
        """
        获取当前位置的pdf目录下的所有pdf的绝对路径，返回为pdf路径列表
         :return:
        """
        # 获取当前pdf目录下的所以pdf文件
        # path = os.getcwd(r"D:\zjf_workspace\000、爬虫代码-基础的\scrapy_100_工具\27、将网页html转存成pdf\1、批量处理")
        html_path = os.path.join(self.path, 'pdf')
        file_list = os.listdir(html_path)
        pdf_list = []
        for file_one in file_list:
            # 判断是否都是pdf文件
            if file_one.endswith('.pdf'):
                pdf_file = os.path.join(html_path, file_one)
                pdf_list.append(pdf_file)
        return pdf_list

    def run(self):
        num = 0
        subprocess_list = []
        # 1、保存文章为pdf
        for article_url in self.urls:
            num += 1
            # 不等待结束接着运行下一个，（不建议很多运行,可以五个左右设置一个等待完成，防止多个运行电脑卡死）
            subprocess_one = subprocess.Popen(r'wkhtmltopdf {} ./pdf/{}.pdf'.format(article_url, num))
            subprocess_list.append(subprocess_one)
            if len(subprocess_list) >= 10:
                for i in subprocess_list:
                    i.wait()
                subprocess_list = []
            else:
                pass
            # os_one = os.popen(r'wkhtmltopdf {} ./pdf2/{}.pdf'.format(article_url, num))
            # os_one.close()
            # print(dir(os_one))
            # time.sleep(20)
            # 一个运行结束另一个运行（可以加个协程跑快一点）
            # os.system(r'wkhtmltopdf {} ./pdf3/{}.pdf'.format(article_url, num))

        # 最后可能不大于10，所有把后面小于10的执行完毕
        for i in subprocess_list:
            i.wait()

        # 2、获取当前pdf目录下的所以pdf文件
        pdf_list = self.get_pdf_list()
        print("pdf_list",pdf_list)

        # 3、合并pdf
        print('pdf下载完毕，准备合并pdf:')
        self.merge_pdf(pdf_list, self.pdf_name)


if __name__ == '__main__':
    path = os.getcwd()
    print(path)
    liaoxuefeng = Merge_LiaoXueFeng(u"廖雪峰Python_all.pdf", path)
    liaoxuefeng.run()

最终效果：

学习参考文章：

https://blog.csdn.net/hubaoquanu/article/details/66973149
https://blog.csdn.net/y101101025/article/details/62461115
https://blog.csdn.net/u012561176/article/details/83655247
https://blog.csdn.net/xc_zhou/article/details/80952168

python 将html保存为PDF之一个学习笔记

2019-10-24
python模块

python 将html保存为PDF之一个学习笔记

说明：

一、环境配置：

1、window的wkhtmltopdf下载地址

==记得安装好把安装位置的bin目录放到环境变量中。==

2、安装pdfkit模块：

二、代码实现：

方法1–wkhtmltopdf命令url ：

方法2–wkhtmltopdf命令html：

方法3–pdfkit的from_url（url这个不报错）：

注意点：

代码演示：

方法4–pdfkit的from_file（我的虽然也能成功生成pdf，但是这个会报错，找了几个小时没有找到怎么解决，如果有懂得大佬，可以赐教一下哈）：

问题：

方法5–就是使用python执行系统命令的方法执行前俩个方法，可以做到批量处理。

==后续补充新增：三、用自己的方法实现完成将廖雪峰的129页博客保存为一个pdf：==

1	import pdfkit
2
3
4	path_wk = r'd:\tools\wkhtmltopdf\bin\wkhtmltopdf.exe' # 安装位置
5	config = pdfkit.configuration(wkhtmltopdf=path_wk)
6	# pdfkit.from_url(['google.com', 'yandex.ru', 'engadget.com'], 'out1.pdf',configuration=config)
7	pdfkit.from_url(['https://www.liaoxuefeng.com/wiki/1016959663602400/1016959735620448'], 'demo3.pdf',configuration=config)

1	# -*- coding: utf-8
2	import pdfkit
3
4	path_wk = r'd:\tools\wkhtmltopdf\bin\wkhtmltopdf.exe' # 安装位置
5	config = pdfkit.configuration(wkhtmltopdf=path_wk)
6	pdfkit.from_file(['0.html', '1.html'], 'demo5.pdf', configuration=config)

1	Exception in thread Thread-2:
2	Traceback (most recent call last):
3	File "D:\tools\Python3.6\lib\threading.py", line 916, in _bootstrap_inner
4	self.run()
5	File "D:\tools\Python3.6\lib\threading.py", line 864, in run
6	self._target(self._args, *self._kwargs)
7	File "D:\tools\Python3.6\lib\subprocess.py", line 1084, in _readerthread
8	buffer.append(fh.read())
9	File "D:\tools\Python3.6\lib\codecs.py", line 322, in decode
10	(result, consumed) = self._buffer_decode(data, self.errors, final)
11	UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 639: invalid continuation byte
12
13	Traceback (most recent call last):
14	File "D:/zjf_workspace/000、爬虫代码-基础的/scrapy_100_工具/27、将网页html转存成pdf/3、pdfkit模块/2、pdfkit模块--from_file.py", line 6, in <module>
15	pdfkit.from_file(['0.html', '1.html'], 'demo5.pdf', configuration=config)
16	File "D:\tools\Python3.6\lib\site-packages\pdfkit\api.py", line 49, in from_file
17	return r.to_pdf(output_path)
18	File "D:\tools\Python3.6\lib\site-packages\pdfkit\pdfkit.py", line 164, in to_pdf
19	raise IOError("wkhtmltopdf exited with non-zero code {0}. error:\n{1}".format(exit_code, stderr))
20	OSError: wkhtmltopdf exited with non-zero code 1. error:

1	import os
2	import subprocess
3
4	import requests
5	from PyPDF2 import PdfFileWriter, PdfFileReader
6	from lxml import etree
7
8
9	class Merge_LiaoXueFeng:
10	def __init__(self, pdf_name,path):
11	self.headers = {
12	"Cookie": "Hm_lvt_2efddd14a5f2b304677462d06fb4f964=1571883576; Hm_lpvt_2efddd14a5f2b304677462d06fb4f964=1571884481",
13	"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"
14	}
15	self.urls = self.get_url_list()
16	self.pdf_name = pdf_name
17	self.path = path
18
19	def get_url_list(self):
20	"""
21	获取所有URL目录列表
22	:return:
23	"""
24	response = requests.get("https://www.liaoxuefeng.com/wiki/1016959663602400", headers=self.headers)
25	html = etree.HTML(response.text)
26	with open('ret.html', 'w', encoding='utf-8') as file:
27	file.write(response.text)
28	href_list = html.xpath('//*[@id="x-wiki-index"]//a/@href')
29	print("myself_href", href_list)
30	urls = []
31	for href in href_list:
32	url = "http://www.liaoxuefeng.com" + href
33	urls.append(url)
34	return urls
35
36	def merge_pdf(self, infnList, outfn):
37	"""
38	合并pdf
39	:return:
40	"""
41	pdf_output = PdfFileWriter()
42	# 把所有pdf写入一个pdf（pdf合并）
43	for infn in infnList:
44	pdf_input = PdfFileReader(open(infn, 'rb'))
45	# 获取 pdf 共用多少页，把每一个pdf的所有页数写进一个pdf
46	page_count = pdf_input.getNumPages()
47	print(page_count)
48	for i in range(page_count):
49	pdf_output.addPage(pdf_input.getPage(i))
50	pdf_output.write(open(outfn, 'wb'))
51
52	def get_pdf_list(self):
53	"""
54	获取当前位置的pdf目录下的所有pdf的绝对路径，返回为pdf路径列表
55	:return:
56	"""
57	# 获取当前pdf目录下的所以pdf文件
58	# path = os.getcwd(r"D:\zjf_workspace\000、爬虫代码-基础的\scrapy_100_工具\27、将网页html转存成pdf\1、批量处理")
59	html_path = os.path.join(self.path, 'pdf')
60	file_list = os.listdir(html_path)
61	pdf_list = []
62	for file_one in file_list:
63	# 判断是否都是pdf文件
64	if file_one.endswith('.pdf'):
65	pdf_file = os.path.join(html_path, file_one)
66	pdf_list.append(pdf_file)
67	return pdf_list
68
69	def run(self):
70	num = 0
71	subprocess_list = []
72	# 1、保存文章为pdf
73	for article_url in self.urls:
74	num += 1
75	# 不等待结束接着运行下一个，（不建议很多运行,可以五个左右设置一个等待完成，防止多个运行电脑卡死）
76	subprocess_one = subprocess.Popen(r'wkhtmltopdf {} ./pdf/{}.pdf'.format(article_url, num))
77	subprocess_list.append(subprocess_one)
78	if len(subprocess_list) >= 10:
79	for i in subprocess_list:
80	i.wait()
81	subprocess_list = []
82	else:
83	pass
84	# os_one = os.popen(r'wkhtmltopdf {} ./pdf2/{}.pdf'.format(article_url, num))
85	# os_one.close()
86	# print(dir(os_one))
87	# time.sleep(20)
88	# 一个运行结束另一个运行（可以加个协程跑快一点）
89	# os.system(r'wkhtmltopdf {} ./pdf3/{}.pdf'.format(article_url, num))
90
91	# 最后可能不大于10，所有把后面小于10的执行完毕
92	for i in subprocess_list:
93	i.wait()
94
95	# 2、获取当前pdf目录下的所以pdf文件
96	pdf_list = self.get_pdf_list()
97	print("pdf_list",pdf_list)
98
99	# 3、合并pdf
100	print('pdf下载完毕，准备合并pdf:')
101	self.merge_pdf(pdf_list, self.pdf_name)
102
103
104	if __name__ == '__main__':
105	path = os.getcwd()
106	print(path)
107	liaoxuefeng = Merge_LiaoXueFeng(u"廖雪峰Python_all.pdf", path)
108	liaoxuefeng.run()

python 将html保存为PDF之一个学习笔记

说明：

一、环境配置：

1、window的wkhtmltopdf下载地址

==记得安装好把安装位置的bin目录放到环境变量中。==

2、安装pdfkit模块：

二、代码实现：

方法1–wkhtmltopdf命令url ：

方法2–wkhtmltopdf命令html：

方法3–pdfkit的from_url（url这个不报错）：

注意点：

代码演示：

方法4–pdfkit的from_file（我的虽然也能成功生成pdf，但是这个会报错，找了几个小时没有找到怎么解决，如果有懂得大佬，可以赐教一下哈）：

问题：

方法5–就是使用python执行系统命令的方法执行前俩个方法，可以做到批量处理。

==后续补充新增：三、用自己的方法实现完成将廖雪峰的129页博客保存为一个pdf：==

谢谢大爷~