在线阅读文档解密
正文
pdf文件头
复制代码 隐藏代码
%PDF-1.
base64:JVBERi0x
hex:25 50 44 46 2D 31
bytes:{37,80,68,70,45,49}
这个很重要,至少要记住前两行,方便快速识别文件
一、pdf格式
第一种,Range
请求头中有个明显的参数Range: bytes=0-0,看网页中不断请求同一个地址
每次请求的Range:范围都不一样,说明就是分段请求的,通常只需要把请求头中bytes=0-?,改成bytes=0-,就可以得到整个pdf,最简单的办法就是用fiddler抓包,重发
这种应该是最简单的了,但可能会有坑,我碰到过一个,如果直接按bytes=0-,会保错,后来发现,直接翻到最后一页,请求头中的范围,比响应头返回的要小十个字节左右,所以还是要根据实际情况仔细甄别。
第二种,base64
很明显就是base64编码了,网页解码后很多时候再生成一个blob,pdf。
这个只需要解下码在写入文件就行,或者有blob直接下载就行。
这种也有坑的,有可能pdf会有密码,也有可能在生成blob时加上了密码。