问题:
爬取一些网站的时候,有时候我们会遇到一些比较特殊的字符,比如我这次遇到了很多

,折些可有直接进行替换为空,但是有时候会有影响,查找他的准备定义,原来就是换成符,可以直接替换为python的\n
,这样就不会会好很多了。
一些&#开头的特殊符号:
找到的一些特殊转义字符,记下来方便后续需要使用。
1 | 空格 ( ) |
2 | Tab (	) |
3 | 回车 (
) |
4 | 换行 (
) |
5 | 单撇号 (')还要加上双引号才能生效“'” |
6 | 省略号 "…" |
7 | 双引号\" 内容 \" |
处理:
比如我的这些是这种的。:
1 | str = " 十一没有去凑热闹感觉亏待了家里的小朋友,十一后和闺蜜结伴一起溜娃拉

网红溜娃圣地,怕订不到房间,提前一个月通过某APP预定了。一共入住了2天,一天入住的豪园景房,第二天是亲子别墅,房间基本都是独立的,出入都需要短驳车,很有世外桃源的感觉~~房间里的设施很齐全,也比较干净,有任何问题找前台基本能够快速得到反馈并解决~十月份的天气还好小虫子已经不是特别多了~真的是环境优美空气新鲜的好地方~三天两夜过的超级惬意。特别要说的是早餐~品种很多很多,有专门的儿童区,虽然地方挺大但是还算井然有序。

溜娃设施也很多,定的2个套餐,第一天去了幻想岛,真的是太大太大的游乐场了,在上海还没看到过这么大的游乐场,从小宝宝玩的到大孩子玩的设施应有尽有,去的时候人比较少,娃玩的非常尽兴,要是卫生情况能做的更好就更加分了。

第二天去了水上世界,10月的天气室外已经不开放了,室内是恒温30度,没有觉得很冷哦~对于我们2岁的娃来说也已经很够玩了,毕竟很多设施都上不去,在泳池里戏戏水就满开心哒

芙拉花园里有勇敢者道路,滑滑梯,喂羊驼,度假村内还有游戏机房,而且还蛮适合小朋友的,还有很多很多小心思的亲子设施,假期里价格真心蛮贵的,推荐大家周中连周末去~真的是炒鸡亲子的度假村了。" |
直接进行替换即可,如果含有多种特殊转移字符,可以整理的列表遍历替换即可。
1 | str = str.replace("
","\n") |