linux下去掉tppabs冗余代码

2013年11月1日 发表评论 阅读评论

今天在对一些静态页面做处理时,发现里面包含了很多tppabs代码。刚上查了下,该代码一般为离线浏览器(如Teleport Pro)下载时记录下来的。说白了,基本上是无用的代码。我看了下代码里包含该内容的一般有如下两种:

<A HREF="index.htm" tppabs="index.htm">快乐强盗</A>
或
<A HREF="index.htm" tppabs="http://xxx.com/xxxx/xxx/index.htm">快乐强盗</A>

既然找能到规律,处理起来就简单 。直接通过正则利用sed处理掉就行了。

上面一种的直接:

sed -i 's/btppabs="[^"]*"//g'  xxx.html

第二种的为:

sed -i 's/btppabs="h[^"]*"//g'   xxx.html

注:如果没确定把握的最先不用-i参数,因为该参数直接就在原文件里修改掉了

要查找所有的html文件并直接替换所有,也很简单,配合一个for循环就可以搞定:

#!/bin/bash
for i in `grep -r 'tppabs' *|awk -F: '{print $1}'|sort |uniq`
do
sed -i 's/btppabs="h[^"]*"//g' $i
done




本站的发展离不开您的资助,金额随意,欢迎来赏!

You can donate through PayPal.
My paypal id: itybku@139.com
Paypal page: https://www.paypal.me/361way

分类: perl/php/python/gawk/sed 标签:
  1. 本文目前尚无任何评论.
  1. 本文目前尚无任何 trackbacks 和 pingbacks.