sed多条件匹配

2011年12月26日 发表评论 阅读评论

匹配一行中两个单词之间的内容(后续)

之前我写我一篇日志叫“匹配一行中两个单词之间的内容”,这个可以算是那个的后续吧!因为我要从http://www.361way.com/sitemap.xml这个地图链接里找出我的所有url地址。于是又用到了sed的正则。

首先通过,curl -G "http://www.361way.com/sitemap.xml" 得出的结果是和http://www.361way.com/sitemap_baidu.xml这个链接得的内容一样的。如下格式:

        <url>
                <loc>http://www.361way.com/wordpress-zaiyao/74.html</loc>
                <lastmod>2011-08-16T07:57:45+00:00</lastmod>
                <changefreq>monthly</changefreq>
                <priority>0.2</priority>
        </url>
        <url>
                <loc>http://www.361way.com/wordpress-link/98.html</loc>
                <lastmod>2011-08-16T07:55:27+00:00</lastmod>
                <changefreq>monthly</changefreq>
                <priority>0.2</priority>
        </url>

而我要取得的值便是<loc>和</loc>之间的内容。于是我先执行curl "http://www.361way.com/sitemap.xml"|grep "<loc>"先把所有的行过滤出来,然后再通过sed把前面的<loc>和</loc>过滤掉。首先可以sed -e进行多语句过滤:

curl "http://www.361way.com/sitemap.xml"|grep "<loc>"|sed -e 's/<loc>//g' -e 's/</loc>//g' ,但这样感觉太累人。和后面加两个sed 过滤首<loc> |sed 过滤尾</loc> 没什么分别。后来又偿试把两个条件通过[<loc>,</loc>]这样加入,发现把所有的/也给过滤了,接着试(),(),又试着加双引号指定……总之,N种尝试都未得到要得到的结果。才发现把正则忘的差不多了,这么简单的问题竞搞的这么难搞等。索性静下心来再把原来的文档翻过来看下。呵呵,发现了一个很有用的符号“|”(逻辑或)。

于是curl "http://www.361way.com/sitemap.xml"|grep "<loc>"|sed 's/<loc>|</loc>//g'搞定。当然,如果想把http://www.也过滤掉就再改下curl "http://www.361way.com/sitemap.xml"|grep "<loc>"|sed 's/<loc>http://www.|</loc>//g'      。

逻辑与 (and) (顺便再补一点逻辑与的东西吧)

查找文档b中同时包含one和three的行
b.txt的内容
one two three
four five six
one two
one seven three

gawk "/one/&&/three/" b.txt
sed -ne '/one/{/three/p}' b.txt
正则表达式在具体到某个工具的时候,又会有细微的差别,如在sed中&保存搜索字符用来替换其他字符,如s/love/**&**/,love这成**love**。

写在最后:看来学好正则表达式的基础很重要。因为awk 、sed、grep ,perl甚至连vi都是使用的相同正则标准。因此,想学好这几个工具的使用。正则的基础一定是要打好。

其实本文也只是一个衔接的文章,因为我之前写过一个用vbs刷网站流量的日志。(不过好像那个文章加密了。)因为要再写一个linux下通过curl刷网站流量的文章,便用到了先用curl、sed获取站点所有地址。




本站的发展离不开您的资助,金额随意,欢迎来赏!

You can donate through PayPal.
My paypal id: itybku@139.com
Paypal page: https://www.paypal.me/361way

  1. 本文目前尚无任何评论.