《vim(gvim)正则表达式查找替换》是个比较久的系列了,这次因为博友niejieqiang的一个问题,所以决定继续在写一篇,而主题就是将正则表达式查找替换与vim脚本结合。 其实这种方法在之前的文章中也出现过如: vim(gvim)正则表达式查找替换(4)-生成连续数字或行号中
let i=1|g/1/s//\=i/|let i=i+1
就是一种方式。 OK,回到正题,我们来看一下博友niejieqiang的问题:
A格式如下: nrk 你 nrk 侚 …. sobb 论坛 sobb 交款 sobb 文坛 … ejj 茴 ejj 莒 需要转换成B格式: nrk 你 侚 sobb 论坛 交款 文坛 ejj 茴 莒
根据之前vim(gvim)正则表达式查找替换(5)-压缩(删除)重复行中的经验,肯定需要先匹配首字母相等的两行,即:
%s/^\(\S\+\)\(.*\)\n\1\(.*\)$/\1\2\3/g
但是这样只是把首字母相等的两行进行了折叠,如果出现了多行,那么就要执行多次。那么怎么让他自动执行多次呢?正则表达式本身应该是没有办法了,就该我们的vim脚本上台大显身手啦。 代码如下:
while search('^\(\S\+\)\(.*\)\n\1\(.*\)',"w")>0 | %s/^\(\S\+\)\(.*\)\n\1\(.*\)$/\1\2\3/g | endwhile
对于search函数的解释可以通过如下命令获取:
:h search
最终的运行结果如下:
nrk 你 侚 sobb 论坛 交款 文坛 ejj 茴 莒
看似很完美啦,但是结果niejieqiang发现了另一个问题,当输入为:
sobb 论坛 sobb 交款 sobb 文坛 eldv 真的 ejj 茴 ejj 莒
时,输出的结果如下:
sobb 论坛 交款 文坛 eldv 真的jj 茴jj 莒
大家应该已经看出来了,ejj中的e没了,并且和"eldv 真的"折成了同一行,问题出在哪里呢? 我们来仔细看一下:
^\(\S\+\)\(.*\)
由于*和+都是贪婪匹配,所以很难保证\1和\2的值分别是多少,比如对
eldv 真的
来说,可以拆成"eldv"和" 真的",也可以拆成"e"和"ldv 真的"。 OK,问题找到了,解决方案也就有了,我们只要在两个匹配中间加一个空格,即:
\(\S\+\)\(\s.*\)
就完美解决啦。 最终的方案如下:
while search('^\(\S\+\)\(\s.*\)\n\1\(\s.*\)','w')>0 | %s/^\(\S\+\)\(\s.*\)\n\1\(\s.*\)$/\1\2\3/g | endwhile
对刚才有问题的输入运行命令,输入如下:
sobb 论坛 交款 文坛 eldv 真的 ejj 茴 莒
OK,就是这样,如果大家对贪婪匹配这里有更好的解决方案,欢迎指出~
amao on #
这是要把郑码的win码表转换为小小永输入法的码表?要我做这种事情的话,还是会用python写个脚本。正则替换的表达式太长了,容易错,也记不住。
Reply
Dante on #
哈哈,确实,解决方法有很多种,挑自己最顺手的就行~~
Reply
依云 on #
看来我的AWK大法应该回复到这里的 :-)
我觊觎awk/sed已很久,但一直没有练手的机会呢。这个链接挺好的,再在这里写一遍吧 http://www.linux.gov.cn/shell/awk.htm
Reply
amao on #
awk做这件事情也不错,只是用的少,记不住。
Reply
khb_gl on #
awk '{xxx[$1]=xxx[$1]" "$2} END{for(i in xxx) {print i,xxx[i]} }' yyy
Reply
依云 on #
感觉是抄的我的 :-P 不过不对 xxx[$1] 作判断的话,开头会多出个空格吧?
http://www.vimer.cn/留言#comment-3968
Reply
niejieqiang on #
哈哈, 没想到博主还记成文章了,那时还不知道脚本语言是什么东西,现在会一点perl了,发现这种事还是脚本靠譜:
#!perl -w
use strict;
while(){
chomp;
my ($en,@others) = split;
push @{$h{$en}} = @others;
}
for( keys %h ){
print $_," ";
print join" ",@{$h{$_}};
print "\n";
}
Reply
niejieqiang on #
这留言板要改一下才行
Reply
niejieqiang on #
试试perl语法
<pre lang="perl" line="1">
#!perl -w
use strict;
my %h;
while(){
chomp;
my ($en,@others) = split;
push @{$h{$en}} , @others;
}
for( keys %h ){
print $_," ";
print join" ",@{$h{$_}};
print "\n";
}
</pre>
Reply
tcx on #
请教下要是想让let i=1|g/1/s//=i/|let i=i+1里边的i以十六进制出现怎么办?谢谢
Reply
tcx on #
也就是想要010203。。。090a0b。。。feff这样的效果,不是十进制的怎么办?
Reply