首页 > 其他 > 详细

文本处理的一些技巧

时间:2019-11-02 09:46:40      阅读:97      评论:0      收藏:0      [点我收藏+]

#gb2312 -t utf-8

iconv -f gb2312 -t utf-8  

#unicode to UTF-8中文

echo ‘\u6df1\u5733‘ | ascii2uni -a U -q > xx

#url编码
URLBM=`echo "${i}" | tr -d ‘\n‘ | xxd -plain | sed ‘s/\(..\)/%\1/g‘`

#计算数字向上取整,bc计算得到小数,{print int($0)+1}得到整数+1;

num3=`echo "sclae=4; $num1/$num2" | bc`
num=`echo  ${num3} |awk  ‘{print int($0)+1}‘ `

文件中每行都以\n结尾,如果要去掉换行符,使用sed命令  # sed -i ‘s/\n//g‘ FileName

或者使用tr命令      # cat fileName | tr ‘\n‘ ‘‘

去除字符串前后空格,  # cat xxx| awk ‘{gsub(/^\s+|\s+$/, "");print}‘

 

 

 

 

 

 

1、curl请求GB2312网页乱码解决

Linux环境是UTF8的,请求GB2312内容是会乱码显示。需要转换格式,命令参考如下:

curl xxx | iconv -f gb2312 -t utf-8

这样有个小问题,如果文件下载不完全,会导致更多不可识别的乱码先下载,再转码2linux shell下16进制 “\uxxxx” unicode to UTF-8中文

1、安装一个uni2ascii-4.15-1.el6.rf.x86_64.rpm
下载地址:wget http://billposer.org/Software/Downloads/uni2ascii-4.18.tar.gz ,然后编译./config ,后make install,默认安装到./usr/bin目录下
2、然后可以使用ascii2uni命名转换
# echo ‘\u6df1\u5733‘ | ascii2uni -a U -q

 

文本处理的一些技巧

原文:https://www.cnblogs.com/fyc119/p/11780268.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!