文本处理的一些技巧

时间：2019-11-02 09:46:40 阅读：100 评论：0 收藏：0 [点我收藏+]

#gb2312 -t utf-8

iconv -f gb2312 -t utf-8

#unicode to UTF-8中文

echo ‘\u6df1\u5733‘ | ascii2uni -a U -q > xx

#url编码
URLBM=`echo "${i}" | tr -d ‘\n‘ | xxd -plain | sed ‘s/$..$/%\1/g‘`

#计算数字向上取整,bc计算得到小数，{print int($0)+1}得到整数+1；

num3=`echo "sclae=4; $num1/$num2" | bc`
num=`echo ${num3} |awk ‘{print int($0)+1}‘ `

文件中每行都以\n结尾，如果要去掉换行符，使用sed命令 # sed -i ‘s/\n//g‘ FileName

或者使用tr命令 # cat fileName | tr ‘\n‘ ‘‘

去除字符串前后空格， # cat xxx| awk ‘{gsub(/^\s+|\s+$/, "");print}‘

1、curl请求GB2312网页乱码解决

Linux环境是UTF8的，请求GB2312内容是会乱码显示。需要转换格式，命令参考如下：

curl xxx | iconv -f gb2312 -t utf-8

这样有个小问题，如果文件下载不完全，会导致更多不可识别的乱码，先下载，再转码2、linux shell下16进制 “\uxxxx” unicode to UTF-8中文

1、安装一个uni2ascii-4.15-1.el6.rf.x86_64.rpm
下载地址:wget http://billposer.org/Software/Downloads/uni2ascii-4.18.tar.gz  ,然后编译./config ,后make install，默认安装到./usr/bin目录下
2、然后可以使用ascii2uni命名转换
# echo ‘\u6df1\u5733‘ | ascii2uni -a U -q

文本处理的一些技巧

原文：https://www.cnblogs.com/fyc119/p/11780268.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)