《懒人Shell脚本》之七——格式化处理数据存入数据库实现

2022-05-25 04:38:42

数据截取片段如下所示：

[root@localhost 2017]# head -n 10 input.txt

[url]http://epaper.tianjinwe.com/mrxb/mrxb/2013-02/21/content_7566593.htm

新报讯【记者王晶通讯员赵子强】对31.66万平方米的旧楼进行改造，建成丰达园二期配套幼儿园，全年新增就业3600人，城乡居民医疗保险参保率达100%……津南区咸水沽镇2017年度为民服务十项民心工程确定，涉及基础设施、教育、环境治理、居民保障增收、困难群众生活等多个方面。今年，咸水沽镇将加快示范镇建设进程，启动四里沽村住宅拆迁，完成博雅时尚三期16.5万平方米还迁房全部配套工作，完成东张庄、北洋村还迁工作，启动金丰里四、五号库项目31.15万平方米的还迁工作，保证吴稻地、李庄子、潘庄子村群众顺利还迁。同

[url]http://epaper.tianjinwe.com/mrxb/mrxb/2013-02/21/content_7566617.htm

2月21日　星期二天津卫视(101) 19：30　快乐生活剧场：星光灿烂（5、6） 21：25　幸福来敲门天视1套(102) 18：30　都市报道60分 19：30　第1观察 21：00　新闻延长线 21：30　热播1小时天视2套(103) 18：40　多彩剧场：老公们的私房钱（47）；咱家（1、2） 21：10　音乐视界天视3套(104) 20：00　晚八点剧场：战神之血染的青春（21-23） 22：40　晚间剧场：山河同在（42、43）天视5套(106) 18：00　旗开得胜 19：30　我是棋王（23） 21：35　科学健身一点通 21：45　一马当先 22：00　牌王看牌天视6套

1、思路探讨

1）转化为格式化数据。

如何将一大段的包含换行、任意特殊字符的变量的文本内容赋值格式化是个问题？

2）文件读取，存储为不同的两个变量。根据文件特点，无非是:url作为key，汉字的内容作为value。用Map或者HashMap存储即可。这里不论是用C++或Java读文件，都是一笔不小的工作量开销。但我的时间只允许1个小时左右。

综上，选择shell脚本做格式化处理。

大致思路是：

1）url行保留，便于提取。

2）剩下的未被格式化的文本，删除空行、删除换行符，添加content的标记，便于提取。

3）一次提取一个url与之对应的content，构造成所需要的sql即可。

2、核心实现步骤

第1步：格式化文本文件

在url行的下一行的首部添加content=,目的：便于进行检索。

sed -i '/^\[url/ { n; s/^/content=/; }' $RST_FILE

第2步：删除空行

sed -i '/^$/d' $RST_FILE

第3步：提取url

cat $RST_FILE | grep url > $URL_FILE

第4步：删除处理过的url行

sed -i '/url/d' $RST_FILE

第5步：换行符替换为空格

sed -i ':a;N;$ s/\n/ /g;ba' $RST_FILE

第6步：content前加换行符

sed -i 's#content#\ncontent#g' $RST_FILE

第7步：提取content到content.txt

cat $RST_FILE | grep content > $CONTENT_FILE

3、脚本源码

分割为两个文件逐行进行遍历。

#!/bin/sh

CONTENT_FILE=./content.txt

URL_FILE=./url.txt

RST_FILE=./input.txt

#格式化文件

function format_process()

{

sed -i '/^\[url/ { n; s/^/content=/; }' $RST_FILE

sed -i '/^$/d' $RST_FILE

cat $RST_FILE | grep url > $URL_FILE

#删除处理过的url行

sed -i '/url/d' $RST_FILE

sed -i ':a;N;$ s/\n/ /g;ba' $RST_FILE

sed -i 's#content#\ncontent#g' $RST_FILE

cat $RST_FILE | grep content > $CONTENT_FILE

}

#生成sql

function build_rstdate()

{

icnt=1;

cat $CONTENT_FILE | while read line

mkdir -p ./output

#生成每个独立的content文件

echo $line > ./output/content_${icnt}.txt

sed -i 's#content\=##g' ./output/content_${icnt}.txt

icnt=$[$icnt+1];

echo icnt=$icnt;

done;

export gcnt=0;

iurlcnt=0;

cat $URL_FILE | while read line

iurlcnt=$[$iurlcnt+1];

echo $iurlcnt > ./output/.cnts_rst.txt

#生成每个独立的url文件

echo $line > ./output/url_${iurlcnt}.txt

sed -i 's#\[url\]##g' ./output/url_${iurlcnt}.txt

#export gcnt=$iurlcnt;

done;

gcnt=`cat ./output/.cnts_rst.txt`

echo gcnt=$gcnt

#构造成sql文件

cat /dev/null > update_sql.sql

for((i=1;i<=$gcnt;i++))

url=`cat ./output/url_${i}.txt`;

content=`cat ./output/content_${i}.txt`;

# echo url=$url

# echo content=$content

echo "update gather_rst set content='$content' where url='$url';" >> update_sql.sql

done;

}

format_process;

build_rstdate;

格式化xml脚本实现

[root@localhost 2017]# cat build_input.sh

#!/bin/sh

sed -i 's#</content>#</contentsize>#g' input.xml

sed -i 's#<content>#<contentsize>#g' input.xml

sed -i 's#</snapshot>#</snapshotsize>#g' input.xml

sed -i 's#<snapshot>#<snapshotsize>#g' input.xml

sed -i 's#<is_site_homepage>#</is_site_homepage>#2' input.xml

#在文件头插入格式化字符串

sed -i '1i\<?xml version="1.0" encoding="UTF-8"?>' input.xml

sed -i '2i\<HotNewsList>' input.xml

#文件末尾加入特定字符串

sed -i '$a\</HotNewsList>' input.xml

4、小结

shell对文本的处理真的非常强大。一些命令行还不能“信手拈来”，有待进一步掌握提高！

码农公寓

相关文章