手动更新wget到1.19版本

手动安装HTML-XML-util

HTML-XML-util是在命令行下操作分析html(xml)的工具,当用shell写采集脚本时,解析xml是一大噩梦,但是有了html-xml-util工具之后,配合高版本的wget\curl命令这一切变得简单。 HTML-XML-util安装

wget https://www.w3.org/Tools/HTML-XML-utils/html-xml-utils-7.2.tar.gz
tar -xvzf html-xml-utils-7.2.tar.gz
cd html-xml-utils-7.2
./configure
make
make install

简单介绍3个命令

#格式化,标准化html
hxnormalize -x
#通过css选择html元素
hxselect cssSelect
#格式化html为管道数据,方便awk分析获取数据
hxpipe
#另外在介绍个常用的组合命令(需要单独安装)
#将gb2312转为utf-8编码
enca -L zh_CN -x UTF-8

例如提取example.html 中div 的id为data下所有a链接数据

cat example.html|hxnormalize -x|hxselect '#id a'|enca -L zh_CN -x UTF-8|hxpipe|awk -F ' /Ahref/ {print $3}'

采集html时一般使用wget 或者curl采集即可组合完成shell采集数据