博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[Python]HTML转换为TXT的脚本
阅读量:2387 次
发布时间:2019-05-10

本文共 1456 字,大约阅读时间需要 4 分钟。

1 from formatter import AbstractFormatter, NullWriter 2 from htmllib import HTMLParser 3  4 def _(str, in_encoder="gbk", out_encoder="utf8"): 5     return unicode(str, in_encoder).encode(out_encoder) 6  7  8 class myWriter(NullWriter): 9     def __init__(self):10         NullWriter.__init__(self)11         self._bodyText = []12 13     def send_flowing_data(self, str):14         self._bodyText.append(str)15 16     def _get_bodyText(self):17         return '/n'.join(self._bodyText)18 19     bodyText = property(_get_bodyText, None, None, 'plain text from body')20 21 class myHTMLParser(HTMLParser):22     def do_meta(self, attrs):23         self.metas = attrs24 25 def convertFile(filename):26     mywriter = myWriter()27     absformatter = AbstractFormatter(mywriter)28     parser = myHTMLParser(absformatter)29     parser.feed(open(filename).read())30     return ( _(parser.title), parser.formatter.writer.bodyText )31 32 import os33 import os.path34 35 OUTPUTDIR = "./txt"36 INPUTDIR = "."37 if __name__ == "__main__":38     if not os.path.exists(OUTPUTDIR):39         os.mkdir(OUTPUTDIR)40 41     for file in os.listdir(INPUTDIR):42         if file[-4:] == '.htm':43             print "Coverting", file,44             outfilename, text = convertFile(file)45             outfilename = outfilename + '.txt'46             outfullname = os.path.join(OUTPUTDIR, outfilename)47             open(outfullname, "wt").write(text)48             print "Done!"49

转载地址:http://zmsab.baihongyu.com/

你可能感兴趣的文章
强大的CSS:var变量的局部作用域(继承)特性
查看>>
强大的CSS: 使用“变量种子计数器”扩展动画更多可能性
查看>>
强大的CSS:focus-visible伪类真的太6了!
查看>>
强大的CSS:3种姿势实现26个英文字母的案例
查看>>
强大的CSS:placeholder-shown伪类实现Material Design占位符交互效果
查看>>
强大的CSS:图形绘制合集,方便你我!
查看>>
强大的CSS:scroll-snap滚动事件停止及元素位置检测
查看>>
程序员30岁前,月薪达不到30K,该何去何从?
查看>>
只要记住这五点,学习任何新编程语言都不是问题
查看>>
常见的前端开发CSS 面试题及回答策略
查看>>
缺前端是假的,缺优秀前端是真的
查看>>
前端入门那么容易,工作很难找吗?
查看>>
Web前端很难学?html、css t、JavaScrip知识架构图分享
查看>>
常见的前端开发:Javascript 面试题及回答策略
查看>>
web前端开发学习推荐这5本书
查看>>
Windows资源管理器相关信息获取
查看>>
windows资源管理器及ie监听
查看>>
No module named 'Crypto'
查看>>
常用openstack的镜像下载及密码
查看>>
详解python中的浅拷贝和深拷贝
查看>>