郭嘉懿的作业二

代码


  # -*- coding: utf-8 -*-
  import pandas as pd
  import html2text
  import re

  def func2(txt):
      p1 = re.compile('<.*?>(.*)<.*?>')
      txt1 = p1.findall(txt)
      txt2 = [i for i in txt1 if i != '']

      flag = 1
      while flag == 1:
          txt3 = []
          for i in txt2:
              flag = 0
              if '<' in i:
                  flag = 1
                  i = p1.findall(i)
                  i = " ".join(i)
              txt3.append(i)
          txt4 = [i for i in txt3 if i != '']
          txt2 = txt4
      return txt2


  with open('HTML.html', 'r', encoding='utf-8') as f:
      txt = f.read()
      result2 = func2(txt)

  df = pd.DataFrame(result2)
  df.to_excel("homework2.xlsx")

结果

结果截图 结果截图
0	江西财经大学
1	考生  |
2	在校生  |
3	教职工  |
4	社会人士  |
5	校友
6	原站主页
7	ENGLISH
8	全站检索
9	校情总揽
10	学校简介
11	图解江财
12	历史沿革
13	现任领导
14	历任领导
15	学校导图
16	文化标识
17	校园风光
18	数据江财>
19	学科一览
20	博士点一览
21	硕士点一览
22	专业学位点一览
23	专业一览
24	师资队伍
25	教师个人主页
26	机构设置
27	学院设置
28	管理机构
29	科研机构
30	教学科研
31	科研管理
32	当代财经
33	博士后流动站
34	教务信息网
35	本科教学评估
36	科研讲座信息
37	国际交流
38	对外合作交流
39	国际文化交流中心
40	国际化信息系统
41	来华留学招生
42	招生就业
43	博士后招收
44	博士研究生
45	硕士研究生
46	本科招生
47	国际本科招生
48	继续教育
49	就业工作
50	留学江财
51	数字校园
52	智慧江财
53	新OA系统
54	旧OA系统
55	图书资源
56	信息门户
57	校园全景地图
58	选课平台
59	网络教学平台
60	教工邮箱
61	网络服务
62	网络报修
63	综治平台
64	本科教学评教系统
65	vpn服务
66	江财云盘
67	图书资源
68	人才招聘
69	筑牢校园疫情防线,确保校园安全稳定
70	一图读懂江西财经大学“十四五”规划
71	大美江财
72	春暖花开
73	春暖花开
74	江财新闻
75	基层风采
76	通知公告
77	MORE+
78	MORE+
79	MORE+
80	让党旗在疫情防控一线高高飘扬的倡议书
81	视频江财
82	MORE+
83	师生风采
84	MORE+
85	专题专栏
86	MORE+
87	学术江财
88	MORE+
89	媒体江财
90	MORE+
91	关闭

解释

为了方便截图,导出到Excel后还进行了修改,Excel链接如下: Excel结果