韩晓莉的作业二

韩晓莉的作业二

代码


  import requests
  x = requests.get('http://www.jxufe.edu.cn/')
  print(x.text)
  content = x.text

  from bs4 import BeautifulSoup

  soup = BeautifulSoup(content,'html.parser')
  txt1 = soup.get_text()

  import re
  txt2 = re.sub('\n+','\n',txt1)

结果

结果截图

解释

导入request模块。requests.get()请求访问江西财经大学主页，打印出文本内容, 并将文本内容赋给变量content。
导入BeautifulSoup模块。创建一个BeautifulSoup解析对象，"html.parser"说明解析的内容为html格式的。soup.get_text()获取文字内容，并将其赋给变量txt1。
由于文字内容中空行过多，不利于观看，导入re模块，用正则表达式将多个换行符替换为一个换行符。“\n+”表示匹配到一个或多个换行符。