韩晓莉的作业二

代码


  import requests
  x = requests.get('http://www.jxufe.edu.cn/')
  print(x.text)
  content = x.text

  from bs4 import BeautifulSoup

  soup = BeautifulSoup(content,'html.parser')
  txt1 = soup.get_text()

  import re
  txt2 = re.sub('\n+','\n',txt1)

结果

结果截图

解释

  1. 导入request模块。requests.get()请求访问江西财经大学主页,打印出文本内容, 并将文本内容赋给变量content。
  2. 导入BeautifulSoup模块。创建一个BeautifulSoup解析对象,"html.parser"说明 解析的内容为html格式的。soup.get_text()获取文字内容,并将其赋给变量txt1。
  3. 由于文字内容中空行过多,不利于观看,导入re模块,用正则表达式将多个换行符 替换为一个换行符。“\n+”表示匹配到一个或多个换行符。