1 csv_play.py

# -*- coding: utf-8 -*-
"""
Created on Sat Oct  9 18:51:50 2021

@author: Longan XM
"""

# import csv
# with open('财经大学列表.csv', mode='r',
#           newline='', encoding='utf-8') as csvfile:
#     csvreader = csv.reader(csvfile)
#     for row in csvreader:
#         print('%s位于 %s 省/市 %s 市/区' % tuple(row))

# import csv
# with open('aNewFile.csv', mode='w', newline='', 
#           encoding='utf-8') as f:
#     writer = csv.writer(f)
#     writer.writerow(['吴燕丰','男','江西'])
#     writer.writerow(['Maxwell','Male','Scotland'])
#     writer.writerow(['Turing','Male','England'])
#     writer.writerow(['Donald Knuth','Male','America'])
#     writer.writerow(['Marie Curie','Female','Poland'])



# import pandas as pd
# df = pd.read_csv('aNewFile.csv', header=None)
# df.head(2)
# df.tail(2)


import pandas as pd
df = pd.DataFrame({
 '姓名': ['吴燕丰','Maxwell','Turing','Donald Knuth','Marie Curie'],
 '性别': ['男','Male','Male','Male','Female'],
 '籍贯': ['江西','Scotland','England','America','Poland']
})
df.to_csv('saved_from_DataFrame.csv')

2 email.py

# -*- coding: utf-8 -*-
"""
Created on Thu Sep 30 20:37:25 2021

@author: Longan XM
"""

import re

p = re.compile('\w+(?:\.\w+)*@\w+(?:\.com|\.edu)(?:\.cn)?')

email = '''
把自己的邮箱发进来
吴燕丰
Email


丁涛
第1楼
2994937548@qq.com


张佳静
第2楼
1983481084@qq.com


余文盛
第3楼
2321251147@qq.com


张嘉雪
第4楼
806265580@qq.com


贾玉萍
第5楼
1024057473@qq.com


李方诺
第6楼
719422505@qq.com


梅峻滔
第7楼
1040986868@qq.com


刘鑫
第8楼
425251974@qq.com


李晓彤
第9楼
1042660274@qq.com


万鑫琦
第10楼
1540421302@qq.com


吴燕丰
第11楼
wuyanfeng@jxufe.edu.cn


齐宏鑫
第12楼
2198208858@qq.com


贾烨玮
第13楼
418567800@qq.com


丰亦成
第14楼
330511825@qq.com


耿鑫艳
第15楼
2327851562@qq.com


李梦菲
第16楼
1632948333@qq.com


杨子妮
第17楼
1654924582@qq.com


陈学香
第18楼
1654555150@qq.com


杨天明
第19楼
yzqnmg@foxmail.com


胡昕宇
第20楼
Hubery.work@qq.com


刘宸虎
第21楼
961996676@qq.com


宗帼
第22楼
1363587314@qq.com


王诗
第23楼
602879969@qq.com


张竣杰
第24楼
1042860290@qq.com


曹可
第25楼
1040934938@qq.com


李怡
第26楼
1419139109@qq.com


马庆云
第27楼
1355439881@qq.com

已经到底啦~(>_<)~~
'''

print(p.findall(email))

3 extract_tables.py

import pdfplumber
import pandas as pd

with pdfplumber.open("下载的年报.pdf") as pdf:
    page = pdf.pages[6]
    tables = page.extract_tables()


df1 = pd.DataFrame(tables[0])
# df1.to_excel('df1.xlsx')

df2 = pd.DataFrame(tables[1])

df4 = pd.DataFrame(tables[3])

4 homework1.py

f = open('作业一素材.txt',mode='r', encoding='utf-8')
text = f.read()
f.close()

5 pandas_read_excel.py

import pandas as pd
import re

df = pd.read_excel('公司公告2021-10-21.xlsx')

df2 = pd.read_excel('公司公告.xlsx')

formula_text_sample ='''
'=HYPERLINK("http://news.windin.com/ns/bulletin.php?code=C3730AD72A6E&id=127212988&type=1","德利股份:2020年度企业年度报告书")'
'''

p = re.compile('"(.*?)","(.*?)"')

links = [[p.search(df2.loc[i][5]).group(2),
          p.search(df2.loc[i][5]).group(1)] for i in range(len(df2)-1)]

f = open('company_annual_report_links.html')
html = f.read()
f.close()

template = '<li><a href="%s">%s</a></li>'
li_list = [template % (l[1], l[0]) for l in links]
li_text = '\n'.join(li_list)
li_text = '<ol>' + li_text + '</ol>'

html = html % li_text

f = open('company_annual_report_links.html','w',encoding='utf-8')
f.write(html)
f.close()

6 play-re.py

import re

# line = 'Cats are smaller than dogs'
# m = re.match('(.*) are (.*?)', line)

# if m:
#     print('完整匹配结果:', m.group(0))
#     print('第一组匹配结果:', m.group(1))
#     print('第二组匹配结果:', m.group(2))
# else:
#     print('没匹配成功!')

text = '''
1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

 2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

 3 InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$

 4 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

 5 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$

 6 国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}

 7 身份证号(15位、18位数字):^\d{15}|\d{18}$

 8 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$

 9 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

10 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$

11 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$  

12 日期格式:^\d{4}-\d{1,2}-\d{1,2}

13 一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$

14 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$

16 有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$

17 这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:^(0|[1-9][0-9]*)$

18 一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]*)$

19 这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$

20 必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:^[0-9]+(.[0-9]{2})?$

21 这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$

22 这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$

23 1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

24 备注:这就是最终结果了,别忘了"+"可以用"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里

25 xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

26 中文字符的正则表达式:[\\u4e00-\\u9fa5]

27 双字节字符:[^\\x00-\\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))28 空白行的正则表达式:&#92;n\s*&#92;r (可以用来删除空白行)

29 HTML标记的正则表达式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)30 首尾空白字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)

31 腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)

32 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)

33 IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址时有用)34 IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)) 

整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$ 

只能输入数字:"^[0-9]*$"

只能输入n位的数字:"^\d{n}$"

只能输入至少n位的数字:"^\d{n,}$"

只能输入m~n位的数字:"^\d{m,n}$" 

只能输入零和非零开头的数字:"^(0|[1-9][0-9]*)$"

只能输入有两位小数的正实数:"^[0-9]+(.[0-9]{2})?$"

只能输入有1~3位小数的正实数:"^[0-9]+(.[0-9]{1,3})?$"

只能输入非零的正整数:"^\+?[1-9][0-9]*$"

只能输入非零的负整数:"^\-[1-9][]0-9"*$

只能输入长度为3的字符:"^.{3}$"

只能输入由26个英文字母组成的字符串:"^[A-Za-z]+$" 

只能输入由26个大写英文字母组成的字符串:"^[A-Z]+$"

只能输入由26个小写英文字母组成的字符串:"^[a-z]+$"

只能输入由数字和26个英文字母组成的字符串:"^[A-Za-z0-9]+$"

只能输入由数字、26个英文字母或者下划线组成的字符串:"^\w+$" 

验证用户密码:"^[a-zA-Z]\w{5,17}$"正确格式为:以字母开头,长度在6~18之间,只能包含字符、数字和下划线

验证是否含有^%&'',;=?$\"等字符:"[^%&'',;=?$\\x22]+"。 

只能输入汉字:"^[\\u4e00-\\u9fa5]{0,}$" 

验证Email地址:"^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$"。 

验证InternetURL:"^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$"。 

验证电话号码:"^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$"正确格式为:"XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX"。 

验证身份证号(15位或18位数字):"^\d{15}|\d{18}$"。 

验证一年的12个月:"^(0?[1-9]|1[0-2])$"正确格式为:"01"~"09"和"1"~"12"。 

验证一个月的31天:"^((0?[1-9])|((1|2)[0-9])|30|31)$"正确格式为;"01"~"09"和"1"~"31"。

整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$ 

可输入形如2008、2008-9、2008-09、2008-9-9、2008-09-09:^(\d{4}|(\d{4}-\d{1,2})|(\d{4}-\d{1,2}-\d{1,2}))$ 

邮箱验证正则表达式:\w+([-+.']\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* 
'''

lines = text.splitlines()
lines = [l.strip() for l in lines if l.strip() !='']
text = '\n'.join(lines)
p = re.compile('\d{0,2} ?(.+):(.+)')
LoT = p.findall(text)

def to_markdown(LoT):
    prefix = '|匹配|正则表达式|\n|:--:|:---:|\n'
    md = ['|%s|`%s`|' %(t[0],t[1]) for t in LoT]
    md = '\n'.join(md)
    md = prefix + md
    return(md)

md = to_markdown(LoT)
# md = md.replace('或', '`<br>或<br>`')

def to_ol(LoT):
    ol = ['1. %s\n    - `%s`' % (t[0],t[1]) for t in LoT]
    ol = '\n'.join(ol)
    return(ol)

ol = to_ol(LoT)

7 playComp.py

#
#
a = [x**2 for x in range(10)]
print(a)

b = []
for x in range(10):
    b.append(x**2)

print(b)

c = a.copy()

b[1] = '哈喽'
c.count(2)
c.extend([1,1,1])

c.index(1)
c.index(1,4)
a.insert(0,2)
n = a.pop()
a.remove(2)
a.remove('哈喽')
a.reverse()
a.sort()

s = 0
for n in range(1,101):
    s = s + n
print(s)

n = 10
i = 0
while i < n:
    print('%d < %d' % (i, n))
    i = i + 1


def exp_2(n,a=2):
    f = a**n
    return(f)

def yiYuanErCi(x,a=1,b=1,c=1):
    f_value = a*(x**2) + b*x + c
    return(f_value)

def yi_yuan_er_ci(x,a=1,b=1,c=1):
    f_value = a*(x**2) + b*x + c
    return(f_value)

def f(x,a=1,b=1,c=1):
    f_value = a*(x**2) + b*x + c
    return(f_value)


def reverse_str(text):
    N = len(text)
    new_text = [text[-n] for n in range(1,N+1)]
    new_str = ''.join(new_text)
    return(new_str)

8 playDict.py

import pandas as pd

# df = pd.read_excel('话题及其回复 2021-09-09 19_38.xlsx')

# raw = []

# for n in range(4,22):
#     data = df.loc[n][12]
#     raw.append(data)

info = []

d = {}
d['姓'] = '张'
d['名'] = '佳静'
d['性别']='女'
d['专业']='金融工程'
d['以前的座右铭']='只要学不学,就往死里学'
d['以后想从事的工作']='躺尸'

info.append(d)
dict = {}
dict['姓'] = '张'
dict['名'] = '竣杰'
dict['性别'] = '男'
dict['专业'] = '金融工程'
dict['以前的座右铭'] = '丰满的灵魂和清瘦的欲望'
dict['以后想从事的工作'] = '数据分析师'
info.append(dict)

d={}
d['姓']='杨'
d['名']='天明'
d['性别']='男'
d['专业']='动车组检修'
d['以前的座右铭']='人狠话又多'
d['以后想从事的工作']='上海铁路局南京东机辆段南京南动车运用车间京沪高铁二车队司机'
info.append(d)

d= {}
d['姓'] ='张'
d['名'] ='嘉雪'
d['性别']= '女'
d['专业'] ='金融工程'
d['以前的座右铭'] = '但凡我是个富婆'
d['以后想从事的工作'] ='养老'
info.append(d)

d={}
d['姓']='王'
d['名']='诗'
d['性别']='女'
d['专业']='国金'
d['以前的座右铭']='没有'
d['以后想从事的工作']='没有'
info.append(d)

dict = {}
dict['姓'] = '余'
dict['名'] = '文盛'
dict['性别']='男'
dict['专业']='金融工程'
dict['以前的座右铭']='忘记了!'
dict['以后想从事的工作']='投资银行'
info.append(dict)

dict ={}
dict['姓']='李'
dict['名']='梦菲'
dict['性别']='女'
dict['专业']='金融学'
dict['以前的座右铭']='努力做好人!'
dict['以后想从事的工作']='成为富人'
info.append(dict)

dict ={}
dict['姓']='万'
dict['名']='鑫琦'
dict['性别']='女'
dict['专业']='金融学'
dict['以前的座右铭']='努力做好自己!'
dict['以后想从事的工作']='自由职业'
info.append(dict)

d={}
d['姓']='贾'
d['名']='烨玮'
d['性别']='女'
d['专业']='金融工程'
d['以前的座右铭']='我真的不知道'
d['以后想从事的工作']='归隐山林'
info.append(dict)

dict1 = {}
dict1['姓'] = '曹'
dict1['名'] = '可'
dict1['性别']='女'
dict1['专业']='国际投资与金融'
dict1['以前的座右铭']='摔倒了爬起来就好'
dict1['以后想从事的工作']='摄影师'
info.append(dict1)

dict = {}
dict['姓']='耿'
dict['名']='鑫艳'
dict['性别']= '女'
dict['专业']= '金融工程'
dict['以前的座右铭'] = '热爱可抵岁月漫长'
dict['以后想从事的工作']= '轻松惬意的高薪工作'
info.append(dict)

d = {}
d['姓'] = '李'
d['名'] = '晓彤'
d['性别'] = '女'
d['专业'] = '金融工程'
d['以前的座右铭'] = '道路对了就不怕遥远'
d['以后想从事的工作'] = '稳定就好'
info.append(d)

d={}
d['姓']='李'
d['名']='方诺'
d['性别']='女'
d['专业']='金融工程'
d['以前的座右铭']='无'
d['以后想从事的工作']='无'
info.append(d)

d={}
d['姓']='刘'
d['名']='宸虎'
d['性别']='男'
d['专业']='国际投资与金融'
d['以前的座右铭']='相信光'
d['以后想从事的工作']='战略咨询'
info.append(d)

dict ={}
dict['姓']='亢'
dict['名']='晨旭'
dict['性别']='男'
dict['专业']='金融工程'
dict['以前的座右铭']='壶嘴'
dict['以后想从事的工作']='吃大锅饭'
info.append(dict)

d = {}
d['姓'] = '梅'
d['名'] = '峻滔'
d['性别'] = '男'
d['专业'] = '国际投资与金融'
d['以前的座右铭'] = '随遇而安'
d['以后想从事的工作'] = '投资分析'
info.append(d)

dict={}
dict['姓']='李'
dict['名']='怡'
dict['性别']='女'
dict['专业']='金融工程'
dict['以前的座右铭']='想吃面包自助'
dict['以后想从事的工作']='外科医生'
info.append(dict)

d = {}
d['姓'] = '贾'
d['名'] = '玉萍'
d['性别']= '女'
d['专业'] = '金融工程'
d['以前的座右铭'] = '人间烟火值得全力以赴!'
d['以后想从事的工作'] = '审计工作'
info.append(d)


x = []; m = []; xb =[]; zy =[]; yq =[]; yh =[]
for d in info:
    x.append(d['姓'])
    m.append(d['名'])
    xb.append(d['性别'])
    zy.append(d['专业'])
    yq.append(d['以前的座右铭'])
    yh.append(d['以后想从事的工作'])

df = pd.DataFrame({'姓': x,
                   '名': m,
                   '性别':xb,
                   '专业':zy,
                   '以前的座右铭':yq,
                   '以后想从事的工作':yh})

9 playSet.py

# -*- coding: utf-8 -*-
"""
Created on Thu Sep  9 20:16:43 2021

@author: Longan XM
"""

A = set('abcd')
B = {'c','d','e','f'}

print(A)
print(B)

C = A - B
print(C)

print(set.union(A,B))

print(A & B)

print(A ^ B)

10 playStr.py

# -*- coding: utf-8 -*-
"""
Created on Thu Sep  9 20:35:38 2021

@author: Longan XM
"""

s = 'i am a student of jxufe.'
s.capitalize()

s1 = '    我    是   江  西 财 大  的  学  生++++'

s = '''
我是江西财大的学生。老师是江西财大的老师。他以前也是一个学生。
听说他以前编程什么也不会,上完课也没学到什么内核知识。但是,我
们要抓住这次学习的机会。
同学们加油。
'''

s = s.replace('\n', '')
lines = s.split('。')

lines_2 = []
for line in lines[:-1]:
    lines_2.append(line+'。')

''.join(lines_2)

f = open('homework1.txt',mode='r',encoding='utf-8')
text = f.read()
f.close()

11 play_requests.py

import requests
x = requests.get('http://www.jxufe.edu.cn/')
print(x.text)
html = x.text

12 re-greedy.py

# -*- coding: utf-8 -*-
"""
Created on Thu Sep 30 19:11:49 2021

@author: Longan XM
"""

import re
re.findall('%.*>', 
           '%> %<a%>% b %%<c><abc> %<中%国> <ni>>VV')

13 re_a_tag.py

import re
import requests

url = 'http://news.windin.com/ns/bulletin.php?code=C3730AD72A6E&id=127212988&type=1'

r = requests.get(url)
r.encoding = 'utf-8'

html = r.text

p = re.compile('<a href=(.*?)>(.*?)</a>', re.DOTALL)

ls_a = p.findall(html)

14 re_html.py

# -*- coding: utf-8 -*-
"""
Created on Sat Oct  9 20:01:02 2021

@author: Longan XM
"""

import re

html = '''<!DOCTYPE html>
<html>
  <head>
    <title>
       This is a title
    </title>
  </head>
  <body>
    <h1>
      This is heading 1
    </h1>
    <p>Hello world!</p>
  </body>
</html>
'''

# p = re.compile('<.*?>')
# t = p.sub('', html)

p = re.compile('<html>.*?<head>(.*?)</head>.*?<body>(.*?)</body>.*?</html>',
               re.DOTALL)
hb = p.findall(html)

p_tag = re.compile('<(.*?)>(.*?)</\1>',re.DOTALL)
head = p_tag.findall(hb[0][0])
body = p_tag.findall(hb[0][1])

15 re_pdf.py

import fitz # pip install pymupdf
import re

doc = fitz.open('下载的年报.pdf')
toc = doc.get_toc()
page_number = toc[7][2]

page7 = doc.load_page(page_number-1)
text = page7.getText()
















p = re.compile('否(.*?)营业收入',
               re.DOTALL)

title_text = p.search(text).group(1)

p1 = re.compile('(\d{4})\s?年')
t1 = p1.findall(title_text)

text = text[text.find('\n营业收入'):]

p_r = re.compile('\\n\w+\s?\w*(.*?)',
                 re.DOTALL)

result = p_r.findall(text)
r = [res.strip() for res in result]















# def getText(pdf):
#     text = ''
#     doc = fitz.open(pdf)
#     for page in doc:
#         text += page.getText()
#     doc.close()
#     return(text)

# text2 = getText('下载的年报.pdf')

16 tel.py

# -*- coding: utf-8 -*-
"""
Created on Thu Sep 30 20:43:27 2021

@author: Longan XM
"""

import re
p = re.compile('(第\d{1,2}楼)\\n(1\d\d ?\d{4} ?\d{4})(?!\d)')
tel = '''
把手机号码发进来
吴燕丰

张佳静
第1楼
18296670615


贾玉萍
第2楼
17361202940


贾烨玮
第3楼
15717098692


吴燕丰
第4楼
139 1663 7993


余文盛
第5楼
13086135037


张嘉雪
第6楼
18296586050


万鑫琦
第7楼
15810781081


李梦菲
第8楼
13619940121


刘宸虎
第9楼
18789199553


李晓彤
第10楼
13262585979


梅峻滔
第11楼
13385143672


耿鑫艳
第12楼
14755936911


孙逸伦
第13楼
17371502788


齐宏鑫
第14楼
15512343595


杨子妮
第15楼
15292106743


李方诺
第16楼
15638914816


曹可
第17楼
15976386289


丰亦成
第18楼
18822027138


李怡
第19楼
18434754602


张竣杰
第20楼
18742034110


王诗
第21楼
18735086836


陈学香
第22楼
18702595927


马庆云
第23楼
18842510230


宗帼
第24楼
19979479689


胡昕宇
第26楼
17665386821


丁涛
第27楼
17755557111


杨天明
第28楼
17317803805


佟利汉
第29楼
18640982997


王子月
第30楼
17658387218


汲生钦
第31楼
18206497982

已经到底啦~(>_<)~~
'''
# print(p.findall(tel))
LoT = p.findall(tel)