本来是在写下一篇文章,结果前摇过长被迫单发
0x00.前言
去gh
翻了下提交日志,结合QZone
的水文,捋下来发现这都能拿出来讲故事了2333
那么事不宜迟干脆就从头说起吧,emmm
,提前多图预警(现在跑还来得及
0x01.故事
1.腾讯云——折腾的开始
时光回到大一下(2016
),那时候就已经注册了你云的账号(老用户确信),目的仅仅是为了买每个月仅需1
元的学生机,只能说当初白嫖的真香
点击此处 ← 查看折叠

- 吐槽:时至今日,各种服务也一直托管于你云
2.爬虫和OCR
——PY
初体验
然后等到专业课讲C
语言的时候,觉得这门语言对于自己来说过于不便,业余时间就已经在看py
了,还记得第一个抄的是识别jwzx
(教务在线)的附加码(指验证码)的爬虫脚本
点击此处 ← 查看折叠

而实际上是一直CTRL+C&
CTRL+V(标准debug
套路,确信
- 首先,CTRL+C
&
CTRL+V抄的例子直接运行会报错; - 然后,把报错信息CTRL+C
&
CTRL+V去搜索; - 最后,再CTRL+C
&
CTRL+V改回本地……
反正是xjb
搞到最后总算给跑起来了,能用就行(当然现在的标准是肯定不能止步于此了
印象里那里面还是错综复杂的对基于python2
的urllib2
库的调用,当然现在都用支持python3
的requests
库了,只能说时代的变化真的是太快了
Requests: HTTP for Humans™
- 吐槽:最惨
jwzx
已经被草爆,据说大家都拿来练爬虫
点击此处 ← 查看折叠

3.正则表达式——从入门到跑路
然后,4
天后就看上正则了草?现在直接黑人问号?那时候啥编程基础害都没有
点击此处 ← 查看折叠

- 吐槽:时至今日,爬虫也只会写最开始抄的
(.*?)
这一种匹配神器,就像magic number
一样?
4.查分脚本——写代码VS.
选修课
显然,过于无聊的选修课肯定是比不上有着更大的诱惑的代码了(时至今日亦如此
那时候的目标极其明确,就是为了写出能一键查成绩的脚本,参照有类似需求的实现文章,现学F12
抓包方法,现去分析HTTP
请求
毕竟胶水语言,艰难的OCR
识别验证码的部分已经搞定了,直接被登录调用就OK
,那么剩下的就只有查成绩了,而正则表达式是为了格式化输出的
也佩服那时候的信念,坚决拒绝使用Beautiful Soup,因为看到文章有说其解析速度慢,当然这只是其中的一点原因,真的就像是信仰一样(
点击此处 ← 查看折叠






- 吐槽
1
:学计算机是不可能的,这辈子都不可能的⬇
(草这黑历史绝了,大老师自爆卡车!
点击此处 ← 查看折叠


- 吐槽
2
:时至今日,也从未使用BS4
,顶多from lxml import etree
5.各种脚本——PY
逐渐上头
点击此处 ← 查看折叠



- 吐槽:
QZone
的水文数量呈指数型增长,时至今日,一发不可收拾
6.个人博客——水文不归路
这个时间点在折腾的是Hexo
,是被_config.yml
配置文件的缩进给坑惨了5.6
~`5.11抽时间搭建上了,用得是
gh的
pages页面,还配置了告警
2333,谷歌也是飞快收录即使是
github.io`子域
点击此处 ← 查看折叠





- 吐槽:这只是初代,后面还重建/换域名过几次
7.云主机——光速上云
毕竟云主机24h
开机,是挂脚本的最佳之选,试用之后立即购买(云主机+
域名)了
点击此处 ← 查看折叠


- 吐槽:这台上古机子上重装了无数次的操作系统……
8.Google
——谁tm
用百毒
这时候大一已经结束了(2016
),暑假的时候第一次接触的国外服务商,这是已经在使用Google
的迹象,也因为不良梯子提供商导致密码被嗅探泄露,也意识到两步验证的重要性
点击此处 ← 查看折叠





- 吐槽:时至今日,也离不开
Google
,看一个百毒劝一个,宁可用Bing
9. 狗东——薅羊毛不归路
点击此处 ← 查看折叠



- 吐槽:时至今日,确信!(狗东真的是一直陪伴着
10. Pkav
——安全渗透之路
点击此处 ← 查看折叠

11.PC Games
——单机3A
大作
那个寒假(2017
)终于独立打通了狗二,后来有段时间开始在Steam
入正
点击此处 ← 查看折叠


- 吐槽:时至今日,也不玩网游,单机它不香吗?然而现在木有显卡草……
12.日漫新番——老二次元的开始
印象非常深刻,寒假在家第一次熬夜看最新话,是真正意义上的追新番的开始
原创不易,而搬运几乎无成本,所以一直在投稿新番的OP/ED
,后来被版权了无数次
至于屯BD
,拿madVR
补番就是后来的事情了(懒得再截图了,就只放一张《未来日记》三周目
点击此处 ← 查看折叠
















13.Flask
——沿用至今的Web
框架
最开始用的域名是app.yuangezhizao.cn
,SSL
评测是A
,其实只要上HSTS
就能到A+
而之所以取名为app
,从源码中也可以看到是应用的意思,就是这里存放着各种小应用,但是keywords
和description
也包含实验室
直到2018
年,更换了子域名到lab
,一直延续至今
点击此处 ← 查看折叠














- 吐槽:时至今日,甚至工作上用的也是
Flask
,真的是缘分
14.Requests
——从爬虫到入狱(bushi
那时候还用的SQLite3
,后来导入MySQL
,对你b
用户信息api
实施爆破
点击此处 ← 查看折叠





0x03.后记
整理这种文章真的是巨费时间,图片数量众多因此对SEO
还不友好……
至此本文使命完成