YNOTES笔记

### 本文讲解通过python selenium firefox mysql的方式爬取搜狗微信公众号数据 `说明:搜狗微信的反爬虫，scrapy框架爬取易被检测,使用selenium的方式（缺点：慢。优点:不易被检测到）。` 安装相关软件教程参考:https://ynotes.cn/blog/article_detail/158 #### 流程: 1.脚本循环查询关键字表(table keys)中关键字类型字段(column type)所对应的关键字字段(column keyword)前100条数据 2.通过获取关键字循环去搜狗微信去搜索 3.爬取搜狗搜索出来的微信公众号 4.判断页面是否有分页，有则循环爬取。爬取完一个页面，更新爬取页面数字段(column page_num),所有页面更新关键字表的状态字段(column status[0:表示未爬取,1:表示已爬取]) 5.对爬取出来的数据插入到微信公众号数据表(weixin_data)(建相关数据表) 6.更新关键字表的状态为已爬取状态 #### 数据表结构 ```sql CREATE TABLE `keys` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `keyword` varchar(255) DEFAULT NULL, `page_num` int(11) DEFAULT '0', `status` int(11) DEFAULT '0' COMMENT '0 未搜索 1 已搜索 99 丢弃', `type` varchar(255) DEFAULT NULL, `is_drop` int(11) NOT NULL DEFAULT '0', PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=119750 DEFAULT CHARSET=utf8; CREATE TABLE `weixin_data` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `key_id` int(255) DEFAULT NULL, `weixin_name` varchar(255) DEFAULT NULL, `weixin_account` varchar(255) DEFAULT NULL, `weixin_auth_info` varchar(255) DEFAULT NULL, `is_auth` int(11) DEFAULT NULL, `describe` varchar(6000) DEFAULT NULL, `img_url` varchar(255) DEFAULT NULL, `loc_info` varchar(255) DEFAULT NULL, `privince` varchar(255) DEFAULT NULL, `city` varchar(255) DEFAULT NULL, `district` varchar(255) DEFAULT NULL, `weixin_type` varchar(255) DEFAULT NULL, `other` varchar(255) DEFAULT NULL, PRIMARY KEY (`id`), UNIQUE KEY `weixin_account` (`weixin_account`) ) ENGINE=InnoDB AUTO_INCREMENT=139746 DEFAULT CHARSET=utf8; ``` #### 爬虫脚本 scrapy_sogou.py ```python #coding=utf-8 from selenium import webdriver import time from selenium.common.exceptions import NoSuchElementException,TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import pymysql import random 指定页面 #参数指定了缓存文件的路径，方便爬取需要登录的网站 profile = webdriver.FirefoxProfile(r'C:\Users\Administrator.GZLX-20180416SV\AppData\Roaming\Mozilla\Firefox\Profiles\yn80ouvt.default') #如果不需要cookie，则不需要指定,使用下面的配置 #profile = webdriver.FirefoxProfile() #禁止加载样式表 profile.set_preference("permissions.default.stylesheet",2) #禁止加载图片 profile.set_preference("permissions.default.image",2) #禁止加载JAVASCRIPT profile.set_preference("javascript.enabled",False) #设置代理 profile.set_preference('network.proxy.type', 1) profile.set_preference('network.proxy.http', 'xx.xx.xx.xx') profile.set_preference('network.proxy.http_port', xxxx) profile.set_preference('network.proxy.ssl', 'xx.xx.xx.xx') profile.set_preference('network.proxy.ssl_port', xxxx) profile.update_preferences() #数据库配置 db_host="xx.xx.xx.xx" db_user="root" db_pass="xxxx" db_port=3306 db_name="weixin_data" #指定Firefox的驱动 driver = webdriver.Firefox(firefox_profile=profile,executable_path="geckodriver") #搜索的关键字 key_search_list=['学校'] index_url='https://weixin.sogou.com/weixin?query=' keys_search_string="" for index in range(0,len(key_search_list)): if index==len(key_search_list)-1: keys_search_string+="'"+key_search_list[index]+"'" else: keys_search_string+="'"+key_search_list[index]+"'," class AnyEc: """ Use with WebDriverWait to combine expected_conditions in an OR. """ def __init__(self, *args): self.ecs = args def __call__(self, driver): for fn in self.ecs: try: if fn(driver): return True except: pass def execute_query_sql(sql): #循环读取数据库状态是0的关键字100个 db= pymysql.connect(host=db_host,port=db_port,user=db_user, passwd=db_pass, db=db_name) # 使用 cursor() 方法创建一个游标对象 cursor cursor = db.cursor() #执行sql cursor.execute(sql) results=cursor.fetchall() # 关闭数据库连接 db.close() return results def execute_update_sql(sql): #循环读取数据库状态是0的关键字100个 db= pymysql.connect(host=db_host,port=db_port,user=db_user, passwd=db_pass, db=db_name) # 使用 cursor() 方法创建一个游标对象 cursor cursor = db.cursor() # 执行sql语句 cursor.execute(sql) # 提交到数据库执行 db.commit() #执行sql # 关闭数据库连接 db.close() #爬取网站内容的函数 def parseWeb(driver,key_name,page_N): print("开始提取关键字"+key_name+",第"+str(page_N)+"页的数据:") for page in driver.find_elements_by_xpath('//ul[@class="news-list2"]/li'): weixin_name=page.find_element_by_xpath('./div[@class="gzh-box2"]/div[@class="txt-box"]/p[@class="tit"]/a').text img_url=page.find_element_by_xpath('./div[@class="gzh-box2"]/div[@class="img-box"]/a/img').get_attribute("src") weixin_account=page.find_element_by_xpath('./div[@class="gzh-box2"]/div[@class="txt-box"]/p[@class="info"]/label').text weixin_auth_info="" try: page.find_element_by_xpath('./dl[2]/dt[contains(text(),微信认证)]') dl_info=page.find_element_by_xpath('./dl[2]/dt').text if '微信认证' in dl_info: weixin_auth_info=page.find_element_by_xpath('.//dl[2]/dd').text except NoSuchElementException: weixin_auth_info="" print("微信认证:"+weixin_auth_info) try: page.find_element_by_xpath('./div[@class="gzh-box2"]/div[@class="txt-box"]/p[@class="tit"]/i') is_auth=1 except NoSuchElementException: is_auth=0 try: describe=page.find_element_by_xpath('.//dl[1]/dd').text except NoSuchElementException: describe="" #把数据插入酷内 insert_sql='insert into weixin_data(key_id,weixin_name,weixin_account,weixin_auth_info,is_auth,img_url,`describe`,weixin_type,other) values('+str(key_id)+',"'+weixin_name+'","'+weixin_account+'","'+weixin_auth_info+'",'+str(is_auth)+',"'+img_url+'","'+describe+'","'+'培训机构'+'",'+'NULL'+'); ' #print(insert_sql) try: print("准备插入数据:"+weixin_name) execute_update_sql(insert_sql) except: print("插入数据异常,可能是重复数据") #更新当前页数 update_sql='update `keys` set page_num='+str(page_N)+' where keyword="'+key_name+'";' print(update_sql) try: execute_update_sql(update_sql) except: print("更新爬取页数错误") return False return True #判断页面是否加载完成 def pageIsLoadFinished(driver): try: WebDriverWait(driver, 10).until( AnyEc( EC.presence_of_element_located( (By.XPATH, u'//div[@class="gzh-box2"]/div[@class="img-box"]/a/img')), EC.presence_of_element_located( (By.XPATH, u'//p[@class="ip-time-p"]')), EC.presence_of_element_located( (By.XPATH, u'//div[@id="noresult_part1_container"]')) )) return True except TimeoutException: return False #页面是否正常 def pageIsNomal(driver): try: driver.find_element_by_xpath('//p[@class="ip-time-p"]') print("IP访问频繁，准备重启浏览器") time.sleep(3) return False except NoSuchElementException: return True #页面是否404 def pageIsNotFound(driver,key_name): try: driver.find_element_by_xpath('//div[@id="noresult_part1_container"]') print("关键字"+key_name+"没有找到，搜索下一个关键字") return True except NoSuchElementException: return False #跳到指定页 def jumpNumPage(driver,page_N): #判断是否是当前页 try: current_page=driver.find_element_by_xpath('//div[@id="pagebar_container"]/span').text if int(page_N) == int(current_page): print("已经在当前页，无需跳转") return True except: print("没有当前页"+str(page_N)) return False try: driver.find_element_by_xpath('//div[@id="pagebar_container"]/a[@id="sogou_page_'+str(page_N)+'"]').click() except NoSuchElementException: print("没有第"+str(page_N)+"页面") return False return True #跳到下一页 def jumpNextPage(driver): try: driver.find_element_by_xpath('//div[@id="pagebar_container"]/a[@id="sogou_next"]').click() except NoSuchElementException: print("没有下一页") return False return True #页面是否准备好 def PageIsReady(driver,key_name,page_N): #判断页面已经加载完成，并且不存在ip频繁访问页面 if pageIsLoadFinished(driver) and pageIsNomal(driver): #判断页面不存在指定的标签页 if not jumpNumPage(driver,page_N): #判断页面是否404 if pageIsNotFound(driver,key_name): #更新数据库关键字字段 update_status_sql='update `keys` set status=1 where keyword="'+key_name+'";' try: execute_update_sql(update_status_sql) except: print("更新关键字"+key_name+"的状态失败!!!") return True else: return False return True #循环抓取 while True: get_keys="SELECT id,keyword FROM keys where status=0 and is_drop=0 and type in ("+keys_search_string+") limit 100;" print(get_keys) print("获取关键字中...") try: results=execute_query_sql(get_keys) except: print("数据库查询关键字失败，停止爬虫") break print("关键字查找完成") #生成url id_keys=[ re for re in results ] for id_key in id_keys: key_id=id_key[0] key_name=id_key[1] url=index_url+key_name print("开始爬取:"+url) try: driver.get(url) except TimeoutException: continue #获取爬取key的页数 get_page_sql='select page_num from `keys` where id='+str(key_id)+';' page_N=execute_query_sql(get_page_sql)[0][0]+1 if PageIsReady(driver,key_name,page_N): if not parseWeb(driver,key_name,page_N): continue else: time.sleep(1) driver.close() driver = webdriver.Firefox(firefox_profile=profile,executable_path="geckodriver") continue #跳转到当前页爬取 #爬取完当前页更新key关键字 #判断是否有下一页继续爬取,如果只爬取一页，则注释下面的代码 ##########是否爬取搜索关键字的所有页面--start isOk=True while jumpNextPage(driver): get_page_sql='select page_num from `keys` where id='+str(key_id)+';' page_N=execute_query_sql(get_page_sql)[0][0]+1 if PageIsReady(driver,key_name,page_N): if not parseWeb(driver,key_name,page_N): isOk=False break else: isOk=False break if not isOk: time.sleep(1) driver.close() driver = webdriver.Firefox(firefox_profile=profile,executable_path="geckodriver") continue ##########是否爬取搜索关键字的所有页面--end #更新关键字状态 update_status_sql='update `keys` set status=1 where keyword="'+key_name+'";' try: execute_update_sql(update_status_sql) except: print("更新数据库关键字"+key_name+"的状态发生错误") ```

安装easyx,文件保存为cpp后缀 ```C #include <graphics.h> #include <conio.h> #include <time.h> #include <stdio.h> #include <math.h> #include <windows.h> #define KEYDOWN(vk_code) ((GetAsyncKeyState(vk_code) & 0x8000) ? 1 : 0) void init(void);//初始化 void gamebegin(void);//游戏开始 void gameplay(void);//开始游戏 void gameend(void);//游戏借宿 void drawsnake(void);//绘制小蛇 void drawfood(void);//绘制食物 //定义坐标struct struct Point{ int x,y; }; struct Point aps[3871]; //定义界面所有点坐标数组 struct Point snake[3871];//定义蛇身的各个位置的坐标数组 struct Point food[100];//定义食物的各个位置的坐标数组 int apsindex=0; //定义界面所有点坐标数组索引 int snakeindex=0; //定义蛇身的各个位置的坐标数组索引 int foodindex=0; //定义食物的各个位置的坐标数组索引 struct Point snakehead={300,250};//定义蛇头的位置 int snakedirect; //1为上，2为下，3为左，4为右 int snakespeed=1; //设置蛇的速度 int snakelength=3; //初始化蛇的长度 int gamestop=0; //游戏是否结束 int stoptype; //游戏结束原因,值为1，则是撞墙，值为2则为碰到身子 int gamescore=0; //游戏分数 int gamelevel=1; //游戏等级 void main(void){ init(); gamebegin(); gameplay(); gameend(); } //初始化函数 void init(void){ initgraph(1100,600); } //绘制分数 void drawscore(int score){ char s[50]; sprintf(s,"分数:%4d",score); settextstyle(18, 0, _T("黑体")); settextcolor(RGB(255,255,0)); outtextxy(950, 60, s); } //绘制等级 void drawlevel(int level){ char s[50]; sprintf(s,"等级:%4d",level); settextstyle(18, 0, _T("黑体")); settextcolor(RGB(255,255,0)); outtextxy(950, 80, s); } //绘制蛇 void drawsnake(){ setlinecolor(RGB(255,255,255)); setlinestyle(PS_SOLID, 1); for(int i=0;i<snakeindex;i++){ if(i==0){ setfillcolor(RGB(255,0,0)); }else{ setfillcolor(RGB(128,128,0)); } fillrectangle(snake[i].x-5,snake[i].y-5,snake[i].x+5,snake[i].y+5); } } //擦除蛇尾 void earsesnaketail(){ //setlinestyle(PS_SOLID, 0); setlinecolor(RGB(0,128,0)); setfillcolor(RGB(0,128,0)); fillrectangle(snake[snakeindex-1].x-5,snake[snakeindex-1].y-5,snake[snakeindex-1].x+5,snake[snakeindex-1].y+5); } //绘制食物 void drawfood(Point p1){ setlinestyle(PS_SOLID, 1); setfillcolor(RGB(255,255,0)); fillrectangle(p1.x-5,p1.y-5,p1.x+5,p1.y+5); } //生成食物 void genfood(int index=-1){ //生产随机数0~3871 int r=rand()%3872; //判断随机点aps[r]是否和蛇身所在位置是否重合 for(int j=0;j<snakeindex;j++){ if(aps[r].x==snake[j].x&&aps[r].y==snake[j].y){ //如果发生重合，j减一，重新循环一次 j--; //重新生成随机数 r=rand()%3872; } } if(index!=-1){ food[index]=aps[r]; }else{ food[foodindex]=aps[r]; foodindex++; } } //游戏开始 void gamebegin(){ //1 绘制游戏界面 //1.1 设置游戏框 setfillcolor(RGB(0,128,0)); setlinestyle(PS_SOLID, 10); fillrectangle(100,50,900,550); //绘制分数 drawscore(gamescore); //绘制等级 drawlevel(gamelevel); //初始化所有点的坐标 for(int i=110;i<=890;i+=10){ for(int j=60;j<=540;j+=10){ aps[apsindex].x=i; aps[apsindex].y=j; apsindex++; printf("%d,%d ",i,j); } } //初始化小蛇身体数组 for(i=0;i<snakelength;i++){ snake[i].x=snakehead.x-10*i; snake[i].y=snakehead.y; snakeindex++; } //初始化食物的数组 //初始化随机数种子 srand((unsigned)time(NULL)); //绘制小蛇 drawsnake(); //绘制食物 //随机5个食物 for(i=0;i<10;i++){ genfood(); } //画出食物 for(i=0;i<foodindex;i++){ drawfood(food[i]); } //drawfood(); } //方向函数 void toward(struct Point temp){ //判断是否撞墙 if(temp.x<110||temp.x>890||temp.y<60||temp.y>540){ gamestop=1; stoptype=1; } //判断是否蛇头碰到身子 for(int i=0;i<snakeindex;i++){ if(temp.x==snake[i].x&&temp.y==snake[i].y){ gamestop=1; stoptype=2; } } //定义蛇是否迟到食物变量iseat bool iseat=0; //判断是否吃到食物 for(i=0;i<foodindex;i++){ if(food[i].x==temp.x&&food[i].y==temp.y){ iseat=1; //计算游戏分数 gamescore=gamescore+(snakeindex-snakelength+1)*2; if(gamescore>400){ gamelevel=6; }else if(gamescore>300){ gamelevel=5; }else if(gamescore>200){ gamelevel=4; }else if(gamescore>100){ gamelevel=3; }else if(gamescore>10){ gamelevel=2; } genfood(i); drawfood(food[i]); } } Sleep(10); if(iseat){ for(int i=snakeindex;i>0;i--){ snake[i]=snake[i-1]; } snakeindex++; snake[0]=temp; }else{ earsesnaketail(); for(int i=snakeindex;i>0;i--){ snake[i]=snake[i-1]; } snake[0]=temp; } drawsnake(); } //向上 void towardsUp(){ struct Point newhead={snake[0].x,snake[0].y-10}; toward(newhead); } //向下 void towardsDown(){ struct Point newhead={snake[0].x,snake[0].y+10}; toward(newhead); } //向左 void towardsLeft(){ struct Point newhead={snake[0].x-10,snake[0].y}; toward(newhead); } //向右 void towardsRight(){ struct Point newhead={snake[0].x+10,snake[0].y}; toward(newhead); } void gameplay(){ //判断方向键，绘制蛇头的方块的方向，同时在蛇尾去掉方块 //判断方块是否和墙面接触，如果是则游戏结束，否则，继续往最后一次按键方向绘制方块 int dr=0; while(gamestop!=1){ //判断方向键是否为上 if(KEYDOWN(VK_UP)&&dr!=2){ dr=1; } //判断方向键是否为下 if(KEYDOWN(VK_DOWN)&&dr!=1){ dr=2; } //判断方向键是否为左 if(KEYDOWN(VK_LEFT)&&dr!=4){ dr=3; } //判断方向键是否为右 if(KEYDOWN(VK_RIGHT)&&dr!=3){ dr=4; } switch(dr){ case 1: towardsUp(); break; case 2: towardsDown(); break; case 3: towardsLeft(); break; case 4: towardsRight(); break; } //绘制分数 drawscore(gamescore); //绘制等级 drawlevel(gamelevel); switch(gamelevel){ case 1: Sleep(80); break; case 2: Sleep(70); break; case 3: Sleep(60); break; case 4: Sleep(50); break; case 5: Sleep(40); break; case 6: Sleep(20); break; } } } void gameend(){ //绘制结束框 setfillcolor(RGB(255,0,0)); setlinestyle(PS_SOLID, 10); fillrectangle(300,200,700,300); char s[200]; if(stoptype==1){ sprintf(s,"你撞墙了，游戏结束!"); }else if(stoptype==2){ sprintf(s,"你咬到自己了，游戏结束!"); }else{ sprintf(s,"游戏结束!"); } settextstyle(18, 0, _T("黑体")); settextcolor(RGB(255,255,0)); RECT r = {300,200,700,300}; setbkmode(TRANSPARENT); drawtext(s, &r, DT_CENTER | DT_VCENTER | DT_SINGLELINE); while(1){ Sleep(10000); }; getch(); closegraph(); } ``` ![](https://files.ynotes.cn/18-10-30/5567999.jpg) `下载链接`[贪吃蛇下载](https://files.ynotes.cn/%E8%B4%AA%E5%90%83%E8%9B%87.exe)

### 获取到.jpg文件，windows打开显示已损坏 #### 查看文件的类型 ```bash $ file test.jpg ``` ``` test.jpg: ASCII text, with very long lines, with no line terminators ``` #### 显示文件为ASCII编码，进一步查看文件内容 ```bash $ cat test.jpg ``` ``` /43/DgABpGSUZAAQEBAABgAGAAD/vQA0AHBQUGBQQHBgUGCAcHCAoBGwoJCQoFHwAcARgVGhkYFRgXGx4XISsdFS0XGBIuIiUoKSssKyoQLyM... ``` #### 猜测应该是应用了base64编码，通过base64解码 ```bash $ cat test.jpg|base64 -d >test2.jpg ``` #### 再次查看文件的类型 ```bash $ file test2.jpg ``` ``` test2.jpg: data ``` 文件base64解码之后还不是jpeg格式 #### 查看文件的十六进制编码 ```bash $ cat test2.jpg|xxd |more ``` ```bash 0000000: ff8d ff0e 0001 a464 9464 0010 1010 0006 .......d.d...... 0000010: 0006 0000 ffbd 0034 0070 5050 6050 4070 .......4.pPP`P@p 0000020: 6050 6080 7070 80a0 11b0 a090 90a0 51f0 `P`.pp........Q. 0000030: 01c0 1181 51a1 9181 5181 71b1 e172 12b1 ....Q...Q.q..r.. 0000040: d152 d171 8122 e222 5282 92b2 c2b2 a102 .R.q."."R....... 0000050: f233 f2a2 2372 a2b2 a2ff bd00 3410 7080 .3..#r......4.p. 0000060: 80a0 90a0 41b0 b041 a2c1 81c1 a2a2 a2a2 ....A..A........ 0000070: a2a2 a2a2 a2a2 a2a2 a2a2 a2a2 a2a2 a2a2 ................ 0000080: a2a2 a2a2 a2a2 a2a2 a2a2 a2a2 a2a2 a2a2 ................ 0000090: a2a2 a2a2 a2a2 a2a2 a2a2 a2a2 a2a2 ff0c ................ 00000a0: 0011 8010 0e20 0830 1022 0020 1110 3011 ..... .0.". ..0. 00000b0: 10ff 4c00 f100 0010 5010 1010 1010 1000 ..L.....P....... 00000c0: 0000 0000 0000 0010 2030 4050 6070 8090 ........ 0@P`p.. 00000d0: a0b0 ff4c 005b 0100 2010 3030 2040 3050 ...L.[.. .00 @0P 00000e0: 5040 4000 0010 d710 2030 0040 1150 2112 P@@..... 0.@.P!. 00000f0: 1314 6031 1516 7022 1741 2318 191a 8032 ..`1..p".A#....2 ``` #### 通过谷歌搜索ff8dff0e字符串显示 ![](https://files.ynotes.cn/ff8dff0e.png) 结果显示文件内容中的每一个字节，高4位和低4位调转了位置 #### 编辑python脚本实现转换 ```bash $ vim conv_jpg.py ``` ```python from __future__ import print_function import struct import ntpath import sys import os import base64 src_file=sys.argv[1] dest_dir=sys.argv[2] src_filename=ntpath.basename(src_file) desc_full_path=os.path.join(dest_dir,src_filename) f=open(src_file,'rb') f2=open(desc_full_path,'wb+') for bit in base64.b64decode(f.read()): #for bit in f.read(): c=ord(bit) c1=(c & 0xf0)>>4 c2=(c & 0x0f)<<4 c_n=c1|c2 b_c=struct.pack('B',c_n) f2.write(b_c) f.close() f2.close() ``` ```bash $ python conv_jpg.py test.jpg test_new.jpg ``` #### 再次查看文件的内容，显示文件格式为JPEG，说明解码成功! ```bash $ file test_new.jpg ``` ``` test_new.jpg: JPEG image data, JFIF standard 1.01 ```