<\/span>.+$''') re_rate=re.compile(r'''^$''') #re_end=re.compile(r'''<\/body><\/html>''') re_end=re.compile(r'''^<\/span><\/div><\/div>''') def __init__(self): pass def grab_book_info(self, mbkn: str): """mbkn - bookname to be spided return: { "25853071": { # sid "link":"https://....xxxxx" "bookname": "庆余年", "img": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2575362797.jpg", "score": "8.0", "ratenum": "1000", "author": "猫腻" "publisher": "中华书局" "publishing": "2015" },...} """ bkinfo=defaultdict(dict) sid=None stat=None if FROMFILE: with open('./tdouban.data', 'r', encoding='utf8', errors='ignore') as f: resp=f.read() else: if ISDOUBAN==1: #douban mparams['search_text'] = mbkn else: #amazon mparams['k'] = mbkn try: session = requests.Session() session.header = mheaders session.params = mparams r = session.get( url=murl, headers=mheaders, params=mparams) #r = requests.get( url=murl, headers=mheaders, params=mparams) except requests.exceptions.ConnectionError: print('ConnectionError -- please wait 3 seconds') time.sleep(3) except requests.exceptions.ChunkedEncodingError: print('ChunkedEncodingError -- please wait 3 seconds') time.sleep(3) except: print('Unfortunitely -- An Unknow Error Happened, Please wait 3 seconds') time.sleep(3) if r.status_code != 200: print('grab book {} info from webside failure'.format(mbkn)) if ISDOUBAN==1: stat='SID' for line in resp.split('\n'): line=line.strip() if line=='': continue if stat=='SID': ret=re.search(self.re_bn, line) if ret: sid=ret.group(1) bkinfo[sid]['link']=os.path.join(LINKPREF,sid) bkinfo[sid]['bookname']=ret.group(2) bkinfo[sid]['img']=ret.group(3) stat='STAR' continue elif stat=='STAR': ret=re.search(self.re_star, line) if ret: star = ret.group(1) if star=='00': stat='AUTHOR' elif int(star) > 0: stat='SCORE' elif stat=='SCORE': ret=re.search(self.re_score, line) if ret: bkinfo[sid]['score']=ret.group(1) stat='RATENUM' continue elif stat=='RATENUM': ret=re.search(self.re_ratenum, line) if ret: bkinfo[sid]['ratenum']=ret.group(1) stat='AUTHOR' continue elif stat=='AUTHOR': ret=re.search(self.re_author, line) if ret: tt=ret.group(1).split(' / ') if len(tt)>=3: *author, bkinfo[sid]['publisher'], bkinfo[sid]['publishing']=tt bkinfo[sid]['author']='/'.join(author) else: bkinfo[sid]['author']=ret[0] stat='DESCRIPTION' continue elif stat=='DESCRIPTION': ret=re.search(self.re_description, line) if ret: bkinfo[sid]['description']=ret.group(1) stat='SID' continue else: continue else: stat='ASIN' for line in resp.split('\n'): line=line.strip() if line=='': continue if stat=='ASIN': ret=re.search(self.re_asin, line) if ret: sid=ret.group(1) bkinfo[sid]['link']=os.path.join(LINKPREF,ret.group(1)) stat='IMG' continue elif stat=='IMG': ret=re.search(self.re_img, line) if ret: bkinfo[sid]['img']=ret.group(1) stat='BOOKNAME' continue elif stat=='BOOKNAME': ret=re.search(self.re_bn, line) if ret: bkname=re.split(r'[(（\s]',ret.group(1).strip())[0] bkinfo[sid]['bookname']=bkname stat='AUTHOR' continue elif stat=='AUTHOR': ret=re.search(self.re_author, line) if ret: author=','.join(re.split('|<\/span', ret.group(0))[3::4]) bkinfo[sid]['author']=author stat='RATE' continue elif stat=='RATE': ret=re.search(self.re_rate, line) if ret: bkinfo[sid]['rate']=ret.group(1).split(' ')[0] stat='AUTHOR' continue else: continue if re.search(self.re_end, line): stat=='ASIN' continue return [mbkn, bkinfo] def filter_spide_book(self, mbkinfo): """ mbkinfo: douban "10530219": { "link": "https://book.douban.com/subject/10530219", "bookname": "市场的逻辑", "img": "https://img3.doubanio.com/view/subject/s/public/s8912552.jpg", "score": "8.3", "ratenum": "218", "publisher": "世纪文景上海人民出版社", "publishing": "2012", "author": "张维迎" },...} amazon "孟子": { "link": "https://....B07RN73425", "bookname": "古典名著普及文库:孟子", "img": "https://images-cn.ssl-images-amazon.com/images/I/511vbVrhIBL._AC_UY218_.jpg", "rate": "3.9" "author": "孙钦善", } """ #booklink - https://book.douban.com/subject/{sid} # f1/d1: mbkn include in bookname # f2/d2: bookname include mbkn # f3/d3: mbkn and bookname different [f1,f2,f3]=[0,0,0] [d1,d2,d3] =[{},{},{}] mbkn=mbkinfo[0] for k,v in mbkinfo[1].items(): bkn=v['bookname'] if len(v)==9: if (not f1) and (mbkn in bkn): f1=1 d1={mbkn:v} elif (not f1) and (not f2) and (bkn in mbkn): f2=1 d2={mbkn:v} elif (not f3): f3=1 d3={mbkn:v} else: continue else: continue if f1: return d1 elif f2: return d2 elif f3: return d3 return None def down_book_img(self, mbkinfo): import os import socket from urllib.request import urlretrieve headers={'User-Agent': 'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'} for k,v in mbkinfo.items(): link=v['img'] if not os.path.exists(IMGPATH): os.mkdir(IMGPATH) p=os.path.join(IMGPATH,link.split('/')[-1]) try: img=requests.get(link, headers=headers) if img.status_code==200: with open(p, 'wb') as fp: fp.write(img.content) except Exception as e: print(e) if __name__=='__main__': spide=bookInfoSpide() for bkname in testbooks: bkname=re.split(r'[\(（\-\:：_\s]',bkname.strip())[0] bkinfo=spide.grab_book_info(bkname) filter_bkinfo=spide.filter_spide_book(bkinfo) if filter_bkinfo: spide.down_book_img(filter_bkinfo) #logger.debug('================ {} ================'.format(bkname)) #logger.debug(json.dumps(bkinfo,indent=2, ensure_ascii=False)) logger.debug('================ {} ================'.format(bkname)) logger.debug(json.dumps(filter_bkinfo,indent=2, ensure_ascii=False))