接入百度智能云的OCR
做一些事情的时候我们可能会需要识别验证码,这个时候就需要再爬虫程序里面接入第三方的api来实现图片的识别,网上有很多第三方的这种网站,这里我选择的是百度,因为他是大公司有保障,最关键的是每个月有免费的使用次数,对我来说是足够了。这里附上“百度智能云”的链接。
接入教程
第一步:注册账号
如果你已经有百度的相关账号,就可以省略掉这一步骤,注册&登录完毕后,在搜索框中输入:文字识别 点击搜索即可。为什么不放图片呢,因为我怕页面经常变动,放图片可能时间长了容易误认子弟。跳转页面后点击类似立即使用的按钮,然后创建应用,接下来的步骤按照提示操作就好了。很简单。爬虫脚本程序中我们需要的三个参数如下:
我们需要下载sdk文件导入到我们的工程中:
第二步:使用方法
我们需要导入百度的模块:aip
1 | from aip import AipOcr |
小结
我使用后发现误报率还是挺高,但能就行,咱主要是体验一下学习的过程!
关于他的详细使用方法: