怎么用python提取图片中的文字

326
2024/3/13 14:38:39
栏目: 编程语言
开发者测试专用服务器限时活动,0元免费领,库存有限,领完即止! 点击查看>>

要在Python中提取图像中的文字,您可以使用一个名为Tesseract的OCR(光学字符识别)引擎。以下是使用Tesseract和Python提取图像中的文字的示例代码:

首先,您需要安装Tesseract OCR引擎和Python的Pytesseract库。您可以使用以下命令来安装这些依赖项:

pip install pytesseract

接下来,您需要安装Tesseract OCR引擎。您可以从以下链接下载并安装Tesseract OCR:https://github.com/tesseract-ocr/tesseract

安装完这些依赖项后,可以使用以下Python代码来提取图像中的文字:

import pytesseract
from PIL import Image

# 打开图像文件
img = Image.open('image.jpg')

# 使用Tesseract提取文字
text = pytesseract.image_to_string(img)

# 打印提取的文字
print(text)

以上代码将打开名为image.jpg的图像文件,然后使用Tesseract OCR引擎提取图像中的文字,并将提取的文字打印到控制台上。

请注意,Tesseract的准确性可能会受到图像质量、文字字体和大小等因素的影响。在使用Tesseract提取文字之前,建议您先对图像进行预处理(如调整亮度、对比度、裁剪等),以提高提取准确性。

辰迅云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>

推荐阅读: Python面向对象编程中多重继承的特点有哪些