药品国际注册

⭐ 最高优先级原则：质量保证

质量第一，绝不妥协

核心原则：

保证质量是最高优先级，绝不允许分批处理导致质量下降！

具体要求：

逐页精心处理
- 每一页都必须像第 1 页一样精心制作
- 绝不允许使用粗糙的批量处理脚本
- 绝不允许为了速度牺牲质量
- 每一页的格式、字体、表格结构必须与前几页完全一致
质量标准
- ✅ 字体大小必须与 PDF 原件一致（误差≤0.5pt）
- ✅ 表格结构必须完整还原（合并单元格、列宽、行高）
- ✅ 数据准确性 100%（特别是数字、批号、日期）
- ✅ 页面布局保持一致（页边距、段落间距）
- ✅ 签名、手写体必须保留（如原样复制）
禁止行为
- ❌ 禁止使用"框架模板"填充内容
- ❌ 禁止使用"简化版"或"示例数据"
- ❌ 禁止为了赶工而降低识别精度
- ❌ 禁止在用户确认前继续处理下一页
- ❌ 禁止出现"待补充"、"示例"等占位符

药品国际注册

⭐ 最高优先级原则：质量保证

质量第一，绝不妥协

核心原则：

保证质量是最高优先级，绝不允许分批处理导致质量下降！

具体要求：

逐页精心处理
- 每一页都必须像第 1 页一样精心制作
- 绝不允许使用粗糙的批量处理脚本
- 绝不允许为了速度牺牲质量
- 每一页的格式、字体、表格结构必须与前几页完全一致
质量标准
- ✅ 字体大小必须与 PDF 原件一致（误差≤0.5pt）
- ✅ 表格结构必须完整还原（合并单元格、列宽、行高）
- ✅ 数据准确性 100%（特别是数字、批号、日期）
- ✅ 页面布局保持一致（页边距、段落间距）
- ✅ 签名、手写体必须保留（如原样复制）
禁止行为
- ❌ 禁止使用"框架模板"填充内容
- ❌ 禁止使用"简化版"或"示例数据"
- ❌ 禁止为了赶工而降低识别精度
- ❌ 禁止在用户确认前继续处理下一页
- ❌ 禁止出现"待补充"、"示例"等占位符

import pdf2image import pytesseract from PIL import Image import cv2 import numpy as np import pdfplumber import os # 设置 Tesseract 路径（Windows） if os.name == 'nt': pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' class PDFScannerParser: """高精度 PDF 扫描件解析器""" def __init__(self, use_tesseract=True): self.use_tesseract = use_tesseract def preprocess_image(self, image): """图像预处理以提高 OCR 精度""" img_array = np.array(image) if len(img_array.shape) == 3: gray = cv2.cvtColor(img_array, cv2.COLOR_RGB2GRAY) else: gray = img_array denoised = cv2.fastNlMeansDenoising(gray, None, 10, 7, 21) binary = cv2.adaptiveThreshold( denoised, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2 ) kernel = np.array([[-1,-1,-1], [-1,9,-1], [-1,-1,-1]]) sharpened = cv2.filter2D(binary, -1, kernel) return Image.fromarray(sharpened) def extract_text_tesseract(self, image, lang='chi_sim+eng'): """使用 Tesseract 提取文字""" preprocessed = self.preprocess_image(image) text = pytesseract.image_to_string( preprocessed, lang=lang, config='--psm 6' ) return text def parse_pdf(self, pdf_path, dpi=300): """解析 PDF 扫描件""" images = pdf2image.convert_from_path(pdf_path, dpi=dpi) results = { 'file': pdf_path, 'total_pages': len(images), 'pages': [] } for i, image in enumerate(images, 1): print(f"正在处理第 {i}/{len(images)} 页...") text = self.extract_text_tesseract(image) results['pages'].append({ 'page_number': i, 'text': text, 'word_count': len(text.split()) }) return results # 使用示例 if __name__ == "__main__": parser = PDFScannerParser(use_tesseract=True) result = parser.parse_pdf("your_drug_document.pdf", dpi=300) for page in result['pages']: print(f"\n--- 第 {page['page_number']} 页 ---") print(page['text'])

def translate_drug_document(chinese_doc): """翻译药品文档并强制检查术语""" # 步骤1：初步翻译 english_doc = translate_to_english(chinese_doc) # 步骤2：强制术语检查（⭐ 必须执行） terminology_checklist = { '批生产指令': ['Batch Production Instruction', 'Batch Production Order'], '批生产记录': ['Batch Production Record', 'Batch Manufacturing Record'], '领料单': ['Material Requisition'], '工艺处方': ['Master Formula'], '内加物料': ['Intragranular Materials'], '外加辅料': ['Extragranular Materials'], '限额领料量': ['Bill of Materials'], '工艺过程': ['Manufacturing Process'], '理论产量': ['Theoretical Yield'], '成品数量': ['Actual Yield'], } # 步骤3：验证每个术语 for cn_term, en_options in terminology_checklist.items(): if cn_term in chinese_doc: # 检查英文文档是否使用了正确的术语 found_correct = False for en_term in en_options: if en_term in english_doc: found_correct = True break if not found_correct: print(f"⚠️ 术语错误：'{cn_term}' 未使用标准翻译") print(f" 应使用：{en_options}") # 自动修正 english_doc = auto_correct_term(english_doc, en_options) # 步骤4：GMP合规性检查 gmp_compliance_check(english_doc) return english_doc def gmp_compliance_check(doc): """检查是否符合GMP法规要求""" required_elements = [ 'Batch No.', 'Production Date', 'Theoretical Yield', 'Actual Yield', 'Quality Standard', 'Manufacturing Process', 'Bill of Materials', ] missing = [] for element in required_elements: if element not in doc: missing.append(element) if missing: print(f"⚠️ GMP合规性警告：缺少以下必需元素：{missing}") return False print("✅ GMP合规性检查通过") return True

from docx import Document import re class DrugDocumentTranslator: """药品文档专业翻译器""" def __init__(self): # 标准术语库（基于GMP/FDA标准） self.standard_terms = { '批生产指令': 'Batch Production Instruction', '批生产记录': 'Batch Production Record', '领料单': 'Material Requisition', '工艺处方': 'Master Formula', '内加物料': 'Intragranular Materials', '外加辅料': 'Extragranular Materials', '限额领料量': 'Bill of Materials', '工艺过程': 'Manufacturing Process', '理论产量': 'Theoretical Yield', '成品数量': 'Actual Yield', '阿莫西林胶囊': 'Amoxicillin Capsules', '立崩': 'Starch (Disintegrant)', '硬脂酸镁': 'Magnesium Stearate', '滑石粉': 'Talc', '淀粉': 'Starch', } # 强制检查列表 self.mandatory_check = [ ('批生产指令', ['Batch Production Instruction', 'Batch Production Order']), ('批生产记录', ['Batch Production Record', 'Batch Manufacturing Record']), ('领料单', ['Material Requisition']), ('工艺处方', ['Master Formula']), ('内加物料', ['Intragranular Materials']), ('外加辅料', ['Extragranular Materials']), ('工艺过程', ['Manufacturing Process']), ] def translate(self, input_path, output_path): """翻译并强制检查""" doc = Document(input_path) # 翻译内容 translated_content = self._translate_content(doc) # 强制术语检查 self._mandatory_terminology_check(translated_content) # GMP合规性检查 self._gmp_check(translated_content) # 保存 self._save_translation(translated_content, output_path) print(f"✅ 翻译完成：{output_path}") def _mandatory_terminology_check(self, content): """强制术语检查（⭐ 必须执行）""" print("\n=== 术语准确性检查 ===") errors = [] for cn_term, en_options in self.mandatory_check: # 检查中文原文是否存在 if cn_term in content['chinese']: # 检查英文翻译是否正确 found = False for en_term in en_options: if en_term in content['english']: found = True print(f"✅ '{cn_term}' → '{en_term}' ✓") break if not found: error_msg = f"❌ '{cn_term}' 翻译错误，应使用：{en_options}" errors.append(error_msg) print(error_msg) if errors: print(f"\n⚠️ 发现 {len(errors)} 个术语错误，已自动修正") self._auto_correct(content, errors) else: print("✅ 所有术语符合GMP标准") def _gmp_check(self, content): """GMP合规性检查""" print("\n=== GMP合规性检查 ===") required_elements = [ 'Batch No.', 'Production Date', 'Theoretical Yield', 'Actual Yield', 'Quality Standard', 'Manufacturing Process', 'Bill of Materials', ] missing = [] for element in required_elements: if element not in content['english']: missing.append(element) if missing: print(f"⚠️ 缺少GMP必需元素：{missing}") else: print("✅ GMP合规性检查通过")

场景	推荐引擎	理由
中文药品文档	Tesseract	稳定可靠，chi_sim 成熟
英文文档	Tesseract	速度快，精度高
表格提取	pdfplumber	专业处理表格
高精度需求	Tesseract (400 DPI)	高分辨率提升精度

中文	推荐英文	备选英文	说明
批生产指令	Batch Production Instruction (BPI)	Master Production Record (MPR)	BPI更具体，MPR是更高级别文件
批生产记录	Batch Production Record (BPR)	Batch Manufacturing Record (BMR)	BPR和BMR可互换使用
主配方/工艺处方	Master Formula	Master Batch Record	指标准配方
领料单	Material Requisition	Bill of Materials (BOM)	Material Requisition是流程单据，BOM是物料清单
内加物料	Intragranular Materials	Intra-granular Excipients	制粒前加入的物料
外加辅料	Extragranular Materials	Extra-granular Excipients	制粒后加入的物料
限额领料量	Bill of Materials (BOM)	Allocated Material Quantity	BOM是标准术语
工艺过程	Manufacturing Process	Production Process	Manufacturing更常用
理论产量	Theoretical Yield	Expected Yield	理论计算值
成品数量	Actual Yield	Finished Quantity	实际产出
装量差异	Weight Variation	Fill Weight Tolerance	胶囊/片剂重量差异
崩解时限	Disintegration Time	Disintegration Limit	固体制剂质量标准
三维混合机	3D Mixer	Three-Dimensional Mixer	制药设备标准名称
胶囊充填	Capsule Filling	Capsule Encapsulation	制剂工序
干混	Dry Blending	Dry Mixing	混合工序
QA	QA (Quality Assurance)	-	质量保证
车间主任	Workshop Director	Workshop Manager	生产管理职位

错误翻译	正确翻译	原因
Production Order	Batch Production Instruction	药品行业使用Batch而非Order
Recipe	Master Formula	Formula是制药标准术语
Process Flow	Manufacturing Process	Manufacturing更符合GMP
Output	Yield	Yield是制药收率标准术语
Weight Difference	Weight Variation	Variation是药典标准术语
Disintegration Limit	Disintegration Time	Time更准确描述测试项目

Drug International Registration

药品国际注册

⭐ 最高优先级原则：质量保证

质量第一，绝不妥协

Drug International Registration

药品国际注册

⭐ 最高优先级原则：质量保证

质量第一，绝不妥协

功能概述

Python 环境安装

检查 Python 是否已安装

安装 Python（如未安装）

创建虚拟环境

PDF 扫描件高精度解析

推荐工具组合

安装依赖

安装系统级 OCR 引擎

高精度 PDF 扫描件解析代码

药品注册文档专用解析

针对药品注册文档的优化

快速开始

完整安装脚本

常见问题与解决方案

Q1: PaddleOCR 报错 "json.exception.parse_error.101"

Q2: 中文识别效果不佳

Q3: Poppler 未安装警告

最佳实践

OCR 引擎选择指南

性能优化技巧

技能 #3: 医药领域专业术语翻译

功能说明

核心原则

标准术语对照表

翻译工作流程

快速开始

完整代码示例

实际案例：阿莫西林胶囊文档翻译

第1页：外贸批生产（包装）记录

第2页：批生产指令

第3页：领料单

常见错误与纠正

注意事项

相关文件

功能说明

快速开始

核心代码示例

图像预处理（增强版）

详细文档

相关文件

注意事项

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing