用于录音转文本的音视频转写原子 skill,适用于通用行业文档解析场景。
本 Skill 支持多种音视频文件输入格式,核心数据来源包括:
说明:本 Skill 不包含文件采集功能,需要用户提供音视频文件。建议文件质量良好,以便进行准确的转写。
本 Skill 提供全面的音视频转写能力,涵盖多种转写功能:
{
"file_info": {
"filename": "meeting_recording.mp3",
"file_size": 51200000,
"duration": 3600,
"format": "mp3",
"language": "zh-CN"
},
"transcription": {
"full_text": "会议转写完整文本内容...",
"segments": [
{
"start_time": 0,
"end_time": 120,
"speaker": "speaker_1",
"text": "大家好,今天我们讨论一下项目进展。",
"confidence": 0.95
},
{
"start_time": 120,
"end_time": 240,
"speaker": "speaker_2",
"text": "项目目前进展顺利,已完成80%的工作。",
"confidence": 0.92
}
]
},
"speakers": [
{
"speaker_id": "speaker_1",
"name": "张三",
"total_duration": 1800,
"segment_count": 15
},
{
"speaker_id": "speaker_2",
"name": "李四",
"total_duration": 1200,
"segment_count": 10
}
],
"keywords": [
"项目进展",
"完成度",
"下一步计划"
],
"summary": "会议主要讨论了项目进展情况,目前已完成80%的工作,下一步将进行测试和验收。"
}