Whisper：强大而易用的语音识别工具入门指南 🎙️

本教程旨在帮助新手快速上手 openai/whisper 项目，轻松实现高质量的语音识别、翻译等功能。

1. 项目介绍 (Project Introduction)

openai/whisper 是 OpenAI 开发的一款强大的通用语音识别模型，通过大规模弱监督学习进行训练，具备以下核心特点：

多任务处理 (Multitasking)：支持多语言语音识别 (Multilingual Speech Recognition)、语音翻译 (Speech Translation) 和语言识别 (Language Identification) 等任务。
鲁棒性 (Robustness)：在嘈杂环境或低质量音频中依然表现出色。
通用性 (General-Purpose)：适用于多种场景，无需针对特定领域进行微调。
**英文: Chinese：**鲁棒性: Robustness, 多任务处理: Mutitasking, 多语言语音识别: Multilingual Speech Recognition, 语音翻译: Speech Translation, 语言识别: Language Identification，通用性: General-Purpose.

2. 技术架构 (Technical Architecture)

openai/whisper 基于 Transformer 架构的序列到序列 (Sequence-to-Sequence) 模型，其核心技术栈包括：

PyTorch：深度学习框架 (Deep Learning Framework)。
Transformer：模型核心架构 (Model Core Architecture)。
tiktoken：OpenAI 提供的快速分词器 (Fast Tokenizer)。

graph LR
    A[Audio Input] --> B(Log-Mel Spectrogram);
    B --> C{Encoder};
    C --> D{Decoder};
    D --> E[Text Output (Transcription/Translation)];
    style A fill:#f9f,stroke:#333,stroke-width:2px
    style E fill:#ccf,stroke:#333,stroke-width:2px

3. 主要功能 (Key Features)

功能模块 (Feature)	作用 (Function)
🎤 多语言语音识别 (Multilingual ASR)	将多种语言的语音转换为文本。
🌍 语音翻译 (Speech Translation)	将一种语言的语音翻译成另一种语言的文本（默认英语）。
🗣️ 语言识别 (Language Identification)	自动检测输入语音的语言。
🧱 音频特征提取 (Audio Feature Extraction)	从音频中提取 Log-Mel 频谱特征，供模型使用。

4. 使用方式 (Usage Guide)

4.1 部署步骤 (Deployment Steps)

4.1.1 开发环境 (Development Environment)

安装依赖 (Install Dependencies)：
1
pip install -U openai-whisper
请确保您的 Python 版本符合要求（3.8 - 3.11），并且已经安装了 PyTorch。

安装 FFmpeg (Install FFmpeg)：

Ubuntu/Debian:

1	`sudo apt update && sudo apt install ffmpeg`

macOS (Homebrew):
1
brew install ffmpeg

解决Rust构建错误(Fix Rust Build Error)：
1
pip install setuptools-rust

4.1.2 生产环境 (Production Environment)

生产环境的部署步骤与开发环境类似，但建议使用虚拟环境 (Virtual Environment) 管理依赖，并根据实际情况进行性能优化。

创建虚拟环境 (Create Virtual Environment)：

1
2
3

python3 -m venv .venv
source .venv/bin/activate # Linux/macOS
# .venv\Scripts\activate # Windows

安装依赖 (Install Dependencies)：
1
pip install -U openai-whisper
安装 FFmpeg (Install FFmpeg)：
按照开发环境安装FFmpeg。

4.2 命令行使用 (Command-Line Usage)

基本转录 (Basic Transcription)：
1
whisper audio.mp3 --model turbo

指定语言 (Specify Language)：

1	`whisper audio.wav --language Japanese --model turbo`

语音翻译 (Speech Translation)：

1	`whisper audio.wav --language Japanese --task translate --model turbo`

4.3 Python 代码使用 (Python Code Usage)

import whisper

model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])

更底层的API使用示例：

import whisper

model = whisper.load_model("turbo")

# 加载音频，并填充/裁剪到30秒
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# 生成log-Mel频谱，并移动到与模型相同的设备
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)

# 检测口语语言
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# 解码音频
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# 打印识别出的文本
print(result.text)