Cohere ra mắt mô hình giọng nói mã nguồn mở chuyên biệt cho việc chuyển đổi văn bản.

Cohere đã ra mắt Transcribe, một mô hình nhận dạng giọng nói tự động mã nguồn mở được thiết kế cho các nhiệm vụ chuyển văn bản. Với 2 tỷ tham số, nó hỗ trợ 14 ngôn ngữ và vượt trội so với các mô hình cạnh tranh về độ chính xác. Transcribe có khả năng xử lý 525 phút âm thanh trong một phút và sẽ được tích hợp vào nền tảng North của Cohere, cũng có thể truy cập qua API. Điều này phản ánh nhu cầu ngày càng tăng về các công nghệ nhận dạng giọng nói.
Key Points
- Cohere đã ra mắt mô hình giọng nói đầu tiên của mình, Transcribe, tập trung vào việc chuyển văn bản. Mô hình này có 2 tỷ tham số, phù hợp với GPU cấp tiêu dùng và hỗ trợ 14 ngôn ngữ.
- Transcribe đạt được tỷ lệ lỗi từ 5,42, vượt trội so với các đối thủ như Zoom Scribe và IBM Granite 4.0 trên bảng xếp hạng của Hugging Face.
- Mặc dù có hiệu suất mạnh mẽ, Transcribe lại thiếu hiệu quả trong việc chuyển văn bản tiếng Bồ Đào Nha, Đức và Tây Ban Nha.
- Mô hình này có thể xử lý 525 phút âm thanh trong một phút, cho thấy khả năng hiệu quả cao.
- Transcribe đang được lên kế hoạch tích hợp vào nền tảng North của Cohere và sẽ được cung cấp miễn phí thông qua API.
- Sự quan tâm gia tăng về các công cụ nhận dạng giọng nói đang thúc đẩy nhu cầu cho các ứng dụng như Granola và Wispr Flow.
Relevance
- Việc ra mắt Transcribe phản ánh xu hướng ngày càng tăng sự áp dụng của dịch vụ chuyển văn bản dựa trên trí tuệ nhân tạo trong nhiều lĩnh vực khác nhau.
- Đến năm 2025, các công nghệ trí tuệ nhân tạo, đặc biệt là xử lý ngôn ngữ tự nhiên và nhận dạng giọng nói, được dự đoán sẽ trở thành một phần không thể thiếu trong quy trình kinh doanh, nâng cao năng suất làm việc.
- Mô hình của Cohere góp phần vào cảnh cạnh cạnh tranh trong lĩnh vực trí tuệ nhân tạo khi các doanh nghiệp tìm kiếm các giải pháp hiệu quả về chi phí và hiệu suất cao.
Cohere đã giới thiệu Transcribe đánh dấu một đột phá đáng chú ý trong lĩnh vực nhận diện giọng nói, cung cấp cho người dùng một công cụ chuyển văn bản hiệu quả, đa ngôn ngữ đồng thời nhấn mạnh vai trò ngày càng quan trọng của công nghệ nói trong các ứng dụng kinh doanh.
