
通義聴悟は、アリババクラウドが提供するAI音声・動画コンテンツ処理ツールで、主に音声を文字に変換し、コンテンツをインテリジェントに整理・分析・要約します。
主な機能は、音声・動画の文字起こし、インテリジェントなコンテンツ分析(要約の生成・章の区分など)、多言語翻訳、ノート編集、さまざまな形式でのエクスポート対応です。
音声情報の記録・整理が必要な場面に適しており、例として企業の会議、教育トレーニング、学術的なインタビュー、コンテンツ制作時の音声処理などが挙げられます。
この製品は基本機能が無料で提供され、追加機能は有料のサブスクリプションまたは従量課金制となるモデルです。基本機能は無料で利用できますが、使用時間の制限がある場合があります。より高度な機能や大きな利用量には専門版の購読、または従量課金が必要になることがあります。
ウェブサイトからローカルの音声・動画ファイルをアップロードできます。システムはそれを文字起こしとコンテンツ分析にかけます。処理は通常クラウド側で行われます。
エクスポート可能な形式にはWord文書、PDF、字幕用のSRT形式などが含まれ、ユーザーがさらに編集・活用しやすくなっています。
製品仕様によれば、高い文字起こしの精度を提供することを目指しており、多言語と一部方言をサポートしています。ただし、実際の精度は音声の品質や発音、方言などの要因によって異なる場合があります。
はい、リアルタイムの録音をサポートしており、同時に文字起こしを行います。これにはマイクの使用許可が必要です。