MiniMax multimodal model skill — use MiniMax Multi-Modal models for speech, music, video, and image. Create voice, music, video, and images with MiniMax AI: TTS (text-to-speech, voice cloning, voice design, multi-segment), music (songs, instrumentals), video (text-to-video, image-to-video, start-end frame, subject reference, templates, long-form multi-scene), image (text-to-image, image-to-image with character reference), and media processing (convert, concat, trim, extract). Use when the user mentions MiniMax, multimodal generation, or wants speech/music/video/image AI, MiniMax APIs, or FFmpeg workflows alongside MiniMax outputs.
MiniMax多模态模型技能——使用MiniMax多模态模型生成语音、音乐、视频和图像。利用MiniMax AI创建语音(文本转语音、语音克隆、语音设计、多段合成)、音乐(歌曲、纯音乐)、视频(文本转视频、图像转视频、起止帧、主体参考、模板、长篇多场景)、图像(文本转图像、带角色参考的图像转图像)以及媒体处理(转换、拼接、剪裁、提取)。当用户提及MiniMax、多模态生成,或希望生成语音/音乐/视频/图像AI内容、使用MiniMax API或结合MiniMax输出的FFmpeg工作流时启用此技能。
直接复制以下提示词,发送给你的 AI 助手即可完成安装。
点击右上角 下载SKILL 按钮