O modelo pode lidar com mandarim, inglês, sichuanês, cantonês, japonês e coreano. Ele foi criado para tarefas como controle de emoção, edição de estilo de fala, edição paralinguística e refinamento iterativo de áudio.
###
12. Nemotron 3.5 ASR Streaming 0.6B: Reconhecimento de fala em streaming leveNemotron 3.5 ASR Streaming 0.6B é um modelo de reconhecimento automático de fala da NVIDIA. Ele foi criado para transcrição em streaming de baixa latência e usa uma arquitetura FastConformer-RNNT ciente de cache.O principal design é o reúso de contexto. Durante a inferência em streaming, o modelo reutiliza o contexto do codificador em vez de recalcular trechos de áudio sobrepostos, o que ajuda a reduzir cálculos redundantes e a melhorar o desempenho em tempo real.
## Entradas populares da enciclopédiaA HyperAI também destacou cinco entradas populares da enciclopédia de IA nesta semana:1. Modelo de Linguagem de Grande Porte (LLM)
2. Modelo de Ação Mundial (WAM)
3. Média Harmônica
4. Triagem Virtual
- **Aprendizagem por Reforço a partir de Feedback de IA (RLAIF)**A wiki da HyperAI reúne centenas de conceitos e explicações relacionados à IA. Ela é útil para leitores que desejam uma forma rápida de entender termos que aparecem com frequência em artigos, tutoriais e documentações de modelos.## Prazos de conferências de IA em julhoA atualização original também lista vários prazos de conferências de IA e ciência da computação em julho. Todos os horários dos prazos estão marcados como horário AoE.| Data | Hora | Conferência |
|-|-|-|
| 09 de julho | 23:59:59 | POPL 2027 |
| 10 de julho | 23:59:59 | ICSE 2027 |
| 17 de julho | 23:59:59 | SIGMOD 2027 |
| 28 de julho | 23:59:59 | AAAI 2027 |## Sobre a HyperAIA HyperAI é uma comunidade de inteligência artificial e computação de alto desempenho. Seu site oferece recursos públicos para desenvolvedores, pesquisadores e estudantes de IA.Segundo a fonte original, a HyperAI já coletou ou oferece suporte a:- Mais de 2.100 conjuntos de dados públicos com nós de aceleração domésticos
- Mais de 700 tutoriais online clássicos e populares
- Mais de 300 estudos de caso de artigos sobre AI4Science
- Mais de 700 entradas de enciclopédia relacionadas à IA
- Um espelho completo da documentação chinesa do Apache TVM## FAQ### O que é o Irodori-TTS-500M-v3?Irodori-TTS-500M-v3 é um modelo aberto japonês de texto para fala baseado em uma arquitetura RF-DiT. Ele oferece suporte à geração de fala em japonês, clonagem de voz zero-shot com uma referência curta e controle de estilo baseado em emojis.### O Irodori-TTS consegue clonar uma voz sem ajuste fino?Sim. A atualização original descreve o Irodori-TTS como compatível com clonagem de voz zero-shot a partir de um curto clipe de áudio de referência, geralmente com cerca de 3 a 10 segundos. O efeito ainda depende da qualidade e da clareza do áudio de referência.### Para que o SAM-Audio é usado?O SAM-Audio é usado para separação de fontes de áudio baseada em prompts. Os usuários podem descrever o som que desejam extrair, fornecer pistas visuais ou especificar um intervalo de tempo para isolar um som-alvo de uma gravação mista.### Qual é a diferença entre matting de vídeo e segmentação de vídeo?A segmentação de vídeo geralmente separa objetos em regiões ou máscaras, enquanto o matting de vídeo estima uma máscara alfa mais detalhada. O matting é especialmente importante para extração limpa do primeiro plano, detalhes de cabelo, bordas semitransparentes e composição.### O que o PrismAudio gera?O PrismAudio gera áudio para vídeo. Ele tenta alinhar o som gerado com o conteúdo semântico, o tempo, a sensação estética e as pistas espaciais do vídeo.### Por que o Unlimited-OCR é útil para documentos longos?O Unlimited-OCR foi projetado para análise de longo horizonte, não apenas para OCR isolado de páginas únicas. Ele pode ser útil ao lidar com artigos, relatórios, arquivos digitalizados, tabelas longas ou imagens derivadas de PDFs com várias páginas.### O Nemotron 3.5 ASR Streaming 0.6B é adequado para transcrição de fala em tempo real?Sim, ele foi projetado para baixa latênciaASR em streaming. Sua arquitetura FastConformer-RNNT com consciência de cache reutiliza o contexto durante a inferência em streaming, o que ajuda a reduzir computações redundantes.## Ferramentas relacionadas- Irodori-TTS: TTS japonês de código aberto com clonagem de voz por áudio de referência e controle de estilo.
- Irodori-TTS-500M-v3 no Hugging Face: Página do modelo para o checkpoint de TTS japonês 500M v3.
- SAM-Audio: Repositório da Meta para inferência e exemplos do Segment Anything in Audio.
- MatAnyone 2: Página do projeto do framework de matting de vídeo MatAnyone 2.
- InSpatio-World: Página do projeto para simulação interativa em tempo real de mundos 4D.
- DiaMoE-TTS: Repositório no GitHub para síntese de fala multidialetal baseada em IPA.
- PrismAudio: Página do projeto para geração de áudio a partir de vídeo com CoT decomposto e recompensas multidimensionais.
- DreamOmni2: Projeto multimodal de código aberto para edição e geração de imagens baseada em instruções.
- PixelRefer: Framework da Alibaba DAMO Academy para compreensão refinada de objetos em imagens e vídeos.
- Unlimited-OCR: Projeto da Baidu para OCR de longo horizonte e análise de documentos.
- EdgeTAM: Modelo da Meta executado no dispositivo para rastrear qualquer coisa, com segmentação de imagens e vídeos orientada por prompts.
- Step-Audio-EditX: Modelo da StepFun para clonagem de voz zero-shot e edição expressiva de áudio.
- Nemotron 3.5 ASR Streaming 0.6B: Página do modelo da NVIDIA no Hugging Face para ASR em streaming de baixa latência.## Links relacionados- Artigo original no BAAI Hub: Artigo-fonte desta atualização semanal da HyperAI.
- Site oficial da HyperAI: Portal principal para tutoriais, artigos, conjuntos de dados e recursos de IA da HyperAI.
- HyperAI Wiki: Portal de enciclopédia de IA que cobre conceitos comuns e termos de pesquisa.
- HyperAI Conference Tracker: Rastreador de prazos de conferências de IA e ciência da computação.
- Página de pesquisa do Meta SAM-Audio: Página oficial de pesquisa do Segment Anything Model Audio.
- Artigo do SAM-Audio no arXiv: Artigo de pesquisa que descreve o modelo de base SAM-Audio.
- Artigo do MatAnyone 2 no arXiv: Artigo sobre o MatAnyone 2 e seu avaliador aprendido de qualidade de matting.
- Artigo do Unlimited-OCR no arXiv: Relatório técnico sobre o Unlimited OCR e análise de longo horizonte.## ResumoEsta atualização semanal reúne um conjunto útil de novas demos de IA e recursos de modelos, especialmente nas áreas de geração de áudio, reconhecimento de fala, processamento de vídeo, compreensão de imagens e OCR de documentos longos.As entradas mais práticas são o Irodori-TTS para geração de voz em japonês, o SAM-Audio para separação de som baseada em prompts, o MatAnyone 2 para matting de vídeo limpo, o Unlimited-OCR para documentos longos e o Nemotron 3.5 ASR para reconhecimento de fala em streaming.No geral, este resumo é útil para leitores que desejam descobrir rapidamente quais novos modelos de IA valem a pena testar, o que cada um faz e onde experimentá-los.