os dados "Sem CPU, GPU 1000x além do" Wave lançou Stream Processing arquitetura DPU

ganhou-Ji nova compilação

Para construir um chip bem sucedida empresa start-up não é uma coisa fácil, mas não é a capital apoiado Aceno Computing, mas em uma pequena, mas importante mercado de chips --AI formação - firmemente estabelecida uma posição, pelo menos por enquanto até agora.

Desde a sua criação, tem sido nos últimos sete anos e é atualmente mais recente multi-core arquitetura DPU projeto experiência anterior da empresa está finalmente aberto, mas também para se concentrar na onda ainda mais em dados do estudo profundidade Stream Processing arquitetura.

Recentemente, CTO do Wave Computing e DPU (Unidade de Processamento Dataflow), arquiteto-chefe Dr. Chris Nicol, os chips de alto desempenho na Cúpula Indústria Hot Chips, disse seu produto no DPU para acelerar a formação da rede neural pode realmente ir além da GPU 1000x-- declaração muito ousada, tendo em conta o estado actual da aprendizagem profundidade GPU e mercado de formação --Nicol acreditam que, após os primeiros usuários para tentar ser capaz de fundamentar as suas alegações de que a DPU.

A visão de onda Computing é que a arquitetura de fluxo de dados é a única maneira eficaz para treinar redes neurais de alto desempenho. CPU não aparecer em seus sistemas.

2016, informações de design quando a DPU acaba de lançar Onda Computing

conferência de inauguração Hot Chips deste ano a arquitectura e design de informação: teraops pico de 181 por segundo, a figura mostra que a operação de 8 bits, mas também pode fazer 16,24,32 mesmo 64. 16000 processamento elementos e unidades aritméticas do que 8,00, a potência média de funcionamento de 6,7 GHz. mecanismo de auto-temporização único, o uso de um mecanismo de sincronização de temporização locais globalmente síncrona / assíncrona para resolver o problema da temporização entre os vários elementos de processamento.

Nicol tem uma riqueza de experiência em estratégia terá como alvo questões aplicam-se a multi-core (manycore). Ele ajudou a estabelecer a organização de pesquisa australiano NICTA, que se concentra em sistemas multicore embutidos e software, Nicol também estabeleceu um Laboratórios Bell Austrália Institute, que co-desenvolveu o primeiro SoC multi-processador. Embora o treinamento aprendizagem profunda não está incorporado problemas de computação, mas Nicol disse, Treinando fora do centro de dados em grande escala que dia virá . Wave não se desenvolveu de acordo com esta ideia do sistema, mas o fundo e as demonstrações Nicol sugere, empresa onda Computing pode ampliar o estudo, mais impulso à beira de treinamento da rede neural. Esta é a onda do DPU local pode ter potencial no futuro.

DPU elementos de processamento tem 16.000, mais de 8.000 unidade aritmética - mais uma vez, não há CPU em coordenação. Todos são fundamentais para corridas 6.7GHz (Médio), utilizando a arquitetura reconfigurável de grão grosso - O Foster profundamente projeto aprendendo com outras startups de hardware produtos muito diferentes. DPU tem um mecanismo de auto-temporização único (mecanismo de auto-temporização), quando não há dados, DPU sono.

DPU e FPGA pode ser visto como um processador de múltiplos núcleos híbrido, capaz de processar os dados SPS diagrama de fluxo de milhares de elementos. Para a comunicação entre o núcleo nuclear eo projeto da placa, especificamente para ver abaixo.

projeto DPU bordo (a) a estratégia de comunicação entre o núcleo e nuclear (inferior)

Em uma entrevista com a entrevista próxima plataforma, Nicol disse: "Agora há um problema de heterogêneos de computação, a controladora ou host sempre é executado na CPU, o acelerador vai fechar os olhos para o seu tempo de execução API em execução no CPU, CPU escravo deve esperar para contar. -lo fazer o que ele estava fazendo. queremos mudar completamente isso. "

Nicol observou que a estrutura acelerador (em particular GPU) tenho duas perguntas. Primeiro, há um atraso ao carregar um novo kernel, a segunda é resolver o primeiro problema, o uso de programa de MCU em tempo de execução movida dentro e para fora. Programa em si decidir quando isso acontece - o programa para se comunicar com o programa MCU, DMA de entrada e fichas de saída, e controla os sinais de propagação. Há também um programa de cache on-chip. O resultado final é que Não arquitetura de CPU tem mais ganhos de desempenho em um modelo de offload em .

Técnico empilhados como isso irá alcançar uma arquitetura muito poderoso. Claro, a fim de lidar com qualquer CPU e outras questões de flexibilidade, ele também requer uma série de mudanças e, portanto, faz com que o desempenho DPU e eficiência benchmarks preocupação.

Além de hardware, software é também motivo de preocupação, especialmente para a nova arquitetura, software, como ele funciona e como os usuários interagem também dizer que é um problema. A este respeito, Nicols disse: "aprendizagem profunda é realmente um programa de software no estudo aprofundado do fluxo de dados diagrama, rodando em um processador como a nossa, pode montar o fluxo de dados do gráfico em tempo de execução."

Nichols disse: "fluxo de trabalho gerando um fluxo de dados do gráfico para treinar a rede, por exemplo, quando em funcionamento (tempo de execução), obtém-se o fluxo de dados a partir do gráfico TensorFlow, e tempo de execução directamente convertido realizada sem caso da CPU e mapeado para fluxo de chip de dados. "

Inception V4 no compilador processa uma onda esquemática

"Este é uma matriz reconfigurável de grão grosseiro, que é semelhante ao espaço (computação espacial) de computação." Nicol disse: "Quando o programa é executado num processador de vários núcleos, ainda precisa de partição, de modo que este é também um problema em um chip de múltiplos núcleos onde .OpenCL não da maneira certa. "Wave têm o seu próprio compilador espaço. Na sua arquitectura de processador firmemente acoplado, processador de comunicação directa (em comparação com a utilização de registo) mais rápido.

Dados julgamento antecipado Wave Systems

Saiba mais & Compilar Fonte:

https://www.nextplatform.com/2017/08/23/first-depth-view-wave-computings-dpu-architecture-systems/

Não é ilegal não é ilegal, mas é muito irritante comportamento de condução, você encontrou alguns?

modelos BMW com ZF 8AT será feita! modelos independentes quer sejam pode melhorar significativamente a força do produto?

Dólar impressão modo de máquina ou está prestes a reiniciar, ao longo de bilhões de capital estrangeiro para a China, Buffett: Por favor, faça mais

March 7, 2019

"57 linhas de código para obter projeto de US $ 86 milhões de euros" com ferramentas de código aberto DIY licença do sistema de reconhecimento de placas

September 2, 2017

Aqueles pichações criativo estrangeiros Trolltech

December 12, 2018

Alemanha e França, China e Rússia lançou uma enorme dívida dos EUA, a mídia estrangeira estatais adivinhar quanto ouro? O Fed não tem o direito de recusar volta enviado

March 6, 2019

Sobre Silk Road

Categorias

Partilha