"Heavy" Google lançou papéis TPU, 75 co-autores, Usher GPU nos adversários mais poderosos

Ji-won novo relatório

aplicações de aprendizagem de profundidade em grandes números para fazer uma arquitetura de supercomputador para otimizar a profundidade aplicações aprendendo gradualmente, a partir de GPU tradicional baseado em CPU, completada por um GPU CPU baseado no processador Intel torna-estrutura complementada. No entanto, o futuro por um longo período de tempo, o sistema de computação permanecerá CPU mista + arquitetura coprocessador. No entanto, no mercado de co-processamento, com a aplicação da inteligência artificial, aprendizado de máquina, especialmente em grandes números, os fabricantes de chips têm de melhorar o produto, lançamento de novos produtos, quer se tornar um líder na era da co-processador inteligente - mas a questão é, quem vai assumir esse papel -lo?

Cerca de quatro anos atrás, o Google começou a perceber a verdadeira profundidade potencial das redes neurais em vários serviços, ea conseqüente demanda por poder computacional - requisitos de hardware, é muito clara. Especificamente, CPU e GPU para modelar boa formação, o Google precisa para acelerar ainda mais o raciocínio chip (inferência), após esta etapa, a rede neural pode ser usado para bens e serviços.

No entanto, quando o Google que sabe que eles precisam de uma nova arquitetura de hardware, mas a idéia específica não é clara. É por isso que o Google hardware daquele ano, razão Daniel Norman Jouppi para cavar o passado. Jouppi é um dos principais arquitetos do processador MIPS, criando um monte de novas tecnologias na memória do sistema, a que se refere design de microprocessadores, nome Jouppi quase desconhecido. Jouppi Em uma entrevista com a entrevista próxima plataforma que quando ele entrou no Google em mais de três anos atrás na mão, na verdade, tem várias opções, mas ele nunca pensou que finalmente voltou para os dispositivos CISC estrada.

arquitetura TPU

Nós certamente falando de TPU do Google. O chip é a primeira aparição pública em conferência Google I / O do ano passado, mas os detalhes não foram divulgados. Na arquitetura esta semana realizada acima do topo vai ISCA 2017, descreve o artigo de TPU foi nomeado o melhor papel, estamos finalmente em condições de compreender os detalhes técnicos do TPU. No papel, o Google desempenho TPU e eficiência com Haswell CPU e NVIDIA Tesla K80 GPU para fazer uma comparação detalhada, que você possa entender as razões para um desempenho superior no raciocínio de TPU.

Jouppi Em uma entrevista com a entrevista próxima plataforma, as equipes de engenharia de hardware do Google antes de decidirem adoptar uma abordagem ASIC habitual, no início do projeto ter considerado usando uma solução FPGA para barato, eficiente e problemas de raciocínio de alto desempenho. Jouppi disse ao The Platform Em seguida, tomou uma fantasia para usar FPGA FPGA flexibilidade "fácil mudar / ajuste", mas devido à programação e outros obstáculos, em comparação com ASIC FPGA em desempenho e desempenho por watt tem um monte de diferenças. Jouppi explica: "TPU com a mesma CPU ou GPU é .TPU programável não foi concebido para um modelo de rede neural particular; TPU pode (rede de rede de convolução, modelos LSTM e modelos de redes neurais em uma variedade de sistemas em larga escala totalmente conectado instruções CISC) que são executados em. Portanto, TPU é programável, mas de TPU primitivo (primitivo) em vez de utilizar a matriz ou vector para escalar. "

A próxima plataforma comentou que, TPU não é complicado, parece mais um sinal de radar aplicações de motores de processamento, em vez da arquitetura padrão X86 é derivado. Jouppi disse que, embora existam muitos meios de multiplicação matriz de TPU, mas "GPU mais perto do ponto flutuante ideias unidade de co-processador" relação de TPU, TPU não armazenadas programa, executado somente comando transmitido a partir do host.

Devido à obtenção de um grande número de pesos e estes pesos para a unidade de multiplicação matricial, DRAM sobre o TPU como uma unidade operacional independente em paralelo. Enquanto isso, a unidade de multiplicação de matrizes para reduzir o consumo de energia, reduzindo a leitura tampão unificada e de gravação, que é o assim chamado "impulso de operação" (execução sistólica).

TPU tem dois memória, e uma DRAM externo para armazenar os parâmetros do modelo. Depois de parâmetros vir a partir da camada superior começa a multiplicação de matrizes unidade de carregamento. Ao mesmo tempo, ele pode ser carregado a partir da esquerda para activar, ou "neurónios" saída. Estes são em meio "sistólico" de forma pulsante para dentro da matriz, e a multiplicação de matrizes, cada ciclo pode ser feito de 64.000 vezes a acumulação.

Dado que a maioria das empresas utilizam a aprendizagem de máquina (exceto Facebook) usar a CPU para fazer o raciocínio, portanto, papéis Google TPU será processador v3 da Intel "Haswell" Xeon E5 e TPU para fazer uma comparação, e pode ser visto a partir dos dados, que está em multi-dimensional raciocínio desempenho do que o anterior. A próxima plataforma tem, assim, comenta, não admira Google para fazer sua própria investigação e desenvolvimento de aprendizagem de máquina para um novo chip para fazer o raciocínio usado para o cluster processador X86.

Em testes Google, usando 64 bits de ponto flutuante operador matemático 18, processador de núcleo Haswell Xeon E5-2699 v3, rodando a 2,3 GHz no caso pode ser processado por segundo, 1,3 TOPS (trilião de operações por segundo), para fornecer 51 GB / s de largura de banda de memória, o consumo de energia é de 145 watts de chip Haswell, o sistema (incluindo 256 GB de memória RAM) 455 watts de energia está ocupado.

Em contraste, TPU utilizando matemática inteiro de 8 bit, uma memória hospedeiro tem de 256 GB e 32 GB de memória em si, largura de banda no chip de memória de 34 GB / s, o pico 92 TOPS, raciocínio 71 vezes maior rendimento, e o TPU hospedagem servidor de energia térmica é de 384 watts.

Google também comparar teste a CPU, GPU e TPU inferência por segundo caudal processamento de diferentes lotes (batch) de tamanho.

Em pequenas quantidades, o caso em que uma quantidade de 16, de processamento CPU Haswell ser completado antes de 99% do tempo de resposta de cerca de 7 milissegundos, raciocínio 5.482 vezes por segundo (os IPS), que corresponde ao valor máximo (13.194 IPS, lote 64) 42 %, o pico é utilizada para atingir os 21,3 milissegundos. Em contraste, TPU pode ser feito no caso de um tamanho de lote de 200 milissegundos e ainda assim atingir o limite superior de 7, e IPS 225.000 vezes, o desempenho de pico de 80%. TPU no caso de um tamanho de lote de 250, depois de 10 milissegundos apareceram antes de 99% da resposta.

Deve-se notar, o Google está testando um relativamente cedo Haswell Xeon, e é esperado para mudar com o lançamento este verão da arquitetura "Skylake" Xeon E5, IPC vai subir. Além disso, Skylake é um 28-núcleo (18-núcleo em comparação com Haswell), Xeon também vai aumentar a produtividade geral (A Plataforma Seguinte é estimada em 80% de aumento). Mesmo assim, CPU e TPU ainda tem uma grande lacuna.

Alguns meios de comunicação disse que o Google criar seu próprio chip, é obrigado a ter um enorme impacto sobre a fabricante de chips. De fato, para aprendizagem de máquina chip processador dedicado é a tendência de desenvolvimento da indústria, eo futuro de outras grandes empresas de chips também são susceptíveis de criar uma equipe para projetar seu próprio chip dedicado.

A segunda metade da frase é questionável. GPU gigante Nvidia CEO Jen-Hsun Huang disse recentemente ao "Wall Street Journal" Dois anos atrás, o Google percebeu GPU é mais adequado para treinamento, mas não é bom em análise e decisão após o treinamento . Pode ser visto, a motivação do Google para criar TPU só quero fazer uma análise mais adequada do chip de tomada de decisão . Isto é, em declaração oficial do Google também foi confirmada: TPU apenas como uma ajuda para usar em uma determinada máquina aplicações de aprendizagem, a empresa vai continuar a usar o CPU e GPU de outros fabricantes.

Deve-se notar, é um chip TPU raciocínio, o TPU não se destina a substituir o surgimento de novos Zhi Yuan GPU-- em uma entrevista com o CEO da Nvidia Jen-Hsun Huang também mencionou isso. TPU ainda requer uma combinação de GPU e CPU usados em conjunto, no início deste artigo também explica, para treinar o modelo de rede neural, não pode prescindir de GPU e da CPU. Para os fabricantes de CPU, o verdadeiro desafio é fornecer tendo em conta o consumo de energia e eficiência da premissa, o raciocínio com um chip de alto desempenho.

27 de março de Chi-yuan novo open source eco-cimeira eo novo AI tecnologia Ji-won cerimônia de 2017 prêmios Plano de concorrência de negócios foi realizada, incluindo o "BAT" dominante AI, incluindo empresas chinesas, mais de 600 elite da indústria se reuniram para o 2017 China desenvolvimento da inteligência artificial pintou uma marca indelével.

Clique para ler o texto original, a Assembleia Geral rever o registro versão de texto

Tencent pequena Q: pagamento conhecimento do usuário para o retrato, a oportunidade está na mão
Anterior
Luoyang pedir a amigos e parentes para fase: não tomar uma sopa de carneiro?
Próximo