Mito imagem Laboratory (MTlab) 10000 pontos enfrentar a interpretação completa de tecnologias-chave

Lei Feng rede AI Technology Review Press, há poucos dias, Mito imagem Laboratory (MTlab, Meitu Imaging & Vision Lab) lançou o "100003D tecnologias-chave rosto" - o uso de tecnologia de aprendizagem profunda para alcançar 10.000 pontos de mapeamento de características bem facial, a tecnologia pode construir o rosto de um jogador em jogos de realidade virtual e personagem do jogo 3D dirigido, também pode ser aplicado a um cosmético maquiagem try-try virtual e campos da medicina. Este artigo é a interpretação exclusiva de Mito imagem Laboratório MTlab baseados nesta tecnologia fornece para a rede de Lei Feng AI Technology Review. Texto da seguinte forma:

breve introdução

No campo de visão por computador, pontos-chave faciais no posicionamento visual e gráfica em uma ampla gama de aplicações, incluindo rastreamento de face, reconhecimento de emoções e tarefas de edição de imagem de vídeo interativos relacionados a multimídia. tecnologias-chave rosto 2D atualmente a indústria comumente utilizados, no entanto, 2D posicionamento ponto rosto incapacidade de obter informações de profundidade, não analisar as características tridimensionais do usuário, como usuário muscular Apple informação mais detalhada, sulcos nasolabiais, também não pode ser analisado o usuário é a postura atual e expressões faciais. AI beleza selfie capaz de adicionar efeitos de animação para o usuário, tais como máscaras, óculos, chapéus 3D e outros itens, e fornecer um tipo mais inteligente do efeito de beleza, requer um conjunto especial de tecnologia de detecção, rastreamento em tempo real do sorriso de cada usuário, piscar, etc. geometria da superfície apresenta. Portanto, os pesquisadores Mito imagem Laboratório MTlab desenvolveu a tecnologia-chave 10000 rosto, vai melhorar as imagens faciais para um espaço tridimensional, a postura do usuário e expressão facial para ser desagregado, em tempo real que segue a postura atual do usuário, expressões faciais forma rosto após mudança características faciais, a imagem ajustada aparência mais natural.

Baseado cara 3DMM posicionamento chave ponto

1. O modelo tridimensional de distorção (3DMM)

Em 1999, cientistas da Universidade de Basel, na Suíça e Blanz Vetter propôs um método muito inovador - modelo tridimensional deformação (3DMM). modelo de deformação tridimensional é baseado em banco de dados rosto tridimensional, cara a forma da cara e textura como uma estatística de restrição, tendo em conta a influência de fatores representam e rosto iluminação, cara alta precisão modelo tridimensional gerado.

3DMM

. Como mostrado na FIG 3DMM ideia principal é: um modelo de cara pode ser uma combinação linear do modelo face existente. Isto é, alterando os coeficientes, gera uma cara diferente sobre ele tem sido a base face. Assumindo modelo facial face modelo 3D deformável por m, onde cada modelos faciais compreende uma face respectiva e dois tipos de vectores de textura, de modo que representa um novo modelos cara 3D, pode ser utilizado da seguinte forma:

entre

Representa um modelo de média formato do rosto,

APC representa a forma da peça,

Ela representa um coeficiente correspondente à face.

Blanz e Vetter proposto 3DMM resolve o problema da deformação do modelo de expressão facial, mas ainda existe na expressão expressão facial é claramente insuficiente. 2014, artigo apresenta FacewareHouse Este e divulga uma base de dados de expressão facial, fazendo 3DMM Com mais expressivo, face modelo linear pode ser expandida para representar:

Em face da base de dados original, a expressão aumentada

,

Ele indica que o coeficiente de expressão correspondente, coeficiente permite o acompanhamento expressão em tempo real quanto possível.

modelo 2. Mito MT3DMM

De modo a caracterizar mais finamente a diferente forma 3D da face, e é adequado para uma ampla gama de étnico, equipa MTlab R & D, utilizando equipamento de exploração avançado 3D recolhidos 1.200 caracteres diferentes, cada uma com 18 tipos de manifestações de dados da cara 3D, igualmente divididos por sexo, principalmente chineses, com idades variando de 12 a 60 anos, mais de 20.000 o número total de modelos, com base nesses dados, o estabelecimento de um modelo baseado em rede neural profundidade MT3DMM. Comparado ao modelo 3DMM mainstream atual, MT3DMM tem um dos mais altos face do modelo 3D de expressivo, de alta precisão modelo e consistente com as características de asiáticos do perfil da face, é a precisão da indústria.

modelo 3DMM, representa uma face média, e também inclui informação sobre o desvio da face média. Por exemplo, uma face larga de um modelo de cara-elevador com base na face larga do modelo pode ser obtido ajustando as características de razão. Com essa correlação, o computador só precisa usar o rosto do usuário e a face da informação média desvio, é possível gerar um 3D modelo específico para o usuário. Além disso, estes desvios, que compreende ainda um modo geral a idade, sexo, e os parâmetros de comprimento cara. No entanto, este é também um problema, enfrentar o mundo em constante mudança, a todas as faces e desvio médio são armazenados de bruços, modelos 3DMM precisam integrar grandes quantidades de informação da face, mas o modelo open-source atual em imitação de diferentes idades e raças a capacidade de área de rosto é muito limitado.

dados das faces BFM mostrados abaixo são rosto, basicamente, estrangeiro, cara asiático com diferenças de distribuição de dados; dados Facewarehouse rosto na maior parte da Ásia, mas com o modelo menos preciso Kinect scans há um problema; SFM código aberto dados incluem apenas seis tipos de expressões e baixa precisão do modelo não pode satisfazer as nossas necessidades; dados LSFM contém mais dados rosto, mas não inclui a expressão, a expressão não pode ser usado para rastrear usuários.

SFM dados parcial e BFM dados

Enquanto o modelo é digitalizado com o modelo de alta precisão, mas não inclui informação semântica específica. Portanto, a equipe de 3D P & D da MTlab especialmente desenvolvido um algoritmo de registro automatizado sem calibração manual pode ser refinado registrado para modelo de digitalização, como mostrado abaixo:

Processo de registro

resultados de geração de modelo

Finalmente, boa oferta por todas nominativas MT3DMM modelo 3D combinados em um banco de dados para localização tecla do ponto facial 10000. modelo de digitalização de alta precisão para o desenvolvimento de outras funções também oferece mais possibilidades.

3. Dados de Produção

Para ser capaz de jogar uma grande vantagem dos dados de aprendizagem profundas, você precisa fornecer uma grande quantidade de dados para a rede neural, pesquisadores MTlab concebido um conjunto de dados de produção do algoritmo de alta complexidade, em conjunto com o modelo MT3DMM de alta precisão para produzir grandes quantidades de dados de treinamento. Em comparação com o actual método de criação de dados de treinamento mainstream, dados de treinamento MTlab pode ser efetivamente dissociação rosto, expressões faciais e informações postura, durante a execução de posicionamento rosto ponto denso precisa, efeitos especiais e realizar AR unidade expressão facial exata.

problema reconstrução da cara pode ser transformado num pedido a partir da fórmula acima

,

coeficiente questão, o nosso modelo paramétrico rosto 3D

Com pontos característicos 2D

Após o mapeamento, a fórmula seguinte pode ser montada na face, resolvendo o processo específico é como se segue:

aqui

Modelo tridimensional é projectada para um plano bidimensional ponto, P é a matriz de projecção ortogonal, o símbolo R representa uma matriz de rotação,

matriz de deslocamento, para que possamos resolver o problema tridimensional em resolver a seguinte equação de energia:

Aqui, a adição da porção de regularização, caracterizado

APC é um coeficiente (incluindo o factor de forma

E coeficientes de expressão

),

Ela representa o desvio correspondente ao componente principal.

A maior parte dos algoritmos de reconstrução 3D corrente são optimizados com gesto, expressão facial e parâmetros, e estes três não pode ser aberta para independente, para ser capaz de dissociar a postura, expressões faciais, e a relação entre a cara, dados MTlab inclui uma pessoa sob diferentes expressões da mesma atitude e a atitude de diferentes conjuntos de dados sob a mesma expressão, o uso de estratégias conjuntas de otimização para calcular os parâmetros de rosto, postura e expressão facial de cada pessoa para obter dados de parâmetros de informação atitude dissociação pode realmente refletir o rosto atual , informações facial expressão e informação, que enriquecem os cenários de aplicação.

4. O treinamento da rede neural

Tradicional 3D algoritmo rosto reconstrução, se é uma visão única de reconstrução, mais mapa reconstrução ou vídeo reconstrução seqüência de quadros, precisamos algoritmo de otimização para otimizar os parâmetros exigidos pelo convexo, a fim de permitir que o algoritmo na operação em tempo real terminal móvel, pesquisadores MTlab usando profundidade redes neurais End-to-End aprendizagem, redes neurais poderosa alternativa para aprender um monte de computação processo de optimização convexa. Análise por características de rede rápidas (SqueezeNet, Shufflenet V2, PeleeNet, MobilenetV2, IGCV3) do terminal móvel atual, Fornecimento por pesquisadores propuseram ThunderNet rede de terminais móveis adequados, e tem baixo consumo de energia, com o desenvolvimento de Abastecimento de motor de AI e técnicas quantitativas frente ao modelo, que funcionam em Mito T9 taxa de quadros para 500fps alcance. Pontos MT3DMM treinamento da rede neural são os seguintes:

processo global MT3DMM

dados Gain: A fim de se adaptar In-the-wild imagem, de modo que a necessidade de algoritmo de baixa resolução, ruído, oclusão, ou sob o movimento e compreendendo diferentes cenas de iluminação com robustez forte, Abastecimento usando uma massa de dados, usando algoritmos e simulados perturbação dados em uma variedade de treinamento do mundo real.

estrutura de rede: Usando a estrutura MTlab auto-desenvolvimento da rede ThunderNet, tanto em velocidade e precisão do que com o tamanho de uma rede rápida, incluindo SqueezeNet, Shufflenet V2, PeleeNet, MobilenetV2, IGCV3, e tem baixo consumo de energia.

Perda de função: parâmetros de perda, principalmente, perda, perda keypoints, perda 3D Vértices e perda de textura, e reutilizá-los em série para os pesos correspondentes, de modo que a convergência da rede para alcançar os melhores resultados. Verificou-se que a perda de parâmetros pode obter um parâmetro de informação semântica mais preciso, keypoints Loss pode fazer o ponto final da informação densa rosto ajuste características faciais, 3D Vértices Loss pode reter melhor cara geometria 3D do usuário, perda de textura pode a ajuda da rede de alcançar melhores resultados de convergência.

Finalmente, os parâmetros da rede de saída para se obter, com MT3DMM de alimentação por descodificar o modelo 3D modelo da face correspondente, de acordo com a matriz de postura pode ser obtido e o ponto cara densa porção de projecção. Depois de todo o modelo paramétrico, cada ponto tem a sua correspondente informação semântica pode ser editado na imagem correspondente, modificando o modelo 3D. Mito efeito câmera do telefone vidros, arquivos de beleza personalizados, 3D memória capacidade de reparação, atualização stereo beleza, ajuste de atitude 3D, App Meng efeito batendo, a câmera Beauty Halloween maquiagem, maquiagem, funções de atuação Avatar adotaram o tecnologia de entrada.

Referências

V. Blanz e T. Vetter. Um modelo morphable para a síntese de faces 3D. Em Proceedings da conferência anual dia 26 de Computação Gráfica e técnicas interativas, páginas 187- 194, 1999.

Cao C, Weng Y, S, Zhou, et al Facewarehouse :. Um 3d base de dados de expressão facial para computação visual . IEEE Transactions on Visualization e Computação Gráfica, 2014, 20 (3): 413-425

Huber P, Hu G, Tena R, et al. Um multiresoluç~ao 3d morphable modelo face e encaixando quadro // Anais da 11ª Conferência Internacional Conjunta de Visão Computacional, Imaging and Theory Computação Gráfica e Aplicações. 2016.

Booth J, Roussos A, Zafeiriou S, et al. Um modelo 3D morphable aprendido a partir de 10.000 rostos // Proceedings da Conferência IEEE em Visão Computacional e Reconhecimento de Padrões 2016 :. 5.543-5.552.

Iandola F N, Han S, Moskewicz H W, et al precisão SqueezeNet :. AlexNet de nível com 50x menos parâmetros e

Ma N, Zhang X, Zheng H T, et al Shufflenet v2 :. orientações práticos para a concepção eficiente arquitetura cnn // Proceedings da Conferência Europeia sobre Computer Vision (ECCV) 2018 :. 116-131.

Wang R J, Li X, Ling C X. Pelee: Um sistema de detecção de objectos em tempo real em dispositivos móveis // Os avanços na Neurais informação Sistemas de Processamento de 2018 :. 1963-1972.

Sandler H, Howard um, Zhu, M. et al Mobilenetv2 :. residuais invertido e lineares gargalos // Proceedings da Conferência IEEE em Visão Computacional e Reconhecimento de Padrões 2018 :. 4.510-4.520.

Sol K, Li H, Liu D, et al convoluções grupo Igcv3 :. Intercalado baixo-rank para redes neurais profundas eficientes . ArXiv preprint arXiv: 1.806,00178 de 2018.

método de fusão tensor Agente de manter informações de estrutura espacial do método de previsão trajetória | CVPR2019
Anterior
Nascido na velha Pequim, estes programa de fitness privada que você deve saber
Próximo