Da Visão para a Idioma e, em seguida, a ação, a três anos de informações de domínio cruzado Talk Fusion milhão de palavras

Nota do Lei rede Feng AI Technology Review: O autor é um professor assistente na Universidade de Adelaide Wu Qi, recordou a sua investigação relacionada com o reconhecimento de imagem transversal da rede Vision-to-Language Lei Feng em artigos exclusivos para o fornecimento de AI Technology Review ideia, agora está sendo estendido para o campo de trabalho de pesquisa relacionado à ação. rede de Lei Feng editor AI Technology Review do artigo não alterou a intenção.

Olá a todos, eu Jiao Wu Qi, atualmente atua como professor (professor assistente) da Universidade de Adelaide. Depois de se formar em 2014, Dr. sorte de juntar-se à Universidade de Adelaide, Austrália (Universidade de Adelaide) iniciou um trabalho de pós-doutoramento de três anos. Desde o período do estudo principal, Dr. conteúdo é de reconhecimento de imagem transversal, de modo período pós-doutorado, tinha a esperança de ser capaz de continuar a realizar pesquisas e aspectos transversais relacionados. No entanto, após o período de pós-doutoramento tutor Anton van den Hengel, discussão Professor Shen Chunhua, decidiu saltar de uma pesquisa transversal interna com base em imagens, imagem e outros campos de pesquisa transversais externas iniciadas. CVPR 2015 coincidiu com vários documentos de trabalho sobre legendagem de imagens, o mais famoso foi sem dúvida Andrej Kárpáthy de NeuralTak e Show do Google e Tell, enquanto o 2015 MS COCO legendagem de imagens Desafio também recebo um monte de atenção. Assim, decidiu-se iniciar a investigação sobre questões transversais relacionadas com a Visão-to-Language. Mais tarde sobre esta questão, estamos mais próximos e profunda, quase três anos no CVPR, AAAI, IJCAI, reuniões TPAMI com outras revistas de topo, publicou 15 jornal em língua visão relacionada, a recente extensão do problema nos voltamos para o áreas relacionadas ação, abrindo uma direção totalmente nova. Em seguida, vou apresentar algumas das minhas ideias de investigação, trabalho e alguns dos meus pensamentos sobre este campo.

1. legendagem de imagens com atributos

A primeira pergunta que temos 15 anos de pesquisa em torno da legendagem de imagens desdobrado, o modelo dominante nessa direção é baseada no quadro CNN-RNN, ou seja, uma imagem de entrada, primeiro com CNN em uma pré-treinados para recursos de imagem extrato, em seguida, , CNN estas características é a entrada para a rede neural RNN, recorrente, que constitui a gerar sequências de palavras. Na superfície isso parece modelo muito atraente, dependendo da profundidade da rede neural poderoso pode aprender uma correspondência directa de imagem para a linguagem (vision2language) com a moda end-to-end, mas ignora um fato importante é, entre imagem e linguagem, na verdade, existe divisão. Embora vamos usar espaço de imagem da rede e linguagem espaço neural incorporá-los no mesmo espaço, mas a intuição diz-me que os dois espaço deve ser necessidade de um sub-espaço comum como uma ponte para ligar. Então nós achamos que os atributos de recursos, uma imagem e linguagem têm. Assim, com base na estrutura da CNN-RNN mencionado acima, adicionou-se uma camada de atributos de predição adicional. Quando uma determinada imagem antes, vamos para a imagem prevista a partir de entre os vários atributos (atributos nossa definição é ampla, incluindo um nome de objeto, atributos, ações, adjetivos, advérbios, humor, etc.), então estes atributos em vez de a característica de imagem a CNN (Fig. 1), é a entrada para o RNN que gera comandos.

Figura 1: imagem Modelo de legendas a partir da imagem em palavras e, em seguida, a declaração

Descobrimos que a operação simples fazer o nosso modelo de legendagem de imagens foi muito melhorada (ver Figura 2), e permite-nos em primeiro lugar no número de avaliação em 15 de dezembro MS COCO legendagem de imagens Desafio Líder Board ( ver Figura 3). Mais tarde, o papel também recebeu CVPR 2016, vemos o papel .

Figura 2: Imagem de legendagem com atributos preditos

Figura 3: Nossos resultados (Q.Wu) no MS COCO legendagem de imagens Desafio Líder Board, Dez / 2015

2. Pergunta Visual Respondendo com base de conhecimento

Depois de ver o papel de atributos na legendagem de imagens, começamos a considerar se a mesma idéia pode ser estendida a questão mais de visão e de língua? Afinal, lacuna entre a visão ea linguagem é uma realidade objetiva, e atributos podem ser estreito efetivamente a lacuna. Por isso, tentamos usar o mesmo quadro em uma pergunta visuais respondendo on (VQA) (ver Figura 4), também alcançou resultados muito bons. resultados relevantes foram publicados em TPAMI, ver o papel .

Figura 4: Adição de camada atributos intermediários em VQA

No entanto, VQA e outra diferença visão-a-língua é, quando ele precisa de uma máquina para responder a uma pergunta sobre o conteúdo da imagem, a máquina não só precisa ser capaz de entender as informações de idioma e imagem, mas também para ser capaz de ter algum senso comum, por exemplo, como mostrado, o problema é deixado na figura 5 há alguns mamíferos. Em seguida, responder a esta pergunta, nós não só precisa da máquina para "ver" na figura, há cães, gatos, pássaros, também precisa da máquina para "conhecer" os cães e gatos são mamíferos e aves não tão "dizer" nós, a resposta correta é 2 .

FIG 5: O bom senso necessário perguntas

Então, naturalmente pensamos do mapa do conhecimento (conhecimento-base) no VQA eles, ajuda-nos a responder a uma pergunta semelhante. Assim como se conectar a partir do conteúdo da imagem e da base de que o conhecimento? Nossa atributos desta vez também desempenhou um papel. Nós primeira imagem entre os atributos extraídos e, em seguida, usar esses atributos para base de conhecimento consulta (DBpedia), para encontrar o conhecimento relevante e, em seguida, usar esse conhecimento informações Doc2Vec de quantificar, e, em seguida, juntamente com outras informações, para entrar LSTM eles, para responder a perguntas. Nossa estrutura (ver Figura 6) feita no conjunto de dados VQA desempenho muito bom, os resultados de trabalhos relevantes foram publicados em CVPR 2016, vemos o papel .

Figura 6: Modelo VQA com base de conhecimento

3. Visual Pergunta Respondendo com o raciocínio

Embora o quadro proposto que resolver as questões resposta acima sobre o "senso comum" do desafio, mas descobrimos VQA que há duas limitações importantes:

  • O CV não ajudar muito

    características -apenas CNN são usados

    -CNN é simplesmente treinado na classificação de objetos

    -VQA requer múltiplas tarefas CV

  • Ausência de fundamentação

    -Image + Pergunta - >  mapeamento de resposta

    Fornecendo o razões é importante serviço, por exemplo Médica, Defesa.

A primeira refere-se ao fato de VQA limitação, visão computacional, cujo papel é muito pequeno, é só usar a imagem para a CNN, entre objetos e outro entendimento conteúdo. E com base em um retrato do problema, você pode perguntar a relação entre objetos, objetos de texto, etc., mas esta é realmente uma variedade de algoritmos de visão de computador precisam ser abordadas.

Um segundo meio de limitação de que, no processo de responder a perguntas, não podemos dar uma explicação razoável. O "interpretability" é precisamente a questão que estamos preocupados nos últimos anos. Se estamos no processo de responder a perguntas, mas também para fornecer um razões compreensíveis, será muito útil.

Assim, com base no acima de dois pontos, propomos uma nova estrutura VQA, chamamos VQA máquina. Este modelo pode receber uma pluralidade de visão por computador algoritmos resultados de saída, incluindo a detecção de objectos, atributos de predição, detecção relação, etc. Esta informação é, então, fundida, a resposta. Ao mesmo tempo, a nossa produção VQA Máquina além da resposta, você também pode razões de saída. Neste modelo, nós emitiremos o primeiro nível três para codificar. Onde em cada nível, apenas, bem como problemas com os fatos imagem juntos novamente incorporar conjuntamente um espaço em que, através de um modelo de co-atenção. Aqui está uma série de fatos, o uso do modelo de visão computacional informação de imagem mencionado convencional extraído. Finalmente, foi utilizada uma MLP para prever a resposta, com base na saída de cada camada do modelo de co-atenção. Questão é então responde pela razão dos factos ponderados tipo e re-formulação obtidos (ver Fig. 7).

Figura 7: Quadro VQA Máquina

O nosso conjunto de dados do modelo na VQA fez state-of-art desempenho (ver Tabela 1) e, mais importante, para responder perguntas ao mesmo tempo que pode ser dada a explicação correspondente que outros modelos de VQA Eu não posso fazer. A Figura 8 mostra alguns dos resultados produzidos pelo nosso modelo. Artigos foram publicados em CVPR 2017, vemos o papel .

Tabela 1: desempenho do modelo único no conjunto de teste VQA real

FIG 8: VQA Máquina Como resultado, a palavra em questão colorido topo-3 indica o peso pesado. Ela representa uma importante medida esta palavra em resposta a esta pergunta. Que representa a área de imagem da imagem destacada entre os pesos de atenção. Quanto mais profunda a Área de cor Descrição Esta área é mais importante para responder às perguntas. Finalmente, a razão pela qual os modelos gerados para responder a perguntas.

4. Pergunta Atendimento Visual com o raciocínio explícita na Base de Dados de Conhecimento

Como sabemos que o conhecimento e raciocínio são importantes para VQA, então como os dois combiná-los, ao ser capaz de realizar raciocínio explícito (visualização raciocínio) fazer? O raciocínio chamado explícito, está em processo de responder à pergunta pode ser dada uma cadeia de rastreabilidade lógico. Então propusemos Ahab, um novo modelo capaz de VQA raciocínio explícito. Neste modelo, o que, nos últimos imagens adicionar diretamente às perguntas diretamente mapeados para uma resposta diferente, Acabe primeira emissão e mapas de imagem para uma consulta KB, o que é solicitado conhecimento de mapeamento, permitindo o acesso a milhares de Conhecimento -los. Além disso, nosso modelo eles, a resposta é rastreável, que é rastreável, porque podemos ter uma cadeia lógica explícita através de consulta no caminho de procura de conhecimento entre o mapa.

A Figura 9 mostra-nos este método. A nossa abordagem pode ser dividida em duas partes.

  • Em primeiro lugar, na primeira parte, vamos detectar imagem entre os conceitos, e, em seguida, conectá-los a um mapa de conhecimento que formam um grande gráfico, chamamos esse processo de construção de gráfico processo de RDF.

  • Na segunda etapa, um tipo de problema de linguagem natural é processado primeiro em uma consulta apropriada, a consulta vai para estabelecer uma visão boa da solicitação que passo. A consulta pode ter de processo de vários passos de raciocínio, e esta resposta de consulta correspondente irá corresponder à forma de resposta.

Figura 9: Modelo de Nossa Acabe VQA

Recentemente, estabelecemos uma nova VQA conjunto de dados chamado de VQA baseada em fatos, é baseada no fato de que o VQA. O nosso conjunto de dados anterior, com base no raciocínio explícito do problema só aceitar um estilo de modelo fixo, e o novo conjunto de dados FVQA fornece perguntas abertas. Além disso, para cada pergunta - a resposta, nós fornece adicionalmente um fato de apoio. Assim, ao responder a perguntas, não só precisa da máquina para responder a esta pergunta, mas ele também precisa ser capaz de fornecer apoio fato sobre a resposta. A Figura 10 mostra alguns exemplos de nosso modelo e dados Acabe e FVQA. dados relacionados e os resultados foram publicados em IJCAI 2017 e TPAMI, ver o papel

FIG 10: Ahab e FVQA conjuntos de dados e resultados

5. Visual Diálogo com GAN

VQA pode ser derivada de muitos problemas novos, Visual Diálogo (diálogo visual) é um deles. VQA apenas com diferentes fóruns, as necessidades de diálogo visual para ser capaz de usar a máquina natural, linguagem comum e manter uma imagem humana em um diálogo significativo. E VQA Outra diferença é que, em geral, são a resposta VQA suma, dizem que a resposta é sim / não, numérico ou um substantivo, etc., são mecanização parcial. E nós esperamos ser capazes de gerar dados de fácil utilização parciais diálogo Visual, tanto quanto possível. Por exemplo, como mostrado na Figura 11, com a face do mesmo problema, resposta parcial humano rico informação, mas também mais natural, ao ser capaz de focar a conversa tiver ocorrido, e leva à próxima diálogo a ter lugar. E respostas parciais máquina, muito antiquado, não conduz ao seguinte diálogo básico.

Figura 11: Human-like vs, máquina-like

Por isso, proposto com base em GAN (gerado contra rede) método (Figura 12) a resposta ajuda mais em linha com as expectativas de geração de modelo humanos. Nós geração de redes de esquerda é o uso de um co-atenção, que é um modelo de atenção conjunta para a utilização conjunta da imagem, histórico de conversas para gerar um novo diálogo, então vamos gerar diálogo e chamar a atenção do modelo de geração em conjunto, alimentada para um modelo de diferença que, para a diferença entre o diálogo ou artificialmente gerado automaticamente, e, em seguida, sob a forma de recompensa, e para estimular a geração modelo mais em linha com a conversação humana.

Figura 12: Geração de diálogo por meio de GAN

FIG 13: Co-atenção modelo

Neste trabalho, foi utilizado um modelo de co-atenção à integração das informações de várias modalidades, também utilizado no mesmo modelo VQA-máquina que mencionamos acima. Em que um modelo de co-atenção, usamos duas características para atender uma outra característica, permitindo assim uma seleção de recursos eficaz. Esta participar como modo sequencial dos tempos de funcionamento, até que cada recurso de entrada, duas características adicionais são também participar. O documento é CVPR2018 aceito, a Assembléia Geral oral.

FIG 14: Visual Resultados Comparativos diálogo

6. A partir da visão-Language para Ação

Uma breve introdução a alguns dos nossos trabalhos anteriores na direção de língua visão, podemos ver que a combinação de ambos em termos de tecnologia ou aplicação, é muito significativo. No entanto, a inteligência artificial (AI), este é apenas um pequeno passo. A verdadeira inteligência artificial, além de aprender a compreender uma variedade de modos de informação, mas também deve ser capaz de realizar algum grau de interação com o ambiente real, pela linguagem, pela ação, que pode mudar o ambiente, ajuda as pessoas a resolver problemas práticos. Assim, a partir deste ano, vamos começar a ação também se juntaram, realizar pesquisas relacionadas.

Por esta razão, propôs o conceito de uma V3A, é Vision, Ask, Resposta e Act (Figura 15), em que este novo sistema, temos uma visão (Vision) como o centro, a esperança de começar a fazer perguntas (Ask), resposta ( resposta), ação (act) e outras operações. Desta forma, nós não só são capazes de obter um circuito fechado treinável, também a visão de língua antes da fusão de muitas tarefas também veio. Por exemplo, em Ask este fim, podemos ter tal tarefa um Visual Geração Pergunta, legendagem de imagens, porque eles são gerados a partir da imagem para o idioma. Em resposta a isso, temos VQA, Visual diálogo Isso requer uma máquina capaz de produzir as respostas modelo. No final Act, também temos alguma tarefa muito interessante, como expressão referindo e navegação visual. Por isso, a CVPR2018 deste ano, nestes dois aspectos estão relacionados ao trabalho.

FIG 15: quadro V3A

Primeira conversa sobre referindo expressão, também chamado de aterramento visual, coloca a máquina depois de receber uma imagem e uma consulta (comando) "refere-se a" uma imagem do objeto que é relevante para esta consulta. Para resolver este problema, propomos uma estrutura unificada, rede paralela de atenção (PLAN), usado para encontrar objetos na imagem a partir da descrição natural de comprimento variável. A inscrição Natural da frase pode falar. rede PLAN tem dois mecanismos de atenção, a parte de língua do conteúdo e alvo visual candidatos globais diretamente associados. Além disso, mecanismos de atenção são iterativamente repetido, o que torna o processo de inferência torna-se visual e interpretável. Informações da atenção dos dois são mesclados objetos à inferência sendo referenciado. Note-se que estes dois mecanismos podem ser formados em paralelo, verificou-se que este desempenho do sistema de combinação de vários padrão conjunto de dados de linguagem de entrada comprimentos diferentes em relação à técnica anterior, tais como RefCOCO, RefCOCO + e GuessWhat conjunto de dados. Papers ver . Também propomos um modelo de co-baseada em atenção, ver o papel .

FIG 16: atenção paralelas (plano) de rede

Em seguida, vamos dar-lhe sobre um artigo sobre Visual Navigation , o documento também CVPR2018 aceito, porque o tema é relativamente novo, está também preocupado com todos. O artigo é chamado "Visão-and-Língua de navegação: Interpretando instruções de navegação visuais fundamentadas em ambientes reais." Um problema que queremos resolver este artigo é como usar alguns comandos complexos linguagem humana para guiar o robô em um ambiente real simulado, para completar a tarefa e a ação correspondente.

Portanto, neste artigo, proposto pela primeira vez um Matterport3D Simulator. O simulador é uma grande escala pode ser baseada em ambiente interativo aprendizado por reforço. Neste simulador de ambiente, usamos os 10800 densamente amostrados imagens panorâmicas de 360 graus, mais profundidade, que podem fornecer nível de nuvem de pontos. Então, temos um total de cenas internas 90 do mundo real. Assim, com o simulador antes que algum do ambiente virtual, e este novo simulador é mais difícil, mas mais perto da realidade. A Figura 17 mostra uma cena real e nosso robô (agente) pode mover rota.

FIG 17 :. gráfico navegação Exemplo para um andar parcial de uma cena escala edifício nos caminhos Matterport3D Simulador navegáveis entre pontos de vista panorâmica estão ilustrados na Escadas azul também podem ser navegada para se mover entre os andares ..

Com base em nossa Matterport3D Simulator, reunimos um conjunto de dados Quarto-to-Room (R2R), que neste conjunto de dados, foram coletadas 21.567 instrução de navegação (instruções de navegação), a duração média de 29 palavras. Cada instrução é descrito com um comando através de uma pluralidade de quartos. 18. A Figura 19 mostra os termos de distribuição de nossas instruções de navegação.

Além do simulador e, em seguida, os dados, nós artigo também apresenta um modelos de seqüência-a-seqüência, mude o modelo e modelo VQA é muito semelhante, mas a saída irá operar como uma sequência, com LSTM de prever. Nós também adicionamos, como professor-forçando, e outras variedades de forçando estudante, obteve melhores resultados. Em seguida, vamos continuar a expandir a coleta de dados e teste de retenção, a plataforma de teste para fornecer justo, realizada todos os anos relacionado ao jogo. Por favor, atenção de todos!

Figura 18: navegação tarefa Quarto-to-Room (R2R) Nós nos concentramos em executar instruções de navegação de linguagem natural em edifícios do mundo real inéditas câmera do agente podem ser giradas livremente discos azuis indicam proximidades opções (discretizado) de navegação ...

Figura 19 :. Distribuição das instruções de navegação com base em seus primeiros quatro Instruções palavras são lidas a partir do centro para fora comprimentos de arco são proporcionais ao número de instruções contendo cada palavra áreas brancas representam palavras com contribuições individuais demasiado pequena para mostrar ...

7. Resumo e Futuro

A inteligência artificial é um sistema muito complexo como um todo, relacionada à visão, linguagem, raciocínio, aprendizagem, movimento, etc., então a visão do computador como uma direção no campo da inteligência artificial, além da preocupação clássico puramente visual (como reconhecimento de imagem , classificação de objetos, etc.), também deve se concentrar em como combinar tarefas e desafios mais difíceis de conseguir com outras áreas. Combinado com a linguagem visual (visão de língua) é uma direção muito boa, isso não só levanta questões interessantes como legendas de imagem e VQA, também fez uma série de desafios técnicos, tais como a forma de integrar a informação multi-dimensional em vários campos. Nós ainda introdução de língua visão à ação do campo, são esperados máquinas ter que pedir (Ask), A (Resposta) e fazer (Act) a capacidade de, essencialmente, quer a máquina para ser capaz de entender e processar a informação visual, informações de idioma e de saída informações da operação correspondente a um maior grau de informação de vários domínios é de fusão completa.

FIG 20: Os outros planos

Em seguida, vamos continuar a fazer mais exploração na direção da visão-language-ação, o atual conjunto de dados de navegação quarto-a-quarto apenas o primeiro passo, estaremos em nossa próxima Matterport3D Simulator, propôs ainda Localização objeto visível , escondido Localização objeto e Ask de encontrar tarefas (FIG. 20), com base no agente desejado através de uma linguagem de comando, a cena visível para navegação (visível) objetos escondidos (oculta) objeto, e quando a instrução quando há ambigüidade, ser capaz de fazer perguntas, eliminar a ambiguidade, para completar ainda mais a tarefa.

Referências

Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, Anthony Dick. Qual o valor que Explícito Conceitos alto nível têm em visão ao Problemas de Linguagem?. IEEE Conference on Computer Vision e Reconhecimento de Padrões (CVPR'16), Las Vegas, Nevada, EUA, Jun de 2016.

Qi Wu, Chunhua Shen, Peng Wang, Anthony Dick, Anton van den Hengel, legendagem de imagens e Pergunta Visual Respostas baseadas atributos e seus relacionados externa Conhecimento IEEE transação em Análise de Padrões e Inteligência Machine (TPAMI), Volume :. 40 emissão :. 62018.

Qi Wu, Peng Wang, Chunhua Shen, Anton van den Hengel, Anthony Dick Ask Me Anything: .. de forma livre Pergunta Visual Respostas baseadas no conhecimento de fontes externas Conferência IEEE em Visão Computacional e Reconhecimento de Padrões (CVPR'16) , Las Vegas, Nevada, EUA, Jun de 2016.

Peng Wang *, Qi Wu *, Chunhua Shen, Anton van den Hengel O VQA-Machine: .. Aprender a usar existente Visão Algoritmos a responder novas questões IEEE conferência sobre Visão Computacional e Reconhecimento de Padrões (CVPR'17), Honolulu, Hawaii, EUA, Jul de 2017.

Raciocínio Peng Wang *, Qi Wu *, Chunhua Shen, Anton van den Hengel,. Baseada em conhecimento explícito Anthony Dick para Visual Pergunta responder. Conferência Internacional Conjunta sobre Inteligência Artificial (IJCAI'17), Melbourne, Austrália, agosto, 2017.

Peng Wang *, Qi Wu *, Chunhua Shen, Anton van den Hengel, Anthony Dick FVQA: .. baseado em fatos Visual Pergunta Respondendo IEEE Transação em Análise de Padrões e Inteligência Machine (TPAMI), In Press, 2018.

Qi Wu, Peng Wang, Chunhua Shen, Ian Reid, Anton van den Hengel. Você está falando comigo? Fundamentado Visual diálogo Geração através Adversarial Learning. IEEE Conference on Computer Vision e Reconhecimento Padrão (CVPR'18), Salt Lake City, Utah, EUA, Jun, 2018. (aceito 19/2/18).

Bohan Zhuang *, Qi Wu *, Chunhua Shen, Ian Reid, Anton van den Hengel Atenção paralela :. A Unified Quadro de Visual Objeto Descoberta por meio de diálogos e consultas Conferência IEEE em Visão Computacional e Reconhecimento de Padrões (CVPR'18). , Salt Lake City, Utah, EUA, Jun, 2018.

Chaorui Deng *, Qi Wu *, Fuyuan Hu, Fan Lv, Mingkui Tan, Wu. Aterramento Visual via Qingyao Atenção acumulada. Conferência IEEE em Visão Computacional e Reconhecimento de Padrões (CVPR'18), Salt Lake City, Utah, EUA , Jun, 2018.

Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko Snderhauf, Ian Reid, Stephen Gould, Anton van den Hengel Visão-and-Língua Navegação :. Interpretando instruções de navegação visuais fundamentadas em ambientes reais IEEE. Conferência sobre Visão Computacional e Reconhecimento de Padrões (CVPR'18), Salt Lake City, Utah, EUA, Jun, 2018.

Qi Wu, Damien Teney, Peng Wang, Chunhua Shen, Anthony Dick, Anton van den Hengel Visual questão de atendimento: .. Uma pesquisa de métodos e conjuntos de dados de computador de visão e compreensão de imagens (CVIU), v 163, p 21 .. -40 de 2017.

Damien Teney, Qi Wu, Anton van den Hengel Visual Pergunta Atendimento: .. Um Tutorial IEEE Signal Processing Revista, v 34, n 6, p 63-75, 2017 ...

Yan Huang, Qi Wu, Liang Wang. Conceitos de aprendizagem semântica e Order para imagem e Sentence Matching. Conferência IEEE em Visão Computacional e Reconhecimento de Padrões (CVPR'18), Salt Lake City, Utah, EUA, Jun, 2018.

Chao Ma, Chunhua Shen, Anthony Dick, Qi Wu, Peng Wang, Anton van den Hengel, Ian Reid. Answering Visual Pergunta com memória de Aumentada Networks. Conferência IEEE em Visão Computacional e Reconhecimento de Padrões (CVPR'18), Sal Lake City, Utah, EUA, Jun, 2018.

Bohan Zhuang *, Qi Wu *, Ian Reid, Chunhua Shen, Anton van den Hengel HCVRD: .. Uma referência para largescale Human-Centered Visual Detecção de Relacionamento Conferência AAAI em Inteligência Artificial (AAAI'18), New Orleans, Louisiana , EUA, Fev, 2018.

Sobre o autor

Wu Qi é atualmente a Universidade de Adelaide, Austrália (Universidade de Adelaide) Docente (Professor Adjunto), Centro de visão de máquina Austrália (Australia Center for Robotic Vision) qualquer Associado Investigator (vice-chefe do sujeito). Antes de ingressar na Universidade de Adelaide, Austrália como Visão Technology Center (Austrália Center for Visual Technologies) pesquisador pós-doutorado. Respectivamente, em 2015, ele recebeu seu PhD em 2011 e um mestrado da Universidade de Bath, Reino Unido (Universidade de Bath). Seus principais interesses de pesquisa incluem visão computacional, aprendizado de máquina, a pesquisa principal sobre temas relacionados visão de língua, incluindo legendagem de imagens, respondendo a pergunta visual, de diálogo visual e assim por diante. Ele publicou dezenas de artigos em CVPR, ICCV, ECCV, IJCAI, AAAI, TPAMI, TMM e outras reuniões e publicações. Como CVPR, ECCV, TPAMI, IJCV, TIP, TNN, TMM e outros revisores reuniões periódicas.

# 'Keeprunning' # corredores encontrou o melhor de si. - Li Weilong
Anterior
versão política ocidental de "vagando pela Terra" está chegando! Escola, biblioteca para ser congelado
Próximo