Nuvem Based Paralelo algoritmo para resolver o ponto de laser de DSP multicore

Niu Yu Jing, Hu Jian, Meng Rong, Ele Wenjing

(Key Laboratório de optoeletrônicos Instituto de Pesquisa da Academia Chinesa de Ciências, Academia Chinesa de tecnologia da informação de sensoriamento remoto quantitativa, Pequim 100094)

Rápido, em tempo real solver ponto nuvem e obter coordenadas tridimensionais informação é tendência atual de desenvolvimento de aplicações de sensoriamento remoto. Para cloud computacionalmente intensivas no ar ponto LiDAR, algoritmo de processamento complicado, etc., multicore paralelo concebido TMS320C6678 DSP, método de processamento a laser eficiente baseado na nuvem de pontos. Primeiro, uma breve descrição do princípio do algoritmo e características do resolvedor ponto nuvem; Em seguida, concretamente descrita com base no ponto paralelo arquitetura resolver TMS320C6678 multicore DSP nuvem e, finalmente, o sistema de radar a laser aerotransportado adquire os dados multicore DSP projeto paralelo arquitectura de processamento tenha sido validado e análise comparativa de eficiência operando sob os processadores de núcleo único e de múltiplos núcleos mesma plataforma.

Multicore o DSP; processamento paralelo; inter-núcleo comunicação; resolvedor ponto de turvação

CLC: TP752.1

código do documento: A

DOI: 10,16157 / j.issn.0258-7998.2017.02.012

formato de citação chinês: Niu Yu Jing, Hu Jian, Meng Rong, e outro algoritmo nuvem solver baseado em multi-core local DSP laser de projeto simultâneo Tecnologia Eletrônica, 2017,43 (2): 54-57.

Inglês formato de citação: Niu Jingyu, Hu Jian, Meng Fanrong, et al. A concepção de processamento paralelo de LiDAR cálculo do ponto de turvação com base em vários núcleos DSP .Application de Técnica Eletrônica, 2017,43 (2): 54-57.

0 Introdução

Nos últimos anos, a tecnologia de sensoriamento remoto e tecnologia de automação, tecnologia de comunicação, a tecnologia de detecção de sensor, acesso rápido ao processamento em tempo real e ambiente de análise, a informação do tempo de detecção multi-dimensional é uma nova forma de aplicações de sensoriamento remoto. Desta forma, a integração de uma variedade de recursos profissionais e técnicos, tornou-se um questões-chave de pesquisa para promover a tecnologia de sensoriamento remoto pode ser amplamente utilizado em muitos campos. Entre eles, a tecnologia LIDAR aerotransportado (Light Detection And Ranging, LiDAR) como uma nova tecnologia de sensoriamento remoto aérea para obter informações de acesso rápido à superfície de alta precisão multi-dimensional , tem sido amplamente utilizado na exploração de petróleo e gás, transmissão de energia, planejamento urbano, terra levantamentos de recursos, avaliação de desastres e outros campos.

Em aplicações actuais, nacionais e internacionais de investigação e comerciais para LIDAR em evolução , em que o sistema LiDAR acesso directo aos dados em bruto (incluindo ângulo de emissão, o valor de medição de distância) deve ser calculada a fim de formar uma solução tridimensional através dos dados de ponto de nuvem, assim , considerada como dados do sistema de solução LiDAR ponto de turvação de algoritmos de processamento parte integrante. No entanto, confrontado com as aplicações de hoje para precisão, requisitos de tempo real aumento da demanda, com uma grande quantidade de algoritmos de processamento de cálculo características complexas, como solucionadores de nuvem de pontos precisa confiar em alta performance plataforma de processamento on-board. Que, DSP virtude da forte capacidade de computação, baixo consumo de energia, rica em recursos, flexibilidade e outras vantagens, em termos de processamento de vídeo de imagem, comunicação digital, redes neurais, etc. tem sido amplamente utilizada.

Com o desenvolvimento da tecnologia VLSI, tecnologia DSP foi desenvolvido para eficiência partilhar recursos, reduzir os custos de energia de alto desempenho multi-core estágio DSP. Esta é também a face da tendência crescente de processamento de sinal para alta largura de banda, de alta precisão, altas exigências em tempo real da escolha inevitável.

Este artigo irá usar o multicore DSP máquina nuvem ponto de implantação para o transporte de projeto de sistema LIDAR pushbroom paralelo e implementação do resolvedor, o princípio nuvem resolver a questão, os recursos do sistema DSP multicore introduzido com base na solução de nuvem algoritmo de cálculo de ponto o desenho do estudo e análise de modelo paralelo, design de comunicação inter-núcleo, de teste de desempenho.

princípio solver 01:00 nuvem

Pushbroom sistema de radar a laser aerotransportado estabelece um módulo de aquisição de dados modelo de nuvem solver tridimensional ponto, e do ponto de turvação do resolvedor sugado adquire sistema de laser dot dados obtidos durante a informação espacial tridimensional através de uma série de processamento. Primeiramente, uma carga obtida lidar laser de pulso intervalo de tempo de ida e volta para a posição de carga e informações postura; Então, o valor da distância pela varredura a laser sistema da varredura a laser sistema de coordenadas, navegação inercial sistema de coordenadas, a navegação sistema de coordenadas projetadas, geocêntrica coordenar após o sistema de conversão, cada laser para obter precisos tridimensionais coordenadas espaciais do ponto de pé (X, Y, Z), completando assim as nuvens de pontos de laser solver. Soluções para melhorar a precisão do cálculo da nuvem de pontos laser, os parâmetros necessários no sistema durante o solucionador de calibração, o processo de correção .

Além disso, uma vez que o processo de digitalização serão erroneamente baixa medido alvo como uma ficha objecto voador, ou por erro multipercurso ou erros no medidor laser, etc, podem causar erros grosseiros aparecer nos dados. Para assegurar que a máquina de velocidade de processamento, adicionou-se o processamento em bruto rapidamente filtrada com base num valor de limiar de distância no algoritmo de varrimento diferencial. O fluxo de processamento mostrado na Fig.

2 Multicore paralelo DSP-Based

2.1 hardware Introdução recursos da plataforma

Comparado a um único núcleo DSP, processamento paralelo multicore DSP tem mais forte e melhor gerenciamento de energia , obtendo assim mais atenção. Todos os principais fabricantes de processadores de sinal digital, como o Cradle, TI, empresa ADI e Freescale introduziram DSP multi-core. Que, TMS320C6678 de TI em termos do número de núcleos, velocidade de relógio, consumo de energia, o poder de computação, etc. todos têm uma vantagem mais proeminente.

TMS320C6678 arquitetura mista baseada Keystone fixo / de ponto flutuante multicore DSP , que contém oito C66x núcleo DSP, até à frequência de funcionamento máxima de 1,4 GHz, com um ponto flutuante 320GMACS e capacidade de potência de processamento do ponto 160 GFLOPS. Ele também tem uma riqueza de recursos on-chip, várias interfaces de interconexão de alta velocidade . Além disso, a TI também oferece SYS / BIOS do sistema operacional em tempo real com agendamento de tarefas, gerenciamento de recursos e outras funções, pode reduzir significativamente o ciclo de desenvolvimento. Visível, C6678 pode ser bem adaptado a baixa energia, alto desempenho, programação, e muitas outras exigências rigorosas do ambiente de aplicação é a melhor escolha para alcançar processamento em tempo real de algoritmos complexos.

2.2 design do modelo Parallel

sistema de design Multicore DSP, construção de modelo de processamento paralelo inclui agendamento de tarefas, mensagens, considerando o acesso à memória entre os três, apenas o uso de uma solução combinada otimizado para atingir o equilíbrio entre os efeitos do processamento de recursos e poder, obtendo-se assim um sistema de processamento de alto desempenho. Portanto, selecione o modelo paralelo apropriada é, sem dúvida, um dos passos mais críticos multicore desenvolvimento do sistema DSP. Atualmente, vários núcleos DSP Existem dois modelos paralelos principal: Data Flow Model (Modelo de fluxo de dados) e do modelo mestre (Master Slave Model) . Em que o modelo descreve o fluxo de dados de uma pluralidade de DSP núcleos trabalho de série, tendo um pensamento simples, melhor em tempo real, uma forte dependência das características de frequência de comunicação entre os módulos, que é adequada para um fluxo de processamento único, uma forte correlação entre os núcleos aplicação; modelo mestre-escravo é seleccionado a partir de uma pluralidade de núcleos, como o núcleo principal é responsável pelo controlo global, como o restante do núcleo de modo operacional kernel executa a tarefa específica do cálculo, tendo cada um, independentemente, a partir do inter-núcleo, de configuração flexível, mais adequado no processo de fluxo algoritmo complexidade, aplicação de correlação nuclear entre fraca.

A aplicação deste processamento nuvem ponto de desenho de fluxo solver complexidade do algoritmo, ponto flutuante apresenta grande quantidade de processamento de dados será Judai como a unidade de processamento de base de uma linha, o processo de forma independente. Que mostra que o algoritmo não está adaptado para dividir as ideias de blocos algoritmo global para diferentes núcleos, porque isto fará com que uma grande quantidade de aerotransportado nuvem lógica de detecção da qualidade dos dados de consumo incorporada, a sincronização de comunicação inter-núcleo, e dados consumido, um Pirro aproximar. Portanto, este modelo será utilizado no projeto mestre-escravo paralela do solver ponto nuvem.

A ideia de desenho específico deste é: o núcleo como o núcleo primário 0, todas as quais tarefas incluem a monitorização do progresso da tarefa a partir do núcleo, com uma variedade de periféricos e estabelecer uma ponte de comunicação entre o núcleo activo; 1 ~ 7 a partir do núcleo do reactor, que tarefas incluem a corrente de feedback do estado, ponto de operação do corpo nuvem resolver.

2.3 Design das comunicações do núcleo

comunicação Inter-core é uma parte importante do processamento processador paralelo multi-core , que estão se movendo principalmente dados e mensagens aspectos. Tipicamente usada para as comunicações de mensagens de sincronização de realimentação de estado notificação e inter-núcleo conseguido, e os dados é aplicável a um grande movimento da operação de transferência de dados. C6678 também fornece uma variedade de módulos de comunicação e bibliotecas, e são eles: variáveis de monitoramento de sincronização, de interrupções inter-core diretos, Notificar Evento, MessageQ Queue, navegadores, e polinuclear EDMA3 .

Em que o módulo de monitoramento variável modo de sincronização mínimo exigido, simples, mas necessidade de continuar a manter a consistência de cache e de ocupação de CPU; nenhuma ruptura direta entre forma BIOS nuclear envolvida, para alcançar o pensamento claro, mas demorado freqüentes interrupções adicionais, flexibilidade baixo; Evento Notificar maneira rápida e fácil, mas a capacidade de transferência de dados é fraco alta complexidade,; mensagem da Fila forma de realização proporciona mais fina mensagem de dados, flexibilidade e adaptabilidade, amplamente utilizado, mas alta complexidade; navegador forma de vários núcleos transmissão de alta performance de dados dentro do aparelho, um elevado grau de flexibilidade, mas a grande complexidade; acesso direto à memória avançado (reforçada acesso direto à memória 3, EDMA3) forma de transmissão de dados eficiente, eo processo leva-se pequeno relógio CPU , mas a complexidade é alta. Portanto, a variável síncrona monitoramento de interrupções inter-core diretos, Evento Notificar Message Queue e quatro maneiras de notificação de mensagem de sincronização mais adequado entre o núcleo eo multi-core navegador EDMA3 mais adequado para comunicação de dados.

algoritmo nuvem solver ponto aqui a ser implementado tem os seguintes requisitos em uma comunicação multi-core: comunicações de mensagens e a necessidade de alcançar o núcleo principal entre notificações de sincronização a partir do núcleo monitorar o progresso do tratamento para, comunicações de dados, é necessário para alcançar o bloco de dados original dividindo a transmissão de dados de alta velocidade e o processamento de resultados de cada fase.

Recombinação DSP espaço de memória interna, mas a velocidade de acesso pequeno, um espaço grande e o sistema de radar lento e pushbroom a laser velocidade de acesso à memória externa DDR3 com as características descritas pelo processamento de dados armazenados na linha, a fim de melhorar a eficiência de transmissão, tanto quanto possível, a PING-PONG que cria um mecanismo de cache transmissão de dados: primeira corrente de dados adquiridos com o tampão em DDR3 progressiva e criar dois memória tampão a partir do núcleo interno, a transmissão de alta velocidade de uma forma EDMA3 DDR3 entre a memória interna e os dados, e usos Message Queue atingir alta flexibilidade das mensagens de sincronização de comunicação inter-core. Com base na Fig. 2 mostra o ponto de nuvem TMS320C6678 resolvedor quadro de design global.

3 resultados experimentais

Este artigo experimento placa de desenvolvimento TMDXEVM6678L EVM C6678 DSP, que é uma ferramenta para a avaliação do desenvolvimento da plataforma de hardware TMS320C6678. Experiment, DSP core com clock de 1 GHz. dados de ponto de laser nuvem experimentais dos dados em bruto de uma linha de carga período pushbroom teste voo LiDAR adquiridas, o número de linhas de 8400 linhas, cada linha 208 B, a quantidade total de dados de cerca de 1,67 MB; correspondente à posição seleccionada dos dados de carga também é 8400 linhas, cada linha 52 B, a quantidade total de dados de cerca de 426,56 KB.

Com base no afectar a eficiência do modelo mestre de vários núcleos DSP a partir do processamento em tempo real de dados LiDAR, número de linhas nos dados de processamento certas condições, o número de linhas em cada 1,2,4,6,8,10 análise experimental dos blocos de dados de tamanhos diferentes dividindo cada bloco de transmissão de dados do tratamento, obtendo-se assim a transmissão de dados de teste consome tempo e processamento de ponto de nuvem solver. Enquanto isso, a mesma experiência também comparou a quantidade total de registos de dados, cada processada sob as mesmas condições linhas, monócitos apontar processo demorado nuvem resolvedor, como mostrado na Tabela 1.

A partir da Tabela 1, o modelo de nuvem núcleo solver núcleo paralelo ponto de desenho 7, no caso de funcionamento em paralelo, a eficiência de menos do que 7 vezes em relação ao estado dos monócitos, a razão para o processo de operação efectiva devido à comunicação inter-núcleo, a transmissão de dados, etc. a razão consumindo tempo e competição por recursos. Note-se que, em vez de definir programa razoável vai aumentar o que consome tempo de execução em geral, e o consumo de recursos, resultando em um far cry a partir dos resultados. Papel e projetados com o saldo do custo de comunicação e influenciar outros aspectos da competição por recursos de transmissão irá melhorar a eficiência cerca de 6,6 vezes a monócitos, de modo que o desempenho foi muito melhorada.

A Figura 3 mostra a relação entre o número do tempo total com a linha de modelo / multi-núcleo único. Para vários núcleos de processamento paralelo, Fig. 3 (a), a operação demorada pela alteração no número de chamadas e o efeito inter-núcleo módulo de comunicação EDMA3 combinado que à medida que o número de linhas por tratamento é reduzida. No caso do tratamento de um certo número de linhas, mais linhas para cada tratamento, a comunicação síncrona e inter-núcleo EDMA 3 vezes menos do módulo de programa de tratamento de chamadas total, a transmissão de comunicação reduzir o consumo. Além disso, também visto a partir da Figura 3 (a) são os seguintes:. Inclinação da curva como o número de linhas ser arredondado, a razão é processado por linhas centrais aumenta, cada tempo de transmissão e também aumenta a pressão interna do tampão reflecte contradição entre a programação e transmissão de dados entre o núcleo de ambas as questões específicas necessidade encontrados dividindo-se o número de linhas de blocos de dados. A figura 3 (b) mostra um modo de processamento de um só núcleo, a relação entre a operação que consome tempo e o número de linhas para cada tratamento, consistente com o polinuclear mudança de tendência. Com o aumento do número de linhas para cada tratamento, cada vez que o aumento da quantidade de dados transmitidos EDMA3, reduzir o número total de configurações de controlo relevantes EDMA3, controlador EDMA3 fornecida leva relativamente pequeno. Assim, ser obtido: EDMA3 quantidade de transmissão de dados por diferentes resultados em diferentes demorado, totalmente verificado EDMA3 tem certas vantagens quando uma grande quantidade de dados transferidos. No processo de design específico, a necessidade de selecionar um número razoável de processamento de cada linha, a fim de alcançar a otimização da eficiência.

4 Conclusão

Neste papel, a plataforma de hardware TMS320C6678, concepção e construção da matriz de sistema em paralelo do ponto de turvação algoritmo solver impulso principal vassoura aerotransportado radar de laser multi-núcleo do modelo do processo, a eficiência atingiu 6,6 vezes a de um único núcleo, de modo que o desempenho tem sido grandemente atualizar, demonstrou a viabilidade do sistema de processamento em tempo real incorporado da tecnologia de radar laser. Ele estabeleceu uma base sólida para a concepção de sistema de processamento em tempo real incorporado gerar mais imagens tridimensionais de implementação de tecnologia de sensoriamento remoto.

Referências

Métodos Li Jingmei, Zhou Mei, Li Chuanrong. Pushbroom LIDAR tridimensional ponto de resolver nuvem Aplicação de Técnicas de detecção remoto, 2013,28 (6): 1033-1038.

Li Fan, Wu Shuangyang Yang bagas vermelhas, etc. órgãos variedade radar tecnologia de detecção polyhydric Infravermelho e Engenharia Laser, 2009,38 (2): 295-299.

Ele Wenjing, Hu Jian, Li Ziyang, e assim por diante. Teledetecção imagem com base no projeto do sistema multi-DSP na compressão em tempo real . tecnologia eletrônica, 2015,41 (5): 46-56.

Seui J, implementação SUNG S K.Hardware de um controlador de rede neural em tempo real com um DSP e um FPGA para sistemas não-lineares .Industrial Electronics, IEEE Transactions on 2007,54 (1): 265-71.

Li Xin, Jiang Ming. Multicore DSP sistema de processamento de sinal em tempo real projetado para contar design óptico, 2012,38 (1): 116-120.

Zhao Z, Zheng imagem incorporada sistema de processamento paralelo reconfigurável multi-DSP Microcontrolador e Sistemas Embarcados, 2009 (2): 12-15.

corda Weiguang, Jiangjian Fei, Ele Weifeng. estado de desenvolvimento e tendências futuras de DSP de alta performance . IC da China de 2011 (4): 20-25.

Texas Instruments.TMS320C66x DSP CPU e guia de referência conjunto de instruções (Literatura Número: SPRUGH7) . (2010) .www.ti.com.

Texas Instruments.TMS320C6678 multicore fixa e manual de dados do processador de ponto flutuante de sinal digital . (2014) .www.ti.com.

Texas Instruments.Multicore guia de programação (Literatura Número: SPRAB27B) . (2011) (2016) .www.ti.com.

método de comunicação Inter-core de Hao Wu, Xiao Jiyang, ventilador vermelho, o outro multicore DSP .TMS320C6678 Tecnologia Eletrônica, 2012,38 (9): 11-13.

Texas Instruments.SYS / BIOS manual da comunicação inter-processador (Literatura Número: SPRUGO6E) . (2012) .www.ti.com.

Liu Li, Peng, Yang junho EDMA3 dados com base em controlador de transmissão de áudio multi-canal . De Engenharia de Áudio, 2014,38 (8): 59-61.

, mas Yongping, Penghong Tao, Wangdong Yun, aplicação et .EDMA3 em dados de imagens da transferência rápida O visor de cristais líquidos, 2013,28 (1): 99-104.

Lambendo tempo de tela | abriu com amor "véu"
Anterior
"A Silent Voice" para a alma de um filme de sucesso "bullying escolar" pesado controvérsia
Próximo