当前位置：PB创新网 → 文章中心 → 解决方案 → 电子通信

TMS320C62XDSP的混合编程研究

减小字体

增大字体作者：佚名来源：本站整理发布时间：2009-01-10 22:37:39

长指令字（ＶＬＩＷ）结构，一个指令包里的８条并行指令可同时分配到８个处理单元并行运行。这种一个指令包里有８条指令并行执行也给并行汇编代码的编写带来很多要考虑的问题具体如下：　

（１）ＴＭＳ３２０Ｃ６２Ｘ指令的执行可以用延迟间隙来说明。延迟间隙在数量上等于从指令的源操作数被读取到执行的结果可以被访问所用的指令周期。如对于乘法指令（ＭＰＹ），源操作数从第ｉ个周期被读取，则其计算结果在第（ｉ＋２）个周期才可用。

（２）使用相同功能单元的两条指令不能被安排为并行指令。

（３）使用同一条交叉通路的两条指令不能被安排在同一个执行指令包中，这是因为从寄存器组Ａ～Ｂ或者从Ｂ～Ａ都只有一条交叉通路。　　

４　将数据读入到（或存储自）相同寄存器组的两条读（写）指令不能被安排在同一个执行包中。

５　每一个执行包里只能允许每一寄存器组处理一个长定点类型数据。

６　在一个指令周期内对同一寄存器读取多于四次是不允许的，但条件寄存器不在此限制之列。在一个指令周期内，不能同时存在两条写入同一寄存器的指令，只有在写操作不是在同一个指令周期发生时，才可以将具有同一目的地址的两条指令安排并行。

３基于ＴＭＳ３２０Ｃ６２Ｘ的运动补偿的混合编程设计实例

运动补偿是ＭＰＥＧ－４标准中的一种重要算法。运动补偿是指根据运动矢量在参考帧中找出参考块。如果运动矢量的Ｘ分量和Ｙ分量都是整象素长度，则直接在参考帧中找出参考块。如果为半象素长度，则需要通过内插运算计算出参考块，计算出的参考块需要加上解码得出的误差块才能得到当前参考块。本文给出了运动矢量的Ｘ分量和Ｙ分量都是整象素长度时的运动补偿方法。根据运动矢量可直接在参考帧中找到参考块（８×８）。完成此功能的Ｃ语言函数如下：

ｖｏｉｄｍｃ＿ｃａｓｅ＿ａ２ｕｎｓｉｇｎｅｄｃｈａｒ ｐＳｒｃ ｓｈｏｒｔＳｒｃＯｆｆｓｅｔ ｓｈｏｒｔＳｒｃＷｉｄｔｈ ｕｎｓｉｇｎｅｄｃｈａｒ ｐＤｓｔ ｓｈｏｒｔＲｏｕｎｄＣｔｒｌ　

 　　……

ｆｏｒ ｉ＝０ ｉ＜８ ｉ＋＋　



ｔｍｐ＿Ｐ＿Ｄｓｔ＋ｉ　＝ ｔｍｐ＿Ｐ＿Ｓｒｃ＋ｉ　

．．．．．．

}

参数运动矢量ＳｒｃＯｆｆｓｅｔ对４（４个字节为一个字，长３２位）的余数可能是０、１、２、３。当余数是０的时候，编译后执行代码是按字读取（ＬＤＷ）的，这充分体现了ＴＭＳ３２０Ｃ６２Ｘ的优点，也使程序的运行效率比较高。而当余数不为０的时候，则可能是按字节读取（ＬＤＢ）或是按半字读取（ＬＤＨ），这使程序的运行效率较低。视频的编码和解码都要用到运动补偿来重构图像，这是一个很费时的操作，而且其代码也是图像处理中的核心代码，这样就要求编写高效的程序来完成此操作。为了使代码的运行效率更高，且结合ＴＭＳ３２０Ｃ６２Ｘ的硬件特点，希望对于不同的运动矢量，做运动补偿的时候都能采用按字读取和存储的方式。这需要对运动矢量参数除以４，根据余数调整指针，使指针始终指向字对齐方式而在Ｃ程序中当前块是ｃｈａｒ型的以字节方式存储的，对其进行移位处理只能是一个字节一个字节地进行移位，这就使得在Ｃ程序中不能用和汇编程序同样的方法来对程序进行优化　，如运动矢量除以４以后的余数为１，为了使要取的８个象素对准字访问方式，则要按图１进行操作。
javascript:window.open(this.src);" style="cursor:pointer;"/>
根据运动矢量参数进行移位使其对准字访问的核心代码的程序为：

ＭＶＫ．Ｓ２　０ｘＦＦＦＣｔｅｍｐ　；获得地址的ＬＳＢ位

ＡＤＤ　．Ｌ１ＸｐＳｒｃｏｆｆｓｅｔｐＳｒｃ；参考块第一个元素的

地址

ＡＮＤ　．Ｌ２Ｘ　ｐＳｒｃｔｅｍｐｔｍｐ＿ｐＳｒｃ；字对准访问的地址

ＡＮＤ　．Ｓ１　０ｘ０００３ｐＳｒｃｒｓｈｉｆｔＡ　；用两个ＬＳＢ位得

；到了需右移几个字

ＳＵＢ　．Ｌ１　０ｘ０４ｒｓｈｉｆｔＡｌｓｈｉｆｔＡ；需左移几个字

ＭＰＹ　．Ｍ１　ｒｓｈｉｆｔＡ８ｒｓｈｉｆｔＡ　；需右移的＃ｂｉｔ数

ＭＰＹ　．Ｍ１　ｌｓｈｉｆｔＡ８ｌｓｈｉｆｔＡ　；需左移的＃ｂｉｔ数

作为一个说明Ｃ语言与汇编程序混合编程的设计例子，采用并行汇编实现了这个函数的优化。这里只给出部分汇编程序：

．ｔｅｘｔ　　；将该段汇编代码安排在．ｔｅｘｔ

段，当然通过在Ｃ语言中用

＃ｐｒｏｇｒａｍ＿ｓｅｃｔｉｏｎ也可以将其安排

在其它自己命名的段中。

．ｇｌｏｂａｌｍｃ＿ｃａｓｅ＿ａ　；函数名，用．ｄｅｆ或．ｇｌｏａｌ对其进行

声明，使得Ｃ代码调用该函数

＿ｍｃ＿ｃａｓｅ＿ａ　；标号，是Ｃ调用函数和汇编

被调用函数的接口处

……

．ａｓｇＢ１０，ｏｃｓｒ

．ａｓｇＢ１１，ｒｗ＿４　　　

ＳＴＷ．Ｄ２ｏｃｓｒ，ｓｔａｃｋ－－１　；被调用函数用到了

Ｂ１０～Ｂ１５，Ａ１０

ＳＴＷ．Ｄ２ｒ＿ｗ４，ｓｔａｃｋ－－１　；～Ａ１５的寄存器，则

需对它们保护

ＭＶＣ．Ｓ２ＣＳＲ，ｏｃｓｒ

ＡＮＤ．Ｓ２－２，ｏｃｓｒ，ｏｃｓｒ　　

ＭＶＣ．Ｓ２ｏｃｓｒ，ＣＳＲ；关闭某些中断 ……

ｌｏｏｐ

ＬＤＷ．Ｄ２ ｔｍｐ＿ｐＳｒｃ＋＋ｓｒｃ＿ｗｉｄｔｈ１，ｒ＿ｗ１

；读取第一个字

ＬＤＷ．Ｄ１ ｐＳｒｃ＋＋１，ｒ－ｗ２；读取第二个字

ＬＤＷ．Ｄ１ ｐＳｒｃ＋＋ｓｒｃ＿ｗｉｄｔｈ２，ｒ－ｗ３；读取第三个字　ＳＨＲＵ．Ｓ２ｒ＿ｗ１，ｒｓｈｉｆｔＢ，ｒ－ｗ１

ＳＨＬ．Ｓ１ｒ＿ｗ３，ｌｓｈｉｆｔＡ，ｒ＿ｗ３

ＳＨＬ　　．Ｓ２Ｘｒ＿ｗ２，ｒｓｈｉｆｔＢ，ｒ＿ｗ４

ＳＨＲＵ．Ｓ１ｒ＿ｗ２，ｒｓｈｉｆｔＡ，ｒ＿ｗ２

ＯＲ．Ｌ２ｒ＿ｗ１，ｒ＿ｗ４，ｒ＿ｗ１

ＯＲ．Ｌ１ｒ＿ｗ１，ｒ＿ｗ３，ｒ＿ｗ２　；这几步作了图ａ

中的操作过程

ＳＴＷ．Ｄ２ｒ＿ｗ１，ｐＤｓｔ＋＋２

ＳＴＷ．Ｄ１ｒ＿ｗ２，ｔｍｐＤｓｔ＋＋２ ；存储取得的两

个字

Ｂ．Ｓ２ｌｏｏｐ；延迟跳转到标号

ｌｏｏｐ处，实现循环 ……

ＬＤＷ．Ｄ２Ｔ２ ＋＋ｓｔａｃｋ１，ｒ＿ｗ４

ＬＤＷ．Ｄ２Ｔ２ ＋＋ｓｔａｃｋ１，ｏｃｓｒ；对被调用函数

中自己保护的寄

存器作恢复处理

ＭＶＣ．Ｓ２ｏｃｓｒ ＣＳＲ　；恢复中断环境

Ｂ　　．Ｓ２Ｂ３　　　　　；返回到调用函数处

……

在ＴＩＣＣＳ上用其库函数ＣＬＯＣＫ（）对这个算法的Ｃ语言程序和并行汇编程序分别进行了性能测试。在纯Ｃ语言中，运动矢量对４的偏移量的余数为０时约为３３个指令周期 余数为１时约为９３个指令周期 余数为２时约为５１个指令周期余数为３时约为９３个指令周期平均约耗时６７个周期。而将其用并行汇编代码编写其周期数恒定为３３个指令周期。３３个指令周期的执行时间，对于这个函数基本上是达到了函数的最大优化。

由此可见，程序的核心算法的代码用并行汇编程序编写，而主体的Ｃ语言程序则以函数调用的形式调用这些核心算法的并行汇编函数，是提高程序代码执行效率的一种有效方法。

TMS320C62XDSP的混合编程研究

Tags：

文章评论评论内容只代表网友观点，与本站立场无关！

栏目导航

本类热门阅览

相关文章