CANN ops-nn PReLU算子-迪斯科星球

aclnnPrelu

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

产品支持情况

产品	是否支持
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√

功能说明

算子功能：计算输入张量的 PReLU 值。当输入元素大于 0 时输出该元素本身；当输入元素小于等于 0 时输出该元素与weight的乘积。
计算公式：
$$ y_i = \begin{cases} x_i, & x_i > 0 \ x_i \times weight, & x_i \le 0 \end{cases} $$

其中weight可以为标量，也可以为通道维权重。输入self维度大于 1 时，通道维为第 1 维；输入self维度不大于 1 时，通道数按 1 处理。

函数原型

每个算子分为两段式接口，必须先调用“aclnnPreluGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnPrelu”接口执行计算。

aclnnStatus aclnnPreluGetWorkspaceSize( const aclTensor *self, const aclTensor *weight, aclTensor *out, uint64_t *workspaceSize, aclOpExecutor **executor)

aclnnStatus aclnnPrelu( void* workspace, uint64_t workspaceSize, aclOpExecutor* executor, aclrtStream stream)

aclnnPreluGetWorkspaceSize

参数说明：

参数名	输入/输出	描述	使用说明	数据类型	数据格式	维度(shape)	非连续Tensor
self	输入	待进行 Prelu 计算的输入张量，公式中的 x。	支持空Tensor。 shape需要与out一致。	FLOAT、FLOAT16、BFLOAT16	ND	0-8	√
weight	输入	Prelu 负半轴权重。	支持空Tensor。元素个数为1或者元素个数与self输入的channels一致。self.shape为1维及以下时，channels = 1；self.shape大于1维时，channels = self.shape[1]。	FLOAT、FLOAT16、BFLOAT16	ND	0-8	√
out	输出	Prelu 计算后的输出张量，公式中的 y。	数据类型、shape需要与self一致。	FLOAT、FLOAT16、BFLOAT16	ND	0-8	√
workspaceSize	输出	返回需要在Device侧申请的workspace大小。	-	-	-	-	-
executor	输出	返回op执行器，包含了算子计算流程。	-	-	-	-	-

返回值：

aclnnStatus：返回状态码，具体参见aclnn返回码。第一段接口会完成入参校验，出现以下场景时报错：

返回码	错误码	描述
ACLNN_ERR_PARAM_NULLPTR	161001	传入的self、weight或out是空指针。
ACLNN_ERR_PARAM_INVALID	161002	self、weight或out的数据类型和数据格式不在支持的范围之内。
		self、weight和out的数据类型不一致。
		self和out shape不一致。
		weight元素个数既不是1，也不等于self的通道数。

aclnnPrelu

参数说明：

参数名	输入/输出	描述
workspace	输入	在Device侧申请的workspace内存地址。
workspaceSize	输入	在Device侧申请的workspace大小，由第一段接口aclnnPreluGetWorkspaceSize获取。
executor	输入	op执行器，包含了算子计算流程。
stream	输入	指定执行任务的Stream。

返回值：
aclnnStatus：返回状态码，具体参见aclnn返回码。

约束说明

self、weight、out的数据类型需要一致。
out的shape必须与self完全一致。
weight的元素个数必须为1或与self的通道数一致。

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考编译与运行样例。

#include <iostream> #include <vector> #include "acl/acl.h" #include "aclnnop/aclnn_prelu.h" #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) int64_t GetShapeSize(const std::vector<int64_t>& shape) { int64_t shapeSize = 1; for (auto i : shape) { shapeSize *= i; } return shapeSize; } int Init(int32_t deviceId, aclrtStream* stream) { auto ret = aclInit(nullptr); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclInit failed. ERROR: %d\n", ret); return ret); ret = aclrtSetDevice(deviceId); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSetDevice failed. ERROR: %d\n", ret); return ret); ret = aclrtCreateStream(stream); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtCreateStream failed. ERROR: %d\n", ret); return ret); return 0; } template <typename T> int CreateAclTensor(const std::vector<T>& hostData, const std::vector<int64_t>& shape, void** deviceAddr, aclDataType dataType, aclTensor** tensor) { auto size = GetShapeSize(shape) * sizeof(T); auto ret = aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtMalloc failed. ERROR: %d\n", ret); return ret); ret = aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtMemcpy failed. ERROR: %d\n", ret); return ret); std::vector<int64_t> strides(shape.size(), 1); for (int64_t i = shape.size() - 2; i >= 0; i--) { strides[i] = shape[i + 1] * strides[i + 1]; } *tensor = aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } int main() { int32_t deviceId = 0; aclrtStream stream; auto ret = Init(deviceId, &stream); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("Init acl failed. ERROR: %d\n", ret); return ret); std::vector<int64_t> selfShape = {2, 4}; std::vector<int64_t> weightShape = {1}; std::vector<int64_t> outShape = {2, 4}; void* selfDeviceAddr = nullptr; void* weightDeviceAddr = nullptr; void* outDeviceAddr = nullptr; aclTensor* self = nullptr; aclTensor* weight = nullptr; aclTensor* out = nullptr; std::vector<float> selfHostData = {-2, 1, 2, -3, -4.7, 5.3, -6.9, 7}; std::vector<float> weightHostData = {3}; std::vector<float> outHostData = {0, 0, 0, 0, 0, 0, 0, 0}; ret = CreateAclTensor(selfHostData, selfShape, &selfDeviceAddr, aclDataType::ACL_FLOAT, &self); CHECK_RET(ret == ACL_SUCCESS, return ret); ret = CreateAclTensor(weightHostData, weightShape, &weightDeviceAddr, aclDataType::ACL_FLOAT, &weight); CHECK_RET(ret == ACL_SUCCESS, return ret); ret = CreateAclTensor(outHostData, outShape, &outDeviceAddr, aclDataType::ACL_FLOAT, &out); CHECK_RET(ret == ACL_SUCCESS, return ret); uint64_t workspaceSize = 0; aclOpExecutor* executor; ret = aclnnPreluGetWorkspaceSize(self, weight, out, &workspaceSize, &executor); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclnnPreluGetWorkspaceSize failed. ERROR: %d\n", ret); return ret); void* workspaceAddr = nullptr; if (workspaceSize > 0) { ret = aclrtMalloc(&workspaceAddr, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("allocate workspace failed. ERROR: %d\n", ret); return ret); } ret = aclnnPrelu(workspaceAddr, workspaceSize, executor, stream); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclnnPrelu failed. ERROR: %d\n", ret); return ret); ret = aclrtSynchronizeStream(stream); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSynchronizeStream failed. ERROR: %d\n", ret); return ret); auto size = GetShapeSize(outShape); std::vector<float> resultData(size, 0); ret = aclrtMemcpy(resultData.data(), resultData.size() * sizeof(resultData[0]), outDeviceAddr, size * sizeof(resultData[0]), ACL_MEMCPY_DEVICE_TO_HOST); CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("copy resultData from device to host failed. ERROR: %d\n", ret); return ret); aclDestroyTensor(self); aclDestroyTensor(weight); aclDestroyTensor(out); aclrtFree(outDeviceAddr); aclrtFree(weightDeviceAddr); aclrtFree(selfDeviceAddr); if (workspaceSize > 0) { aclrtFree(workspaceAddr); } aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

企业官网建设流程全解析

aclnnPrelu

产品支持情况

功能说明

函数原型

aclnnPreluGetWorkspaceSize

aclnnPrelu

约束说明

调用示例

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

aclnnPrelu

产品支持情况

功能说明

函数原型

aclnnPreluGetWorkspaceSize

aclnnPrelu

约束说明

调用示例

热门文章

文章分类

标签云

相关文章

机器学习生产化：从Notebook到高可用模型服务的落地实践

FPGA新手避坑指南：用Vivado 18.3和SelectIO IP核搞定LVDS接收（附完整仿真工程）

Qwen1.5-4B-Chat核心优势揭秘：32K上下文+多语言支持如何提升对话能力

需要专业的网站建设服务？