对上交代码进行修改，主要将能量机关去掉，添加了同济的PnP位姿解算，但是同济有个四元数，获取IMU部分没有启用，可能导致精度不够。当前还存在反陀螺功能，修改为逻辑和弹道预测相结合，主要在时间关系上进行调整。

2026-03-21 11:57:34 +08:00
commit 56985997ae
80 changed files with 60253 additions and 0 deletions
--- a/tools/TrainCNN/backward.py
+++ b/tools/TrainCNN/backward.py
@@ -0,0 +1,232 @@
+#!/usr/bin/python3
+print("Preparing...")
+import tensorflow as tf
+import os
+from tqdm import tqdm
+import generate
+import forward
+import cv2
+import numpy as np
+import mvsdk
+
+print("Finish!")
+
+
+def save_kernal(fp, val):
+    print(val.shape[2], file=fp)
+    print(val.shape[3], file=fp)
+    print(val.shape[1], file=fp)
+    print(val.shape[0], file=fp)
+    for in_channel in range(val.shape[2]):
+        for out_channel in range(val.shape[3]):
+            for row in range(val.shape[0]):
+                for col in range(val.shape[1]):
+                    print(val[row][col][in_channel][out_channel], file=fp)
+
+
+def save_weight_mat(fp, val):
+    print(val.shape[0], file=fp)
+    print(val.shape[1], file=fp)
+    for row in range(val.shape[0]):
+        for col in range(val.shape[1]):
+            print(val[row][col], file=fp)
+
+
+def save_bias(fp, val):
+    print(val.shape[0], file=fp)
+    for i in range(val.shape[0]):
+        print(val[i], file=fp)
+
+
+def save_para(folder, paras, names, info):
+    os.system("mkdir %s/%s" % (folder, info))
+    for para, name in zip(paras, names):
+        fp = open("%s/%s/%s" % (folder, info, name), "w")
+        if name[-1:] == "b":
+            save_bias(fp, para)
+        elif name[:2] == "fc":
+            save_weight_mat(fp, para)
+        elif name[:4] == "conv":
+            save_kernal(fp, para)
+        fp.close()
+
+
+STEPS = 100000
+BATCH = 40
+LEARNING_RATE_BASE = 0.0003
+LEARNING_RATE_DECAY = 0.99
+MOVING_AVERAGE_DECAY = 0.99
+
+
+def train(dataset, show_bar=False):
+    x = tf.placeholder(tf.float32, [None, generate.SRC_ROWS, generate.SRC_COLS, generate.SRC_CHANNELS])
+    y_ = tf.placeholder(tf.float32, [None, forward.OUTPUT_NODES])
+    keep_rate = tf.placeholder(tf.float32)
+    nodes, vars, vars_name = forward.forward(x, 0.01, keep_rate)
+    y = nodes[-1]
+
+    ce = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_, 1))
+    #    ce  = tf.nn.weighted_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_, 1), pos_weight=1)
+    cem = tf.reduce_mean(ce)
+    loss = cem + tf.add_n(tf.get_collection("losses"))
+
+    global_step = tf.Variable(0, trainable=False)
+    learning_rate = tf.train.exponential_decay(
+        LEARNING_RATE_BASE,
+        global_step,
+        len(dataset.train_samples) / BATCH,
+        LEARNING_RATE_DECAY,
+        staircase=False)
+    train_step = tf.train.AdamOptimizer(learning_rate).minimize(loss, global_step=global_step)
+
+    ema = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)
+    ema_op = ema.apply(tf.trainable_variables())
+    with tf.control_dependencies([train_step, ema_op]):
+        train_op = tf.no_op(name='train')
+
+    correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
+    accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
+
+    config = tf.ConfigProto(gpu_options=tf.GPUOptions(allow_growth=True))
+    with tf.Session(config=config) as sess:
+        init_op = tf.global_variables_initializer()
+        sess.run(init_op)
+
+        bar = tqdm(range(STEPS), ascii=True, dynamic_ncols=True)
+        for i in bar:
+            images_samples, labels_samples = dataset.sample_train_sets(BATCH, 0.03)
+
+            _, loss_value, step = sess.run(
+                [train_op, loss, global_step],
+                feed_dict={x: images_samples, y_: labels_samples, keep_rate: 0.3}
+            )
+
+            if step % 500 == 0:
+                test_images, test_labels = dataset.sample_test_sets(10000)
+                test_acc, output = sess.run([accuracy, y],
+                                            feed_dict={x: test_images, y_: test_labels, keep_rate: 1.0})
+                output = np.argmax(output, axis=1)
+                real = np.argmax(test_labels, axis=1)
+                print("=============test-set===============")
+                for n in range(forward.OUTPUT_NODES):
+                    print("label: %d, precise: %f, recall: %f" %
+                          (n, np.mean(real[output == n] == n), np.mean(output[real == n] == n)))
+
+                train_images, train_labels = dataset.sample_train_sets(10000)
+                train_acc, output = sess.run([accuracy, y],
+                                             feed_dict={x: train_images, y_: train_labels, keep_rate: 1.0})
+                output = np.argmax(output, axis=1)
+                real = np.argmax(train_labels, axis=1)
+                print("=============train-set===============")
+                for n in range(forward.OUTPUT_NODES):
+                    print("label: %d, precise: %f, recall: %f" %
+                          (n, np.mean(real[output == n] == n), np.mean(output[real == n] == n)))
+                print("\n")
+                if train_acc >= 0.99 and test_acc >= 0.99:
+                    vars_val = sess.run(vars)
+                    save_para(
+                        "model",
+                        vars_val,
+                        vars_name,
+                        "steps:%d-train_acc:%f-test_acc:%f" % (step, train_acc, test_acc)
+                    )
+                bar.set_postfix({"loss": loss_value, "train_acc": train_acc, "test_acc": test_acc})
+        # print("save done!")
+
+        # pred = sess.run(y, feed_dict={x: test_images, keep_rate:1.0})
+
+        #        nodes_val = sess.run(nodes, feed_dict={x:test_images})
+        #        return vars_val, nodes_val
+        DevList = mvsdk.CameraEnumerateDevice()
+        nDev = len(DevList)
+        if nDev < 1:
+            print("No camera was found!")
+            return
+
+        for i, DevInfo in enumerate(DevList):
+            print("{}: {} {}".format(i, DevInfo.GetFriendlyName(), DevInfo.GetPortType()))
+        i = 0 if nDev == 1 else int(input("Select camera: "))
+        DevInfo = DevList[i]
+        print(DevInfo)
+
+        # 打开相机
+        hCamera = 0
+        try:
+            hCamera = mvsdk.CameraInit(DevInfo, -1, -1)
+        except mvsdk.CameraException as e:
+            print("CameraInit Failed({}): {}".format(e.error_code, e.message))
+            return
+
+        # 获取相机特性描述
+        cap = mvsdk.CameraGetCapability(hCamera)
+
+        # 判断是黑白相机还是彩色相机
+        monoCamera = (cap.sIspCapacity.bMonoSensor != 0)
+
+        # 黑白相机让ISP直接输出MONO数据，而不是扩展成R=G=B的24位灰度
+        if monoCamera:
+            mvsdk.CameraSetIspOutFormat(hCamera, mvsdk.CAMERA_MEDIA_TYPE_MONO8)
+        else:
+            mvsdk.CameraSetIspOutFormat(hCamera, mvsdk.CAMERA_MEDIA_TYPE_BGR8)
+
+        # 相机模式切换成连续采集
+        mvsdk.CameraSetTriggerMode(hCamera, 0)
+
+        # 手动曝光，曝光时间30ms
+        mvsdk.CameraSetAeState(hCamera, 0)
+        mvsdk.CameraSetExposureTime(hCamera, 30 * 1000)
+
+        # 让SDK内部取图线程开始工作
+        mvsdk.CameraPlay(hCamera)
+
+        # 计算RGB buffer所需的大小，这里直接按照相机的最大分辨率来分配
+        FrameBufferSize = cap.sResolutionRange.iWidthMax * cap.sResolutionRange.iHeightMax * (1 if monoCamera else 3)
+
+        # 分配RGB buffer，用来存放ISP输出的图像
+        # 备注：从相机传输到PC端的是RAW数据，在PC端通过软件ISP转为RGB数据（如果是黑白相机就不需要转换格式，但是ISP还有其它处理，所以也需要分配这个buffer）
+        pFrameBuffer = mvsdk.CameraAlignMalloc(FrameBufferSize, 16)
+
+        while (cv2.waitKey(1) & 0xFF) != ord('q'):
+            # 从相机取一帧图片
+            try:
+                pRawData, FrameHead = mvsdk.CameraGetImageBuffer(hCamera, 200)
+                mvsdk.CameraImageProcess(hCamera, pRawData, pFrameBuffer, FrameHead)
+                mvsdk.CameraReleaseImageBuffer(hCamera, pRawData)
+                # 此时图片已经存储在pFrameBuffer中，对于彩色相机pFrameBuffer=RGB数据，黑白相机pFrameBuffer=8位灰度数据
+                # 把pFrameBuffer转换成opencv的图像格式以进行后续算法处理
+                frame_data = (mvsdk.c_ubyte * FrameHead.uBytes).from_address(pFrameBuffer)
+                frame = np.frombuffer(frame_data, dtype=np.uint8)
+                frame = frame.reshape((FrameHead.iHeight, FrameHead.iWidth,
+                                       1 if FrameHead.uiMediaType == mvsdk.CAMERA_MEDIA_TYPE_MONO8 else 3))
+
+                frame = cv2.resize(frame, (640, 480), interpolation=cv2.INTER_LINEAR)
+                cv2.imshow("Press q to end", frame)
+                if (cv2.waitKey(1) & 0xFF) == ord(' '):
+                    roi = cv2.selectROI("roi", frame)
+                    roi = frame[roi[1]:roi[1] + roi[3], roi[0]:roi[0] + roi[2]]
+                    print(roi)
+                    cv2.imshow("box", roi)
+                    image = cv2.resize(roi, (48, 36))
+                    image = image.astype(np.float32) / 255.0
+                    out = sess.run(y, feed_dict={x: [image]})
+                    print(out)
+                    print(np.argmax(out))
+
+            except mvsdk.CameraException as e:
+                if e.error_code != mvsdk.CAMERA_STATUS_TIME_OUT:
+                    print("CameraGetImageBuffer failed({}): {}".format(e.error_code, e.message))
+
+        # 关闭相机
+        mvsdk.CameraUnInit(hCamera)
+
+        # 释放帧缓存
+        mvsdk.CameraAlignFree(pFrameBuffer)
+
+
+if __name__ == "__main__":
+    #    import os
+    #    os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
+    #    os.environ["CUDA_VISIBLE_DEVICES"] = "-1"
+    dataset = generate.DataSet("/home/xinyang/Workspace/box_resize")
+    train(dataset, show_bar=True)
+    input("press enter to continue...")
--- a/tools/TrainCNN/cv_grab.py
+++ b/tools/TrainCNN/cv_grab.py
@@ -0,0 +1,94 @@
+#coding=utf-8
+import cv2
+import numpy as np
+import mvsdk
+
+def main_loop():
+	# 枚举相机
+	DevList = mvsdk.CameraEnumerateDevice()
+	nDev = len(DevList)
+	if nDev < 1:
+		print("No camera was found!")
+		return
+
+	for i, DevInfo in enumerate(DevList):
+		print("{}: {} {}".format(i, DevInfo.GetFriendlyName(), DevInfo.GetPortType()))
+	i = 0 if nDev == 1 else int(input("Select camera: "))
+	DevInfo = DevList[i]
+	print(DevInfo)
+
+	# 打开相机
+	hCamera = 0
+	try:
+		hCamera = mvsdk.CameraInit(DevInfo, -1, -1)
+	except mvsdk.CameraException as e:
+		print("CameraInit Failed({}): {}".format(e.error_code, e.message) )
+		return
+
+	# 获取相机特性描述
+	cap = mvsdk.CameraGetCapability(hCamera)
+
+	# 判断是黑白相机还是彩色相机
+	monoCamera = (cap.sIspCapacity.bMonoSensor != 0)
+
+	# 黑白相机让ISP直接输出MONO数据，而不是扩展成R=G=B的24位灰度
+	if monoCamera:
+		mvsdk.CameraSetIspOutFormat(hCamera, mvsdk.CAMERA_MEDIA_TYPE_MONO8)
+	else:
+		mvsdk.CameraSetIspOutFormat(hCamera, mvsdk.CAMERA_MEDIA_TYPE_BGR8)
+
+	# 相机模式切换成连续采集
+	mvsdk.CameraSetTriggerMode(hCamera, 0)
+
+	# 手动曝光，曝光时间30ms
+	mvsdk.CameraSetAeState(hCamera, 0)
+	mvsdk.CameraSetExposureTime(hCamera, 30 * 1000)
+
+	# 让SDK内部取图线程开始工作
+	mvsdk.CameraPlay(hCamera)
+
+	# 计算RGB buffer所需的大小，这里直接按照相机的最大分辨率来分配
+	FrameBufferSize = cap.sResolutionRange.iWidthMax * cap.sResolutionRange.iHeightMax * (1 if monoCamera else 3)
+
+	# 分配RGB buffer，用来存放ISP输出的图像
+	# 备注：从相机传输到PC端的是RAW数据，在PC端通过软件ISP转为RGB数据（如果是黑白相机就不需要转换格式，但是ISP还有其它处理，所以也需要分配这个buffer）
+	pFrameBuffer = mvsdk.CameraAlignMalloc(FrameBufferSize, 16)
+
+	while (cv2.waitKey(1) & 0xFF) != ord('q'):
+		# 从相机取一帧图片
+		try:
+			pRawData, FrameHead = mvsdk.CameraGetImageBuffer(hCamera, 200)
+			mvsdk.CameraImageProcess(hCamera, pRawData, pFrameBuffer, FrameHead)
+			mvsdk.CameraReleaseImageBuffer(hCamera, pRawData)
+			
+			# 此时图片已经存储在pFrameBuffer中，对于彩色相机pFrameBuffer=RGB数据，黑白相机pFrameBuffer=8位灰度数据
+			# 把pFrameBuffer转换成opencv的图像格式以进行后续算法处理
+			frame_data = (mvsdk.c_ubyte * FrameHead.uBytes).from_address(pFrameBuffer)
+			frame = np.frombuffer(frame_data, dtype=np.uint8)
+			frame = frame.reshape((FrameHead.iHeight, FrameHead.iWidth, 1 if FrameHead.uiMediaType == mvsdk.CAMERA_MEDIA_TYPE_MONO8 else 3) )
+
+			frame = cv2.resize(frame, (640,480), interpolation = cv2.INTER_LINEAR)
+			cv2.imshow("Press q to end", frame)
+			roi = cv2.selectROI("roi", frame)
+			roi = frame[roi[1]:roi[1]+roi[3], roi[0]:roi[0]+roi[2]]
+			print(roi)
+			cv2.imshow("box", roi)
+
+			
+		except mvsdk.CameraException as e:
+			if e.error_code != mvsdk.CAMERA_STATUS_TIME_OUT:
+				print("CameraGetImageBuffer failed({}): {}".format(e.error_code, e.message) )
+
+	# 关闭相机
+	mvsdk.CameraUnInit(hCamera)
+
+	# 释放帧缓存
+	mvsdk.CameraAlignFree(pFrameBuffer)
+
+def main():
+	try:
+		main_loop()
+	finally:
+		cv2.destroyAllWindows()
+
+main()
--- a/tools/TrainCNN/forward.py
+++ b/tools/TrainCNN/forward.py
@@ -0,0 +1,114 @@
+import tensorflow as tf
+
+
+def get_weight(shape, regularizer=None):
+    w = tf.Variable(tf.truncated_normal(shape, stddev=0.1))
+    if regularizer is not None:
+        tf.add_to_collection('losses', tf.contrib.layers.l2_regularizer(regularizer)(w))
+    return w
+
+
+def get_bias(shape):
+    b = tf.Variable(tf.zeros(shape))
+    return b
+
+
+def conv2d(x, w):
+    return tf.nn.conv2d(x, w, strides=[1, 1, 1, 1], padding="VALID")
+
+
+def avg_pool_2x2(x):
+    return tf.nn.avg_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="VALID")
+
+
+def max_pool_2x2(x):
+    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="VALID")
+
+
+# 第一层卷积核大小
+CONV1_KERNAL_SIZE = 5
+
+# 第一层卷积输出通道数
+CONV1_OUTPUT_CHANNELS = 6
+
+# 第二层卷积核大小
+CONV2_KERNAL_SIZE = 3
+
+# 第二层卷积输出通道数
+CONV2_OUTPUT_CHANNELS = 10
+
+# 第三层卷积核大小
+CONV3_KERNAL_SIZE = 3
+
+# 第三层卷积输出通道数
+CONV3_OUTPUT_CHANNELS = 14
+
+# 第一层全连接宽度
+FC1_OUTPUT_NODES = 60
+
+# 第二层全连接宽度（输出标签类型数）
+FC2_OUTPUT_NODES = 15
+
+# 输出标签类型数
+OUTPUT_NODES = FC2_OUTPUT_NODES
+
+
+def forward(x, regularizer=None, keep_rate=tf.constant(1.0)):
+    vars = []
+    vars_name = []
+    nodes = []
+
+    conv1_w = get_weight(
+        [CONV1_KERNAL_SIZE, CONV1_KERNAL_SIZE, int(x.shape[3]), CONV1_OUTPUT_CHANNELS]
+    )
+    conv1_b = get_bias([CONV1_OUTPUT_CHANNELS])
+    conv1 = tf.nn.relu(tf.nn.bias_add(conv2d(x, conv1_w), conv1_b))
+    pool1 = avg_pool_2x2(conv1)
+    print("conv1: ", conv1.shape)
+    print("pool1: ", pool1.shape)
+    vars.extend([conv1_w, conv1_b])
+    vars_name.extend(["conv1_w", "conv1_b"])
+    nodes.extend([conv1, pool1])
+
+    conv2_w = get_weight(
+        [CONV2_KERNAL_SIZE, CONV2_KERNAL_SIZE, CONV1_OUTPUT_CHANNELS, CONV2_OUTPUT_CHANNELS]
+    )
+    conv2_b = get_bias([CONV2_OUTPUT_CHANNELS])
+    conv2 = tf.nn.relu(tf.nn.bias_add(conv2d(pool1, conv2_w), conv2_b))
+    pool2 = avg_pool_2x2(conv2)
+    print("conv2: ", conv2.shape)
+    vars.extend([conv2_w, conv2_b])
+    vars_name.extend(["conv2_w", "conv2_b"])
+    nodes.extend([conv2, pool2])
+
+    conv3_w = get_weight(
+        [CONV3_KERNAL_SIZE, CONV3_KERNAL_SIZE, CONV2_OUTPUT_CHANNELS, CONV3_OUTPUT_CHANNELS]
+    )
+    conv3_b = get_bias([CONV3_OUTPUT_CHANNELS])
+    conv3 = tf.nn.relu(tf.nn.bias_add(conv2d(pool2, conv3_w), conv3_b))
+    print("conv3: ", conv3.shape)
+    vars.extend([conv3_w, conv3_b])
+    vars_name.extend(["conv3_w", "conv3_b"])
+    nodes.extend([conv3])
+
+    conv_shape = conv3.get_shape().as_list()
+    node = conv_shape[1] * conv_shape[2] * conv_shape[3]
+    reshaped = tf.reshape(conv3, [-1, node])
+    reshaped = tf.nn.dropout(reshaped, keep_rate)
+    print("reshaped: ", reshaped.shape)
+
+    fc1_w = get_weight([node, FC1_OUTPUT_NODES], regularizer)
+    fc1_b = get_bias([FC1_OUTPUT_NODES])
+    fc1 = tf.nn.relu(tf.matmul(reshaped, fc1_w) + fc1_b)
+    vars.extend([fc1_w, fc1_b])
+    vars_name.extend(["fc1_w", "fc1_b"])
+    nodes.extend([fc1])
+
+    fc2_w = get_weight([FC1_OUTPUT_NODES, FC2_OUTPUT_NODES], regularizer)
+    fc2_b = get_bias([FC2_OUTPUT_NODES])
+    fc2 = tf.matmul(fc1, fc2_w) + fc2_b
+    vars.extend([fc2_w, fc2_b])
+    vars_name.extend(["fc2_w", "fc2_b"])
+    nodes.extend([fc2])
+
+    return nodes, vars, vars_name
--- a/tools/TrainCNN/generate.py
+++ b/tools/TrainCNN/generate.py
@@ -0,0 +1,104 @@
+import numpy as np
+import os
+import cv2
+import random
+from tqdm import tqdm
+from forward import OUTPUT_NODES
+
+# 原图像行数
+SRC_ROWS = 36
+
+# 原图像列数
+SRC_COLS = 48
+
+# 原图像通道数
+SRC_CHANNELS = 3
+
+
+class DataSet:
+    def __init__(self, folder):
+        self.train_samples = []
+        self.train_labels = []
+        self.test_samples = []
+        self.test_labels = []
+        self.generate_data_sets(folder)
+
+    def file2nparray(self, name):
+        image = cv2.imread(name)
+        image = cv2.resize(image, (SRC_COLS, SRC_ROWS))
+        image = image.astype(np.float32)
+        return image / 255.0
+
+    def id2label(self, id):
+        a = np.zeros([OUTPUT_NODES])
+        a[id] = 1
+        return a[:]
+
+    def generate_data_sets(self, folder):
+        sets = []
+        for i in range(OUTPUT_NODES):
+            dir = "%s/id%d" % (folder, i)
+            files = os.listdir(dir)
+            for file in tqdm(files, postfix={"loading id": i}, dynamic_ncols=True):
+                if file[-3:] == "jpg":
+                    sample = self.file2nparray("%s/%s" % (dir, file))
+                    label = self.id2label(i)
+                    if random.random() < 0.7:
+                        self.train_samples.append(sample)
+                        self.train_labels.append(label)
+                        if i == 0:
+                            tmp = sample.copy()
+                            tmp = tmp[:, :, ::-1]
+                            self.train_samples.append(tmp)
+                            self.train_labels.append(label)
+                        else:
+                            tmp = sample.copy()
+                            tmp = 1.2 * tmp
+                            tmp = np.where(tmp > 1, 1, tmp)
+                            tmp = np.where(tmp < 0, 0, tmp)
+                            self.train_samples.append(tmp)
+                            self.train_labels.append(label)
+                            tmp = sample.copy()
+                            tmp = 0.8 * tmp
+                            tmp = np.where(tmp > 1, 1, tmp)
+                            tmp = np.where(tmp < 0, 0, tmp)
+                            self.train_samples.append(tmp)
+                            self.train_labels.append(label)
+                    else:
+                        self.test_samples.append(sample)
+                        self.test_labels.append(label)
+        self.train_samples = np.array(self.train_samples)
+        self.train_labels = np.array(self.train_labels)
+        self.test_samples = np.array(self.test_samples)
+        self.test_labels = np.array(self.test_labels)
+        return sets
+
+    def sample_train_sets(self, length, std=0.0):
+        samples = []
+        labels = []
+        for i in range(length):
+            id = random.randint(0, len(self.train_samples) - 1)
+            samples.append(self.train_samples[id])
+            labels.append(self.train_labels[id])
+        samples = np.array(samples).copy()
+        samples += np.random.normal(0, std, samples.shape)
+        labels = np.array(labels)
+        return samples, labels
+
+    def sample_test_sets(self, length, std=0.0):
+        samples = []
+        labels = []
+        for i in range(length):
+            id = random.randint(0, len(self.test_samples) - 1)
+            samples.append(self.test_samples[id])
+            labels.append(self.test_labels[id])
+        samples = np.array(samples).copy()
+        samples += np.random.normal(0, std, samples.shape)
+        labels = np.array(labels)
+        return samples, labels
+
+    def all_train_sets(self, std=0.0):
+        return self.train_samples[:], self.train_labels[:]
+
+    def all_test_sets(self, std=0.0):
+        return self.test_samples[:], self.test_labels[:]
--- a/tools/TrainCNN/grab.py
+++ b/tools/TrainCNN/grab.py
@@ -0,0 +1,111 @@
+#coding=utf-8
+import mvsdk
+
+def main():
+	# 枚举相机
+	DevList = mvsdk.CameraEnumerateDevice()
+	nDev = len(DevList)
+	if nDev < 1:
+		print("No camera was found!")
+		return
+		
+	for i, DevInfo in enumerate(DevList):
+		print("{}: {} {}".format(i, DevInfo.GetFriendlyName(), DevInfo.GetPortType()))
+	i = 0 if nDev == 1 else int(input("Select camera: "))
+	DevInfo = DevList[i]
+	print(DevInfo)
+
+	# 打开相机
+	hCamera = 0
+	try:
+		hCamera = mvsdk.CameraInit(DevInfo, -1, -1)
+	except mvsdk.CameraException as e:
+		print("CameraInit Failed({}): {}".format(e.error_code, e.message) )
+		return
+
+	# 获取相机特性描述
+	cap = mvsdk.CameraGetCapability(hCamera)
+	PrintCapbility(cap)
+
+	# 判断是黑白相机还是彩色相机
+	monoCamera = (cap.sIspCapacity.bMonoSensor != 0)
+
+	# 黑白相机让ISP直接输出MONO数据，而不是扩展成R=G=B的24位灰度
+	if monoCamera:
+		mvsdk.CameraSetIspOutFormat(hCamera, mvsdk.CAMERA_MEDIA_TYPE_MONO8)
+
+	# 相机模式切换成连续采集
+	mvsdk.CameraSetTriggerMode(hCamera, 0)
+
+	# 手动曝光，曝光时间30ms
+	mvsdk.CameraSetAeState(hCamera, 0)
+	mvsdk.CameraSetExposureTime(hCamera, 30 * 1000)
+
+	# 让SDK内部取图线程开始工作
+	mvsdk.CameraPlay(hCamera)
+
+	# 计算RGB buffer所需的大小，这里直接按照相机的最大分辨率来分配
+	FrameBufferSize = cap.sResolutionRange.iWidthMax * cap.sResolutionRange.iHeightMax * (1 if monoCamera else 3)
+
+	# 分配RGB buffer，用来存放ISP输出的图像
+	# 备注：从相机传输到PC端的是RAW数据，在PC端通过软件ISP转为RGB数据（如果是黑白相机就不需要转换格式，但是ISP还有其它处理，所以也需要分配这个buffer）
+	pFrameBuffer = mvsdk.CameraAlignMalloc(FrameBufferSize, 16)
+
+	# 从相机取一帧图片
+	try:
+		pRawData, FrameHead = mvsdk.CameraGetImageBuffer(hCamera, 2000)
+		mvsdk.CameraImageProcess(hCamera, pRawData, pFrameBuffer, FrameHead)
+		mvsdk.CameraReleaseImageBuffer(hCamera, pRawData)
+		
+		# 此时图片已经存储在pFrameBuffer中，对于彩色相机pFrameBuffer=RGB数据，黑白相机pFrameBuffer=8位灰度数据
+		# 该示例中我们只是把图片保存到硬盘文件中
+		status = mvsdk.CameraSaveImage(hCamera, "./grab.bmp", pFrameBuffer, FrameHead, mvsdk.FILE_BMP, 100)
+		if status == mvsdk.CAMERA_STATUS_SUCCESS:
+			print("Save image successfully. image_size = {}X{}".format(FrameHead.iWidth, FrameHead.iHeight) )
+		else:
+			print("Save image failed. err={}".format(status) )
+	except mvsdk.CameraException as e:
+		print("CameraGetImageBuffer failed({}): {}".format(e.error_code, e.message) )
+
+	# 关闭相机
+	mvsdk.CameraUnInit(hCamera)
+
+	# 释放帧缓存
+	mvsdk.CameraAlignFree(pFrameBuffer)
+
+def PrintCapbility(cap):
+	for i in range(cap.iTriggerDesc):
+		desc = cap.pTriggerDesc[i]
+		print("{}: {}".format(desc.iIndex, desc.GetDescription()) )
+	for i in range(cap.iImageSizeDesc):
+		desc = cap.pImageSizeDesc[i]
+		print("{}: {}".format(desc.iIndex, desc.GetDescription()) )
+	for i in range(cap.iClrTempDesc):
+		desc = cap.pClrTempDesc[i]
+		print("{}: {}".format(desc.iIndex, desc.GetDescription()) )
+	for i in range(cap.iMediaTypeDesc):
+		desc = cap.pMediaTypeDesc[i]
+		print("{}: {}".format(desc.iIndex, desc.GetDescription()) )
+	for i in range(cap.iFrameSpeedDesc):
+		desc = cap.pFrameSpeedDesc[i]
+		print("{}: {}".format(desc.iIndex, desc.GetDescription()) )
+	for i in range(cap.iPackLenDesc):
+		desc = cap.pPackLenDesc[i]
+		print("{}: {}".format(desc.iIndex, desc.GetDescription()) )
+	for i in range(cap.iPresetLut):
+		desc = cap.pPresetLutDesc[i]
+		print("{}: {}".format(desc.iIndex, desc.GetDescription()) )
+	for i in range(cap.iAeAlmSwDesc):
+		desc = cap.pAeAlmSwDesc[i]
+		print("{}: {}".format(desc.iIndex, desc.GetDescription()) )
+	for i in range(cap.iAeAlmHdDesc):
+		desc = cap.pAeAlmHdDesc[i]
+		print("{}: {}".format(desc.iIndex, desc.GetDescription()) )
+	for i in range(cap.iBayerDecAlmSwDesc):
+		desc = cap.pBayerDecAlmSwDesc[i]
+		print("{}: {}".format(desc.iIndex, desc.GetDescription()) )
+	for i in range(cap.iBayerDecAlmHdDesc):
+		desc = cap.pBayerDecAlmHdDesc[i]
+		print("{}: {}".format(desc.iIndex, desc.GetDescription()) )
+
+main()
--- a/tools/TrainCNN/mvsdk.py
+++ b/tools/TrainCNN/mvsdk.py