当前位置: 首页 > news >正文

《Keras 3 :使用 Vision Transformers 进行物体检测》

《Keras 3 :使用 Vision Transformers 进行物体检测》

作者:Karan V. Dave
创建日期:2022 年 3 月 27
日最后修改时间:2023 年 11 月 20
日描述:使用 Vision Transformer 进行对象检测的简单 Keras 实现。

(i) 此示例使用 Keras 3

 在 Colab 中查看 

 GitHub 源


介绍

Alexey Dosovitskiy 等人的文章 Vision Transformer (ViT) 架构。 表明直接应用于图像序列的纯 transformer 补丁可以在对象检测任务中表现良好。

在这个 Keras 示例中,我们实现了一个对象检测 ViT 我们在加州理工学院 101 数据集上对其进行训练,以检测给定图像中的飞机。


导入和设置

import os

os.environ["KERAS_BACKEND"] = "jax"  # @param ["tensorflow", "jax", "torch"]


import numpy as np
import keras
from keras import layers
from keras import ops
import matplotlib.pyplot as plt
import numpy as np
import cv2
import os
import scipy.io
import shutil

准备数据集

我们使用加州理工学院 101 数据集。

# Path to images and annotations
path_images = "./101_ObjectCategories/airplanes/"
path_annot = "./Annotations/Airplanes_Side_2/"

path_to_downloaded_file = keras.utils.get_file(
    fname="caltech_101_zipped",
    origin="https://data.caltech.edu/records/mzrjq-6wc02/files/caltech-101.zip",
    extract=True,
    archive_format="zip",  # downloaded file format
    cache_dir="/",  # cache and extract in current directory
)
download_base_dir = os.path.dirname(path_to_downloaded_file)

# Extracting tar files found inside main zip file
shutil.unpack_archive(
    os.path.join(download_base_dir, "caltech-101", "101_ObjectCategories.tar.gz"), "."
)
shutil.unpack_archive(
    os.path.join(download_base_dir, "caltech-101", "Annotations.tar"), "."
)

# list of paths to images and annotations
image_paths = [
    f for f in os.listdir(path_images) if os.path.isfile(os.path.join(path_images, f))
]
annot_paths = [
    f for f in os.listdir(path_annot) if os.path.isfile(os.path.join(path_annot, f))
]

image_paths.sort()
annot_paths.sort()

image_size = 224  # resize input images to this size

images, targets = [], []

# loop over the annotations and images, preprocess them and store in lists
for i in range(0, len(annot_paths)):
    # Access bounding box coordinates
    annot = scipy.io.loadmat(path_annot + annot_paths[i])["box_coord"][0]

    top_left_x, top_left_y = annot[2], annot[0]
    bottom_right_x, bottom_right_y = annot[3], annot[1]

    image = keras.utils.load_img(
        path_images + image_paths[i],
    )
    (w, h) = image.size[:2]

    # resize images
    image = image.resize((image_size, image_size))

    # convert image to array and append to list
    images.append(keras.utils.img_to_array(image))

    # apply relative scaling to bounding boxes as per given image and append to list
    targets.append(
        (
            float(top_left_x) / w,
            float(top_left_y) / h,
            float(bottom_right_x) / w,
            float(bottom_right_y) / h,
        )
    )

# Convert the list to numpy array, split to train and test dataset
(x_train), (y_train) = (
    np.asarray(images[: int(len(images) * 0.8)]),
    np.asarray(targets[: int(len(targets) * 0.8)]),
)
(x_test), (y_test) = (
    np.asarray(images[int(len(images

相关文章:

  • Qt开发⑥Qt常用控件_下_多元素控件+容器类控件+布局管理器
  • RabbitMQ 消息队列 优化发送邮件
  • 通信系统中物理层与网络层联系与区别
  • Linux下基于root指定用户执行命令的方法
  • OpenHarmony分布式数据管理子系统
  • JAVA-执行计划,表级锁,行级锁
  • Servlet概述(Ⅰ)
  • QT信号槽使用
  • 数据结构 之 【顺序表实现】(c语言实现)
  • Docker-技术架构演进之路
  • SpringBoot 整合 JPA
  • Redis多线程技术助力向量数据库性能飞跃
  • 图论 之 BFS
  • 【linux核心命令】
  • 【网络安全】从零开始的CTF生活
  • 酵母细胞壁市场报告:探索潜力无限的生物资源宝库
  • Windows 系统下,使用 PyTorch 的 DataLoader 时,如果 num_workers 参数设置为大于 0 的值,报错
  • HAL_UART_Receive和HAL_UARTEx_ReceiveToIdle用于UART通信接收的区别
  • 软考—系统架构设计(案例 | 论文)
  • MATLAB在数据分析和绘图中的应用:从基础到实践
  • 免费站推广网站链接/滴滴友链
  • 政府建设行业服务网站/做一个简单网页
  • 注册空壳公司帮人走账/seo竞价培训
  • 东营企业网站制作/台州网站制作维护
  • 做暧昧的小视频网站2/今天新闻头条最新消息
  • 网站返利二维码怎么做/百度seo排名主要看啥