DeepSeek助力快速生成DNBC4tools所需样本对应信息
工欲善其事 必先利其器
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
前面我们介绍了华大 DNBelab C SeriesTM 单细胞转录组定量的基本流程: DNBC4tools—华大DNBelab系列单细胞分析pipeline
明确需求其中在准备样本数据步骤有提到,多样本处理首先需要制作一个自己的样本信息对应列表sample.tsv :
第一列是样本名称第二列是 cDNA 文库测序数据,多个 fastq 文件以逗号分隔,R1 和 R2 文件以分号分隔。第三列是寡核苷酸文库测序数据。多个 fastq 文件以逗号分隔,R1 和 R2 文件以分号分隔。比如我需要处理的样本文件名是:
图片需要生成的sample.tsv 文件格式是:
代码语言:javascript代码运行次数:0运行复制$sample1 /data/cDNA1_R1.fq.gz;/data/cDNA1_R2.fq.gz /data/oligo1_R1.fq.gz,/data/oligo4_R1.fq.gz;/data/oligo1_R2.fq.gz,/data/oligo4_R2.fq.gz $sample2 /data/cDNA2_R1.fq.gz;/data/cDNA2_R2.fq.gz /data/oligo2_R1.fq.gz;/data/oligo2_R2.fq.gz $sample3 /data/cDNA3_R1.fq.gz;/data/cDNA3_R2.fq.gz /data/oligo3_R1.fq.gz;/data/oligo3_R2.fq.gz登录后复制
我们现在需要根据样本文件名规律来生成示例文件的对应信息。手写是不可能手写的,容易出错不说,还不能重复。这里通常需要我们来编程批量进行文本处理。
DeepSeek 助力初步观察这个需求实现起来还是挺复杂的,以前往往需要花费一定时间来进行代码实现。现在AI盛行,这个时候我们就可以使用DeepSeek来快速生成我们需要的代码。比如下面的代码:
代码语言:javascript代码运行次数:0运行复制ls *.gz | awk -F_ 'BEGIN {OFS="\t"} { sample = $1; lib = $2; split($3, temp, "."); direction = temp[1]; all_samples[sample] = 1; if (lib ~ /^L[0-9]+/) { lib_num = substr(lib, 2) + 0; # 提取L后面的数字 # 记录文库顺序 if (!(sample SUBSEP lib_num in lib_seen)) { libs_order[sample] = libs_order[sample] ? libs_order[sample] " " lib_num : lib_num; lib_seen[sample, lib_num] = 1; } # 存储文件路径 if (direction == "f1") { f1_files[sample, lib_num] = $0; } else if (direction == "r2") { r2_files[sample, lib_num] = $0; } } else if (lib == "oligo") { if (direction == "f1") { oligo_f1[sample] = $0; } else if (direction == "r2") { oligo_r2[sample] = $0; } }}END { for (sample in all_samples) { # 处理L00数据 l00_f1 = ""; l00_r2 = ""; if (sample in libs_order) { split(libs_order[sample], lib_nums, " "); n = length(lib_nums); # 冒号排序确保文库顺序 for (i=1; i<=n; i++) { for (j=1; j<=n-i; j++) { if (lib_nums[j+1] < lib_nums[j]) { tmp = lib_nums[j]; lib_nums[j] = lib_nums[j+1]; lib_nums[j+1] = tmp; } } } # 构建f1和r2列表 for (i=1; i<=n; i++) { num = lib_nums[i]; if ((sample, num) in f1_files) { l00_f1 = l00_f1 ? l00_f1 "," f1_files[sample, num] : f1_files[sample, num]; } if ((sample, num) in r2_files) { l00_r2 = l00_r2 ? l00_r2 "," r2_files[sample, num] : r2_files[sample, num]; } } } # 合并L00字段 l00_combined = l00_f1 ";" l00_r2; # 处理Oligo数据 oligo_data = ""; if (oligo_f1[sample] && oligo_r2[sample]) { oligo_data = oligo_f1[sample] ";" oligo_r2[sample]; } print sample, l00_combined, oligo_data; }}' > sample2.tsv登录后复制快速得到我们需要的样本对应信息文件sample2.tsv :(检查文件信息)
代码语言:javascript代码运行次数:0运行复制$cat sample2.tsv D10 D10_L001_f1.fq.gz,D10_L002_f1.fq.gz;D10_L001_r2.fq.gz,D10_L002_r2.fq.gz D10_oligo_f1.fq.gz;D10_oligo_r2.fq.gzD15 D15_L001_f1.fq.gz,D15_L002_f1.fq.gz;D15_L001_r2.fq.gz,D15_L002_r2.fq.gz D15_oligo_f1.fq.gz;D15_oligo_r2.fq.gzD5-2 D5-2_L001_f1.fq.gz,D5-2_L002_f1.fq.gz;D5-2_L001_r2.fq.gz,D5-2_L002_r2.fq.gz D5-2_oligo_f1.fq.gz;D5-2_oligo_r2.fq.gzD2-1 D2-1_L001_f1.fq.gz,D2-1_L002_f1.fq.gz;D2-1_L001_r2.fq.gz,D2-1_L002_r2.fq.gz D2-1_oligo_f1.fq.gz;D2-1_oligo_r2.fq.gzD8-2 D8-2_L001_f1.fq.gz,D8-2_L002_f1.fq.gz;D8-2_L001_r2.fq.gz,D8-2_L002_r2.fq.gz D8-2_oligo_f1.fq.gz;D8-2_oligo_r2.fq.gzD5-1 D5-1_L001_f1.fq.gz,D5-1_L002_f1.fq.gz;D5-1_L001_r2.fq.gz,D5-1_L002_r2.fq.gz D5-1_oligo_f1.fq.gz;D5-1_oligo_r2.fq.gzD2-2 D2-2_L001_f1.fq.gz,D2-2_L002_f1.fq.gz;D2-2_L001_r2.fq.gz,D2-2_L002_r2.fq.gz D2-2_oligo_f1.fq.gz;D2-2_oligo_r2.fq.gzD12 D12_L001_f1.fq.gz;D12_L001_r2.fq.gz D12_oligo_f1.fq.gz;D12_oligo_r2.fq.gzD8-1 D8-1_L001_f1.fq.gz,D8-1_L002_f1.fq.gz;D8-1_L001_r2.fq.gz,D8-1_L002_r2.fq.gz D8-1_oligo_f1.fq.gz;D8-1_oligo_r2.fq.gz登录后复制
然后就是批量生成运行脚本代码语言:javascript代码运行次数:0运行复制
dnbc4tools rna multi --list sample2.tsv --genomeDir ~/reference/human/homo_ensembl_112_dnbc4_index --threads 10登录后复制
示例示例
至此,后面提交批量运行任务即可。详见:
DNBC4tools—华大DNBelab系列单细胞分析pipeline玩转服务器—从前台到后台,让你的任务无忧运行相关攻略
与SpaceX合并的人工智能初创公司xAI,近期正迎来人事的巨大变动。最新消息称,xAI创始团队中的最后一名联合创始人Ross Nordeen已在上周五离职。此前,领导xAI预训练团队的联合创始人M
3月30日消息,据报道,中国“AI六小虎”之一的月之暗面年度经常性收入(ARR)已突破1亿美元。这一里程碑距离其Kimi K2 5模型发布仅过去一个月,显示出市场对新一代AI模型的强劲需求。据知情人
春节前几天,何佳霖的微信一直没消停过。FA (财务顾问)会发来各种分析文章,投资人也会不断转来新项目链接,问他怎么看 Openclaw 的爆火、有什么区别。“那段时间是真的比较焦虑。”他说道。焦虑并
IT之家 3 月 30 日消息,支付宝今日宣布,3 月 30 日至 4 月 6 日期间,打开千问 App 即可领 AI 充话费体验金,充值立减 5 元。IT之家实测,打开千问 App,点击左上角“千
3月30日消息,据媒体报道,深圳人工智能高质量发展迎来新突破:由深圳市投建的11000P智能算力集群正式点亮,叠加去年先期点亮的3000P,该集群已全面建成14000P智能算力。这是全国首个采用全国
热门专题
热门推荐
3月30日消息,今晚除了手机之外,vivo还发布了全新的旗舰平板——vivo Pad6 Pro。行业首发13 2英寸4K原彩屏,分辨率3840×2160,347PPI,支持1-144Hz LTPS自
WPS表格中提取括号内容有四种方法:一、单对英文小括号用FIND+MID;二、中英文括号通用需SUBSTITUTE预处理;三、多对括号取最后一对需REVERSESTRING反向查找
3月30日,南京新街口核心商圈,苏豪大厦一楼广场上机器人迎宾起舞,充满科技感。由苏豪资产运营集团与南京新街口金融商务区管理委员会(以下简称“新街口管委会”)共同打造的“数智苏豪”新街口OPC社区揭牌
电 动 知 家消 息,近日,据外媒报道,据福特汽车日前发布的一份文件,该公司首席执行 官吉姆·法利2025年的总薪酬大幅增长了11%,达到约2752万美元(约1 9亿元人民币),这是其自2020年末
白宫里,一台人形机器人缓步走入东厅,与美国“第一夫人”并肩亮相,动作仍带着明显的机械感;仅仅一天后,国会山上,这种“会走路的机器”却被划为潜在安全威胁,写进立法提案。这是上周美国上演的荒诞一幕。两党





